CN111046666A - 事件识别方法及装置、计算机可读存储介质、电子设备 - Google Patents

事件识别方法及装置、计算机可读存储介质、电子设备 Download PDF

Info

Publication number
CN111046666A
CN111046666A CN201911318996.XA CN201911318996A CN111046666A CN 111046666 A CN111046666 A CN 111046666A CN 201911318996 A CN201911318996 A CN 201911318996A CN 111046666 A CN111046666 A CN 111046666A
Authority
CN
China
Prior art keywords
target
sentence
type
event
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911318996.XA
Other languages
English (en)
Other versions
CN111046666B (zh
Inventor
王颖
胥世承
艾杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Happy Life Technology Co ltd
Tianjin Xinkaixin Life Technology Co ltd
Original Assignee
Tianjin Happy Life Technology Co ltd
Tianjin Xinkaixin Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happy Life Technology Co ltd, Tianjin Xinkaixin Life Technology Co ltd filed Critical Tianjin Happy Life Technology Co ltd
Priority to CN201911318996.XA priority Critical patent/CN111046666B/zh
Publication of CN111046666A publication Critical patent/CN111046666A/zh
Application granted granted Critical
Publication of CN111046666B publication Critical patent/CN111046666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本公开属于计算机技术领域,涉及一种事件识别方法及装置、计算机可读存储介质、电子设备。该方法包括:获取用于识别目标事件的目标语句,并根据目标语句的语句序列确定目标语句的类型;若类型为句式类型,将语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定目标事件的识别结果;若类型为段落类型,获取基于预设词汇生成的配置信息,并根据配置信息确定目标事件的识别结果。本公开一方面,无需投入过多的人力物力,减少了识别目标事件的人力成本,提高了目标事件的识别效率;另一方面,减少了目标事件漏报的情况发生,提升了目标事件识别的准召率,完善了目标事件识别系统的完整性。

Description

事件识别方法及装置、计算机可读存储介质、电子设备
技术领域
本公开涉及计算机技术领域,尤其涉及一种事件识别方法与事件识别装置、计算机可读存储介质及电子设备。
背景技术
电子病历(Electronic Medical Record,简称EMR)中记录着药品不良反应,主要记录方式是通过例如研究者、医生或临床协调员等人员人工识别后填写记录,并在药品不良反应系统(Adverse Drug Reaction,简称ADR)中申报的方式。
但是,记录电子病历的专业人员主要为医院工作人员,而我国现在医院少有专职人员对此负责。医院工作人员主要为医生,医生的日常问诊工作较为繁忙,如果在填写病历的同时,还按照国家药品监督管理局报送药品不良反应的要求录入药品不良反应系统,需要花费较多的时间和精力。这种记录方式主要依赖于人工,尚不能实现对电子病历中记录的药品不良反应进行自动识别,浪费人力物力。除此之外,人工记录大多采取自发报告的方式,因此这种被动监测到的数据存在漏报率高、报告不规范、信息不全面等多方面的局限性。
鉴于此,本领域亟需开发一种新的事件识别方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种事件识别方法、事件识别装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的浪费人力和数据局限性等问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种事件识别方法,所述方法包括:获取用于识别目标事件的目标语句,并根据所述目标语句的语句序列确定所述目标语句的类型;若所述类型为句式类型,将所述语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定所述目标事件的识别结果;若所述类型为段落类型,获取基于预设词汇生成的配置信息,并根据所述配置信息确定所述目标事件的识别结果。
在本公开的一种示例性实施例中,所述根据所述目标语句的语句序列确定所述目标语句的类型,包括:对所述目标语句进行分词处理得到语句实体,并对所述语句实体进行标注;对标注后的语句实体进行依存句法分析,得到与所述目标语句对应的语句序列;若所述语句序列中未包括预设字符串,确定所述目标语句的类型为句式类型;若所述语句序列中包括预设字符串,确定所述目标语句的类型为段落类型。
在本公开的一种示例性实施例中,所述若所述语句序列中未包括预设字符串,确定所述目标语句的类型为句式类型,包括:确定所述语句实体的实体类型,并根据所述实体类型的比较结果确定目标实体;若相邻两个所述目标实体之间未包括预设字符串,确定所述目标语句的类型为句式类型。
在本公开的一种示例性实施例中,所述若所述语句序列中包括预设字符串,确定所述目标语句的类型为段落类型,包括:确定所述语句实体的实体类型,并根据所述实体类型的比较结果确定目标实体;若相邻两个所述目标实体之间包括预设字符串,确定所述目标语句的类型为段落类型。
在本公开的一种示例性实施例中,所述将所述语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定所述目标事件的识别结果,包括:将所述语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定目标语料序列;获取所述目标语料序列中的语料实体,并根据所述语料实体和所述语句实体的比对结果确定所述目标事件的识别结果。
在本公开的一种示例性实施例中,所述根据所述语料实体和所述语句实体的比对结果确定所述目标事件的识别结果,包括:获取所述语料实体在所述目标语料序列中的第一位置信息,并获取所述语句实体在所述语句序列中的第二位置信息;若所述第一位置信息与所述第二位置信息相同,确定识别出目标事件;若所述第一位置信息与所述第二位置信息不同,确定未识别出所述目标事件。
在本公开的一种示例性实施例中,所述获取基于预设词汇生成的配置信息,并根据所述配置信息确定所述目标事件的识别结果,包括:获取基于预设词汇生成的配置信息,并确定与所述目标语句对应的目标配置信息;根据所述目标配置信息确定所述目标语句中的目标语句实体,以确定识别出所述目标事件;若未确定与所述目标语句对应的目标配置信息,确定未识别出所述目标事件。
根据本公开的一个方面,提供一种事件识别装置,所述装置包括:语句获取模块,被配置为获取用于识别目标事件的目标语句,并根据所述目标语句的语句序列确定所述目标语句的类型;句法模型模块,被配置为若所述类型为句式类型,将所述语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定所述目标事件的识别结果;规则模型模块,被配置为若所述类型为段落类型,获取基于预设词汇生成的配置信息,并根据所述配置信息确定所述目标事件的识别结果。
根据本公开的一个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的事件识别方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中的事件识别方法。
由上述技术方案可知,本公开示例性实施例中的事件识别方法、事件识别装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的示例性实施例提供的方法及装置中,通过识别到的目标语句的类型,可以混合针对句式类型和段落类型的识别方法实现识别目标事件的功能。一方面,无需投入过多的人力物力,减少了识别目标事件的人力成本,提高了目标事件的识别效率;另一方面,减少了目标事件漏报的情况发生,提升了目标事件识别的准召率,完善了目标事件识别系统的完整性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种事件识别方法的流程图;
图2示意性示出本公开示例性实施例中确定目标语句的类型的方法的流程示意图;
图3示意性示出本公开示例性实施例中确定句式类型的方法的流程示意图;
图4示意性示出本公开示例性实施例中确定段落类型的方法的流程示意图;
图5示意性示出本公开示例性实施例中一种确定目标事件的识别结果的方法的流程示意图;
图6示意性示出本公开示例性实施例中进一步确定识别结果的方法的流程示意图;
图7示意性示出本公开示例性实施例中另一种确定目标事件的识别结果的方法的流程示意图;
图8示意性示出本公开示例性实施例中一种事件识别装置的结构示意图;
图9示意性示出本公开示例性实施例中一种用于实现事件识别方法的电子设备;
图10示意性示出本公开示例性实施例中一种用于实现事件识别方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
针对相关技术中存在的问题,本公开提出了一种事件识别方法。图1示出了事件识别方法的流程图,如图1所示,事件识别方法至少包括以下步骤:
步骤S110.获取用于识别目标事件的目标语句,并根据目标语句的语句序列确定目标语句的类型。
步骤S120.若类型为句式类型,将语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定目标事件的识别结果。
步骤S130.若类型为段落类型,获取基于预设词汇生成的配置信息,并根据配置信息确定目标事件的识别结果。
在本公开的示例性实施例中,通过识别到的目标语句的类型,可以混合针对句式类型和段落类型的识别方法实现识别目标事件的功能。一方面,无需投入过多的人力物力,减少了识别目标事件的人力成本,提高了目标事件的识别效率;另一方面,减少了目标事件漏报的情况发生,提升了目标事件识别的准召率,完善了目标事件识别系统的完整性。
下面对事件识别方法的各个步骤进行详细说明。
在步骤S110中,获取用于识别目标事件的目标语句,并根据目标语句的语句序列确定目标语句的类型。
在本公开的示例性实施例中,目标事件可以是药品不良反应(Adverse DrugReaction,简称ADR)的事件。药品不良反应是指合格药品在正常用法用量下出现的与用药目的无关的有害反应,因此,对不良事件的识别是极其必要的。目标语句可以是为确定是否描述不良事件的语句,可以是用户键入的,也可以是爬取得到的,本示例性实施例对此不做特殊限定。并且,目标语句可以是与不良事件相关的一句话,也可以是与不良事件相关的一段话,因此可以进一步确定目标语句的类型。
在可选的实施例中,图2示出了确定目标语句的类型的方法的流程示意图,如图2所示,该方法至少包括以下步骤:在步骤S210中,对目标语句进行分词处理得到语句实体,并对语句实体进行标注。举例而言,利用条件随机场模型对目标语句进行分词处理。
条件随机场模型(Conditional Random Fields,简称CRF)是一种判别式概率模型,也是一种机器学习模型。条件随机场模型在人工智能的自然语言处理(NaturalLanguage Processing,简称NLP)领域中广泛使用,常用于文本标注、分词,以及命名实体识别等方面。具体的分词处理过程可以是用S/B/E/M来表示目标语句中各个字的位置,其中S表示单个词,B表示词语的第一个字,E表示词语的最后一个字,M表示词语中的中间字。举例而言,对于句子“跟着我左手右手一个慢动作”,可以表示为“跟/B着/E我/S左/B手/E右/B手/E/一/B个/E慢/B动/M作/E”,以B开始,且以E结束构成一个词语,S当做一个词语。
因此,利用条件随机场模型可以对目标语句分词得到语句实体,该语句实体就是目标语句中的一个个词语。进一步的,可以对语句实体进行标注。其中,标注的标签类型可以包括核心:HED;主语:SBV;话题:TPC;强调:FOC;宾语:VOB;间接宾语:IOB;行为宾语:ACT;连动:VV;补语:CMP;状语:ADV;时体:MT;数量补语:QUC;定语:ATT;数字:NUM;并列式独立成分:ISC;数量:QUN;前附加:LAD;后附加:RAD;介宾:POB:“的”字:DE;“地”字:DH;“得”字:DEI;重叠:RED;独立结构:IS;小句:IC;标点:PUN;并列:COO;并列共享:COS;同位:APP;跨小句标点:PUS。举例而言,对于已知不良事件的语句的标注可以是“患者/SBV服用/HED单硝酸异山梨酯/VOB后/ADV出现/HED头晕、头痛/VOB”,也可以是“高浓度庆大霉素/SBV可/ADV引起/ATT急性或亚急性皮炎及红斑瘙痒/AE等/RAD副作用”,还可以是“由/ADV喜炎平/HED引起/DE的/ATT红色丘疹/VOB”。
在步骤S220中,对标注后的语句实体进行依存句法分析,得到与目标语句对应的语句序列。依据句法分析是针对给定的语句使用某一依存语法体系对自然语言进行自动分析构建语句对应依存语法树的一种方法,具体可以采用基于规则的方法进行依存句法分析,也可以基于一些公开的依存句法分析工具进行分析,例如基于斯坦福自然语言处理工具对语句文本进行依存句法分析,得到语句文本中词与词之间的依存关系以及相应的依存语法树。举例而言,对于“取消已经开通的十元一百兆的流量”,进行依存句法分析之后,可以得到语句中的语句实体之间存在的依存关系是root(ROOT,取消-1);adv(开通-3,已经-2);att(流量-10,开通-3);rad(开通-3,的-4);att(元-6,十-5);att(流量-10,元-6);att(兆-8,一百-7),att(流量-10,兆-8);rad(兆-8,的-9);vob(取消-1,流量-10)。其中,括号前面的“att”、“vob”“adv”和“rad”表示语句中的语句实体之间的依存关系,括号中的第一个词表示依存语法树中的父节点词,第二个词表示依存语法树中的子节点词,每个词后的数字表示词在句子中的位置,ROOT表示依存语法树的根节点,该节点为虚节点,其与子节点之间的关系为root关系,即虚关系,可以将其子节点的值作为根节点的值。因此,在进行依存句法分析之后,可以得到与目标语句对应的语句序列,该语句序列是具有依存关系的。
在步骤S230中,若语句序列中未包括预设字符串,确定目标语句的类型为句式类型。
在可选的实施例中,图3示出了确定句式类型的方法的流程示意图,如图3所示,该方法至少包括以下步骤:在步骤S310中,确定语句实体的实体类型,并根据实体类型的比较结果确定目标实体。其中,实体类型可以是标注的标签的类型。进一步的,可以将两两相邻的语句实体的实体类型进行比较,若两两相邻的实体类型不一致,可以确定对应的两个语句实体为目标实体;若两两相邻的实体类型一致,不确定对应的两个语句实体为目标实体。
在步骤S320中,若相邻两个目标实体之间未包括预设字符串,确定目标语句的类型为句式类型。相邻的两个目标实体是实体类型不同的语句实体。进一步的,确定目标实体之间是否包含预设字符串。举例而言,预设字符串可以是预设符号的字符串,预设符号可以是表征一句话结束的符号,例如句号、换行符等,也可以是其他人为设定的符号,包括逗号、分号等。当两个目标实体之间不包括预设符号对应的预设字符串的时候,可以确定目标语句的类型为句式类型。
在本示例性实施例中,通过预设字符串可以确定目标语句的类型为句式类型,确定方式简单,比较结果准确,实用性极强。
在步骤S240中,若语句序列中包括预设字符串,确定目标语句的类型为段落类型。
在可选的实施例中,图4示出了确定段落类型的方法的流程示意图,如图4所示,该方法至少包括以下步骤:在步骤S410中,确定语句实体的实体类型,并根据实体类型的比较结果确定目标实体。其中,实体类型可以是标注的标签的类型。进一步的,可以将两两相邻的语句实体的实体类型进行比较,若两两相邻的实体类型不一致,可以确定对应的两个语句实体为目标实体;若两两相邻的实体类型一致,不确定对应的两个语句实体为目标实体。
在步骤S420中,若相邻两个目标实体之间包括预设字符串,确定目标语句的类型为段落类型。相邻的两个目标实体是实体类型不同的语句实体。进一步的,确定目标实体之间是否包含预设字符串。举例而言,预设字符串可以是预设符号的字符串,预设符号可以是表征一句话结束的符号,例如句号、换行符等,也可以是其他人为设定的符号,包括逗号、分号等。当两个目标实体之间不包括预设符号对应的预设字符串的时候,可以确定目标语句的类型为段落类型。
在本示例性实施例中,通过预设字符串可以确定目标语句的类型为段落类型,确定方式简单,比较结果准确,实用性极强。
在步骤S120中,若类型为句式类型,将语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定目标事件的识别结果。
在本公开的示例性实施例中,当目标语句的类型为句式类型时,可以进一步确定目标事件的识别结果。
在可选的实施例中,图5示出了一种确定目标事件的识别结果的方法的流程示意图,如图5所示,该方法至少包括以下步骤:在步骤S510中,将语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定目标语料序列。其中,语料库可以是科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可以开展相关的语言理论及应用研究。语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。语料库可以应用于词典编纂、语言教学、传统语言研究,以及自然语言处理中基于统计或实例等研究方面。语料库中可以存储有语料序列,该语料序列可以是已经识别为描述药品不良反应的序列。
因此,可以将语句序列与语料序列进行一一匹配,在匹配的过程中可以得到与语句序列中语句实体匹配的目标语料序列。
在步骤S520中,获取目标语料序列中的语料实体,并根据语料实体和语句实体的比对结果确定目标事件的识别结果。在确定目标语料序列之后,可以获取到目标语料序列中的语料实体,该语料实体与语句实体类型是一致的,但是二者所在的位置不一定一致,需要进一步确定。
在可选的实施例中,图6示出了进一步确定识别结果的方法的流程示意图,如图6所示,该方法至少包括以下步骤:在步骤S610中,获取语料实体在目标语料序列中的第一位置信息,并获取语句实体在语句序列中的第二位置信息。第一位置信息可以是表征语料实体在目标语料序列中的实体相对位置的信息,例如第三个实体;第二位置信息可以是表征语句实体在语句序列中的实体相对位置的信息,例如第二个实体。除此之外,也可以是其他位置信息,本示例性实施例对此不做特殊限定。
在步骤S620中,若第一位置信息与第二位置信息相同,确定识别出目标事件。将第一位置信息与第二位置信息进行比较,并且比较结果决定了是否识别出了目标事件。其中一种比较结果可以是第一位置信息与第二位置信息相同,例如第一位置信息和第二位置信息均为第三个实体所在位置的信息,因此可以确定在目标语句中识别出目标事件,亦即目标语句是描述目标事件的语句。
在步骤S630中,若第一位置信息与第二位置信息不同,确定未识别出目标事件。将第一位置信息与第二位置信息进行比较,并且比较结果决定了是否识别出了目标事件。其中一种比较结果可以是第一位置信息与第二位置信息不同,例如第一位置信息为第二个实体所在位置的信息,第二位置信息为第三个实体所在位置的信息,因此可以确定在目标语句中未识别出目标事件,亦即目标语句不是描述目标事件的语句。
在本示例性实施例中,通过位置信息可以确定目标事件的识别结果,识别方式简单,识别效果准确。
在步骤S130中,若类型为段落类型,获取基于预设词汇生成的配置信息,并根据配置信息确定目标事件的识别结果。
在本公开的示例性实施例中,当目标语句的类型为段落类型时,可以进一步确定目标事件的识别结果。
在可选的实施例中,图7示出了另一种确定目标事件的识别结果的方法的流程示意图,如图7所示,该方法至少包括以下步骤:在步骤S710中,获取基于预设词汇生成的配置信息,并确定与目标语句对应的目标配置信息。当目标事件是药品不良反应事件时,预设词汇可以包括怀疑用药、药品不良反应触发词、不良事件(Adverse Event,简称AE)、化疗词汇和化疗过程描述词等。其中,怀疑用药包括所有药品名称,例如“胰岛素”、“紫杉醇”等;药品不良反应触发词包括自然文本中用于说明不良反应与药物因果关系的词汇,例如“可能有关”和“所致”等;不良事件包括不良事件定位词和不良事件的描述词等,不良事件定位词可以是“考虑存在”和“入院后出现”;化疗词汇包括描述化疗或者化疗方案的标志词,例如“化疗”、“紫杉醇+顺柏”方案;化疗过程描述词包括描述化疗过程中出现的情况的标志词,例如“三程化疗后”和“四周期后”等。
进一步的,由于药品不良反应一定是一个不良事件,亦即药品不良反应是不良事件的一个子集。药品不良反应与不良事件的区别在于药品不良反应是使用药物或者怀疑和药物相关的不良事件。因此,根据预设词汇生成的配置信息可以是先出现怀疑用药,再出现药品不良反应的触发词,最后出现不良事件的词汇,例如患者中午12:40输注亚叶酸钙(怀疑用药),输注后(药品不良反应触发词)双下肢出现风团样皮疹(不良事件)。配置信息还可以是先出现不良事件定位词,再出现不良事件,然后出现药品不良反应触发词,最后出现怀疑用药,例如结合患者近期出现心动过速,考虑存在(不良事件定位词)慢快综合征(不良事件),此外,不除外患者自服(药品不良反应触发词)倍他乐可(怀疑用药)所致心率抑制。配置信息还可以是先出现怀疑用药,再出现化疗标识词,然后出现化疗过程描述词,最后出现不良事件,例如患者应用奥沙利铂(怀疑用药)、雷替曲塞(怀疑用药)和爱必妥(怀疑用药),化疗(化疗标识词)一周期后(化疗过程描述词)出现三度腹泻(不良事件)、二度恶心(不良事件)和一度呕吐(不良事件)。在该示例中,可以看出所有的不良事件和所有怀疑用药都是相关联的。
值得说明的是,若原文中写明怀疑与某药物相关,可以不纳入所有药物。例如,2017-07-17至2017-09-29予以第2-6期周期治疗:紫杉醇140mg/m2 223mg/d1,顺柏60mg/m295mg d1,Q21d。2、4、6周期后疗效评价PR,患者神经毒素I度,消化道反应I度,考虑紫杉醇副作用。在该示例中,优先考虑匹配紫杉醇与不良反应的关系,可以对顺柏不进行输出。
根据目标语句与配置信息的匹配结果可以在配置信息中确定与目标语句对应的目标配置信息。
在步骤S720中,根据目标配置信息确定目标语句中的目标语句实体,以确定识别出目标事件。在确定目标配置信息之后,可以在目标语句中确定与预设词汇对应的语句实体,并确定为目标语句实体。当确定出目标语句实体,可以表明目标语句描述的是目标事件,亦即确定识别出目标事件。
在步骤S730中,若未确定与目标语句对应的目标配置信息,确定未识别出目标事件。当根据配置信息无法匹配到与目标语句对应的目标配置信息时,可以确定目标语句并非描述目标事件的语句,亦即未识别出目标事件。
在本示例性实施例中,通过配置信息可以确定目标事件的识别结果,确定方式简单,识别结果准确。
在确定目标语句中描述的是目标事件之后,还可以生成语句实体的标识信息,以方便专职人员进行人工审核。举例而言,在“加用奥氮平治疗,但患者出现嗜睡,故将奥氮平减量,加用丙戊酸治疗。目前患者精神症状逐渐缓解,患者吐词不清、震颤,考虑利培酮引起的椎体外系不良反应”中,可以将“嗜睡”与“奥氮平”进行同色标记,将“吐词不清、震颤”和“利培酮”同色标记。除此之外,还可以生成其他标识信息,本示例性实施例对此不做特殊限定。
进一步的,专职人员可以对已标识的目标语句进行筛选,将描述药品不良反应的语句记录下来,无需人工手动摘录。
在本公开的示例性实施例中,通过识别到的目标语句的类型,可以混合针对句式类型和段落类型的识别方法实现识别目标事件的功能。一方面,无需投入过多的人力物力,减少了识别目标事件的人力成本,提高了目标事件的识别效率;另一方面,减少了目标事件漏报的情况发生,提升了目标事件识别的准召率,完善了目标事件识别系统的完整性。
此外,在本公开的示例性实施例中,还提供一种事件识别装置。图8示出了事件识别装置的结构示意图,如图8所示,事件识别装置800可以包括:语句获取模块810、句法模型模块820和规则模型模块830。其中:
语句获取模块810,被配置为获取用于识别目标事件的目标语句,并根据目标语句的语句序列确定目标语句的类型;句法模型模块820,被配置为若类型为句式类型,将语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定目标事件的识别结果;规则模型模块830,被配置为若类型为段落类型,获取基于预设词汇生成的配置信息,并根据配置信息确定目标事件的识别结果。
上述事件识别装置的具体细节已经在对应的事件识别方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了事件识别装置800的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图9来描述根据本发明的这种实施例的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)921和/或高速缓存存储单元922,还可以进一步包括只读存储单元(ROM)923。
存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924,这样的程序模块925包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器940通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图10所示,描述了根据本发明的实施例的用于实现上述方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种事件识别方法,其特征在于,所述方法包括:
获取用于识别目标事件的目标语句,并根据所述目标语句的语句序列确定所述目标语句的类型;
若所述类型为句式类型,将所述语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定所述目标事件的识别结果;
若所述类型为段落类型,获取基于预设词汇生成的配置信息,并根据所述配置信息确定所述目标事件的识别结果。
2.根据权利要求1所述的事件识别方法,其特征在于,所述根据所述目标语句的语句序列确定所述目标语句的类型,包括:
对所述目标语句进行分词处理得到语句实体,并对所述语句实体进行标注;
对标注后的语句实体进行依存句法分析,得到与所述目标语句对应的语句序列;
若所述语句序列中未包括预设字符串,确定所述目标语句的类型为句式类型;
若所述语句序列中包括预设字符串,确定所述目标语句的类型为段落类型。
3.根据权利要求2所述的事件识别方法,其特征在于,所述若所述语句序列中未包括预设字符串,确定所述目标语句的类型为句式类型,包括:
确定所述语句实体的实体类型,并根据所述实体类型的比较结果确定目标实体;
若相邻两个所述目标实体之间未包括预设字符串,确定所述目标语句的类型为句式类型。
4.根据权利要求2所述的事件识别方法,其特征在于,所述若所述语句序列中包括预设字符串,确定所述目标语句的类型为段落类型,包括:
确定所述语句实体的实体类型,并根据所述实体类型的比较结果确定目标实体;
若相邻两个所述目标实体之间包括预设字符串,确定所述目标语句的类型为段落类型。
5.根据权利要求2所述的事件识别方法,其特征在于,所述将所述语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定所述目标事件的识别结果,包括:
将所述语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定目标语料序列;
获取所述目标语料序列中的语料实体,并根据所述语料实体和所述语句实体的比对结果确定所述目标事件的识别结果。
6.根据权利要求5所述的事件识别方法,其特征在于,所述根据所述语料实体和所述语句实体的比对结果确定所述目标事件的识别结果,包括:
获取所述语料实体在所述目标语料序列中的第一位置信息,并获取所述语句实体在所述语句序列中的第二位置信息;
若所述第一位置信息与所述第二位置信息相同,确定识别出目标事件;
若所述第一位置信息与所述第二位置信息不同,确定未识别出所述目标事件。
7.根据权利要求6所述的事件识别方法,其特征在于,所述获取基于预设词汇生成的配置信息,并根据所述配置信息确定所述目标事件的识别结果,包括:
获取基于预设词汇生成的配置信息,并确定与所述目标语句对应的目标配置信息;
根据所述目标配置信息确定所述目标语句中的目标语句实体,以确定识别出所述目标事件;
若未确定与所述目标语句对应的目标配置信息,确定未识别出所述目标事件。
8.一种事件识别装置,其特征在于,包括:
语句获取模块,被配置为获取用于识别目标事件的目标语句,并根据所述目标语句的语句序列确定所述目标语句的类型;
句法模型模块,被配置为若所述类型为句式类型,将所述语句序列与语料库中的语料序列进行匹配,以根据匹配结果确定所述目标事件的识别结果;
规则模型模块,被配置为若所述类型为段落类型,获取基于预设词汇生成的配置信息,并根据所述配置信息确定所述目标事件的识别结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被发送器执行时实现权利要求1-7中任意一项所述的事件识别方法。
10.一种电子设备,其特征在于,包括:
发送器;
存储器,用于存储所述发送器的可执行指令;
其中,所述发送器被配置为经由执行所述可执行指令来执行权利要求1-7中任意一项所述的事件识别方法。
CN201911318996.XA 2019-12-19 2019-12-19 事件识别方法及装置、计算机可读存储介质、电子设备 Active CN111046666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911318996.XA CN111046666B (zh) 2019-12-19 2019-12-19 事件识别方法及装置、计算机可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911318996.XA CN111046666B (zh) 2019-12-19 2019-12-19 事件识别方法及装置、计算机可读存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN111046666A true CN111046666A (zh) 2020-04-21
CN111046666B CN111046666B (zh) 2023-05-05

Family

ID=70237977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911318996.XA Active CN111046666B (zh) 2019-12-19 2019-12-19 事件识别方法及装置、计算机可读存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN111046666B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528660A (zh) * 2020-12-04 2021-03-19 北京百度网讯科技有限公司 处理文本的方法、装置、设备、存储介质和程序产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880302A (zh) * 2012-07-17 2013-01-16 重庆优腾信息技术有限公司 一种基于多词连续输入的字词识别方法、装置和系统
JP2014130211A (ja) * 2012-12-28 2014-07-10 Brother Ind Ltd 音声出力装置、音声出力方法、およびプログラム
US20140337283A1 (en) * 2013-05-09 2014-11-13 International Business Machines Corporation Comparing database performance without benchmark workloads
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN108766437A (zh) * 2018-05-31 2018-11-06 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
US20190108264A1 (en) * 2017-10-09 2019-04-11 Shanghai Datacenter Science Co., Ltd System prototype of intelligent regional mobile healthcare integrated data center based on metadata
CN109887596A (zh) * 2019-02-18 2019-06-14 广州天鹏计算机科技有限公司 基于知识图谱的慢阻肺疾病诊断方法、装置和计算机设备
CN110209807A (zh) * 2018-07-03 2019-09-06 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
CN110543633A (zh) * 2019-08-29 2019-12-06 腾讯科技(深圳)有限公司 语句意图识别方法、装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880302A (zh) * 2012-07-17 2013-01-16 重庆优腾信息技术有限公司 一种基于多词连续输入的字词识别方法、装置和系统
JP2014130211A (ja) * 2012-12-28 2014-07-10 Brother Ind Ltd 音声出力装置、音声出力方法、およびプログラム
US20140337283A1 (en) * 2013-05-09 2014-11-13 International Business Machines Corporation Comparing database performance without benchmark workloads
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
US20190108264A1 (en) * 2017-10-09 2019-04-11 Shanghai Datacenter Science Co., Ltd System prototype of intelligent regional mobile healthcare integrated data center based on metadata
CN108766437A (zh) * 2018-05-31 2018-11-06 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110209807A (zh) * 2018-07-03 2019-09-06 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
CN109887596A (zh) * 2019-02-18 2019-06-14 广州天鹏计算机科技有限公司 基于知识图谱的慢阻肺疾病诊断方法、装置和计算机设备
CN110543633A (zh) * 2019-08-29 2019-12-06 腾讯科技(深圳)有限公司 语句意图识别方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528660A (zh) * 2020-12-04 2021-03-19 北京百度网讯科技有限公司 处理文本的方法、装置、设备、存储介质和程序产品
CN112528660B (zh) * 2020-12-04 2023-10-24 北京百度网讯科技有限公司 处理文本的方法、装置、设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN111046666B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN111708874B (zh) 基于复杂意图智能识别的人机交互问答方法与系统
US20220044812A1 (en) Automated generation of structured patient data record
Zhou et al. Using Medical Text Extraction, Reasoning and Mapping System (MTERMS) to process medication information in outpatient clinical notes
US9652719B2 (en) Authoring system for bayesian networks automatically extracted from text
AU2012235939B2 (en) Real-time automated interpretation of clinical narratives
CN109509556A (zh) 知识图谱生成方法、装置、电子设备及计算机可读介质
KR20150034599A (ko) 개념 중심의 자동 섹션 식별
Madnani Getting started on natural language processing with Python
CN102262622A (zh) 文档处理、模板生成及概念库生成方法和装置
WO2022021958A1 (zh) 药品知识图谱的构建方法和装置
Lakhfif et al. A frame-based approach for capturing semantics from Arabic text for text-to-sign language MT
CN111882203B (zh) 一种中医药云服务实验系统
CN110609910A (zh) 医学知识图谱构建方法及装置、存储介质和电子设备
CN111046666B (zh) 事件识别方法及装置、计算机可读存储介质、电子设备
Hussain et al. A natural language processing pipeline to synthesize patient-generated notes toward improving remote care and chronic disease management: a cystic fibrosis case study
Fan et al. Evaluating the impact of dictionary updates on automatic annotations based on clinical NLP systems
Yang et al. A comprehensive review on knowledge graphs for complex diseases
Peterson et al. An examination of the statistical laws of semantic change in clinical notes
Zhou et al. EACE: A document-level event argument extraction model with argument constraint enhancement
CN111180076B (zh) 一种基于多层语义分析的医疗信息提取方法
Chen et al. A statistical medical summary translation system
Shivade et al. Addressing limited data for textual entailment across domains
Charlet et al. Building a Medical Ontology to support Information Retrieval: Terminological and metamodelization issues
Ceusters et al. Developing natural language understanding applications for healthcare: a case study on interpreting drug therapy information from discharge summaries
Ge Current development and technology in the information extraction for clinical narrative text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant