CN113160963A - 一种事件确定方法、装置、电子设备和存储介质 - Google Patents

一种事件确定方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113160963A
CN113160963A CN202011508996.9A CN202011508996A CN113160963A CN 113160963 A CN113160963 A CN 113160963A CN 202011508996 A CN202011508996 A CN 202011508996A CN 113160963 A CN113160963 A CN 113160963A
Authority
CN
China
Prior art keywords
preset
event
segmented
information
inspection report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011508996.9A
Other languages
English (en)
Inventor
黄硕
程龙龙
袁丁
江正义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Yunnao Tianjin Technology Co ltd
Original Assignee
Zhongdian Yunnao Tianjin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Yunnao Tianjin Technology Co ltd filed Critical Zhongdian Yunnao Tianjin Technology Co ltd
Priority to CN202011508996.9A priority Critical patent/CN113160963A/zh
Publication of CN113160963A publication Critical patent/CN113160963A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及计算机技术领域,公开了一种事件确定方法、装置、电子设备和存储介质,本实施例的方法包括:将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。上述方法通过确定待处理检查报告包含的关联信息,进而将这些关联信息对应的预设事件作为待处理检查报告的事件,精准、方便、快捷地确定待处理检查报告的事件,即使待处理检查报告对应多个事件也能减少事件遗漏的情况发生。

Description

一种事件确定方法、装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种事件确定方法、装置、电子设 备和存储介质。
背景技术
随着科技的进步,医疗行业得到了迅速发展。医疗行业中的检查报告(如 临床检查报告)包含了检查症状、诊断结果等信息。为了方便对检查报告进行 管理,需要确定检查报告对应的医学事件。
相关技术中,需要人工确定每个检查报告对应着哪些医学事件,例如在获 取一个新的检查报告后,判断是否包含原发部位事件,是否包含转移事件等等。
然而,通过人工方式难以准确确定检查报告对应的事件。
发明内容
本公开提供了一种事件确定方法、装置、电子设备和存储介质,用以准确 确定检查报告对应的事件。
第一方面,本公开实施例提供一种事件确定方法,所述方法包括:
将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包 含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;
将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。
上述方案,通过将待处理检查报告与多个表征对应的预设事件发生的关联 信息进行比对,如果待处理检查报告包含某一或者某些关联信息,就说明待处 理检查报告有该关联信息对应的预设事件,因此通过确定待处理检查报告包含 的关联信息,进而将这些关联信息对应的预设事件作为待处理检查报告的事件, 精准、方便、快捷地就能确定待处理检查报告的事件,即使待处理检查报告对 应多个事件也能减少事件遗漏的情况发生。
在一些可选的实施方式中,通过以下方式得到所述关联信息:
通过预设分段方式将样本检查报告进行分段,得到分段文本;
将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含 的分段文本确定所述关联信息。
上述方案,样本检查报告的内容较多,难以确定与某一事件相关的文本, 通过预设分段方式将样本检查报告进行分段,将每个样本检查报告分成多个分 段本文,这样就得到了这些样本检查报告的分段文本,从而方便地确定与预设 事件相关的分段文本,从这些文本中能够较为准确地提取到该预设事件对应的 关联信息。
在一些可选的实施方式中,将表征同一预设事件的分段文本组成一个预设 集合,包括:
若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的 语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成 一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的 所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分 段文本组成一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的 部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没 有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个 预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设 事件训练得到的。
上述方案,针对不同应用场景采用不同的方式得到预设集合,无论是否预 设有分段文本与预设事件的对应关系,都能准确地将同一预设事件对应的分段 文本组成一个预设集合。
在一些可选的实施方式中,若没有预设分段文本与预设事件的对应关系, 则在得到预设集合之后,还包括:
响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件 作为所述预设集合对应的预设事件。
上述方案,如果没有预设分段文本与预设事件的对应关系,通过将语义相 似的分段文本组成一个预设集合,只是将表征同一预设事件的分段文本归到了 一个预设集合中,但并不能确定这同一预设事件具体是什么预设事件。通过在 得到预设集合之后,将针对预设集合的事件标识指令包含的事件作为预设集合 对应的预设事件,就能确定预设集合具体对应的预设事件。
在一些可选的实施方式中,根据预设集合包含的分段文本确定所述关联信 息,包括:
针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预 设次数的实词作为候选信息;
确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率 最大的前N个候选信息作为所述预设集合的关联信息,N为正整数;或者将大 于预设概率的候选信息作为所述预设集合的关联信息。
上述方案,一个预设集合包含的分段文本都对应了同一预设事件,如果某 一或者某些实词在这些分段文本中出现次数较多,那该实词很可能就是能够表 征该预设事件发生的词,因此先将这些分段文本中出现次数大于预设次数的实 词选择出来作为候选信息。上述候选信息有可能只是在对应预设集合的小部分 的分段文本中出现次数较多,在其余分段文本中没有出现,这种候选信息并不 能准确表征对应预设事件发生,通过确定上述候选信息在对应预设集合包含的 分段文本中出现的概率,并选择出现概率较高的候选信息,从而得到能够精准 表征预设事件发生的关联信息。
在一些可选的实施方式中,将待处理检查报告与多个关联信息进行比对, 包括:
针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所 述预设事件对应的关联信息进行比对;
在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停 止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。
上述方案,关联信息在对应预设集合包含的分段文本中出现的概率高,当 发生对应预设事件时包含该关联信息的概率也高,当待处理检查报告对应这个 预设事件时,大概率会包含该关联信息,通过先将待处理检查报告与出现的概 率高的关联信息进行比对,如果确定待处理检查报告包含关联信息,就确定该 待处理检查报告对应该预设事件,无需再将待处理检查报告与该预设事件的其 他关联信息进行比对,提高了比对效率,节省了比对过程占用的资源。
第二方面,本公开实施例提供一种事件确定装置,包括:
关联信息确定模块,用于将待处理检查报告与多个关联信息进行比对,确 定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预设 事件发生的信息;
事件确定模块,用于将确定的所述关联信息对应的预设事件作为所述待处 理检查报告的事件。
在一些可选的实施方式中,关联信息确定模块还用于通过以下方式得到所 述关联信息:
通过预设分段方式将样本检查报告进行分段,得到分段文本;
将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含 的分段文本确定所述关联信息。
在一些可选的实施方式中,关联信息确定模块将表征同一预设事件的分段 文本组成一个预设集合,包括:
若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的 语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成 一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的 所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分 段文本组成一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的 部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没 有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个 预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设 事件训练得到的。
在一些可选的实施方式中,若没有预设分段文本与预设事件的对应关系, 则关联信息确定模块在得到预设集合之后,还用于:
响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件 作为所述预设集合对应的预设事件。
在一些可选的实施方式中,关联信息确定模块根据预设集合包含的分段文 本确定所述关联信息,包括:
针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预 设次数的实词作为候选信息;
确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率 最大的前N个候选信息作为所述预设集合的关联信息,N为正整数;或者将大 于预设概率的候选信息作为所述预设集合的关联信息。
在一些可选的实施方式中,关联信息确定模块将待处理检查报告与多个关 联信息进行比对,包括:
针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所 述预设事件对应的关联信息进行比对;
在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停 止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。
第三方面,本公开实施例提供一种电子设备,包括一个或多个处理器,以 及用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面任一项所述 的事件确定方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读 存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如第一 方面任一项所述的事件确定方法。
另外,第二方面至第四方面中任一种实现方式所带来的技术效果可参见第 一方面中不同实现方式所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本公开的 一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的第一种事件确定方法的示意流程图;
图2为本公开实施例提供的第一种得到关联信息方法的示意流程图;
图3为本公开实施例提供的第二种得到关联信息方法的示意流程图;
图4为本公开实施例提供的第二种事件确定方法的示意流程图;
图5为本公开实施例提供的一种事件确定装置的结构示意图;
图6为本公开实施例提供的一种电子设备的示意框图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公 开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例, 而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
本公开实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三 种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存 在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在本公开的描述中,需要说明的是,除非另有明确的规定和限定,术语“连 接”应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连, 可以是两个器件内部的连通。对于本领域的普通技术人员而言,可以根据具体 情况理解上述术语在本公开中的具体含义。
医疗行业中的检查报告(如临床检查报告)包含了检查症状、诊断结果等 信息。为了方便对检查报告进行管理,需要确定检查报告对应的医学事件。相 关技术中,需要人工确定每个检查报告对应着哪些医学事件,例如在获取一个 新的检查报告后,判断是否包含原发部位事件,是否包含转移事件等等。
然而,通过人工方式确定检查报告的医学事件,难以准确确定检查报告对 应的医学事件。例如当一个检查报告对应多个医学事件时,容易遗漏事件,或 者确定出错误的事件。
本公开实施例为了准确确定检查报告对应的事件,提供了一种事件确定方 法、装置、电子设备和存储介质。下面以具体地实施例对本公开的技术方案以 及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的 实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再 赘述。下面将结合附图,对本公开的实施例进行描述。
图1为本公开实施例提供的第一种事件确定方法的示意流程图,如图1所 示,该方法可以包括:
步骤101:将待处理检查报告与多个关联信息进行比对,确定所述待处理 检查报告包含的关联信息。
其中所述关联信息为表征对应的预设事件发生的信息。
本实施例通过预设能够表征对应的预设事件发生的关联信息,如果一个检 索报告出现了该关联信息,就代表检索报告有该关联信息对应的预设事件。
基于此,本实施例需要将待处理检查报告与多个关联信息比对,确定待处 理检查报告包含哪些关联信息。
上述待处理检查报告为需要确定对应事件的检查报告,本实施例对该检查 报告的具体实现不做限定,可以为临床检查报告或者实验报告,可以为身体任 何部位的检查报告等等。
本实施例对将待处理检查报告与多个关联信息进行比对的具体方式不做 限定,例如:
1)按照预设的关联信息的顺序,将待处理检查报告一一与各关联信息进 行比对,确定待处理检查报告包含哪些关联信息;
2)按照预设的预设事件的顺序,将待处理检查报告一一与各预设事件对 应的关联信息进行比对,确定待处理检查报告包含哪些关联信息。
上述比对方式只是示例性说明,本实施例也可采用其他比对方式。
在一些具体的实施例中,本实施例还可以预设与上述关联信息词义相同的 扩展信息,也将待处理检查报告与扩展信息进行比对,如果待处理检查报告包 含关联信息的扩展信息,也认为待处理检查报告包含该关联信息。
本实施例,待处理检查报告可能包含一个或者多个关联信息,这与待处理 检查报告的内容有关,也与关联信息的设置有关,本实施例对此不做具体限定。
步骤102:将确定的所述关联信息对应的预设事件作为所述待处理检查报 告的事件。
如上所述,如果一个检索报告出现了该关联信息,就代表检索报告有该关 联信息对应的预设事件。
基于此,本实施例在确定待处理检查报告包含的关联信息后,将确定的关 联信息对应的预设事件作为待处理检查报告的事件。
本实施例,待处理检查报告的事件可能有一个也可能有多个,例如:
1)待处理报告只包含一个关联信息,待处理检查报告的事件也只有一个, 即该关联信息对应的预设事件;
2)待处理报告包含多个关联信息,但这多个关联信息对应着同一个预设 事件,待处理检查报告的事件也只有一个,即这多个关联信息对应的相同的预 设事件;
3)待处理报告包含多个关联信息,且这多个关联信息对应的不是同一个 预设事件,待处理检查报告的事件有多个,即这多个关联信息对应的所有预设 事件。
上述只是为了举例说明待处理检查报告的事件可能有一个也可能有多个, 本实施例并不以此为限。
上述方案,通过将待处理检查报告与多个表征对应的预设事件发生的关联 信息进行比对,如果待处理检查报告包含某一或者某些关联信息,就说明待处 理检查报告对应了该关联信息对应的预设事件,因此通过确定待处理检查报告 包含的关联信息,进而将这些关联信息对应的预设事件作为待处理检查报告的 事件,精准、方便、快捷地确定待处理检查报告的事件,即使待处理检查报告 对应多个事件也能减少事件遗漏的情况发生。
参阅图2所示,上述关联信息可以通过如下方式得到:
步骤201:通过预设分段方式将样本检查报告进行分段,得到分段文本。
本实施例,根据样本检查报告得到关联信息,然而样本检查报告的内容较 多,难以确定与某一预设事件相关的文本,并从这些文本中提取到该预设事件 对应的关联信息。
基于此,本实施例通过预设分段方式将样本检查报告进行分段,将每个样 本检查报告分成多个分段本文,这样就得到了这些样本检查报告的分段文本。
本实施例对上述预设分段方式不做具体限定,例如:
1)通过识别样本检查报告中的“。”,将每个句子作为一个分段本文。
如样本检查报告为:肾脏肾盂及肾盏黏膜炎,大部分粘膜上皮脱失。肾腺 瘤,肿瘤大小为X厘米,周围肾组织未见著变。在“。”所在位置对样本检查 报告进行分段,“肾脏肾盂及肾盏黏膜炎,大部分粘膜上皮脱失”作为一个分 段文本,“肾腺瘤,肿瘤大小为X厘米,周围肾组织未见著变”作为一个分段 文本。
2)通过识别样本检查报告中的“,”和“。”,在“,”所在位置以及“。” 所在位置对样本检查报告进行分段,得到分段本文。
如样本检查报告为:肾脏肾盂及肾盏黏膜炎,大部分粘膜上皮脱失。肾腺 瘤,肿瘤大小为X厘米,周围肾组织未见著变。在“,”或者“。”所在位置对 样本检查报告进行分段,得到“肾脏肾盂及肾盏黏膜炎”、“大部分粘膜上皮脱 失”、“肾腺瘤”、“肿瘤大小为X厘米”以及“周围肾组织未见著变”这五个分 段文本。
上述两种分段方式只是示例性说明,本实施例也可采用其他分段方式对样 本检查报告进行分段。
步骤202:将表征同一预设事件的分段文本组成一个预设集合,并根据预 设集合包含的分段文本确定所述关联信息。
本实施例,将样本检查报告分段得到多个分段文本后,还需要从某一预设 事件相关的分段文本中提取到表征该预设事件发生的关联信息。
基于此,需要将表征同一预设事件的分段文本组成一个预设集合,并根据 预设集合包含的分段文本确定该预设事件对应的关联信息。
本实施例,可通过但不限于通过以下方式将表征同一预设事件的分段文本 组成一个预设集合:
1)若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文 本的语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本 组成一个预设集合。
本实施例,如果没有预设分段文本与预设事件的对应关系,就不能直接确 定这些分段文本分别对应着什么预设事件,因此不能直接找出与各预设事件相 关的分段文本。
基于此,需要根据这些分段文本的语义相似度,对所有分段文本的语义向 量进行聚类,得到多组语义向量,并将各组语义向量对应的分段文本作为表征 同一预设事件的分段文本,即将语义相似的分段文本组成一个预设集合。
本实施例对聚类得到多组语义向量的方式不做限定,例如可通过K均值聚 类算法(K-means clustering algorithm,K-means)聚类、层次凝聚聚类法 (HierarchicalAgglomerative Clustering,HAC)、最大最小距离聚类算法等方式 进行聚类。以K-means聚类为例:
从所有分段文本的语义向量中选取K个初始向量,分别计算剩下的语义向 量到每个初始向量的距离,将剩下的向量归到距离最接近的初始向量的类中, 归类之后得到K组语义向量。
上述只是示例性说明在K-means聚类中是如何得到多组语义向量,具体实 现方式可根据实际应用场景进行选择。
以对30个样本检查报告分段,得到100个分段文本,记作分段本文1、分 段文本2、分段文本3、……分段文本100为例:
样本检查报告1为:左肺上叶癌,肿瘤大小为X厘米,侵犯周围组织。分 段得到“左肺上叶癌”(记作分段本文1)、“肿瘤大小为X厘米”(记作分段本 文2)和“侵犯周围组织”(记作分段本文3)。
样本检查报告2为:肾腺瘤,肿瘤大小为Y厘米。周围肾组织见转移性肿 瘤。分段得到“肾腺瘤”(记作分段本文4)、“肿瘤大小为Y厘米”(记作分段 本文5)和“周围肾组织见转移性肿瘤”(记作分段本文6)。
本实施例对其他28个样本检查报告,以及其他96个分段文本不再一一举 例说明。
对这100个分段文本的语义向量进行聚类,得到4组语义向量,第1组语 义向量对应分段文本1、分段文本4、分段文本20、……;第2组语义向量对 应分段文本2、分段文本5、分段文本40、……;第3组语义向量对应分段文 本3、分段文本6、分段文本57、……;第4组语义向量对应分段文本28、分 段文本39、分段文本74、……。将各组语义向量对应的分段文本作为表征同 一预设事件的分段文本。
上述是对得到预设集合的示例性说明,本实施例对得到的分段分本的数量, 聚类得到的组数等参数不做限定。
上述过程只是将表征同一预设事件的分段文本归到了一个预设集合中,但 并未确定这同一预设事件具体是什么预设事件,基于此,还需要确定各预设集 合对应的预设事件。
在一些具体的实施例中,在得到预设集合之后,响应针对所述预设集合的 事件标识指令,将所述事件标识指令包含的事件作为所述预设集合对应的预设 事件。
本实施例,通过在得到预设集合之后,将针对预设集合的事件标识指令包 含的事件作为预设集合对应的预设事件,就能确定预设集合具体对应的预设事 件。
2)若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得 到的所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应 的分段文本组成一个预设集合。
以对30个样本检查报告分段,得到100个分段文本,记作分段本文1、分 段文本2、分段文本3、……分段文本100为例:
样本检查报告1为:左肺上叶癌,肿瘤大小为X厘米,侵犯周围组织。分 段得到“左肺上叶癌”(记作分段本文1)、“肿瘤大小为X厘米”(记作分段本 文2)和“侵犯周围组织”(记作分段本文3)。
样本检查报告2为:肾腺瘤,肿瘤大小为Y厘米。周围肾组织见转移性肿 瘤。分段得到“肾腺瘤”(记作分段本文4)、“肿瘤大小为Y厘米”(记作分段 本文5)和“周围肾组织见转移性肿瘤”(记作分段本文6)。
本实施例对其他28个样本检查报告,以及其他96个分段文本不再一一举 例说明。
参阅表1所示的对应关系,该对应关系包括这100个分段文本对应的预设 事件:
表1分段文本与预设事件的对应关系
分段文本 预设事件
分段本文1 原发部位事件
分段本文2 肿瘤大小事件
分段本文3 转移事件
分段本文4 原发部位事件
分段本文5 肿瘤大小事件
分段本文6 转移事件
…… ……
分段文本100 原发部位事件
将原发部位事件对应的分段文本组成一个预设集合,将肿瘤大小事件对应 的分段文本组成一个预设集合,将转移事件对应的分段文本组成一个预设集合。
上述是对得到预设集合的示例性说明,本实施例对对应关系包括哪些分段 文本对应的预设事件不做具体限定。
本实施例,如果预设有分段文本与预设事件的对应关系,且该对应关系中 包括得到的所有分段文本对应的预设事件。也就是说根据该对应关系就能确定 得到的所有分段文本分别对应着什么预设事件,直接就能找出与各预设事件相 关的分段文本,进而将同一事件对应的分段文本组成一个预设集合。
3)若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得 到的部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得 到没有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成 一个预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的 预设事件训练得到的。
以对30个样本检查报告分段,得到100个分段文本,记作分段本文1、分 段文本2、分段文本3、……分段文本100为例:
样本检查报告1为:左肺上叶癌,肿瘤大小为X厘米,侵犯周围组织。分 段得到“左肺上叶癌”(记作分段本文1)、“肿瘤大小为X厘米”(记作分段本 文2)和“侵犯周围组织”(记作分段本文3)。
样本检查报告2为:肾腺瘤,肿瘤大小为Y厘米。周围肾组织见转移性肿 瘤。分段得到“肾腺瘤”(记作分段本文4)、“肿瘤大小为Y厘米”(记作分段 本文5)和“周围肾组织见转移性肿瘤”(记作分段本文6)。
本实施例对其他28个样本检查报告,以及其他96个分段文本不再一一举 例说明。
参阅表2所示的对应关系,该对应关系只包括分段本文1-40对应的预设 事件:
表2分段文本与预设事件的对应关系
分段文本 预设事件
分段本文1 原发部位事件
分段本文2 肿瘤大小事件
分段本文3 转移事件
分段本文4 原发部位事件
分段本文5 肿瘤大小事件
分段本文6 转移事件
…… ……
分段文本40 原发部位事件
上述是对对应关系的示例性说明,本实施例对对应关系包括哪些分段文本 对应的预设事件不做限定。
本实施例,如果预设有分段文本与预设事件的对应关系,且该对应关系中 包括得到的部分分段文本对应的预设事件。也就是说根据该对应关系就能确定 部分分段文本分别对应着什么预设事件(以表2为例,能确定分段文本1-40 对应的预设事件),但不能确定另一部分分段文本分别对应着什么预设事件(以 表2为例,不能确定分段文本41-100分别对应的预设事件),因此也不能根据 对应关系直接找出与各预设事件相关的分段文本。
本实施例能够获知部分分段文本对应的预设事件,根据这些分段文本以及 对应的预设事件可以训练出一个分类模型,将没有对应关系的分段文本输入该 分类模型,输出结果作为该分段文本的事件。
本实施例对训练得到分类模型的具体方式不做限定,例如:
将有对应关系的分段文本以及对应的预设事件作为初始神经网络模型的 输入,将预测结果作为该初始神经网络模型的输出,对初始神经网络模型进行 训练,得到上述分类模型。
上述训练过程只是示例性说明,本实施例并不以此为限。
根据上述对应关系以及通过分类模型得到的没有对应关系的分段文本的 事件,就能确定得到的所有分段文本分别对应着什么预设事件,直接就能找出 与各预设事件相关的分段文本。
上述方案,样本检查报告的内容较多,难以确定与某一事件相关的文本, 通过预设分段方式将样本检查报告进行分段,将每个样本检查报告分成多个分 段本文,这样就得到了这些样本检查报告的分段文本,从而方便地确定与某一 预设事件相关的分段文本,从这些文本中能够较为准确地提取到该预设事件对 应的关联信息。
图3为本公开实施例提供的第二种得到关联信息的方法的示意流程图,如 图3所示,该方法可以包括:
步骤301:通过预设分段方式将样本检查报告进行分段,得到分段文本。
步骤302:将表征同一预设事件的分段文本组成一个预设集合。
该步骤301-302可参照上述步骤201-202的实现方式,此处不再赘述。
步骤303:针对任一预设集合,将在所述预设集合包含的分段文本中出现 次数大于预设次数的实词作为候选信息。
本实施例,一个预设集合包含的分段文本都对应了同一预设事件,如果某 一或者某些实词(如名词、动词、形容词等)在这些分段文本中出现次数较多, 那该实词很可能就是能够表征该预设事件发生的词。基于此,先将这些分段文 本中出现次数大于预设次数的实词选择出来作为候选信息。
其中,上述预设次数可以根据实际应用场景进行设定,本实施例对此不做 具体限定。
步骤304:确定所述候选信息在所述预设集合包含的分段文本中出现的概 率,将概率最大的前N个候选信息作为所述预设集合的关联信息,N为正整数; 或者将大于预设概率的候选信息作为所述预设集合的关联信息。
上述候选信息有可能只是在对应预设集合的小部分的分段文本中出现次 数较多,在其余分段文本中没有出现,这种候选信息并不能准确表征对应预设 事件发生;
上述候选信息也有可能在所有分段文本或者大部分分段文本中都出现了, 这种候选信息并能够较为准确地表征对应预设事件发生。
基于此,还需要确定上述候选信息在对应预设集合包含的分段文本中出现 的概率,即候选信息在对应预设集合的所有分段文本中都出现的概率,并选择 出现的概率较高的候选信息作为该预设集合的关联信息。例如:
一个预设集合对应的事件为原发部位事件,该预设集合有20个分段文本, 分别记作分段文本1、分段文本2、分段文本3、……分段文本20。从这20个 分段文本中出现的所有实词中,选择在出现次数大于预设次数的实词作为候选 信息(以选择了5个候选信息为例,记作候选信息1、候选信息2、候选信息3、 候选信息4和候选信息5)。
其中候选信息1在分段文本1、分段文本15出现次数较多,在分段文本 2-8也有出现,但是在其余分段文本中并没有出现,即候选信息1在9个分段 文本中出现了,候选信息1出现的概率A1=9/20=45%;
候选信息2在除分段文本1之外的分段文本中都有出现,即候选信息2在 19个分段文本中出现了,候选信息2出现的概率A2=19/20=95%;
候选信息3在所有分段文本中都有出现,候选信息3出现的概率 A3=20/20=100%;
候选信息4在除分段文本4、7之外的分段文本中都有出现,即候选信息4 在18个分段文本中出现了,候选信息4出现的概率A4=18/20=90%;
候选信息5在除分段文本2、6、8、9之外的分段文本中都有出现,即候 选信息5在16个分段文本中出现了,候选信息5出现的概率A5=16/20=80%。
按概率从大到小的对候选信息1-5进行排序,候选信息1排位为5,候选 信息2排位为2,候选信息3排位为1,候选信息4排位为3,候选信息5排位 为4。
如果将概率最大的前2个候选信息关联信息,就是将候选信息3和候选信 息2作为表征原发部位事件发生的关联信息;或者
如果将概率最大的前3个候选信息关联信息,就是将候选信息3、候选信 息2和候选信息4作为表征原发部位事件发生的关联信息;或者
如果预设概率为92%,候选信息3和候选信息2对应的概率大于92%,将 候选信息3和候选信息2作为表征原发部位事件发生的关联信息。
上述各项具体参数均是示例性说明,本实施例对各项具体参数(如预设集 合包含的分段文本的数量、候选信息的数量、预设概率等等)不做具体限定。
在一些具体的实施例中,上述关联信息可通过决策树算法得到,示例性的:
将上述预设集合的候选信息在该预设集合的所有分段文本中都出现作为 特征,构建决策树,由于决策树算法每一步都选择当前信息增益或信息增益比 最大的特征(即会每一步都会选择当前在该预设集合的所有分段文本中都出现 的概率最大的候选信息),因此先被选择的候选信息较后被选择的候选信息在 该预设集合的所有分段文本中都出现的概率要大,也就是说在决策树的构建过 程中已经按在该预设集合的所有分段文本中都出现的概率从大到小对候选信 息进行了排序,提高了选择关联信息的效率。
上述方案,一个预设集合包含的分段文本都对应了同一预设事件,如果某 一或者某些实词在这些分段文本中出现次数较多,那该实词很可能就是能够表 征该预设事件发生的词,先将这些分段文本中出现次数大于预设次数的实词选 择出来作为候选信息。上述候选信息有可能只是在对应预设集合的小部分的分 段文本中出现次数较多,在其余分段文本中没有出现,这种候选信息并不能准 确表征对应预设事件发生,通过确定上述候选信息在对应预设集合包含的分段 文本中出现的概率,并选择出现概率较高的候选信息,从而得到能够精准表征 预设事件发生的关联信息。
在一些实施例中,可以确定上述关联信息在预设集合包含的分段文本中出 现的概率,图4为本公开实施例提供的第二种事件确定方法的示意流程图,如 图4所示,该方法可以包括:
步骤401:针对任一预设事件,按照概率从大到小的顺序将所述待处理检 查报告与所述预设事件对应的关联信息进行比对。
如上所述,一个预设事件可能对应着多个关联信息,在这种场景中如果已 经确定待处理检查报告包含该预设事件的一个关联信息,就没有必要再将待处 理检查报告与该预设事件的其他关联信息比对。因此,比对顺序会直接影响比 对效率。通过将一个预设事件的所有关联信息,按照当发生预设事件时包含该 关联信息的概率由大到小进行排序,基于该排序将待处理检查报告与该预设事 件的关联信息进行比对,就能提高比对效率。
参阅图3实施例,确定了候选信息在预设集合包含的分段文本中出现的概 率,即确定了一个预设集合的关联信息在预设集合包含的分段文本中出现的概 率,这个概率反映了当发生对应预设事件时包含该关联信息的概率。如:
一个关联信息在预设集合包含的分段文本中出现的概率高,当待处理检查 报告有对应的预设事件时,大概率会包含该关联信息;
一个关联信息在预设集合包含的分段文本中出现的概率低,当待处理检查 报告有对应的预设事件时,很可能不包含该关联信息。
步骤402:在确定所述待处理检查报告包含所述预设事件对应的一个关联 信息后,停止将所述待处理检查报告与所述预设事件对应的其他关联信息进行 比对。
如上所述,如果已经确定待处理检查报告包含预设事件的一个关联信息, 就能确定该待处理检查报告对应该预设事件,没有必要在将待处理检查报告与 该预设事件的其他关联信息比对。还是以上述将候选信息3、候选信息2和候 选信息4作为表征原发部位事件发生的关联信息为例:
候选信息3在上述预设集合包含的分段文本中出现的概率为100%,候选 信息2在上述预设集合包含的分段文本中出现的概率为95%,候选信息4在上 述预设集合包含的分段文本中出现的概率为90%。如果待处理检查报告对应原 发部位事件时,大概率会包含该候选信息3,因此,先将待处理检查报告与候 选信息3进行比对,如果确定待处理检查报告包含候选信息3,就确定待处理 检查报告对应原发部位事件,无需再将待处理检查报告与候选信息2、候选信 息4进行比对。如果确定待处理检查报告不包含候选信息3,再将待处理检查 报告与候选信息2进行比对,如果确定待处理检查报告包含候选信息2,就无 需再将待处理检查报告与候选信息4进行比对。如果确定待处理检查报告不包 含候选信息2,再将待处理检查报告与候选信息4进行比对。待处理检查报告 不包含候选信息3、候选信息2和候选信息4中任一候选信息,说明待处理检 查报告不对应该预设事件,将待处理报告与下一预设事件对应的关联信息比对。
上述比对过程只是示例性说明,本实施例对预设事件对应的关联信息数量 和在对应预设集合包含的分段文本中出现的概率不做具体限定。
步骤403:确定所述待处理检查报告包含的关联信息。
步骤404:将确定的所述关联信息对应的预设事件作为所述待处理检查报 告的事件。
该步骤403-404的实现方式可参照与上述步骤101-102实现方式,此处不 再赘述。
上述方案,关联信息在对应预设集合包含的分段文本中出现的概率高,当 发生对应预设事件时包含该关联信息的概率也高,当待处理检查报告对应这个 预设事件时,大概率会包含该关联信息,通过先将待处理检查报告与出现的概 率高的关联信息进行比对,如果确定待处理检查报告包含关联信息,就确定该 待处理检查报告对应该预设事件,无需再将待处理检查报告与该预设事件的其 他关联信息进行比对,提高了比对效率,节省了比对过程占用的资源。
如图5所示,基于相同的发明构思,本公开实施例提供一种事件确定装置 500,包括:
关联信息确定模块501,用于将待处理检查报告与多个关联信息进行比对, 确定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预 设事件发生的信息;
事件确定模块502,用于将确定的所述关联信息对应的预设事件作为所述 待处理检查报告的事件。
在一些可选的实施方式中,关联信息确定模块501还用于通过以下方式得 到所述关联信息:
通过预设分段方式将样本检查报告进行分段,得到分段文本;
将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含 的分段文本确定所述关联信息。
在一些可选的实施方式中,关联信息确定模块501将表征同一预设事件的 分段文本组成一个预设集合,包括:
若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的 语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成 一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的 所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分 段文本组成一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的 部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没 有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个 预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设 事件训练得到的。
在一些可选的实施方式中,若没有预设分段文本与预设事件的对应关系, 则关联信息确定模块501在得到预设集合之后,还用于:
响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件 作为所述预设集合对应的预设事件。
在一些可选的实施方式中,关联信息确定模块501根据预设集合包含的分 段文本确定所述关联信息,包括:
针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预 设次数的实词作为候选信息;
确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率 最大的前N个候选信息作为所述预设集合的关联信息,N为正整数;或者将大 于预设概率的候选信息作为所述预设集合的关联信息。
在一些可选的实施方式中,关联信息确定模块501将待处理检查报告与多 个关联信息进行比对,包括:
针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所 述预设事件对应的关联信息进行比对;
在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停 止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。
由于该装置即是本公开实施例中的方法中的装置,并且该装置解决问题的 原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘 述。
如图6所示,基于相同的发明构思,本公开实施例提供一种电子设备600, 包括:处理器601和存储器602;
存储器602,用于存储处理器601执行的计算机程序。存储器602可以是 易失性存储器(volatile memory),例如随机存取存储器(random-access memory, RAM);存储器602也可以是非易失性存储器(non-volatile memory),例如只 读存储器,快闪存储器(flashmemory),硬盘(hard disk drive,HDD)或固态 硬盘(solid-state drive,SSD)、或者存储器602是能够用于携带或存储具有指 令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但 不限于此。存储器602可以是上述存储器的组合。
处理器601,可以包括一个或多个中央处理单元(central processing unit,CPU),图形处理单元(Graphics Processing Unit,GPU)或者为数字处理单元 等等。
本公开实施例中不限定上述存储器602和处理器601之间的具体连接介质。 本公开实施例在图6中以存储器602和处理器601之间通过总线603连接,总 线603在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明, 并不引以为限。所述总线603可以分为地址总线、数据总线、控制总线等。为 便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的 总线。
其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时, 使得所述处理器601执行下列过程:
将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包 含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;
将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。
在一些可选的实施方式中,所述处理器601还用于:
通过预设分段方式将样本检查报告进行分段,得到分段文本;
将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含 的分段文本确定所述关联信息。
在一些可选的实施方式中,所述处理器601具体用于:
若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的 语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成 一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的 所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分 段文本组成一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的 部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没 有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个 预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设 事件训练得到的。
在一些可选的实施方式中,若没有预设分段文本与预设事件的对应关系, 所述处理器601还用于:
在得到预设集合之后,响应针对所述预设集合的事件标识指令,将所述事 件标识指令包含的事件作为所述预设集合对应的预设事件。
在一些可选的实施方式中,所述处理器601具体用于:
针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预 设次数的实词作为候选信息;
确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率 最大的前N个候选信息作为所述预设集合的关联信息,N为正整数;或者将大 于预设概率的候选信息作为所述预设集合的关联信息。
在一些可选的实施方式中,所述处理器601具体用于:
针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所 述预设事件对应的关联信息进行比对;
在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停 止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。
由于该电子设备即是执行本公开实施例中的方法的电子设备,并且该电子 设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见方法的实 施,重复之处不再赘述。
本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该 程序被处理器执行时实现如上述事件确定方法的步骤。其中,可读存储介质可 以为非易失可读存储介质。
以上参照示出根据本公开实施例的方法、装置(系统)和/或计算机程序产 品的框图和/或流程图描述本公开。应理解,可以通过计算机程序指令来实现框 图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这 些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程事 件确定装置,以产生机器,使得经由计算机处理器和/或其它可编程事件确定装 置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。
相应地,还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施 本公开。更进一步地,本公开可以采取计算机可使用或计算机可读存储介质上 的计算机程序产品的形式,其具有在介质中实现的计算机可使用或计算机可读 程序代码,以由指令执行系统来使用或结合指令执行系统而使用。在本公开上 下文中,计算机可使用或计算机可读介质可以是任意介质,其可以包含、存储、 通信、传输、或传送程序,以由指令执行系统、装置或设备使用,或结合指令 执行系统、装置或设备使用。
尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公 开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及 其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

Claims (10)

1.一种事件确定方法,其特征在于,所述方法包括:
将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;
将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。
2.根据权利要求1所述的方法,其特征在于,通过以下方式得到所述关联信息:
通过预设分段方式将样本检查报告进行分段,得到分段文本;
将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含的分段文本确定所述关联信息。
3.根据权利要求2所述的方法,其特征在于,将表征同一预设事件的分段文本组成一个预设集合,包括:
若没有预设分段文本与预设事件的对应关系,则对得到的所有分段文本的语义向量进行聚类,得到多组语义向量;将各组语义向量对应的分段文本组成一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的所有分段文本对应的预设事件,则根据所述对应关系将同一预设事件对应的分段文本组成一个预设集合;或者
若预设有分段文本与预设事件的对应关系,且所述对应关系中包括得到的部分分段文本对应的预设事件,则根据所述对应关系以及通过分类模型得到没有对应关系的分段文本的预设事件,将同一预设事件对应的分段文本组成一个预设集合,其中,所述分类模型是通过有对应关系的分段文本以及对应的预设事件训练得到的。
4.根据权利要求3所述的方法,其特征在于,若没有预设分段文本与预设事件的对应关系,则在得到预设集合之后,还包括:
响应针对所述预设集合的事件标识指令,将所述事件标识指令包含的事件作为所述预设集合对应的预设事件。
5.根据权利要求2所述的方法,其特征在于,根据预设集合包含的分段文本确定所述关联信息,包括:
针对任一预设集合,将在所述预设集合包含的分段文本中出现次数大于预设次数的实词作为候选信息;
确定所述候选信息在所述预设集合包含的分段文本中出现的概率,将概率最大的前N个候选信息作为所述预设集合的关联信息,N为正整数;或者将大于预设概率的候选信息作为所述预设集合的关联信息。
6.根据权利要求5所述的方法,其特征在于,将待处理检查报告与多个关联信息进行比对,包括:
针对任一预设事件,按照概率从大到小的顺序将所述待处理检查报告与所述预设事件对应的关联信息进行比对;
在确定所述待处理检查报告包含所述预设事件对应的一个关联信息后,停止将所述待处理检查报告与所述预设事件对应的其他关联信息进行比对。
7.一种事件确定装置,其特征在于,该装置包括:
关联信息确定模块,用于将待处理检查报告与多个关联信息进行比对,确定所述待处理检查报告包含的关联信息,其中所述关联信息为表征对应的预设事件发生的信息;
事件确定模块,用于将确定的所述关联信息对应的预设事件作为所述待处理检查报告的事件。
8.根据权利要求7所述的装置,其特征在于,关联信息确定模块还用于通过以下方式得到所述关联信息:
通过预设分段方式将样本检查报告进行分段,得到分段文本;
将表征同一预设事件的分段文本组成一个预设集合,并根据预设集合包含的分段文本确定所述关联信息。
9.一种电子设备,其特征在于,包括一个或多个处理器,以及用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1~6中任一项所述的事件确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1~6中任一项所述的事件确定方法。
CN202011508996.9A 2020-12-18 2020-12-18 一种事件确定方法、装置、电子设备和存储介质 Pending CN113160963A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011508996.9A CN113160963A (zh) 2020-12-18 2020-12-18 一种事件确定方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011508996.9A CN113160963A (zh) 2020-12-18 2020-12-18 一种事件确定方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113160963A true CN113160963A (zh) 2021-07-23

Family

ID=76882614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011508996.9A Pending CN113160963A (zh) 2020-12-18 2020-12-18 一种事件确定方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113160963A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915345A (zh) * 2014-03-11 2015-09-16 华为技术有限公司 一种推荐服务信息的方法和终端
CN108319605A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 医学检查数据的结构化处理方法及系统
CN108920453A (zh) * 2018-06-08 2018-11-30 医渡云(北京)技术有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN109065110A (zh) * 2018-07-11 2018-12-21 哈尔滨工业大学 一种基于深度学习方法的自动生成医学影像诊断报告的方法
CN109935294A (zh) * 2019-02-19 2019-06-25 广州视源电子科技股份有限公司 一种文本报告输出方法、装置、存储介质及终端
CN110060022A (zh) * 2019-03-12 2019-07-26 杭州华卓信息科技有限公司 一种医学胶片智能打印方法及系统
CN110362797A (zh) * 2019-06-14 2019-10-22 哈尔滨工业大学(深圳) 一种研究报告生成方法及相关设备
CN110517767A (zh) * 2019-08-27 2019-11-29 北京百度网讯科技有限公司 辅助诊断方法、装置、电子设备及存储介质
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN111063410A (zh) * 2019-12-20 2020-04-24 京东方科技集团股份有限公司 一种医学影像文本报告的生成方法及装置
CN111814478A (zh) * 2020-07-08 2020-10-23 泰康保险集团股份有限公司 影像学检查报告结构化方法及装置
CN112036169A (zh) * 2020-09-02 2020-12-04 深圳前海微众银行股份有限公司 事件识别模型优化方法、装置、设备及可读存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915345A (zh) * 2014-03-11 2015-09-16 华为技术有限公司 一种推荐服务信息的方法和终端
CN108319605A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 医学检查数据的结构化处理方法及系统
CN108920453A (zh) * 2018-06-08 2018-11-30 医渡云(北京)技术有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN109065110A (zh) * 2018-07-11 2018-12-21 哈尔滨工业大学 一种基于深度学习方法的自动生成医学影像诊断报告的方法
CN109935294A (zh) * 2019-02-19 2019-06-25 广州视源电子科技股份有限公司 一种文本报告输出方法、装置、存储介质及终端
CN110060022A (zh) * 2019-03-12 2019-07-26 杭州华卓信息科技有限公司 一种医学胶片智能打印方法及系统
CN110362797A (zh) * 2019-06-14 2019-10-22 哈尔滨工业大学(深圳) 一种研究报告生成方法及相关设备
CN110517767A (zh) * 2019-08-27 2019-11-29 北京百度网讯科技有限公司 辅助诊断方法、装置、电子设备及存储介质
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN111063410A (zh) * 2019-12-20 2020-04-24 京东方科技集团股份有限公司 一种医学影像文本报告的生成方法及装置
CN111814478A (zh) * 2020-07-08 2020-10-23 泰康保险集团股份有限公司 影像学检查报告结构化方法及装置
CN112036169A (zh) * 2020-09-02 2020-12-04 深圳前海微众银行股份有限公司 事件识别模型优化方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109933656B (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
CN105760474B (zh) 一种基于位置信息的文档集的特征词提取方法及系统
JP2005158010A (ja) 分類評価装置・方法及びプログラム
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN109299263B (zh) 文本分类方法、电子设备
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
US20200334410A1 (en) Encoding textual information for text analysis
CN111259660A (zh) 基于文本对的关键词抽取方法、装置、设备及存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
Jung et al. Devil's on the edges: Selective quad attention for scene graph generation
CN107894979B (zh) 用于语义挖掘的复合词处理方法、装置及其设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN113934848B (zh) 一种数据分类方法、装置和电子设备
WO2021000400A1 (zh) 导诊相似问题对生成方法、系统及计算机设备
CN110909040A (zh) 一种业务投放辅助方法、装置及电子设备
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN116227573B (zh) 分割模型训练方法、图像分割方法、装置及相关介质
CN110287270B (zh) 实体关系挖掘方法及设备
CN116484829A (zh) 用于信息处理的方法和设备
CN113160963A (zh) 一种事件确定方法、装置、电子设备和存储介质
CN113486169B (zh) 基于bert模型的同义语句生成方法、装置、设备及存储介质
CN104573027B (zh) 一种从文档集中挖掘特征词的系统和方法
CN114491038A (zh) 一种基于会话场景的流程挖掘方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723