CN109522551A - 实体链接方法、装置、存储介质及电子设备 - Google Patents

实体链接方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN109522551A
CN109522551A CN201811330154.1A CN201811330154A CN109522551A CN 109522551 A CN109522551 A CN 109522551A CN 201811330154 A CN201811330154 A CN 201811330154A CN 109522551 A CN109522551 A CN 109522551A
Authority
CN
China
Prior art keywords
entity
linked
standard
semantic
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811330154.1A
Other languages
English (en)
Other versions
CN109522551B (zh
Inventor
刘旭
刘学梁
王琛
季思伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Happy Life Technology Co Ltd
Tianjin Xinkai Life Technology Co Ltd
Original Assignee
Tianjin Happy Life Technology Co Ltd
Tianjin Xinkai Life Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happy Life Technology Co Ltd, Tianjin Xinkai Life Technology Co Ltd filed Critical Tianjin Happy Life Technology Co Ltd
Priority to CN201811330154.1A priority Critical patent/CN109522551B/zh
Publication of CN109522551A publication Critical patent/CN109522551A/zh
Application granted granted Critical
Publication of CN109522551B publication Critical patent/CN109522551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种实体链接方法、实体链接装置、计算机可读存储介质及电子设备,实体链接方法包括:从医疗文本中提取待链接实体;在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;将所述待链接实体链接至所述候选集合中的语义相关性评分最高的标准词条。本公开通过对临床中具有不同表达方式的医学术语进行语义识别以将待链接实体链接至最接近的标准词条,提高了实体链接方法的效率和准确率。

Description

实体链接方法、装置、存储介质及电子设备
技术领域
本公开涉及数据处理技术领域,具体涉及一种实体链接方法、实体链接装置、计算机可读存储介质及电子设备。
背景技术
在临床病历大数据的处理中,由于地域、医院、医生、标准等差异,同一实体往往有大量不同的表达方式,只有精确地识别出同一种实体,针对有限的实体空间,才能有效的对数据进行统计和计算。因此,医学术语实体链接是数据处理过程中一个必不可少的部分。
现有的实体链接方法一般是通过分类等算法降低候选数量,然后通过相似度计算得到最接近的候选。作为现有实体链接系统的核心算法,相似度计算一般是通过建模事物特征,将特征转化为向量,再通过计算向量距离来衡量相似的程度。
在现有的实体链接方法中,一般需要大量的标注语料,而专业的医学知识难以加入到特征中用于计算。另外,基于相似度计算的实体链接方法可以很好的处理候选差异较大的情况,但是在面对候选相近的情况时通常很难处理。尤其是基于神经网络的算法,不能很好地利用医学相关知识,算法的计算过程也无法解释。因此,在针对医学领域的大数据处理中,亟需一种医学术语实体链接方法,以解决上述问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种实体链接方法、实体链接装置、计算机可读存储介质及电子设备,进而至少在一定程度上解决由于相关技术的限制和缺陷而导致的处理难度大、可解释性差、成本高以及难以管理和使用专业医学知识等技术问题。
根据本公开的一个方面,提供一种实体链接方法,其特殊之处在于,包括:
从医疗文本中提取待链接实体;
在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;
通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;
将所述待链接实体链接至所述候选集合中的语义相关性评分最高的标准词条。
在本公开的一种示例性实施例中,所述在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的集合包括:
对所述待链接实体进行分词处理得到一个或者多个分词单元;
在标准词条数据库中筛选得到与所述待链接实体的分词单元具有匹配特征的标准词条的集合。
在本公开的一种示例性实施例中,在步骤在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合之后,所述方法还包括:
在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条。
在本公开的一种示例性实施例中,在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条包括:
对所述待链接实体进行语义角色标注,得到核心语义特征;
通过比较所述核心语义特征,在所述标准词条的候选集合中滤除与所述待链接实体语义不符的标准词条。
在本公开的一种示例性实施例中,所述比较所述核心语义特征包括:
利用知识图谱对所述核心语义特征的兼容性进行语义检查。
在本公开的一种示例性实施例中,所述通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分包括:
建立翻译模型;
通过所述翻译模型计算所述候选集合中各个标准词条的翻译概率;
根据所述翻译概率为各个标准词条提供语义相关性评分。
在本公开的一种示例性实施例中,所述建立翻译模型包括:
利用第一算法建立第一翻译模型;
利用第二算法建立第二翻译模型;
对所述第一翻译模型和所述第二翻译模型进行插值,以得到用于语义相关性评分的翻译模型。
根据本公开的一个方面,提供一种实体链接装置,其特殊之处在于,包括:
提取模块,被配置为从医疗文本中提取待链接实体;
筛选模块,被配置为在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;
评分模块,被配置为通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;
链接模块,被配置为将所述待链接实体链接至语义相关性评分最高的标准词条。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现以上任一所述的实体链接方法。
根据本公开的一个方面,提供一种电子设备,其特殊之处在于,包括处理器和存储器;其中,存储器用于存储所述处理器的可执行指令,所述处理器被配置为经由执行所述可执行指令来执行以上任一所述的实体链接方法。
本公开实施例所提供的实体链接方法通过多层模型计算仿真人工的归一处理过程,为医疗文本中的每个待链接实体输出若干标准词条形成候选集合,并对候选集合中的标准词条进行语义相关性评分,通过对临床中具有不同表达方式的医学术语进行语义识别以将待链接实体链接至最接近的标准词条,提高了实体链接方法的效率和准确率。除此之外,本公开所提供的实体链接方法可以挖掘出训练数据中的医学知识,结合医疗大数据生成的知识图谱,弥补缺少标注数据的问题,降低了实体链接的成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中实体链接方法的步骤流程图。
图2示意性示出本公开示例性实施例中实体链接方法的步骤流程图。
图3示意性示出本公开示例性实施例中实体链接方法的步骤流程图。
图4示意性示出本公开示例性实施例中实体链接方法的步骤流程图。
图5示意性示出本公开示例性实施例中实体链接装置的组成框图。
图6示意性示出本公开示例性实施例中一种程序产品的示意图。
图7示意性示出本公开示例性实施例中一种电子设备的模块示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开的示例性实施例中首先提供一种实体链接方法,如图1所示,该方法主要可以包括以下步骤:
步骤S10.从医疗文本中提取待链接实体。
在本示例性实施例中,医疗文本主要指的是医疗活动过程中产生的需要进行实体链接的文本数据,例如可以是病历、医嘱、护理文书、检查报告等医疗活动记录文本。本步骤首先从医疗文本中提取待链接实体,以作为后续数据处理的基础。其中,待链接实体主要指的是具有不同表达方式的医学术语,例如可以是手术名称、诊断方法、治疗方法等等。
步骤S20.在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合。
由步骤S10获得待链接实体后,本步骤根据所述待链接实体的特征,在标准词条数据库中进行筛选以得到所有与之具有匹配关系的标准词条,筛选得到的所有标准词条共同组成一候选集合。其中,待链接实体的特征可以是其自身的结构特征、词性特征、语义特征以及在医疗文本中的上下文特征等等具有标识作用和区分功能的任意特征。
如图2所示,作为一种优选实施方式,步骤S20可以进一步包括以下步骤:
步骤S21.对所述待链接实体进行分词处理得到一个或者多个分词单元。
本步骤可以通过建立条件随机场模型来实现串的序列标注,进而完成对所述待链接实体的分词处理以得到一个或者多个分词单元。该条件随机场模型使用了文本的上下文特征和语义特征,由于临床概念在语言表现上有明显的模式,因此可以达到比较好的切分效果。
步骤S22.在标准词条数据库中筛选得到与所述待链接实体的分词单元具有匹配特征的标准词条的集合。
举例而言,本步骤可以建立基于N-gram算法的搜索模型,在数据量庞大的标准词条数据库中,通过N-gram特征的筛选可以有效降低后续模型的答案空间,从而提升整个实体链接流程的效率。例如,该搜索模型可以首先抽取所有训练数据中待链接实体的5阶N-gram特征,建立特征与候选标准词条间的倒排,包含候选越多的特征权重值越低。搜索时计算待链接实体所有特征的权重之和,即得到待归一短语得分,可以作为搜索相似度得分用于最终的计算。
步骤S40.通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分。
为了提高链接的全面性和有效程度,在步骤S20中所获得的候选集合中通常包括有大量的标准词条,其中每个词条都与待链接实体具有一个或者多个匹配特征。因此,本步骤可以建立基于机器学习算法的预设模型,将所述候选集合中的标准词条输入至该预设模型中,由预设模型进行分析处理后,可以得到每个标准词条的语义相关性评分。本示例性实施例中的语义相关性评分主要体现了标准词条与待链接实体的语义相关程度,而在其他实施例中,也可以采用其他评分方式实现对候选集合中大量标准词条的差异性标识,本公开对此不做特殊限定。
步骤S50.将所述待链接实体链接至所述候选集合中的语义相关性评分最高的标准词条。
根据步骤S40中得到的语义相关性评分结果,可以输出评分最高的标准词条,本步骤将待链接实体链接至该评分最高的标准词条。
本实施例所提供的实体链接方法通过多层模型计算仿真人工的归一处理过程,为医疗文本中的每个待链接实体输出若干标准词条形成候选集合,并对候选集合中的标准词条进行语义相关性评分,通过对临床中具有不同表达方式的医学术语进行语义识别以将待链接实体链接至最接近的标准词条,提高了实体链接方法的效率和准确率。
在一些示例性实施例中,由步骤S30获得语义相关性评分后还可以根据该评分的高低对候选集合中的各个标准词条进行排序,然后按照指定标准输出一定数量的标准词条,或者输出语义相关性评分高于某一阈值的标准词条。相应地,在步骤S50之后还可以包括以下步骤:
步骤S60.建立一用于计算语义置信度的判别模型,将候选集合中的语义相关性评分最高的标准词条输入至判别模型中进行语义完整性检查。如果检查结果不能满足指定的先验条件,则在候选集合中删除该标准词条,然后重新执行步骤S50。亦即将待链接实体链接至原候选集合中评分第二高的标准词条。而如果评分第二高的标准词条也不能通过语义置信度的判别模型,则将待链接实体链接至原候选集合中评分第三高的标准词条,以此类推直至获得准确的链接结果。该判别模型可以是根据大量归到相同标准词条中的实体信息,建立起标准词条中特征词的先验模型。利用该先验模型可以计算出候选的标准词条与准确的标准词条间的语义关系,从而有效地排除语义不一致的情况,提高实体链接的准确性。
为了进一步提高实体链接效率和准确率,在前述示例性实施例的基础上,步骤S20之后还可以包括以下步骤:
步骤S30.在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条。
通常情况下,经过步骤S20筛选得到的候选集合仍然包含较多数量的作为候选的标准词条。例如在N-gram筛选算法中,只要有部分特征匹配就可以参与候选的竞争,这一算法可以保证候选集合的全面性,但较多干扰项的存在将影响实体链接的效率和准确率。在待链接实体中往往包含一些核心语义特征,比如手术名称中的解剖部位和术式,诊断中的解剖部分和病变等。通常只要检测出核心语义特征,就可以把核心语义特征不匹配的候选过滤掉。据此,可以有效地降低后续流程的混淆度,达到提升准确率的目的。
如图3所示,作为一种优选实施方式,步骤S30可以进一步包括以下步骤:
步骤S31.对所述待链接实体进行语义角色标注,得到核心语义特征。
利用语义词典(比如解剖词列表,术式列表等医学术语的)和临床数据,可以自动地把出现过的语义成分标注出来,形成条件随机场算法(CRF)可以使用的训练样本。得到训练样本之后,CRF即可训练出对应的语义角色标注模型。利用该模型可标注出待链接实体中的对应语义成分,并从中得到核心语义特征。
步骤S32.通过比较所述核心语义特征,在所述标准词条的候选集合中滤除与所述待链接实体语义不符的标准词条。
通过步骤S31中建立的语义角色标注模型可以分别得到待链接实体和候选集合中的标准词条中的核心语义特征,将候选集合中的标准词条的核心语义特征与待链接实体的核心语义特征进行比较,从而决定是否对候选集合中的某项标准词条进行过滤。
核心语义特征的比较不能直接利用字符串来进行比较,而是需要借助于知识图谱进行语义比较,即利用知识图谱对核心语义特征的兼容性进行语义检查。知识图谱中包含有核心语义特征之间的关系和打分,是由专业人员梳理和确认的医学知识。
参见图4,在本公开的另一示例性实施例中,步骤S40可以进一步包括以下步骤:
步骤S41.建立翻译模型。
翻译模型的建立可以包括:利用第一算法建立第一翻译模型;利用第二算法建立第二翻译模型;对所述第一翻译模型和所述第二翻译模型进行插值,以得到用于语义相关性评分的翻译模型。
其中,第一翻译模型的建立可以是完全利用归一并行语料,根据词之间的共现统计关系,利用最大期望(EM)算法和隐马尔科夫模型来对齐;对齐之后再利用启发性算法对共现片断进行短语提取,并进行统计生成对应的翻译模型。第二翻译模型的建立可以是利用知识图谱中的同义关系先对词进行对齐,然后再进行句法分析,在词对齐的基础上对各种相同的结构也进行对齐,对齐后再提取短语并生成对应的翻译模型;然后将两种不同算法建立的翻译模型进行插值即可得到用于语义相关性评分的翻译模型。
步骤S42.通过所述翻译模型计算所述候选集合中各个标准词条的翻译概率。
由步骤S41建立翻译模型之后,利用该翻译模型可以计算出任意短语对之间的翻译概率,亦即可以计算得出所述候选集合中各个标准词条的翻译概率。
步骤S43.根据所述翻译概率为各个标准词条提供语义相关性评分。
本步骤中可以将翻译概率可以作为候选标准词条排序的主要特征。而排序过程中除了翻译概率以外,还可以引入N-gram特征、先验概率、短语结构相似度、BM25特征等等。由多种特征共同决定候选标准词条的排序,将得分最高的候选标准词条输出作为答案。
本实施例利用翻译模型与知识图谱相结合的方式计算相似度,相比于其他相似度计算方式可以有效利用专业的医学知识,同时提供了良好的可解释性。
需要说明的是,虽然以上示例性实施例以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或者必须执行全部的步骤才能实现期望的结果。附加地或者备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的示例性实施例中,还提供一种实体链接装置,如图5所示,实体链接装置50主要可以包括提取模块51、筛选模块52、评分模块53和链接模块54。其中,提取模块51被配置为从医疗文本中提取待链接实体;筛选模块52被配置为在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;评分模块53被配置为通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;链接模块54被配置为将所述待链接实体链接至语义相关性评分最高的标准词条。
上述实体链接装置的具体细节已经在对应的实体链接方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可实现本公开的上述的实体链接方法。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码;该程序产品可以存储在一个非易失性存储介质(可以是CD-ROM、U盘或者移动硬盘等)中或网络上;当所述程序产品在一台计算设备(可以是个人计算机、服务器、终端装置或者网络设备等)上运行时,所述程序代码用于使所述计算设备执行本公开中上述各示例性实施例中的方法步骤。
参见图6所示,根据本公开的实施方式的用于实现上述方法的程序产品60,其可以采用便携式紧凑磁盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备(例如个人计算机、服务器、终端装置或者网络设备等)上运行。然而,本公开的程序产品不限于此。在本示例性实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或者多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。
可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件、或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任意可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户计算设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN)等)连接到用户计算设备;或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
在本公开的示例性实施例中,还提供一种电子设备,所述电子设备包括至少一个处理器以及至少一个用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为经由执行所述可执行指令来执行本公开中上述各示例性实施例中的方法步骤。
下面结合图7对本示例性实施例中的电子设备700进行描述。电子设备700仅仅为一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
参见图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括处理单元710和存储单元720)的总线730、显示单元740。
其中,存储单元720存储有程序代码,所述程序代码可以被处理单元710执行,使得处理单元710执行本公开中上述各示例性实施例中的方法步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元721(RAM)和/或高速缓存存储单元722,还可以进一步包括只读存储单元723(ROM)。
存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用各种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信,还可以与一个或者多个使得用户可以与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其他计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)、广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器760可以通过总线730与电子设备700的其他模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
上述所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中,如有可能,各实施例中所讨论的特征是可互换的。在上面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组件、材料等。在其它情况下,不详细示出或描述公知结构、材料或者操作以避免模糊本公开的各方面。

Claims (10)

1.一种实体链接方法,其特征在于,包括:
从医疗文本中提取待链接实体;
在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;
通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;
将所述待链接实体链接至所述候选集合中的语义相关性评分最高的标准词条。
2.根据权利要求1所述的实体链接方法,其特征在于,所述在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的集合包括:
对所述待链接实体进行分词处理得到一个或者多个分词单元;
在标准词条数据库中筛选得到与所述待链接实体的分词单元具有匹配特征的标准词条的集合。
3.根据权利要求1所述的实体链接方法,其特征在于,在步骤在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合之后,所述方法还包括:
在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条。
4.根据权利要求1所述的实体链接方法,其特征在于,在所述标准词条的候选集合中通过语义分析滤除与所述待链接实体语义不符的标准词条包括:
对所述待链接实体进行语义角色标注,得到核心语义特征;
通过比较所述核心语义特征,在所述标准词条的候选集合中滤除与所述待链接实体语义不符的标准词条。
5.根据权利要求4所述的实体链接方法,其特征在于,所述比较所述核心语义特征包括:
利用知识图谱对所述核心语义特征的兼容性进行语义检查。
6.根据权利要求1所述的实体链接方法,其特征在于,所述通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分包括:
建立翻译模型;
通过所述翻译模型计算所述候选集合中各个标准词条的翻译概率;
根据所述翻译概率为各个标准词条提供语义相关性评分。
7.根据权利要求6所述的实体链接方法,其特征在于,所述建立翻译模型包括:
利用第一算法建立第一翻译模型;
利用第二算法建立第二翻译模型;
对所述第一翻译模型和所述第二翻译模型进行插值,以得到用于语义相关性评分的翻译模型。
8.一种实体链接装置,其特征在于,包括:
提取模块,被配置为从医疗文本中提取待链接实体;
筛选模块,被配置为在标准词条数据库中筛选得到与所述待链接实体具有匹配特征的标准词条的候选集合;
评分模块,被配置为通过预设模型为所述候选集合中的各个标准词条提供语义相关性评分;
链接模块,被配置为将所述待链接实体链接至语义相关性评分最高的标准词条。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的实体链接方法。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7任意一项所述的实体链接方法。
CN201811330154.1A 2018-11-09 2018-11-09 实体链接方法、装置、存储介质及电子设备 Active CN109522551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811330154.1A CN109522551B (zh) 2018-11-09 2018-11-09 实体链接方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811330154.1A CN109522551B (zh) 2018-11-09 2018-11-09 实体链接方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109522551A true CN109522551A (zh) 2019-03-26
CN109522551B CN109522551B (zh) 2024-02-20

Family

ID=65773236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811330154.1A Active CN109522551B (zh) 2018-11-09 2018-11-09 实体链接方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109522551B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442727A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于跨语言知识链接的领域本体质量控制方法
CN110569328A (zh) * 2019-07-31 2019-12-13 平安科技(深圳)有限公司 实体链接方法、电子装置及计算机设备
CN110866836A (zh) * 2019-11-14 2020-03-06 支付宝(杭州)信息技术有限公司 计算机执行的医疗保险立案审核方法和装置
CN110928894A (zh) * 2019-11-18 2020-03-27 精硕科技(北京)股份有限公司 实体对齐的方法及装置
CN111160012A (zh) * 2019-12-26 2020-05-15 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111613341A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于语义成分的实体链接方法及装置
CN112185574A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 远程医疗实体链接的方法、装置、设备及存储介质
CN112380865A (zh) * 2020-11-10 2021-02-19 北京小米松果电子有限公司 识别文本中的实体方法、装置及存储介质
CN112463895A (zh) * 2020-12-01 2021-03-09 零氪科技(北京)有限公司 基于药物名称挖掘自动发现药物成分的方法和装置
CN112528644A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN112800213A (zh) * 2021-01-26 2021-05-14 北京壹永科技有限公司 医学文本信息显示方法、装置及电子设备
CN112800759A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据的生成方法、医学文本数据的处理方法和装置
CN112905917A (zh) * 2021-02-09 2021-06-04 北京百度网讯科技有限公司 内链生成方法、模型训练方法、相关装置及电子设备
CN113220841A (zh) * 2021-05-17 2021-08-06 北京百度网讯科技有限公司 确定鉴别信息的方法、装置、电子设备和存储介质
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114550885A (zh) * 2021-12-28 2022-05-27 杭州火树科技有限公司 基于联邦式关联规则挖掘的主诊断与主手术匹配检测方法和系统
CN112800213B (zh) * 2021-01-26 2024-06-07 北京壹永科技有限公司 医学文本信息显示方法、装置及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN104346446A (zh) * 2014-10-27 2015-02-11 百度在线网络技术(北京)有限公司 一种基于知识图谱的论文关联信息推荐方法及装置
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104750795A (zh) * 2015-03-12 2015-07-01 北京云知声信息技术有限公司 一种智能语义检索系统和方法
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN106168965A (zh) * 2016-07-01 2016-11-30 竹间智能科技(上海)有限公司 知识图谱构建系统
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN106705974A (zh) * 2016-12-30 2017-05-24 华北电力大学(保定) 一种非受限路径自然语言的语义角色标注及语义提取方法
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN108491375A (zh) * 2018-03-02 2018-09-04 复旦大学 基于CN-DBpedia的实体识别与链接系统和方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN104346446A (zh) * 2014-10-27 2015-02-11 百度在线网络技术(北京)有限公司 一种基于知识图谱的论文关联信息推荐方法及装置
CN104750795A (zh) * 2015-03-12 2015-07-01 北京云知声信息技术有限公司 一种智能语义检索系统和方法
CN106168965A (zh) * 2016-07-01 2016-11-30 竹间智能科技(上海)有限公司 知识图谱构建系统
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106705974A (zh) * 2016-12-30 2017-05-24 华北电力大学(保定) 一种非受限路径自然语言的语义角色标注及语义提取方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN108491375A (zh) * 2018-03-02 2018-09-04 复旦大学 基于CN-DBpedia的实体识别与链接系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QUANSHI ZHANG 等: "Interpreting CNN Knowledge Via An Explanatory Graph", 《ARXIV》, pages 1 - 10 *
李新龙;刘岩;何丽云;刘保延;张艳宏;: "知识图谱研究概况及其在中医药领域的应用", 中国中医药信息杂志, no. 07, pages 134 - 137 *
程文亮: "中文企业知识图谱构建与分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 537 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442727A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于跨语言知识链接的领域本体质量控制方法
CN110569328A (zh) * 2019-07-31 2019-12-13 平安科技(深圳)有限公司 实体链接方法、电子装置及计算机设备
CN110866836A (zh) * 2019-11-14 2020-03-06 支付宝(杭州)信息技术有限公司 计算机执行的医疗保险立案审核方法和装置
CN110866836B (zh) * 2019-11-14 2022-12-06 支付宝(杭州)信息技术有限公司 计算机执行的医疗保险立案审核方法和装置
CN110928894A (zh) * 2019-11-18 2020-03-27 精硕科技(北京)股份有限公司 实体对齐的方法及装置
CN111160012A (zh) * 2019-12-26 2020-05-15 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111160012B (zh) * 2019-12-26 2024-02-06 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111613341A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于语义成分的实体链接方法及装置
CN111613341B (zh) * 2020-05-22 2024-02-02 云知声智能科技股份有限公司 基于语义成分的实体链接方法及装置
CN112185574A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 远程医疗实体链接的方法、装置、设备及存储介质
CN112380865A (zh) * 2020-11-10 2021-02-19 北京小米松果电子有限公司 识别文本中的实体方法、装置及存储介质
CN112463895A (zh) * 2020-12-01 2021-03-09 零氪科技(北京)有限公司 基于药物名称挖掘自动发现药物成分的方法和装置
CN112463895B (zh) * 2020-12-01 2024-06-11 零氪科技(北京)有限公司 基于药物名称挖掘自动发现药物成分的方法和装置
CN112528644A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN112528644B (zh) * 2020-12-24 2024-04-12 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN112800213A (zh) * 2021-01-26 2021-05-14 北京壹永科技有限公司 医学文本信息显示方法、装置及电子设备
CN112800213B (zh) * 2021-01-26 2024-06-07 北京壹永科技有限公司 医学文本信息显示方法、装置及电子设备
CN112905917A (zh) * 2021-02-09 2021-06-04 北京百度网讯科技有限公司 内链生成方法、模型训练方法、相关装置及电子设备
CN112905917B (zh) * 2021-02-09 2023-07-25 北京百度网讯科技有限公司 内链生成方法、模型训练方法、相关装置及电子设备
CN112800759B (zh) * 2021-04-14 2021-08-06 北京金山云网络技术有限公司 标准化数据的生成方法、医学文本数据的处理方法和装置
CN112800759A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据的生成方法、医学文本数据的处理方法和装置
CN113220841B (zh) * 2021-05-17 2023-11-17 北京百度网讯科技有限公司 确定鉴别信息的方法、装置、电子设备和存储介质
CN113220841A (zh) * 2021-05-17 2021-08-06 北京百度网讯科技有限公司 确定鉴别信息的方法、装置、电子设备和存储介质
CN113971216B (zh) * 2021-10-22 2023-02-03 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114550885A (zh) * 2021-12-28 2022-05-27 杭州火树科技有限公司 基于联邦式关联规则挖掘的主诊断与主手术匹配检测方法和系统

Also Published As

Publication number Publication date
CN109522551B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN109522551A (zh) 实体链接方法、装置、存储介质及电子设备
US11152084B2 (en) Medical report coding with acronym/abbreviation disambiguation
US20200126130A1 (en) Medical coding system with integrated codebook interface
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
US20190385202A1 (en) User and engine code handling in medical coding system
EP3230896B1 (en) Localization complexity of arbitrary language assets and resources
US9971848B2 (en) Rich formatting of annotated clinical documentation, and related methods and apparatus
US20140181128A1 (en) Systems and Methods for Processing Patient Data History
CN104699741B (zh) 用于改善对输入问题的回答的方法和装置
CN112786194A (zh) 基于人工智能的医学影像导诊导检系统、方法及设备
WO2014210301A1 (en) Methods and apparatus for extracting facts from a medical text
US10956463B2 (en) System and method for generating improved search queries from natural language questions
US20150356260A1 (en) Nlu training with user corrections to engine annotations
US20150356057A1 (en) Nlu training with merged engine and user annotations
CN109522552A (zh) 一种医疗信息的归一化方法、装置、介质及电子设备
CN109478419B (zh) 结构化和叙述性报告中的显著发现代码的自动识别
CN105190628A (zh) 确定临床医生的预订项目的意图的方法和设备
CN110609910B (zh) 医学知识图谱构建方法及装置、存储介质和电子设备
CN109657056B (zh) 目标样本获取方法、装置、存储介质及电子设备
CN112860842A (zh) 病历标注方法、装置及存储介质
Sedghi et al. Mining clinical text for stroke prediction
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
CN111062193A (zh) 医疗数据标注方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant