CN109582975B - 一种命名实体的识别方法及装置 - Google Patents

一种命名实体的识别方法及装置 Download PDF

Info

Publication number
CN109582975B
CN109582975B CN201910099201.4A CN201910099201A CN109582975B CN 109582975 B CN109582975 B CN 109582975B CN 201910099201 A CN201910099201 A CN 201910099201A CN 109582975 B CN109582975 B CN 109582975B
Authority
CN
China
Prior art keywords
entity
speech
entities
hidden
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910099201.4A
Other languages
English (en)
Other versions
CN109582975A (zh
Inventor
刘宇
陈联忠
胡可云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiahesen Health Technology Co ltd
Original Assignee
Beijing Jiahesen Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiahesen Health Technology Co ltd filed Critical Beijing Jiahesen Health Technology Co ltd
Priority to CN201910099201.4A priority Critical patent/CN109582975B/zh
Publication of CN109582975A publication Critical patent/CN109582975A/zh
Application granted granted Critical
Publication of CN109582975B publication Critical patent/CN109582975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种命名实体的识别方法及装置,且该方法包括:对目标文本中的命名实体进行词性标注;根据命名实体的词性和并列符号,确定目标文本中存在隐藏实体,并从目标文本中获取隐藏实体以及核心实体;对由核心实体的词根和隐藏实体构成的组合实体进行词性标注;核心实体的词根是根据核心实体的词性,在预设实体词根表中进行查询获取的;当组合实体的词性与核心实体的词性相同时,根据组合实体的词性,更新隐藏实体标注的词性。该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。

Description

一种命名实体的识别方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种命名实体的识别方法及装置。
背景技术
随着医疗信息化的发展,医疗数据的分析越来越重要。医疗数据可以是药品的流通数据、医疗活动的诊断数据以及医保报销的数据等数据,而且,由于这些医疗数据通常以电子病历的形式进行保存,因而可以通过对电子病历进行分析,实现对医疗数据的分析。为了能够精确地从大量的电子病历中获得有价值的数据,需要将电子病历中的数据转变为结构化数据,以便利用该结构化数据进行快速准确的查询以及分析。其中,结构化数据是指可以由二维表结构来逻辑表达和实现的数据。
在电子病历转变为结构化数据的过程中,需要先对电子病历中的命名实体进行识别,以便后续根据该识别结果对电子病历进行结构化处理。其中,命名实体是指以名称为标识的实体,而且,疾病、症状、手术、药品、检查以及检验等实体均是医学领域待识别的命名实体。
在病历文本中不仅包括易识别的命名实体,还包括不易识别的隐藏实体。其中,隐藏实体是指仅根据单个词语无法获得该词语的真实含义,但是结合整句文本能够理解该词语的具体含义的命名实体。
例如,假设病历文本为:红、青霉素过敏,在该病历文本中,“青霉素”是一个易识别的命名实体,但是,由于仅根据“红”无法识别出“红霉素”的真实含义,需要结合整句文本的语义可以识别出“红”代表红霉素的真实含义,因而,“红”是一个隐藏实体。
然而,由于现有的命名实体识别方法均是通过将病历文本拆分成多个命名实体,并对每个命名实体进行词性识别,而隐藏实体的真实含义无法通过单个命名实体进行准确地表示,因而,现有的实体识别方法均无法识别电子病历中的隐藏实体的词性,从而导致现有的命名实体识别方法对命名实体的识别精确度比较低。
例如,当利用现有的命名实体识别方法对“红、青霉素过敏”进行词性识别时,先将该文本进行拆分得到“红”、“、”、“青霉素”和“过敏”的命名实体,然后利用命名实体识别方法对每个命名实体进行词性识别,得到每个分词的识别结果。此时,现有的命名实体识别方法能够根据分词“青霉素”识别出“青霉素”这个药品,但无法根据分词“红”识别出“红霉素”这个药品,导致现有的命名实体识别方法对命名实体的识别精确度比较低。
发明内容
为了解决现有技术中存在的以上技术问题,本申请提供一种命名实体的识别方法及装置,能够对病历文本中的隐藏实体进行精确的识别,从而提高命名实体的识别精确度,进而提高后续医疗数据分析的精确度。
为了实现上述目的,本申请提供的技术方案如下:
本申请提供一种命名实体的识别方法,包括:
步骤A:对目标文本中的命名实体进行词性标注;
步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;
步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
可选地,所述进行词性标注,具体包括:
利用基于统计模型的方法进行词性标注;
和/或,
利用基于字典的方法进行词性标注。
可选地,当利用基于字典的方法进行词性标注时,还包括:
当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。
可选地,当利用基于统计模型的方法进行词性标注时,还包括:
当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库,以便利用添加后的训练数据库重新训练所述统计模型。
可选地,所述从所述目标文本中获取隐藏实体以及核心实体,具体包括:
将所述目标文本进行拆分,得到至少一个命名实体;
根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。
可选地,所述步骤D之后,还包括:
利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。
可选地,所述根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,具体包括:
判断与并列符号相邻的命名实体的词性是否相同;
当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。
可选地,所述B、C和D,具体包括:
S1:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;
S2:对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
S3:当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;
S4:根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。
可选地,所述S3,具体包括:
当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。
本申请还提供了一种命名实体的识别装置,包括:
第一标注单元,用于对目标文本中的命名实体进行词性标注;
第一获取单元,用于根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;
第二标注单元,用于对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
更新单元,用于当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
可选地,所述进行词性标注,具体包括:
利用基于统计模型的方法进行词性标注;
和/或,
利用基于字典的方法进行词性标注。
可选地,还包括:
第一存储单元,用于当利用基于字典的方法进行词性标注,且所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
第一添加单元,用于当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。
可选地,还包括:
第二存储单元,用于当利用基于统计模型的方法进行词性标注,且所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
第二添加单元,用于当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库中,以便利用添加后的训练数据库重新训练所述统计模型。
可选地,所述第一获取单元,具体包括:
拆分子单元,用于将所述目标文本进行拆分,得到至少一个命名实体;
第一获取子单元,用于根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。
可选地,还包括:
第二获取单元,用于利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。
可选地,所述第一获取单元,具体包括:
判断子单元,用于判断与并列符号相邻的命名实体的词性是否相同;
确定子单元,用于当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。
可选地,所述第一获取单元、所述第二标注单元和所述更新单元,具体包括:
第二获取子单元,用于根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;
标注子单元,用于对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
第三获取子单元,用于当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;
更新子单元,用于根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。
可选地,所述第三获取子单元,具体包括:
当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。
与现有技术相比,本申请至少具有以下优点:
本申请提供的命名实体的识别方法,包括:对目标文本中的命名实体进行词性标注;根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。在该方法中,通过第一次词性标注,能够获得那些易识别的命名实体的词性,而且当对组合实体进行词性标注后,能够根据组合实体的词性,准确地确定隐藏实体的词性。因而,该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的电子病历的示意图;
图2为基于统计模型的方法的流程图;
图3为基于字典的方法的流程图;
图4为本申请方法实施例一提供的命名实体的识别方法的流程图;
图5为本申请方法实施例二提供的命名实体的识别方法的流程图;
图6为本申请方法实施例三提供的命名实体的识别方法的流程图;
图7为本申请方法实施例四提供的命名实体的识别方法的流程图;
图8为本申请装置实施例一提供的命名实体的识别装置的结构示意图。
具体实施方式
在介绍本申请具体实施方式之前,首先介绍一下描述本申请具体实施方式用到的技术术语。
电子病历:又称计算机化的病案系统或基于计算机的病人记录,其具体是指可以借助电子设备(例如,计算机或健康卡)进行保存、管理、传输或重现的数字化的病人医疗记录。由于电子病历可以用于记录纸张病历上的所有信息,因而,电子病历能够取代手写纸张病历。
为了便于理解和解释,下面将结合图1对电子病历进行介绍,其中,图1为本申请实施例提供的电子病历的示意图。
在图1中所示的电子病历中,分别详细的记录了该病人的主诉、现病史、既往史、个人史、婚育史和家族史。
以上具体介绍了电子病历的相关内容,下面将具体介绍结构化数据的相关内容。
结构化数据:是指可以由二维表结构来逻辑表达和实现的数据。
为了便于解释和说明,下面将结合表1对结构化数据进行介绍,其中,表1为本申请实施例提供的结构化数据的示意图。
表1
姓名 年龄 性别 是否吸烟 烟龄
张三 45 10年
李四 21 0年
王五 18 6个月
表1可以用于表示:张三的年龄为45岁,性别是男,且吸烟长达10年;李四的年龄为21岁,性别是女,且不吸烟;王五的年龄为18岁,性别是男,且吸烟长达6个月。
以上具体介绍了结构化数据的相关内容,下面将具体介绍命名实体的相关内容。
命名实体:是以名称为标识的实体,而且,不同的技术领域具有不同的命名实体。作为示例,在医学领域,疾病、症状、手术、药品、检查以及检验等均是命名实体。
以上具体介绍了命名实体的相关内容,下面将具体介绍隐藏实体的相关内容。
隐藏实体:指仅根据单个词语无法获得该词语的真实含义,但是结合整句文本能够理解该词语的具体含义的命名实体。
例如,假设病历文本为:红、青霉素过敏,在该病历文本中,由于仅根据“红”无法识别出“红霉素”的真实含义,需要结合整句文本的语义可以识别出“红”代表红霉素的真实含义,因而,“红”是一个隐藏实体。
以上具体介绍了隐藏实体的相关内容,下面将具体介绍命名实体的词性的相关内容。
命名实体的词性:用于标记命名实体所属类型;而且,不同的技术领域中的命名实体的词性是不同的。
作为示例,在医学领域,常见的命名实体所属类型可以是疾病、症状、手术、药品、检查以及检验等类型,因而,疾病、症状、手术、药品、检查以及检验等均可以作为医学领域中不同命名实体的词性。
具体为:由于冠心病、糖尿病、高血压和主动脉瓣关闭不全等均属于疾病;胸痛、胸闷和咳嗽等均属于症状;支架植入、冠脉造影和搭桥手术等均属于手术;青霉素、红霉素、氯霉素、硝酸甘油和洛伐他汀等均属于药品;心电图、动态心电图和超声心电图等均属于检查;血脂和血糖等均属于检验,因而,在对病历文本进行词性标注时,可以将冠心病、糖尿病、高血压和主动脉瓣关闭不全等标注为疾病;可以将胸痛、胸闷和咳嗽等标注为症状;可以将支架植入、冠脉造影和搭桥手术等标注为手术;可以将青霉素、红霉素、氯霉素、硝酸甘油和洛伐他汀等标注为药品;可以将心电图、动态心电图和超声心电图等标注为检查;可以将血脂和血糖等标注为检验。
以上是对本申请实施例将涉及到的技术术语的相关介绍。
为了更好地理解本申请实施例提供的命名实体的识别方法,下面将先对现有的命名实体识别方法进行具体介绍以及分析。
在现有技术中,常用的两种命名实体识别方法是:基于统计模型的方法和基于字典的方法。
为了便于理解和解释,下面将结合附图依次介绍基于统计模型的方法和基于字典的方法。
参见图2,该图为基于统计模型的方法的流程图。
基于统计模型的方法,包括:
S201:人工标注多个病历文本中的命名实体的词性,获得训练数据库。
S202:利用训练数据库,对统计模型进行训练,得到第一统计模型。
统计模型可以采用多种实施方式,本申请实施例对此不做具体限定。
作为示例,统计模型可以是隐马尔可夫模型或条件随机场模型。
S203:对第一统计模型进行优化,得到第二统计模型。
需要说明的是,S203可以采用多种优化方法,本申请实施例对此不做具体限定。
S204:利用第二统计模型对目标文本中的命名实体进行词性标注。
作为一种实施方式,S204可以具体为:对目标文本进行拆分,得到至少一个命名实体,并利用第二统计模型对所述至少一个命名实体进行词性标注。
作为示例,当目标文本为“红、青霉素过敏”时,S204可以具体为:首先,将“红、青霉素过敏”拆分为“红”、“、”、“青霉素”和“过敏”;然后,利用第二统计模型对“红”、“、”、“青霉素”和“过敏”进行词性标注,得到“红”、“过敏”和“、”的词性均为其他;“青霉素”的词性为药品。
其中,当命名实体的词性标注为“其他”时,表示无法识别该命名实体。
以上为基于统计模型的方法的具体介绍。
由于在现有技术中,常用的命名实体识别方法除了基于统计模型的方法以外,还有基于字典的方法,下面将结合附图对基于字典的方法进行介绍。
参见图3,该图为基于字典的方法的流程图。
基于字典的方法,包括:
S301:根据已知的命名实体以及其对应的词性,建立字典。
S302:利用字典对目标文本中的命名实体进行词性标注。
作为一种实施方式,S302可以具体为:对目标文本进行拆分,得到至少一个命名实体,并根据至少一个命名实体,利用字典进行词性查询,得到每个命名实体的词性。
作为示例,当目标文本为“红、青霉素过敏”时,S302可以具体为:首先,将“红、青霉素过敏”拆分为“红”、“、”、“青霉素”和“过敏”;然后,利用词典对“红”、“、”、“青霉素”和“过敏”进行依次词性查询,得到“红”、“过敏”和“、”的词性均为其他;“青霉素”的词性为药品。
以上为基于字典的方法的具体介绍。
但是,经过研究,发明人发现基于统计模型的方法和基于字典的方法均具有以下的缺点:
由于基于统计模型的方法和基于字典的方法均是通过将目标文本拆分成多个命名实体,并对每个命名实体独自进行词性标注,而且,隐藏实体的真实含义无法通过单个命名实体进行准确地表示,因而,当利用基于统计模型的方法或基于字典的方法对目标文本中的命名实体进行词性标注时,基于统计模型的方法或基于字典的方法均无法准确地识别出目标文本中的隐藏实体的词性,进而无法对目标文本中的隐藏实体进行准确的词性标注,从而降低了基于统计模型的方法或基于字典的方法对命名实体的识别精确度。
为了便于理解和解释,下面将结合示例对上述缺点进行说明。
例如,当利用基于统计模型的方法或基于字典的方法对目标文本“红、青霉素过敏”进行词性标注时,由于“红”是一个隐藏实体,而且“红”具体代表药品“红霉素”,因而可知“红”的词性应该是“药品”,但是基于统计模型的方法和基于字典的方法均将“红”的词性标注为“其他”,由此可知,基于统计模型的方法或基于字典的方法均无法“红”进行准确的词性标注,从而降低了基于统计模型的方法或基于字典的方法对命名实体的识别精确度。
为了解决上述介绍的基于统计模型的方法和基于字典的方法均具有的缺点,本申请实施例提供了一种命名实体的识别方法,包括:对目标文本中的命名实体进行词性标注;根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
在本申请实施例提供的命名实体的识别方法中,通过第一次词性标注,能够获得那些易识别的命名实体的词性,而且当对组合实体进行词性标注后,能够根据组合实体的词性,准确地确定隐藏实体的词性。因而,该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例一
参见图4,该图为本申请方法实施例一提供的命名实体的识别方法的流程图。
本申请实施例提供的命名实体的识别方法,包括:
S401:对目标文本中的命名实体进行词性标注。
目标文本可以是包括两个以上句子的文本,也可以是仅包括一个句子的文本。
作为一示例,目标文本可以是:肺动脉瓣、主动脉瓣关闭不全10余年。糖尿病、高血压15年。30年前行伸腕肌腱、伸指总肌腱缝合术。红、氯、青霉素过敏。此时,目标文本包括三个句子。
作为另一示例,目标文本还可以是:红、青霉素过敏。此时,目标文本包括一个句子。
S401可以采用多种实施方式,下面将以三种可选的实施方式为例进行解释和说明。
作为一种可选的实施方式,S401具体可以为:利用基于统计模型的方法对目标文本中的命名实体进行词性标注。
作为另一种可选的实施方式,S401具体可以为:利用基于字典的方法对目标文本中的命名实体进行词性标注。
作为又一种可选的实施方式,S401具体可以为:首先,利用基于统计模型的方法对目标文本中的命名实体进行词性标注,得到第一个标注后的目标文本;然后,利用基于字典的方法对目标文本中的命名实体进行词性标注,得到第二个标注后的目标文本;最后,根据第一个标注后的目标文本和第二个标注后的目标文本,得到第三个标注后的目标文本。
需要说明的是,以上是以基于统计模型的方法和基于字典的方法为例进行解释和说明的。另外,在本申请实施例中,还可以采用多种其他的命名实体的识别方法,为了简要起见,在此不再赘述。
S402:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体。
并列符号,用于表示不同命名实体之间具有并列关系的符号。
作为示例,并列符号可以是“、”,而且在目标文本中,与“、”相邻的命名实体之间具有并列关系。例如,在“红霉素、青霉素过敏。”的目标文本中,“红霉素”和“青霉素”均与并列符号“、”相邻,因而,“红霉素”和“青霉素”之间具有并列关系。
另外,当对目标文本进行语义理解的过程中,具有并列关系的命名实体应当理解为具有相同的词性;而且,有时为了简化文本的描述,可以将具有并列关系的命名实体进行省略书写,此时,进行省略书写的命名实体为隐藏实体。
例如,可以将“红霉素、青霉素过敏。”简化为“红、青霉素过敏。”,此时,“红”是一个隐藏实体。
由于当隐藏实体是通过将具有并列关系的命名实体进行省略书写产生的时,隐藏实体的存在将导致与并列符号相邻的命名实体的词性不同,因而,可以根据与并列符号相邻的命名实体的词性是否相同来确定目标文本中是否存在隐藏实体。
此时,作为一种可选的实施方式,为了进一步提高命名实体的识别效率以及精确率,S402具体可以为:判断与并列符号相邻的命名实体的词性是否相同;若是,则确定所述目标文本中存在隐藏实体;若否,则确定所述目标文本中不存在隐藏实体。
S403:从所述目标文本中获取隐藏实体以及核心实体。
核心实体可以是在S401中能够准确识别的命名实体确定的;还可以是在进行文本查询过程中需要获得的命名实体。
作为一示例,当在进行文本查询过程中需要获得词性为“药品”的命名实体时,则需要将目标文本中词性为“药品”的命名实体作为核心实体。例如,当目标文本为“红、青霉素过敏。”时,由于“青霉素”的词性为药品,因而,可以将“青霉素”作为核心实体。
作为另一示例,当隐藏实体是通过将具有并列关系的命名实体进行省略书写产生的时,与并列符号相邻的所有命名实体中至少有一个命名实体是能够准确识别的,因而,该准确识别的命名实体是一个核心实体。
例如,当目标文本为“红、青霉素过敏。”时,“红”和“青霉素”均与并列符号“、”相邻,且“青霉素”能够在S401中准确的识别为药品,因而,“青霉素”是一个核心实体。
由于当隐藏实体是通过将具有并列关系的命名实体进行省略书写产生的时,隐藏实体的存在将导致与并列符号相邻的命名实体的词性不同,因而,在该目标文本中隐藏实体和核心实体分别是与并列符号相邻的命名实体中的一个。
因此,作为一种可选的实施方式,为了进一步提高命名实体的识别效率以及精确率,S403具体可以为:首先,将所述目标文本进行拆分,得到至少一个命名实体;然后,根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。
作为一示例,当目标文本为“红、青霉素过敏。”时,S403具体可以为:先将“红、青霉素过敏。”拆分为“红”、“、”、“青霉素”、“过敏”和“。”;再根据并列符号“、”,得到与“、”相邻的命名实体“红”与“青霉素”;由于S401无法识别“红”的词性,且S401能够识别“青霉素”的词性,因而,“红”是隐藏实体,而“青霉素”是核心实体。
S404:根据所述核心实体的词性,在预设实体词根表中进行查询,获取核心实体的词根。
预设词根表,用于记录不同词性下的命名实体的词根。
为了便于解释和理解,下面将结合表2对命名实体的词根进行介绍。其中,表2为预设实体词根表。
表2
Figure BDA0001965254050000131
Figure BDA0001965254050000141
根据表2可知,当命名实体的词性为疾病时,命名实体的词根可以是综合征、术后、……、关闭不全中的任一个;当命名实体的词性为症状时,命名实体的词根可以是痛、减弱、……、增强中的任一个;当命名实体的词性为手术时,命名实体的词根可以是切除术、移植术、……、缝合术中的任一个;当命名实体的词性为药品时,命名实体的词根可以是霉素、冲剂、……、口服液中的任一个;当命名实体的词性为检查时,命名实体的词根可以是图、CT、……、MR中的任一个;当命名实体的词性为检验时,命名实体的词根可以是抗原、抗体、……、试验中的任一个。
另外,预设实体词根表可以预先建立,也可以根据具体应用场景进行建立;而且,还可以将预设实体词根表存储在预设存储区域中,以便后续使用预设实体词根表时,能够快速准确的获得预设实体词根表。
作为一示例,当核心实体是青霉素,且,核心实体的词性为药品时,则S404具体可以为:根据青霉素的词性“药品”,在表2所示的预设实体词根表中进行查询,获得青霉素的词根“霉素”。
S405:将核心实体的词根和所述隐藏实体进行组合,得到组合实体。
作为一示例,当隐藏实体为红,核心实体为青霉素,且,核心实体的词根为霉素时,则S405具体可以为:将核心实体的词根“霉素”与隐藏实体“红”进行组合,得到组合实体“红霉素”。
S406:对组合实体进行词性标注。
S406可以采用多种实施方式,下面将以三种可选的实施方式为例进行解释和说明。
作为一种可选的实施方式,S406具体可以为:利用基于统计模型的方法对组合实体进行词性标注。
作为另一种可选的实施方式,S406具体可以为:利用基于字典的方法对组合实体进行词性标注。
作为又一种可选的实施方式,S406具体可以为:首先,利用基于统计模型的方法对组合实体进行词性标注,得到第一个标注后的组合实体;然后,利用基于字典的方法对组合实体进行词性标注,得到第二个标注后的组合实体;最后,根据第一个标注后的组合实体和第二个标注后的组合实体,得到第三个标注后的组合实体。
S407:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
当组合实体的词性与核心实体的词性相同时,表示准确地获得了隐藏实体的词性,此时,可以利用组合实体的词性代替在S401中对隐藏实体标注的词性。如此,既准确地识别出了目标文本中易识别的命名实体的词性,也准确地识别出了目标文本中隐藏实体的词性,因而,提高了命名实体的识别精确度。
另外,为了能够得到目标文本对应的精确的识别文本,以便提高后续理解该目标文本时的准确率,本申请实施例还提供了命名实体的识别方法的另一种实施方式,在该实施方式中,当执行完S407之后,还需要继续执行如下步骤:利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。
例如,当目标文本为“红、青霉素过敏。”时,经过S401得到第一标注后的目标文本“红#O、#O青霉素#medicine过敏#O。#O”;经过S402至S407之后得到第二次标注后的目标文本“红#medicine、#O青霉素#medicine过敏#O。#O”;经过步骤:利用所述组合实体替换标注后的目标文本中的隐藏实体之后,得到识别文本“红霉素#medicine、#O青霉素#medicine过敏#O。#O”。
其中,#O表示其他;#medicine表示药品。
本申请实施例提供的命名实体的识别方法中,通过第一次词性标注,能够获得那些易识别的命名实体的词性,而且当对组合实体进行词性标注后,能够根据组合实体的词性,准确地确定隐藏实体的词性。因而,该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。
为了进一步提高命名实体的识别精确度,当利用基于字典的方法进行词性标注时,本申请实施例还提供了命名实体的识别方法的另外一种实施方式,下面将结合附图进行解释和说明。
方法实施例二
方法实施例二是在方法实施例一的基础上进行的改进,为了简要起见,方法实施例二中与方法实施例一中内容相同的部分,在此不再赘述。
参见图5,该图为本申请方法实施例二提供的命名实体的识别方法的流程图。
本申请实施例提供的命名实体的识别方法,包括:
S501:利用基于字典的方法对目标文本中的命名实体进行词性标注。
S502:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体。
S502的具体实施方式与S402的具体实施方式相同,为了简要起见,在此不再赘述。
S503:从所述目标文本中获取隐藏实体以及核心实体。
S503的具体实施方式与S403的具体实施方式相同,为了简要起见,在此不再赘述。
S504:根据所述核心实体的词性,在预设实体词根表中进行查询,获得核心实体的词根。
S504的具体实施方式与S404的具体实施方式相同,为了简要起见,在此不再赘述。
S505:将核心实体的词根和所述隐藏实体进行组合,得到组合实体。
S505的具体实施方式与S405的具体实施方式相同,为了简要起见,在此不再赘述。
S506:利用基于字典的方法对组合实体进行词性标注。
S507:判断所述组合实体的词性与所述核心实体的词性是否相同,若是,则执行S508;若否,则执行S509。
S508:根据所述组合实体的词性,更新所述隐藏实体标注的词性。
S508的具体实施方式与S407的具体实施方式相同,为了简要起见,在此不再赘述。
S509:将所述组合实体存储至预设区域。
预设区域可以是预先设定的存储区域,也可以是根据实际应用场景确定的存储区域。
S510:当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典,返回执行S501。
本申请实施例提供的命名实体的识别方法,当组合实体的词性与所述核心实体的词性不相同时,表示基于字典的方法无法准确的识别组合实体的词性,从而表示在基于字典的方法中所使用的字典不够完善,因而,当获得组合实体的词性之后,可以将组合实体以及其对应的词性添加至该字典中,以便对在基于字典的方法中所使用的字典进行完善,从而提高了基于字典的方法的识别精确率,进而提高了命名实体的识别方法的识别精确率。
为了进一步提高命名实体的识别精确度,当利用基于统计模型的方法进行词性标注时,本申请实施例还提供了命名实体的识别方法的另外一种实施方式,下面将结合附图进行解释和说明。
方法实施例三
方法实施例三是在方法实施例一的基础上进行的改进,为了简要起见,方法实施例三中与方法实施例一中内容相同的部分,在此不再赘述。
参见图6,该图为本申请方法实施例三提供的命名实体的识别方法的流程图。
本申请实施例提供的命名实体的识别方法,包括:
S601:利用基于统计模型的方法对目标文本中的命名实体进行词性标注。
S602:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体。
S602的具体实施方式与S402的具体实施方式相同,为了简要起见,在此不再赘述。
S603:从所述目标文本中获取隐藏实体以及核心实体。
S603的具体实施方式与S403的具体实施方式相同,为了简要起见,在此不再赘述。
S604:根据所述核心实体的词性,在预设实体词根表中进行查询,获得核心实体的词根。
S604的具体实施方式与S404的具体实施方式相同,为了简要起见,在此不再赘述。
S605:将核心实体的词根和所述隐藏实体进行组合,得到组合实体。
S605的具体实施方式与S405的具体实施方式相同,为了简要起见,在此不再赘述。
S606:利用基于统计模型的方法对组合实体进行词性标注。
S607:判断所述组合实体的词性与所述核心实体的词性是否相同,若是,则执行S608;若否,则执行S609。
S608:根据所述组合实体的词性,更新所述隐藏实体标注的词性。
S608的具体实施方式与S407的具体实施方式相同,为了简要起见,在此不再赘述。
S609:将所述组合实体存储至预设区域。
预设区域可以是预先设定的存储区域,也可以是根据实际应用场景确定的存储区域。
S610:当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库。
S611:利用添加后的训练数据库重新训练所述统计模型,返回执行S601。
本申请实施例提供的命名实体的识别方法,当组合实体的词性与所述核心实体的词性不相同时,表示基于统计模型的方法无法准确的识别组合实体的词性,从而表示在基于统计模型的方法中所使用的统计模型不够完善,因而,当获得组合实体的词性之后,可以将组合实体以及其对应的词性添加至训练数据库中,以便根据添加后的训练数据库重新训练所述统计模型,从而对在基于统计模型的方法中所使用的统计模型进行完善,从而提高了基于统计模型的方法的识别精确率,进而提高了命名实体的识别方法的识别精确率。
在获取隐藏实体的过程中,因目标文本中隐藏实体是由至少一个命名实体构成的,导致无法直接获得隐藏实体,此时,为了进一步提高命名实体的识别精确度,本申请实施例还提供了命名实体的识别方法的又一种实施方式,下面将结合附图进行解释和说明。
方法实施例四
方法实施例四是在方法实施例一的基础上进行的改进,为了简要起见,方法实施例四中与方法实施例一中内容相同的部分,在此不再赘述。
参见图7,该图为本申请方法实施例四提供的命名实体的识别方法的流程图。
本申请实施例提供的命名实体的识别方法,包括:
S701:对目标文本中的命名实体进行词性标注。
S701的具体实施方式与S401的具体实施方式相同,为了简要起见,在此不再赘述。
S702:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体。
S702的具体实施方式与S402的具体实施方式相同,为了简要起见,在此不再赘述。
S703:从所述目标文本中获取核心实体以及至少一个备选隐藏实体。
备选隐藏实体是指根据目标文本的语义获得一种可能的隐藏实体。
作为示例,当目标文本是“30年前行伸腕肌腱、伸指总肌腱缝合术”时,根据并列符号可以确定,该目标文本中的备选隐藏实体可以是“肌腱”、“伸腕肌腱”、“行伸腕肌腱”和“30年前行伸腕肌腱”中的任一种。
由于在执行S701之后可以得到标注后的目标文本,因而可以根据标注后的目标文本中并列符号以及隐藏实体所在的位置,获得备选隐藏实体。
作为一种实施方式,当S701将目标文本“30年前行伸腕肌腱、伸指总肌腱缝合术”标注为“30年前#time行#O伸腕#organ肌腱#organ、#O伸指总肌腱缝合术#operation”时,S703可以具体为:根据距离并列符号“、”最近的一个词语,得到第一个备选隐藏实体“肌腱”;根据距离并列符号“、”最近的两个词语,得到第二个备选隐藏实体“伸腕肌腱”;根据距离并列符号“、”最近的三个词语,得到第三个备选隐藏实体“行伸腕肌腱”;根据距离并列符号“、”最近的四个词语,得到第二个备选隐藏实体“30年前行伸腕肌腱”。
需要说明的是,S703获取核心实体的实施方式与S403的实施方式相同,为了简要起见,在此不再赘述。
S704:根据所述核心实体的词性,在预设实体词根表中进行查询,获取核心实体的词根。
S704的具体实施方式与S404的具体实施方式相同,为了简要起见,在此不再赘述。
S705:将核心实体的词根和所述至少一个备选隐藏实体进行组合,得到至少一个备选组合实体。
作为一种实施方式,当核心实体的词根为缝合术,且至少一个备选隐藏实体为“肌腱”、“伸腕肌腱”、“行伸腕肌腱”和“30年前行伸腕肌腱”时,S705具体可以为:将“缝合术”与“肌腱”、“伸腕肌腱”、“行伸腕肌腱”和“30年前行伸腕肌腱”分别进行组合,得到至少一个备选组合实体“肌腱缝合术”、“伸腕肌腱缝合术”、“行伸腕肌腱缝合术”和“30年前行伸腕肌腱缝合术”。
S706:对至少一个备选组合实体进行词性标注。
S706的具体实施方式与S406的具体实施方式相同,为了简要起见,在此不再赘述。
S707:当所有备选组合实体中存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体。
作为一种实施方式,S707具体可以为:当在至少一个备选组合实体中存在一个与所述核心实体的词性相同的备选组合实体时,将与所述核心实体的词性相同的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。
作为另一种实施方式,S707具体可以为:当在至少一个备选组合实体中存在两个以上与所述核心实体的词性相同的备选组合实体时,将两个以上与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。
S708:根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。
另外,为了能够得到目标文本对应的精确的识别文本,以便提高后续理解该目标文本时的准确率,本申请实施例还提供了命名实体的识别方法的另一种实施方式,在该实施方式中,当执行完S708之后,还需要继续执行如下步骤:利用所述目标组合实体替换标注后的目标文本中的目标隐藏实体,得到识别文本。
例如,当目标文本为“30年前行伸腕肌腱、伸指总肌腱缝合术”时,经过S701得到第一标注后的目标文本“30年前#time行#O伸腕#organ肌腱#organ、#O伸指总肌腱缝合术#operation”;经过S702至S708之后得到第二标注后的目标文本“30年前#time行#O伸腕肌腱#operation、#O伸指总肌腱缝合术#operation”;经过步骤:利用所述目标组合实体替换标注后的目标文本中的目标隐藏实体,得到识别文本“30年前#time行#O伸腕肌腱缝合术#operation、#O伸指总肌腱缝合术#operation”。
本申请实施例提供的命名实体的识别方法中,通过根据每个备选隐藏实体获得每个备选隐藏实体对应的备选组合实体,然后将每个备选组合实体的词性与核心实体的词性进行比较,得到与核心实体的词性相同的目标组合实体,并根据目标组合实体的词性更新所述隐藏实体标注的词性。在该方法中,由于隐藏实体不明确,导致无法直接获得隐藏实体,因而,可以通过对根据备选隐藏实体获得的备选组合实体进行词性的标注,能够从备选组合实体的词性中准确地获得隐藏实体的词性。因而,该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。
基于上述方法实施例提供的一种命名实体的识别方法,本申请实施例还提供了一种命名实体的识别装置,下面将结合附图进行解释和说明。
装置实施例一
参见图8,该图为本申请装置实施例一提供的命名实体的识别装置的结构示意图。
本申请实施例提供的命名实体的识别装置,包括:
第一标注单元801,用于对目标文本中的命名实体进行词性标注;
第一获取单元802,用于根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;
第二标注单元803,用于对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
更新单元804,用于当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
作为一种可选的实施方式,为了进一步提高词性识别精确度,所述进行词性标注,具体包括:
利用基于统计模型的方法进行词性标注;
和/或,
利用基于字典的方法进行词性标注。
作为一种可选的实施方式,为了进一步提高词性识别精确度,该命名实体的识别装置,还包括:
第一存储单元,用于当利用基于字典的方法进行词性标注,且所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
第一添加单元,用于当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。
作为一种可选的实施方式,为了进一步提高词性识别精确度,该命名实体的识别装置,还包括:
第二存储单元,用于当利用基于统计模型的方法进行词性标注,且所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
第二添加单元,用于当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库中,以便利用添加后的训练数据库重新训练所述统计模型。
作为一种可选的实施方式,为了进一步提高词性识别精确度,所述第一获取单元802,具体包括:
拆分子单元,用于将所述目标文本进行拆分,得到至少一个命名实体;
第一获取子单元,用于根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。
作为一种可选的实施方式,为了进一步提高词性识别精确度,该命名实体的识别装置,还包括:
第二获取单元,用于利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。
作为一种可选的实施方式,为了进一步提高词性识别精确度,所述第一获取单元802,具体包括:
判断子单元,用于判断与并列符号相邻的命名实体的词性是否相同;
确定子单元,用于当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。
作为一种可选的实施方式,为了进一步提高词性识别精确度,所述第一获取单元802、所述第二标注单元803和所述更新单元804,具体包括:
第二获取子单元,用于根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;
标注子单元,用于对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
第三获取子单元,用于当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;
更新子单元,用于根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。
作为一种可选的实施方式,为了进一步提高词性识别精确度,所述第三获取子单元,具体包括:
当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。
本申请实施例提供的命名实体的识别装置,包括:第一标注单元801、第一获取单元802、第二标注单元803和更新单元804。在该识别装置中,通过第一次词性标注,能够获得那些易识别的命名实体的词性,而且当对组合实体进行词性标注后,能够根据组合实体的词性,准确地确定隐藏实体的词性。因而,该识别装置不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (18)

1.一种命名实体的识别方法,其特征在于,包括:
步骤A:对目标文本中的命名实体进行词性标注;
步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;所述目标文本中隐藏实体与所述目标文本中并列符号相邻;所述目标文本中核心实体与所述目标文本中并列符号相邻;所述目标文本中隐藏实体的词性不同于所述目标文本中核心实体的词性;
步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
2.根据权利要求1所述的方法,其特征在于,所述进行词性标注,具体包括:
利用基于统计模型的方法进行词性标注;
和/或,
利用基于字典的方法进行词性标注。
3.根据权利要求2所述的方法,其特征在于,当利用基于字典的方法进行词性标注时,还包括:
当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。
4.根据权利要求2所述的方法,其特征在于,当利用基于统计模型的方法进行词性标注时,还包括:
当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库,以便利用添加后的训练数据库重新训练所述统计模型。
5.根据权利要求1所述的方法,其特征在于,所述从所述目标文本中获取隐藏实体以及核心实体,具体包括:
将所述目标文本进行拆分,得到至少一个命名实体;
根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。
6.根据权利要求1所述的方法,其特征在于,所述步骤D之后,还包括:
利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。
7.根据权利要求1所述的方法,其特征在于,所述根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,具体包括:
判断与并列符号相邻的命名实体的词性是否相同;
当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。
8.根据权利要求1所述的方法,其特征在于,所述B、C和D,具体包括:
S1:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;
S2:对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
S3:当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;
S4:根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。
9.根据权利要求8所述的方法,其特征在于,所述S3,具体包括:
当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。
10.一种命名实体的识别装置,其特征在于,包括:
第一标注单元,用于对目标文本中的命名实体进行词性标注;
第一获取单元,用于根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;所述目标文本中隐藏实体与所述目标文本中并列符号相邻;所述目标文本中核心实体与所述目标文本中并列符号相邻;所述目标文本中隐藏实体的词性不同于所述目标文本中核心实体的词性;
第二标注单元,用于对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
更新单元,用于当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
11.根据权利要求10所述的装置,其特征在于,所述进行词性标注,具体包括:
利用基于统计模型的方法进行词性标注;
和/或,
利用基于字典的方法进行词性标注。
12.根据权利要求11所述的装置,其特征在于,还包括:
第一存储单元,用于当利用基于字典的方法进行词性标注,且所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
第一添加单元,用于当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。
13.根据权利要求11所述的装置,其特征在于,还包括:
第二存储单元,用于当利用基于统计模型的方法进行词性标注,且所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
第二添加单元,用于当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库中,以便利用添加后的训练数据库重新训练所述统计模型。
14.根据权利要求10所述的装置,其特征在于,所述第一获取单元,具体包括:
拆分子单元,用于将所述目标文本进行拆分,得到至少一个命名实体;
第一获取子单元,用于根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。
15.根据权利要求10所述的装置,其特征在于,还包括:
第二获取单元,用于利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。
16.根据权利要求10所述的装置,其特征在于,所述第一获取单元,具体包括:
判断子单元,用于判断与并列符号相邻的命名实体的词性是否相同;
确定子单元,用于当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。
17.根据权利要求10所述的装置,其特征在于,所述第一获取单元、所述第二标注单元和所述更新单元,具体包括:
第二获取子单元,用于根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;
标注子单元,用于对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
第三获取子单元,用于当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;
更新子单元,用于根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。
18.根据权利要求17所述的装置,其特征在于,所述第三获取子单元,具体包括:
当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。
CN201910099201.4A 2019-01-31 2019-01-31 一种命名实体的识别方法及装置 Active CN109582975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910099201.4A CN109582975B (zh) 2019-01-31 2019-01-31 一种命名实体的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910099201.4A CN109582975B (zh) 2019-01-31 2019-01-31 一种命名实体的识别方法及装置

Publications (2)

Publication Number Publication Date
CN109582975A CN109582975A (zh) 2019-04-05
CN109582975B true CN109582975B (zh) 2023-05-23

Family

ID=65918460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910099201.4A Active CN109582975B (zh) 2019-01-31 2019-01-31 一种命名实体的识别方法及装置

Country Status (1)

Country Link
CN (1) CN109582975B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010217A (zh) * 2019-04-11 2019-07-12 中国医学科学院医学信息研究所 一种电子病历的标注方法及装置
CN110069779B (zh) * 2019-04-18 2023-01-10 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN111125377B (zh) * 2019-12-24 2023-04-07 东软集团股份有限公司 一种实体关系识别方法、装置及设备
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN111326262B (zh) * 2020-03-19 2023-05-23 北京嘉和海森健康科技有限公司 电子病历数据中实体关系抽取方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995885A (zh) * 2014-05-29 2014-08-20 百度在线网络技术(北京)有限公司 实体名的识别方法和装置
CN105005557A (zh) * 2015-08-06 2015-10-28 电子科技大学 一种基于依存分析的中文兼类词处理方法
CN106776555A (zh) * 2016-12-09 2017-05-31 中国科学院信息工程研究所 一种基于字模型的评论文本实体识别方法及装置
CN108182179A (zh) * 2018-01-29 2018-06-19 北京神州泰岳软件股份有限公司 一种自然语言处理方法及装置
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995885A (zh) * 2014-05-29 2014-08-20 百度在线网络技术(北京)有限公司 实体名的识别方法和装置
CN105005557A (zh) * 2015-08-06 2015-10-28 电子科技大学 一种基于依存分析的中文兼类词处理方法
CN106776555A (zh) * 2016-12-09 2017-05-31 中国科学院信息工程研究所 一种基于字模型的评论文本实体识别方法及装置
CN108182179A (zh) * 2018-01-29 2018-06-19 北京神州泰岳软件股份有限公司 一种自然语言处理方法及装置
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于隐结构感知的并列名词短语识别研究;王浩等;《计算机工程》;20170415(第04期);全文 *

Also Published As

Publication number Publication date
CN109582975A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109582975B (zh) 一种命名实体的识别方法及装置
US20230101445A1 (en) Semantic Classification of Numerical Data in Natural Language Context Based on Machine Learning
CN111061841B (zh) 知识图谱的构建方法及装置
CN106919793B (zh) 一种医疗大数据的数据标准化处理方法及装置
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN110827941B (zh) 电子病历信息校正方法及系统
US11915828B2 (en) System and method of using machine learning for extraction of symptoms from electronic health records
CN109710670B (zh) 一种将病历文本从自然语言转换为结构化元数据的方法
US20220301670A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
Dai et al. Recognition and Evaluation of Clinical Section Headings in Clinical Documents Using Token‐Based Formulation with Conditional Random Fields
Roberts et al. The role of fine-grained annotations in supervised recognition of risk factors for heart disease from EHRs
EP4170670A1 (en) Medical data processing method and system
Ghiasvand et al. Learning for clinical named entity recognition without manual annotations
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及系统
CN112735545A (zh) 自训练方法、模型、处理方法、装置及存储介质
Liu et al. Performance of ChatGPT on clinical medicine entrance examination for Chinese Postgraduate in Chinese
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
Dai et al. Phenotyping hypotensive patients in critical care using hospital discharge summaries
Kocbek et al. Improving mortality prediction for intensive care unit patients using text mining techniques
Eisman et al. Clinical Note Section Detection Using a Hidden Markov Model of Unified Medical Language System Semantic Types
Liu et al. Constructing large scale cohort for clinical study on heart failure with electronic health record in regional healthcare platform: challenges and strategies in data reuse
Landolsi et al. Extracting and structuring information from the electronic medical text: state of the art and trendy directions
Grechishcheva et al. Filtering free-text medical data based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190729

Address after: Room 2307, 3 storeys, No. 7 Pioneer Road, Shangdi Information Industry Base, Haidian District, Beijing 100085

Applicant after: Beijing Jiahesen Health Technology Co.,Ltd.

Address before: 100085 Haidian District city on the base of the information industry base, Pioneer Road, building No. 7, section I, layer three, layer

Applicant before: BEIJING GOODWILL MEIKANG INFORMATION TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant