CN111353311A - 一种命名实体识别方法、装置、计算机设备及存储介质 - Google Patents

一种命名实体识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111353311A
CN111353311A CN202010141193.8A CN202010141193A CN111353311A CN 111353311 A CN111353311 A CN 111353311A CN 202010141193 A CN202010141193 A CN 202010141193A CN 111353311 A CN111353311 A CN 111353311A
Authority
CN
China
Prior art keywords
entity
data
prediction
label
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010141193.8A
Other languages
English (en)
Inventor
孙安国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202010141193.8A priority Critical patent/CN111353311A/zh
Publication of CN111353311A publication Critical patent/CN111353311A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例属于人工智能技术领域,涉及一种命名实体识别方法,所述方法包括:接收用户终端发送的携带有原始文本的识别请求;对所述原始文本进行预处理操作,获取标注数据;将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;将满足预测阈值的所述实体预测结果作为实体识别结果;向所述用户终端输出所述实体识别结果。本申请还提供一种命名实体识别装置、计算机设备及存储介质。本申请提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。

Description

一种命名实体识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种命名实体识别方法、装置、计算机设备及存储介质。
背景技术
电子病历中的命名实体识别(Named Entity Recognition,NER),是从电子病历的描述性文本中找出与患者相关的一些临床实体,比如病人的患病部位,症状,使用过的药物和手术等。中文电子病历的命名实体识别是中文电子病历信息提取的关键,可为病历检索、疾病预测、医疗知识图谱的构建等中文健康信息处理工作奠定基础。但电子病历中存在较多的未登录词,且数量不断增加,而且,和英语相比,中文命名实体的识别任务更加复杂。
现有一种命名实体识别方法,通过收集疾病名称,生成疾病字典库;读取医疗领域文本,根据最大匹配规则,匹配疾病字典库;最终获取匹配成功的实体。
然而,传统的命名实体识别方法普遍不智能,只有在字典库中出现的疾病才能够被识别出来,对于新的疾病实体不能够别识别出来,泛化能力较弱,维护疾病字典库的疾病实体的工作量繁琐,人力资源耗费较大。
发明内容
本申请实施例的目的在于提出一种一种命名实体识别方法,旨在解决传统的命名实体识别方法泛化能力较弱,人力资源耗费较大的问题。
为了解决上述技术问题,本申请实施例提供一种命名实体识别方法,采用了如下所述的技术方案:
接收用户终端发送的携带有原始文本的识别请求;
对所述原始文本进行预处理操作,获取标注数据;
将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;
将满足预测阈值的所述实体预测结果作为实体识别结果;
向所述用户终端输出所述实体识别结果。
为了解决上述技术问题,本申请实施例还提供一种命名实体识别装置,采用了如下所述的技术方案:
请求接收模块,用于接收用户终端发送的携带有原始文本的识别请求;
预处理模块,用于对所述原始文本进行预处理操作,获取标注数据;
结果预测模块,用于将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;
结果确认模块,用于将满足预测阈值的所述实体预测结果作为实体识别结果;
结果输出模块,用于向所述用户终端输出所述实体识别结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述命名实体识别方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述命名实体识别方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本发明申请提供了一种命名实体识别方法,接收用户终端发送的携带有原始文本的识别请求;对所述原始文本进行预处理操作,获取标注数据;将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;将满足预测阈值的所述实体预测结果作为实体识别结果;向所述用户终端输出所述实体识别结果。通过预处理操作将原始文本按照文字信息、拼音信息以及偏旁部首信息进行标注,并将该文字信息、拼音信息以及偏旁部首信息输入至实体预测模型,得到预测结果,从而提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的命名实体识别方法的实现流程图;
图2是图1中步骤S102的实现流程图;
图3是图1中步骤S103的实现流程图;
图4是图3中步骤S305的实现流程图;
图5是本发明实施例二提供的命名实体识别装置的结构示意图;
图6是图5中预处理模块的结构示意图;
图7是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供的命名实体识别方法,通过预处理操作将原始文本按照文字信息、拼音信息以及偏旁部首信息进行标注,并将该文字信息、拼音信息以及偏旁部首信息输入至实体预测模型,得到预测结果,从而提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。
实施例一
图1示出了本发明实施例一提供的命名实体识别方法的实现流程图,为了便于说明,仅示出与本发明相关的部分。
在步骤S101中,接收用户终端发送的携带有原始文本的识别请求。
在本发明实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本发明。
在本发明实施例中,原始文本指的是医疗领域的文本或者数据,作为示例,例如药品说明书、电子病历等,应当理解的是,此处对原始文本的举例仅为方便理解,不用于限定本发明。
在步骤S102中,对所述原始文本进行预处理操作,获取标注数据。
在本发明实施例中,预处理操作指的是将原始文本中的每个字拆出来,以字为单位进行标注处理。
在本发明实施例中,标注数据指的是对上述原始文本中的字体进行标注,标注内容包括:字体、拼音以及偏旁部首,作为示例,例如“高血压”,那么标注数据则为:高(gao)(高)血(xiě)(血)压(yā)(厂),其中,拼音信息和偏旁部首信息是通过读取拼音映射库和偏旁部首映射库获取的。
在步骤S103中,将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果。
在本发明实施例中,训练好的实体预测模型是基于条件随机场CRF模型构建所得。
在本发明实施例中,实体预测操作指的是模型对输入的新的医学领域文本进行预测,生成标注序列,再根据标注序列解析出命名实体的预测操作。
在本发明实施例中,实体预测结果指的是通过实体预测操作后得到的命名实体预测概率,基于该预测概率可推断该命名实体是否识别准确。
在步骤S104中,将满足预测阈值的所述实体预测结果作为实体识别结果。
在本发明实施例中,预测阈值指的是对上述命名实体预测概率的一个条件限定,当上述命名实体预测概率满足预测阈值,则说明该命名实体识别准确,否则识别错误,其中,预测阈值可根据实际情况进行设置,作为示例,该预测阈值可以是95%、90%等,应当理解,此处对预测阈值的举例仅为方便理解,不用于限定本发明。
在步骤S105中,向所述用户终端输出所述实体识别结果。
在实际应用中,若原始文本的内容为:“高血压病史7年,头晕3天”,预测阈值为95%,那么在本发明技术方案中,通过预处理操作,则获得的原始文本的标注数据为“高(gao)(高)血(xiě)(血)压(yā)(厂)”,将上述标注数据输入至训练好的实体预测模型,获得“高(gao)(高)血(xiě)(血)压(yā)(厂)”的实体预测结果为“高血压的概率为98%”,而98%满足上述95%的预测阈值,因此该原始文本的实体识别结果为“高血压”。
在本发明实施例中,提供了一种命名实体识别方法,接收用户终端发送的携带有原始文本的识别请求;对所述原始文本进行预处理操作,获取标注数据;将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;将满足预测阈值的所述实体预测结果作为实体识别结果;向所述用户终端输出所述实体识别结果。通过预处理操作将原始文本按照文字信息、拼音信息以及偏旁部首信息进行标注,并将该文字信息、拼音信息以及偏旁部首信息输入至实体预测模型,得到预测结果,从而提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。
继续参考图2,示出了图1中步骤S102的实现流程图,为了便于说明,仅示出与本发明相关的部分。
作为实施例一的一些可选实现方式中,上述步骤S102具体包括:步骤S201以及步骤S202。
在步骤S201中,读取疾病字典库,基于最大匹配规则在所述疾病字典库中获取与所述原始文本相对应的实体数据。
在本发明实施例中,疾病字典库指的是以字词表示疾病的数据库。
在本发明实施例中,最大匹配规则是中文分词算法的一种,作为示例,例如给定待分词的句子:C1,C2,C3,...Cn,则先查C1,如果C1在词典中;则查C1C2,如果C1C2在词典中,继续查C1C2C3,其实就是找到以C1开头的最大的在词典中的词,分割出来,作为词。其次接着前面的词,继续按照第二步的过程,循环查找;最后完成切词操作。
在本发明实施例中,实体数据指的是原始文本在疾病字典库中找到的疾病字词,作为示例,例如“高血压病史7年,头晕3天”,那么实体数据则为:高血压。
在步骤S202中,基于预设的标注规则对所述实体数据进行标注操作,获得所述标注数据。
在本发明实施例中,预设的标注规则指的是在获取实体数据之后,对实体数据的前后位置通过标签的形式进行标记规则。具体的,标注规则可以是:B-实体的起始位置,M-实体的中间位置,E-实体的结束位置,S-单个组成的实体,0-其他。作为示例,例如,“高血压”,那么标注数据则为:高(B)血(M)压(E)。
在本发明实施例中,通过最大匹配规则在疾病字典库中查找与该原始文本相对应的实体数据,从而实现命名实体的预定位操作,通过对该实体数据进行标注操作,从而简化了预处理操作的步骤,有效提高系统识别命名实体的效率,提高用户的使用体验。
作为实施例一的一些可选实现方式中,上述预设的标注规则可以是:
“实体的起始位置标识为B;
实体的中间位置标识为M;
实体的结束位置标识为E;
单个组成的实体标识为S;
其他标识为0”。
在实际应用中,若原始文本的内容为:“高血压病史7年,头晕3天。”,那么根据上述预设的标注规则,该原始文本的标注数据则为:“高(B)血(M)压(M)病(0)史(0)7(0)年(0),(0)头(B)晕(E)3(0)天(0)。(0)”。
继续参考图3,示出了图1中步骤S103的实现流程图,为了便于说明,仅示出与本发明相关的部分。
作为实施例一的一些可选实现方式中,上述步骤S103具体包括:步骤S301、步骤S302、步骤S303、步骤S304、步骤S305以及步骤S306。
在步骤S301中,读取系统数据库,在所述系统数据库中获取训练文本。
在本发明实施例中,系统数据库指的是存储有历史过往的医疗领域的文本或者数据,其中,将该历史国王的文本或者数据作为训练文本导入条件随机场模型进行预测模型训练。
在步骤S302中,基于所述最大匹配规则在所述疾病字典库中获取与所述训练文本相对应的训练实体数据。
在步骤S303中,对所述训练实体数据进行所述预处理操作,获取训练标注数据。
在步骤S304中,获取与所述训练标注数据相对应的特征数据。
在本发明实施例中,特征数据指的是以当前字、当前拼音、当前偏旁部首为单位,获取其前、后的特征数据,如下:
字为单位:当前字、前面一个字+当前字、当前字+后面一个字等等。
拼音为单位:当前字拼音、前面一个字拼音+当前字拼音、当前字拼音+后面一个字拼音等等。
偏旁部首为单位:当前字偏旁部首、前面一个字偏旁部首+当前字偏旁部首、当前字偏旁部首+后面一个字偏旁部首等等。
在实际应用中,若原始文本的内容为:“高血压病史7年,头晕3天。”,定义特征模板为:
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[-0,0]
U06:%x[-1,0]/%x[-0,0]/%x[1,0]
U07:%x[0,1]/%x[1,1]/%x[2,1]”,
假设当前字为“压”
上面的模板可以翻译为:
U00:%x[-2,0]--高
U01:%x[-1,0]--血
U02:%x[0,0]--压
U03:%x[1,0]--病
U04:%x[2,0]--史
U05:%x[-2,0]/%x[-1,0]/%x[-0,0]--高血压
U06:%x[-1,0]/%x[-0,0]/%x[1,0]--血压病
U07:%x[0,1]/%x[1,1]/%x[2,1]--yā bìng shǐ。
在步骤S305中,将所述特征数据导入条件随机场模型进行预测模型训练。
在本发明实施例中,条件随机场(conditional random field,简称CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
在步骤S306中,将训练后的所述条件随机场模型作为所述预设的实体预测模型。
继续参考图4,示出了图3中步骤S305的实现流程图,为了便于说明,仅示出与本发明相关的部分。
作为实施例一的一些可选实现方式中,上述步骤S305具体包括:步骤S401、步骤S402、步骤S403以及步骤S404。
在步骤S401中,获取与所述特征数据相对应的转移特征函数:
λjtj(s,i,li,li-1);
在本发明实施例中,作为模型算法示例,tj为i处的转移特征,对应权重λj,每个标注数据i都有J个特征,转移特征针对的是前后标注数据之间的限定。
Figure BDA0002398545720000101
特定转移条件为:若前一个标注数据为M,当当前标注数据为E时,输出“1”;当当前标注数据不为E时,输出“0”。
在步骤S402中,获取与所述特征数据相对应的状态特征函数:
ukgk(s,i,li);
在本发明实施例中,作为模型算法示例:
Figure BDA0002398545720000102
特定状态条件为:若当前标注数据的拼音为ya时,输出“1”,若当前标注数据的拼音不为ya时,输出“0”。
在步骤S403中,将所述转移特征函数以及状态特征函数进行合并操作,获得测试特征函数:
Figure BDA0002398545720000103
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数。
在本发明实施例中,函数的合并过程为:
Figure BDA0002398545720000111
在步骤S404中,基于所述测试特征函数对所述特征数据进行概率训练操作。
作为本发明实施例一的一些可选实现方式中,上述步骤S404具体包括如下步骤:
基于概率预测函数对所述特征数据进行所述概率训练操作;
所述概率预测函数表示为:
Figure BDA0002398545720000112
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数。
综上所述,本发明申请提供了一种命名实体识别方法,接收用户终端发送的携带有原始文本的识别请求;对所述原始文本进行预处理操作,获取标注数据;将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;将满足预测阈值的所述实体预测结果作为实体识别结果;向所述用户终端输出所述实体识别结果。通过预处理操作将原始文本按照文字信息、拼音信息以及偏旁部首信息进行标注,并将该文字信息、拼音信息以及偏旁部首信息输入至实体预测模型,得到预测结果,从而提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。同时,通过最大匹配规则在疾病字典库中查找与该原始文本相对应的实体数据,从而实现命名实体的预定位操作,通过对该实体数据进行标注操作,从而简化了预处理操作的步骤,有效提高系统识别命名实体的效率,提高用户的使用体验。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图5,作为对上述图1所示方法的实现,本申请提供了一种命名实体识别装置,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本发明实施例二所提供的命名实体识别装置100包括:请求接收模块101、预处理模块102、结果预测模块103、结果确认模块104以及结果输出模块105。其中:
请求接收模块101,用于接收用户终端发送的携带有原始文本的识别请求;
预处理模块102,用于对所述原始文本进行预处理操作,获取标注数据;
结果预测模块103,用于将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;
结果确认模块104,用于将满足预测阈值的所述实体预测结果作为实体识别结果;
结果输出模块105,用于向所述用户终端输出所述实体识别结果。
在本发明实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本发明。
在本发明实施例中,原始文本指的是医疗领域的文本或者数据,作为示例,例如药品说明书、电子病历等,应当理解的是,此处对原始文本的举例仅为方便理解,不用于限定本发明。
在本发明实施例中,预处理操作指的是将原始文本中的每个字拆出来,以字为单位进行标注处理。
在本发明实施例中,标注数据指的是对上述原始文本中的字体进行标注,标注内容包括:字体、拼音以及偏旁部首,作为示例,例如“高血压”,那么标注数据则为:高(gao)(高)血(xiě)(血)压(yā)(厂),其中,拼音信息和偏旁部首信息是通过读取拼音映射库和偏旁部首映射库获取的。
在本发明实施例中,训练好的实体预测模型是基于条件随机场CRF模型构建所得。
在本发明实施例中,实体预测操作指的是模型对输入的新的医学领域文本进行预测,生成标注序列,再根据标注序列解析出命名实体的预测操作。
在本发明实施例中,实体预测结果指的是通过实体预测操作后得到的命名实体预测概率,基于该预测概率可推断该命名实体是否识别准确。
在本发明实施例中,预测阈值指的是对上述命名实体预测概率的一个条件限定,当上述命名实体预测概率满足预测阈值,则说明该命名实体识别准确,否则识别错误,其中,预测阈值可根据实际情况进行设置,作为示例,该预测阈值可以是95%、90%等,应当理解,此处对预测阈值的举例仅为方便理解,不用于限定本发明。
在实际应用中,若原始文本的内容为:“高血压病史7年,头晕3天”,预测阈值为95%,那么在本发明技术方案中,通过预处理操作,则获得的原始文本的标注数据为“高(gao)(高)血(xiě)(血)压(yā)(厂)”,将上述标注数据输入至训练好的实体预测模型,获得“高(gao)(高)血(xiě)(血)压(yā)(厂)”的实体预测结果为“高血压的概率为98%”,而98%满足上述95%的预测阈值,因此该原始文本的实体识别结果为“高血压”。
在本发明实施例中,提供了一种命名实体识别装置,包括:请求接收模块,用于接收用户终端发送的携带有原始文本的识别请求;预处理模块,用于对所述原始文本进行预处理操作,获取标注数据;结果预测模块,用于将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;结果确认模块,用于将满足预测阈值的所述实体预测结果作为实体识别结果;结果输出模块,用于向所述用户终端输出所述实体识别结果。通过预处理操作将原始文本按照文字信息、拼音信息以及偏旁部首信息进行标注,并将该文字信息、拼音信息以及偏旁部首信息输入至实体预测模型,得到预测结果,从而提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。
在本发明实施例二的一些可选的实现方式中,如图6所示,上述预处理模块102包括:实体数据获取子模块1021以及标注数据获取子模块1022。
其中:
实体数据获取子模块1021,用于读取疾病字典库,基于最大匹配规则在所述疾病字典库中获取与所述原始文本相对应的实体数据;
标注数据获取子模块1022,用于基于预设的标注规则对所述实体数据进行标注操作,获得所述标注数据。
在本发明实施例中,疾病字典库指的是以字词表示疾病的数据库。
在本发明实施例中,最大匹配规则是中文分词算法的一种,作为示例,例如给定待分词的句子:C1,C2,C3,...Cn,则先查C1,如果C1在词典中;则查C1C2,如果C1C2在词典中,继续查C1C2C3,其实就是找到以C1开头的最大的在词典中的词,分割出来,作为词。其次接着前面的词,继续按照第二步的过程,循环查找;最后完成切词操作。
在本发明实施例中,实体数据指的是原始文本在疾病字典库中找到的疾病字词,作为示例,例如“高血压病史7年,头晕3天”,那么实体数据则为:高血压。
在本发明实施例中,预设的标注规则指的是在获取实体数据之后,对实体数据的前后位置通过标签的形式进行标记规则。具体的,标注规则可以是:B-实体的起始位置,M-实体的中间位置,E-实体的结束位置,S-单个组成的实体,0-其他。作为示例,例如,“高血压”,那么标注数据则为:高(B)血(M)压(E)。
在本发明实施例中,通过最大匹配规则在疾病字典库中查找与该原始文本相对应的实体数据,从而实现命名实体的预定位操作,通过对该实体数据进行标注操作,从而简化了预处理操作的步骤,有效提高系统识别命名实体的效率,提高用户的使用体验。
在本发明实施例二的一些可选的实现方式中,上述预设的标注规则可以是:
“实体的起始位置标识为B;
实体的中间位置标识为M;
实体的结束位置标识为E;
单个组成的实体标识为S;
其他标识为0”。
在本发明实施例二的一些可选的实现方式中,上述结果预测模块103包括:训练文本获取子模块、实体数据获取子模块、标注数据获取子模块、特征数据获取子模块、模型训练子模块以及模型确定子模块。其中:
训练文本获取子模块,用于读取系统数据库,在所述系统数据库中获取训练文本;
实体数据获取子模块,用于基于所述最大匹配规则在所述疾病字典库中获取与所述训练文本相对应的训练实体数据;
标注数据获取子模块,用于对所述训练实体数据进行所述预处理操作,获取训练标注数据;
特征数据获取子模块,用于获取与所述训练标注数据相对应的特征数据;
模型训练子模块,用于将所述特征数据导入条件随机场模型进行预测模型训练;
模型确定子模块,用于将训练后的所述条件随机场模型作为所述预设的实体预测模型。
在本发明实施例二的一些可选的实现方式中,上述模型训练子模块包括:转移特征获取子模块、状态特征子模块、测试特征获取子模块以及概率训练子模块。其中:
转移特征获取子模块,用于获取与所述特征数据相对应的转移特征函数:
λjtj(s,i,li,li-1);
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数。
状态特征子模块,用于获取与所述特征数据相对应的状态特征函数:
ukgk(s,i,li);
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数。
测试特征获取子模块,用于将所述转移特征函数以及状态特征函数进行合并操作,获得测试特征函数:
Figure BDA0002398545720000171
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数。
概率训练子模块,用于基于所述测试特征函数对所述特征数据进行概率训练操作。
在本发明实施例二的一些可选的实现方式中,上述概率训练子模块包括:概率预测子模块。其中:
概率预测子模块,用于基于概率预测函数对所述特征数据进行所述概率训练操作;
所述概率预测函数表示为:
Figure BDA0002398545720000172
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
所述计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是,图中仅示出了具有组件71-73的计算机设备7,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器71至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器71可以是所述计算机设备7的内部存储单元,例如该计算机设备7的硬盘或内存。在另一些实施例中,所述存储器71也可以是所述计算机设备7的外部存储设备,例如该计算机设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器71还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中,所述存储器71通常用于存储安装于所述计算机设备7的操作系统和各类应用软件,例如命名实体识别方法的程序代码等。此外,所述存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器72在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制所述计算机设备7的总体操作。本实施例中,所述处理器72用于运行所述存储器71中存储的程序代码或者处理数据,例如运行所述命名实体识别方法的程序代码。
所述网络接口73可包括无线网络接口或有线网络接口,该网络接口73通常用于在所述计算机设备7与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有命名实体识别程序,所述命名实体识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的命名实体识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种命名实体识别方法,其特征在于,所述方法包括下述步骤:
接收用户终端发送的携带有原始文本的识别请求;
对所述原始文本进行预处理操作,获取标注数据;
将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;
将满足预测阈值的所述实体预测结果作为实体识别结果;
向所述用户终端输出所述实体识别结果。
2.如权利要求1所述的命名实体识别方法,其特征在于,所述对所述原始文本进行预处理操作,获取标注数据的步骤,具体包括如下步骤:
读取疾病字典库,基于最大匹配规则在所述疾病字典库中获取与所述原始文本相对应的实体数据;
基于预设的标注规则对所述实体数据进行标注操作,获得所述标注数据。
3.如权利要求2所述的命名实体识别方法,其特征在于,所述预设的标注规则包括:
实体的起始位置标识为B;
实体的中间位置标识为M;
实体的结束位置标识为E;
单个组成的实体标识为S;
其他标识为0。
4.如权利要求1所述的命名实体识别方法,其特征在于,所述将所述标注数据输入至预设的实体预测模型,获取实体预测结果的步骤,具体包括如下步骤:
读取系统数据库,在所述系统数据库中获取训练文本;
基于所述最大匹配规则在所述疾病字典库中获取与所述训练文本相对应的训练实体数据;
对所述训练实体数据进行所述预处理操作,获取训练标注数据;
获取与所述训练标注数据相对应的特征数据;
将所述特征数据导入条件随机场模型进行预测模型训练;
将训练后的所述条件随机场模型作为所述预设的实体预测模型。
5.如权利要求4所述的命名实体识别方法,其特征在于,所述将所述特征数据导入条件随机场模型进行预测模型训练的步骤,具体包括如下步骤:
获取与所述特征数据相对应的转移特征函数:
λjtj(s,i,li,li-1);
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数;
获取与所述特征数据相对应的状态特征函数:
ukgk(s,i,li);
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数;
将所述转移特征函数以及状态特征函数进行合并操作,获得测试特征函数:
Figure FDA0002398545710000021
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数;
基于所述测试特征函数对所述特征数据进行概率训练操作。
6.如权利要求5所述的命名实体识别方法,其特征在于,所述基于所述测试特征函数对所述特征数据进行概率训练操作的步骤,具体包括如下步骤:
基于概率预测函数对所述特征数据进行所述概率训练操作;
所述概率预测函数表示为:
Figure FDA0002398545710000031
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数。
7.一种命名实体识别装置,其特征在于,所述装置包括:
请求接收模块,用于接收用户终端发送的携带有原始文本的识别请求;
预处理模块,用于对所述原始文本进行预处理操作,获取标注数据;
结果预测模块,用于将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;
结果确认模块,用于将满足预测阈值的所述实体预测结果作为实体识别结果;
结果输出模块,用于向所述用户终端输出所述实体识别结果。
8.如权利要求7所述的命名实体识别装置,其特征在于,所述预处理模块包括:
实体数据获取子模块,用于读取疾病字典库,基于最大匹配规则在所述疾病字典库中获取与所述原始文本相对应的实体数据;
标注数据获取子模块,用于基于预设的标注规则对所述实体数据进行标注操作,获得所述标注数据。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的命名实体识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的命名实体识别方法的步骤。
CN202010141193.8A 2020-03-03 2020-03-03 一种命名实体识别方法、装置、计算机设备及存储介质 Pending CN111353311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010141193.8A CN111353311A (zh) 2020-03-03 2020-03-03 一种命名实体识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010141193.8A CN111353311A (zh) 2020-03-03 2020-03-03 一种命名实体识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111353311A true CN111353311A (zh) 2020-06-30

Family

ID=71195887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010141193.8A Pending CN111353311A (zh) 2020-03-03 2020-03-03 一种命名实体识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111353311A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985224A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 用药说明文本处理方法、装置、设备及存储介质
CN112364649A (zh) * 2020-09-08 2021-02-12 平安医疗健康管理股份有限公司 命名实体的识别方法、装置、计算机设备及存储介质
WO2021151322A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于深度学习模型的实体识别方法、装置、设备及介质
CN113221565A (zh) * 2021-05-07 2021-08-06 北京百度网讯科技有限公司 实体识别模型的训练方法、装置、电子设备及存储介质
WO2022111083A1 (zh) * 2020-11-30 2022-06-02 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844474A (zh) * 2017-09-29 2018-03-27 华南师范大学 基于层叠条件随机场的疾病数据命名实体识别方法及系统
CN109522546A (zh) * 2018-10-12 2019-03-26 浙江大学 基于上下文相关的医学命名实体识别方法
CN109800440A (zh) * 2019-02-26 2019-05-24 京东方科技集团股份有限公司 汉字的序列标注方法及系统、计算机设备及可读存储介质
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844474A (zh) * 2017-09-29 2018-03-27 华南师范大学 基于层叠条件随机场的疾病数据命名实体识别方法及系统
CN109522546A (zh) * 2018-10-12 2019-03-26 浙江大学 基于上下文相关的医学命名实体识别方法
CN109800440A (zh) * 2019-02-26 2019-05-24 京东方科技集团股份有限公司 汉字的序列标注方法及系统、计算机设备及可读存储介质
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DINGCHENG LI等: "Conditional Random Fields and Support Vector Machines for Disorder Named Entity Recognition in Clinical Texts", 《BIONLP 2008: CURRENT TRENDS IN BIOMEDICAL NATURAL LANGUAGE PROCESSING》, 30 June 2008 (2008-06-30) *
叶枫等: "电子病历中命名实体的智能识别", 《中国生物医学工程学报》, vol. 30, no. 2, 30 April 2011 (2011-04-30), pages 256 - 262 *
王凯: "基于深度学习的英文事件抽取研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》, no. 4, 15 April 2018 (2018-04-15), pages 138 - 3672 *
高凯等: "《信息检索与智能处理》", 31 January 2014, 国防工业出版社, pages: 89 - 90 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985224A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 用药说明文本处理方法、装置、设备及存储介质
WO2021151322A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于深度学习模型的实体识别方法、装置、设备及介质
CN112364649A (zh) * 2020-09-08 2021-02-12 平安医疗健康管理股份有限公司 命名实体的识别方法、装置、计算机设备及存储介质
CN112364649B (zh) * 2020-09-08 2022-07-19 深圳平安医疗健康科技服务有限公司 命名实体的识别方法、装置、计算机设备及存储介质
WO2022111083A1 (zh) * 2020-11-30 2022-06-02 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质
CN113221565A (zh) * 2021-05-07 2021-08-06 北京百度网讯科技有限公司 实体识别模型的训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111353311A (zh) 一种命名实体识别方法、装置、计算机设备及存储介质
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112287680B (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
WO2023116561A1 (zh) 一种实体提取方法、装置、电子设备及存储介质
CN112084779B (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN111581972A (zh) 文本中症状和部位对应关系识别方法、装置、设备及介质
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN116912847A (zh) 一种医学文本识别方法、装置、计算机设备及存储介质
CN113297852B (zh) 一种医学实体词的识别方法和装置
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN113051900B (zh) 同义词识别方法、装置、计算机设备及存储介质
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN113657104A (zh) 文本抽取方法、装置、计算机设备及存储介质
CN110378378B (zh) 事件检索方法、装置、计算机设备及存储介质
CN112926314A (zh) 文档的重复性识别方法、装置、电子设备以及存储介质
CN113688268B (zh) 图片信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40023246

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220525

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Block H, 666 Beijing East Road, Huangpu District, Shanghai 200000

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200630

RJ01 Rejection of invention patent application after publication