CN110795940A - 一种命名实体识别方法、系统及电子设备 - Google Patents

一种命名实体识别方法、系统及电子设备 Download PDF

Info

Publication number
CN110795940A
CN110795940A CN201911033901.XA CN201911033901A CN110795940A CN 110795940 A CN110795940 A CN 110795940A CN 201911033901 A CN201911033901 A CN 201911033901A CN 110795940 A CN110795940 A CN 110795940A
Authority
CN
China
Prior art keywords
word
named entity
prediction
named
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911033901.XA
Other languages
English (en)
Other versions
CN110795940B (zh
Inventor
宋思睿
宋彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Workshop (guangzhou) Artificial Intelligence Research Co Ltd
Original Assignee
Innovation Workshop (guangzhou) Artificial Intelligence Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Workshop (guangzhou) Artificial Intelligence Research Co Ltd filed Critical Innovation Workshop (guangzhou) Artificial Intelligence Research Co Ltd
Priority to CN201911033901.XA priority Critical patent/CN110795940B/zh
Publication of CN110795940A publication Critical patent/CN110795940A/zh
Application granted granted Critical
Publication of CN110795940B publication Critical patent/CN110795940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种命名实体识别方法、系统及电子设备,本方法通过获取至少一文本,所述文本内含有顺序排列的至少一字,预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体,将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。利用了在同一文本中不同命名实体之间的语义联系,使得可通过先识别获得的命名实体信息提高对下一字的预测准确度。

Description

一种命名实体识别方法、系统及电子设备
【技术领域】
本发明涉及命名实体识别领域,特别涉及一种命名实体识别方法、系统及电子设备。
【背景技术】
命名实体(named entity),即含义为某个现实中存在的实体对象、由一个词或若干次组成的词组;例如“北京市海淀区”就是一个命名实体,其意义为现实中的一个实体地点。
命名实体识别(named entity recognition),即输入一个文本,要求检测该文本中含有所有命名实体,并且对检测到的命名实体进行分类。一般而言,命名实体可以被分为人名、地名、组织名等,在特殊领域如医学、金融文本中,命名实体可以有不一样的分类方法,例如蛋白质名、DNA名;公司名、职务名等。
现有的命名实体识别方法在识别不同文本时,受文本中不同上下文的影响,同一命名实体在不同语义的文本中可能会造成错误识别,这会导致一部分命名实体,尤其是处于较难判断的上下文中时,会被漏报,识别准确率较低。然而,文本中常常存在成对、成组合出现的命名实体,这些命名实体间的共现信息(cooccurrence),其实可以帮助命名实体的识别,降低命名实体识别的错误率。但这一信息尚未被任何现有方法利用。
【发明内容】
为了克服目前现有的命名实体识别方法识别准确率较低的问题,本发明提供命名实体识别方法、系统及电子设备。
本发明为解决上述技术问题,提供一技术方案如下:一种命名实体识别方法,包括如下步骤:步骤S1:获取至少一文本,所述文本内含有顺序排列的至少一字;步骤S2:预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体;及步骤S3:将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。
优选地,步骤S3之后还包括:步骤S4:继续依次对一个新的字进行预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。
优选地,上述步骤S2具体包括如下步骤:步骤S21:提取一字的第一字向量,预测所述第一字向量的第一预测标签;步骤S22:判断所述第一预测标签是否为命名实体标签的一部分,若是,则进入步骤S23,若否,则进入步骤S26;步骤S23:判断所述第一预测标签是否为一独立的命名实体标签,若是,则进入步骤S24,若否,则进入步骤S25;步骤S24:获得该字对应的命名实体;步骤S25:以所述第一字向量为起始,按照顺序向下逐次提取至少一个字的至少一个后续字向量,根据第一字向量与至少一后续字向量获得所述命名实体;及步骤S26:将该字定义为常规向量,转移至下一字后回到步骤S21。
优选地,上述步骤S25具体包括如下步骤:步骤S251:按照顺序向下逐次提取至少一个字的至少一个后续字向量,预测所述至少一个后续字向量的第二预测标签;步骤S252:判断所述第二预设标签是否为命名实体的结束字,若是,则进入步骤S253,若否,则返回步骤S251;步骤S253:将所述第一字向量、后续字向量及两者之间所有字的字向量进行组合,获得所述命名实体对应的命名实体向量;及步骤S254:输出所述命名实体。
优选地,上述步骤S241中,多个所述后续字向量在预测对应的预测标签时,后一个后续字向量以在先所有字向量及对应的预测标签为输入之一进行预测。
优选地,上述步骤S4具体包括如下步骤:步骤S41:记录当前获得的至少一命名实体,将每一命名实体转化为对应的命名实体向量;步骤S42:将每一所述命名实体向量作为预测新的字的预测标签的输入之一;及步骤S43:基于前一字的字向量、前一字的预测标签、新的字的字向量及当前获得的所有命名实体向量,预测所述新的字的预测标签,并根据相关的多个预测标签组合获得对应的命名实体,获得所述文本中所有的命名实体,以识别所述真实命名实体对应的命名实体类别。
本发明还提供一种命名实体识别系统,包括:文本获取单元,用于获取至少一文本,所述文本内含有顺序排列的至少一字;初始预测单元,用于预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体;及命名实体识别单元,用于将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。
优选地,所述命名实体识别单元在获得下一个命名实体后,所述命名实体识别单元继续依次对一个新的字进行预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。
优选地,所述命名实体识别单元在进行新的字的预测时,还包括:命名实体储存单元,用于记录当前获得的至少一命名实体,将每一命名实体转化为对应的命名实体向量;预测输入单元,用于将每一所述命名实体向量作为预测下一字的预测标签的输入之一;及命名实体确认单元,用于基于前一字的字向量、前一字的预测标签、下一字的字向量及当前获得的所有命名实体向量,预测所述下一字的预测标签,并根据获得的多个预测标签组合获得对应的命名实体,以识别所述真实命名实体对应的命名实体类别。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被设置为运行时执行上述任一项中所述的命名实体识别方法;所述处理器被设置为通过所述计算机程序执行上述任一项中所述的命名实体识别方法。
与现有技术相比,本发明提供的一种命名实体识别方法、系统及电子设备,具有以下优点:
1、通过获取至少一文本,所述文本内含有顺序排列的至少一字,预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体,将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。利用了在同一文本中不同命名实体之间的语义联系,使得可通过先识别获得的命名实体信息提高对下一字的预测准确度。
2、通过当继续向下预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。利用了在同一文本中多个不同命名实体之间的语义联系,使得可通过先识别获得的多个命名实体信息提高对新的字的预测准确度,以适应在同一文本中多个命名实体的语义信息,提高了对同一文本内后续多个命名实体识别的准确性。
3、通过提取字的字向量,基于所述字向量预测对应字的预测标签,通过预测标签组合以获得对应的命名实体,提高了命名实体识别的效率和准确度。
4、通过在多个所述后续字向量在预测对应的预测标签时,后一个后续字向量以在先所有字向量及对应的预测标签为输入之一进行预测,使得本方法可基于预测标签之间的关系组合获得命名实体,使得本发明提供的命名实体识别方法在进行文本内字的预测时,考虑了不同字的预测标签之间的联系,进一步提高了命名实体识别的准确性。
5、通过将每一所述命名实体向量作为预测下一字的预测标签的输入之一,基于前一字的字向量、前一字的预测标签、下一字的字向量及当前获得的所有命名实体向量共同预测下一字的预测标签,使得在先识别获得的命名实体信息与下一字的预测形成联系,以适应在同一文本中多个命名实体的语义信息,提高命名实体识别的准确性。
6、所述文本内的字包括为中文文字和/或英文单词,使得本发明提供的命名实体识别方法可适应多种不同语言的文字,适应性更高。
【附图说明】
图1为本发明第一实施例提供的一种命名实体识别方法的流程图。
图2为本发明第一实施例提供的一种命名实体识别方法中步骤S2的细节流程图。
图3为本发明第一实施例提供的一种命名实体识别方法中步骤S25的细节流程图。
图4为本发明第一实施例提供的一种命名实体识别方法中步骤S4的细节流程图。
图5为本发明第二实施例提供的一种命名实体识别系统的模块图。
图6为本发明第二实施例提供的一种命名实体识别系统中命名实体识别单元在进行新的字的预测时的模块图。
图7为本发明第三实施例提供的一种电子设备的模块图。
附图标记说明:
1、文本获取单元;2、初始预测单元;3、命名实体识别单元;
31、命名实体储存单元;32、预测输入单元;33、命名实体确认单元;
10、存储器;20、处理器;
【具体实施方式】
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种命名实体识别方法,包括以下步骤:
步骤S1:获取至少一文本,所述文本内含有顺序排列的至少一字。
可以理解,在步骤S1中,所述文本内包含有顺序排列的至少一字,所述字包括中文文字和/或英文单词和/或其他国家的文字的一种或者多种的组合,多个所述字内单个字或多个字的组合形成多个命名实体。在本实施例中,以所述字为中文文字进行说明,但不作为对本方案的限制。
步骤S2:预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体;
可以理解,在步骤S2中,将步骤S1获得的文本按照顺序进行依次预测,以在所述文本中按照预设顺序识别出在先至少一个字的预测标签获得所述第一命名实体。
具体地,当命名实体为单个字时,直接识别获得所述第一命名实体。当命名实体为多个字时,通过依次预测每一字的预测标签,基于所述预测标签识别出对应字的属性,再通过预测标签组合获得命名实体。例如,在本实施例中,所述文本为“科比和奥尼尔都是湖人队的球星”,按照顺序从“科”这一文件开始预测,识别字“科”识别出标签为B-PER,识别相邻字“比”识别出标签为E-PER,则识别出一个初始命名实体“科比”。
可以理解,上述预测标签有BIES、BIO等若干表达方式,其中B代表该词(字)为一个NE的开始(Begin),I代表该词(字)处于一个NE的中间(Inside),O表示该词(字)不属于一个NE(Outside),E代表该词(字)属于一个NE的结尾(End),S代表该词(字)为单独的一个NE(Single)。NE标签常常会带有NE类别,例如B-LOC,B-PER分别代表一个地名的开头、一个人名的开头。
例如,在本实施例中,通过Recurrent Neural Networks(RNN)循环神经网络对文字进行预测,该网络经过预先训练获得,可识别出经过训练的命名实体。但是在不同文本中,受文本中不同命名实体语义的影响,训练获得的同一命名实体在不同语义的文本中可能会造成错误识别,例如,在训练时的文本为“奥尼尔对谷歌进行了投资并获得了分红”,该文中的“奥尼尔”语义包含了金融领域方面的信息,在本实施例中可能会对“奥尼尔”造成错误识别。
步骤S3:将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。
可以理解,在步骤S3中,通过将在先获得的所述第一命名实体作为下一字预测的输入之一,使得在同一文本中,可根据在先识别获得的第一命名实体作为预测下一字的信息,使得在先识别获得的第一命名实体信息与下一字的预测形成联系,以适应在同一文本中多个命名实体的语义信息,提高对下一命名实体识别的准确性。
可以理解,在步骤S3中,下一字在预测时,遇到单个字的命名实体即可直接识别获得,当遇到具有多个字的命名实体时,需要依次识别出多个字的预测标签,组合获得对应的命名实体,并对识别的命名实体进行分类,获得命名实体的类别。
步骤S4:继续依次对一个新的字进行预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。
可以理解,在步骤S4中,通过将在先获得的至少部分命名实体作为新的字预测的输入之一,使得在同一文本中,可根据在先识别获得的命名实体作为预测新的字的信息,使得在先识别获得的命名实体信息与新的字的预测形成联系,以适应在同一文本中多个命名实体的语义信息,提高命名实体识别的准确性。
可以理解,在步骤S4中,作为新的字的输入之一的命名实体数量,可以为在先识别的部分命名实体,也可以为在先识别的所有命名实体,只要可以将在先识别的至少一命名实体作为新的字的预测的输入之一即可,在此不再赘述。
例如,在本实施例中,将在步骤S2中识别出的“科比”命名实体对应的词向量做为后续的字“和”预测的输入之一,在“和”预测获得预测标签后获得对应的识别结果,继续识别“奥”时,将“科比”与“和”两个命名实体对应的向量输入作为“奥”字预测的信息之一。
可以理解,在步骤S4中,对所述真实命名实体进行分类,获得每一真实命名实体的类别,以便于用户分辨识别出的真实命名实体的类别及所属领域,方便用户理解文本内容,提高了对输入文本中命名实体识别的准确性。
请参阅图2,步骤S2:预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体。步骤S2具体包括步骤S21~S26:
步骤S21:提取一字的第一字向量,预测所述第一字向量的第一预测标签;
步骤S22:判断所述第一预测标签是否为命名实体标签的一部分,若是,则进入步骤S23,若否,则进入步骤S26;
步骤S23:判断所述第一预测标签是否为一独立的命名实体标签,若是,则进入步骤S24,若否,则进入步骤S25;
步骤S24:获得该字对应的命名实体;
步骤S25:以所述第一字向量为起始,按照顺序向下逐次提取至少一个字的至少一个后续字向量,根据第一字向量与至少一后续字向量获得所述命名实体;及
步骤S26:将该字定义为常规向量,转移至下一字后回到步骤S21。
可以理解,在步骤S21中,通过提取字的字向量,以通过所述字向量预测对应字的预测标签。例如,在本实施例中,预测“科”字时,预测获得“科”为人名的开始,预测“比”时,预测为人名的结束,则组合获得“科比”这一命名实体。
可以理解,在步骤S21中,可以将所述第一字向量输入至所述RNN循环网络中的编码层中,在所述编码层内进行识别预测所述第一字向量对应的标签,经过解码后以输出所述第一预测标签。
可以理解,在步骤S23中,所述第一预测标签判别为一命名实体标签时,即输出所述命名实体并识别该命名实体的类别。
可以理解,在步骤S26中,当前预测的字不是命名实体的一部分时,则定义为常规向量。例如,在本实施例中,在预测“和”字时,尽管将“科比”作为“和”字预测的输入之一,但其依然不是命名实体的一部分,则将“和”作为常规向量,并继续向下识别。
可以理解,步骤S21~S26仅为该实施例的一种实施方式,其实施方式并不限定于步骤S21~S26。
请参阅图3,步骤S25:以所述第一字向量为起始,按照顺序向下逐次提取至少一个字的至少一个后续字向量,根据第一字向量与至少一后续字向量获得所述命名实体。步骤S25具体包括步骤S251~S254:
步骤S251:按照顺序向下逐次提取至少一个字的至少一个后续字向量,预测所述至少一个后续字向量的第二预测标签;
步骤S252:判断所述第二预设标签是否为命名实体的结束字,若是,则进入步骤S253,若否,则返回步骤S251;
步骤S253:将所述第一字向量、后续字向量及两者之间所有字的字向量进行组合,获得所述命名实体对应的命名实体向量;及
步骤S254:输出所述命名实体。
可以理解,在步骤S251中,每一命名实体对应的字数并不相同,故所述后续字向量可以为一个或者多个。
可选地,在步骤S251中,多个所述后续字向量在预测对应的预测标签时,后一个后续字向量以在先所有字向量及对应的预测标签为输入之一进行预测,以提高对下一字的识别准确度。
可以理解,在步骤S254中,预测时,所述命名实体以向量的形式进行预测,以输出所述命名实体。
可以理解,步骤S251~S254仅为该实施例的一种实施方式,其实施方式并不限定于步骤S251~S254。
请参阅图4,步骤S4:继续依次对一个新的字进行预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。步骤S33具体包括步骤S31~S33:
步骤S41:记录在先获得的至少一命名实体,将每一命名实体转化为对应的命名实体向量;
步骤S42:将每一所述命名实体向量作为预测新的字的预测标签的输入之一;及
步骤S43:基于前一字的字向量、前一字的预测标签、新的字的字向量及当前获得的所有命名实体向量,预测所述新的字的预测标签,并根据相关的多个预测标签组合获得对应的命名实体,获得所述文本中所有的命名实体,以识别所述真实命名实体对应的命名实体类别。
可以理解,在步骤S41中,将在先获得的至少一命名实体进行记录保存,并提取每一命名实体对应的命名实体向量,使得后续步骤的识别中,可以获取在先识别获得的命名实体信息。
可以理解,在步骤S42中,将每一所述命名实体向量作为预测新的字的预测标签的输入之一,使得在先识别获得的命名实体信息与新的字的预测形成联系,以适应在同一文本中多个命名实体的语义信息,提高命名实体识别的准确性。
可以理解,在步骤S43中,基于前一字的字向量、前一字的预测标签、新的字的字向量及当前获得的所有命名实体向量共同预测新的字的预测标签。例如,在本实施例中,在识别“奥”字时,通过在先识别了“科比”这一命名实体,经过训练的循环神经网络可基于“科比”是篮球运动员的人名,正确识别出“奥”也是一个人名的开始,进而识别出“奥尼尔”为命名实体的人名类别。
进一步,例如,在本实施例中,基于在先识别的“科比”、“奥尼尔”都是NBA中洛杉矶湖人队的球星的语义信息,使得在识别“湖人队”时,可快速准确识别获得,提高了识别的准确性。
可以理解,步骤S41~S43仅为该实施例的一种实施方式,其实施方式并不限定于步骤S41~S43。
请参阅图5,本发明第二实施例还提供一种命名实体识别系统,用于实施上述第一实施例中的命名实体识别方法。该命名实体识别系统可以包括:
文本获取单元1,用于获取至少一文本,所述文本内含有顺序排列的至少一字;
初始预测单元2,用于预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体;
命名实体识别单元3,用于将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。
进一步,当所述命名实体识别单元3在获得下一个命名实体后,所述命名实体识别单元3继续依次对一个新的字进行预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。
请参阅图6,所述命名实体识别单元3在进行新的字的预测时,还包括:
命名实体储存单元31,用于记录在先获得的至少一命名实体,将每一命名实体转化为对应的命名实体向量;
预测输入单元32,用于将每一所述命名实体向量作为预测新的字的预测标签的输入之一;及
命名实体确认单元33,用于基于前一字的字向量、前一字的预测标签、新的字的字向量及当前获得的所有命名实体向量,预测所述新的字的预测标签,并根据相关的多个预测标签组合获得对应的命名实体,获得所述文本中所有的命名实体,以识别所述真实命名实体对应的命名实体类别。
可以理解,本发明第二实施例提供的一种命名实体识别系统特别适用于基于命名实体关系的命名实体识别系统中,该系统通过将在先识别的命名实体作为下一字的预测的输入信息之一,利用了在同一文本中不同命名实体之间的语义联系,使得可通过先识别获得的命名实体信息提高对下一字的预测准确度,以适应在同一文本中多个命名实体的语义信息,提高命名实体识别的准确性。
请参阅图7,本发明第三实施例提供一种用于实施上述命名实体识别方法的电子设备,所述电子设备包括存储器10和处理器20,所述存储器10中存储有运算机程序,所述运算机程序被设置为运行时执行上述任一项命名实体识别方法实施例中的步骤。所述处理器20被设置为通过所述运算机程序执行上述任一项命名实体识别方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于运算机网络的多个网络设备中的至少一个网络设备。
具体地,所述电子设备特别适用于基于命名实体关系的命名实体识别设备中,该电子设备通过将在先识别的命名实体作为下一字的预测的输入信息之一,利用了在同一文本中不同命名实体之间的语义联系,使得可通过先识别获得的命名实体信息提高对下一字的预测准确度,以适应在同一文本中多个命名实体的语义信息,提高命名实体识别的准确性。
与现有技术相比,本发明提供的一种命名实体识别方法、系统及电子设备,具有以下优点:
1、通过获取至少一文本,所述文本内含有顺序排列的至少一字,预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体,将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。利用了在同一文本中不同命名实体之间的语义联系,使得可通过先识别获得的命名实体信息提高对下一字的预测准确度。
2、通过当继续向下预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。利用了在同一文本中多个不同命名实体之间的语义联系,使得可通过先识别获得的多个命名实体信息提高对新的字的预测准确度,以适应在同一文本中多个命名实体的语义信息,提高了对同一文本内后续多个命名实体识别的准确性。
3、通过提取字的字向量,基于所述字向量预测对应字的预测标签,通过预测标签组合以获得对应的命名实体,提高了命名实体识别的效率和准确度。
4、通过在多个所述后续字向量在预测对应的预测标签时,后一个后续字向量以在先所有字向量及对应的预测标签为输入之一进行预测,使得本方法可基于预测标签之间的关系组合获得命名实体,使得本发明提供的命名实体识别方法在进行文本内字的预测时,考虑了不同字的预测标签之间的联系,进一步提高了命名实体识别的准确性。
5、通过将每一所述命名实体向量作为预测下一字的预测标签的输入之一,基于前一字的字向量、前一字的预测标签、下一字的字向量及当前获得的所有命名实体向量共同预测下一字的预测标签,使得在先识别获得的命名实体信息与下一字的预测形成联系,以适应在同一文本中多个命名实体的语义信息,提高命名实体识别的准确性。
6、所述文本内的字包括为中文文字和/或英文单词,使得本发明提供的命名实体识别方法可适应多种不同语言的文字,适应性更高。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。
在该计算机程序被处理器执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机存储器可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机存储器例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。
计算机存储器的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读信号介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括文本获取单元、初始预测单元以及命名实体识别单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,文本获取单元还可以被描述为“获取至少一文本,所述文本内含有顺序排列的至少一字的单元”。
作为另一方面,本申请还提供了一种计算机存储器,该计算机存储器可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机存储器承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取至少一文本,所述文本内含有顺序排列的至少一字;预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体;及将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。
以上仅为本发明较佳实施例而已,并不用以限制本发明,凡在本发明原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。

Claims (10)

1.一种命名实体识别方法,其特征在于:包括如下步骤:
步骤S1:获取至少一文本,所述文本内含有顺序排列的至少一字;
步骤S2:预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体;及
步骤S3:将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。
2.如权利要求1中所述命名实体识别方法,其特征在于:步骤S3之后还包括:
步骤S4:继续依次对一个新的字进行预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。
3.如权利要求1中所述命名实体识别方法,其特征在于:上述步骤S2具体包括如下步骤:
步骤S21:提取一字的第一字向量,预测所述第一字向量的第一预测标签;
步骤S22:判断所述第一预测标签是否为命名实体标签的一部分,若是,则进入步骤S23,若否,则进入步骤S26;
步骤S23:判断所述第一预测标签是否为一独立的命名实体标签,若是,则进入步骤S24,若否,则进入步骤S25;
步骤S24:获得该字对应的命名实体;
步骤S25:以所述第一字向量为起始,按照顺序向下逐次提取至少一个字的至少一个后续字向量,根据第一字向量与至少一后续字向量获得所述命名实体;及
步骤S26:将该字定义为常规向量,转移至下一字后回到步骤S21。
4.如权利要求3中所述命名实体识别方法,其特征在于:上述步骤S25具体包括如下步骤:
步骤S251:按照顺序向下逐次提取至少一个字的至少一个后续字向量,预测所述至少一个后续字向量的第二预测标签;
步骤S252:判断所述第二预设标签是否为命名实体的结束字,若是,则进入步骤S253,若否,则返回步骤S251;
步骤S253:将所述第一字向量、后续字向量及两者之间所有字的字向量进行组合,获得所述命名实体对应的命名实体向量;及
步骤S254:输出所述命名实体。
5.如权利要求4中所述命名实体识别方法,其特征在于:上述步骤S251中,多个所述后续字向量在预测对应的预测标签时,后一个后续字向量以在先所有字向量及对应的预测标签为输入之一进行预测。
6.如权利要求2中所述命名实体识别方法,其特征在于:上述步骤S4具体包括如下步骤:
步骤S41:记录当前获得的至少一命名实体,将每一命名实体转化为对应的命名实体向量;
步骤S42:将每一所述命名实体向量作为预测新的字的预测标签的输入之一;及
步骤S43:基于前一字的字向量、前一字的预测标签、新的字的字向量及当前获得的所有命名实体向量,预测所述新的字的预测标签,并根据相关的多个预测标签组合获得对应的命名实体,获得所述文本中所有的命名实体,以识别所述真实命名实体对应的命名实体类别。
7.一种命名实体识别系统,其特征在于,包括:
文本获取单元,用于获取至少一文本,所述文本内含有顺序排列的至少一字;
初始预测单元,用于预测所述至少一字的预测标签,根据所述至少一字的预测标签及所述至少一字获得对应的命名实体;及
命名实体识别单元,用于将在先获得的所述命名实体作为下一字预测的输入之一,预测获得下一字的预测标签,至少根据下一字的预测标签获得对应的下一个命名实体,并识别所述命名实体的类别。
8.如权利要求7中所述命名实体识别方法系统,其特征在于:
所述命名实体识别单元在获得下一个命名实体后,所述命名实体识别单元继续依次对一个新的字进行预测时,将在先获得的至少部分命名实体作为当前新的字预测的输入之一,获得所述文本中所有的命名实体,并识别所述命名实体对应的命名实体类别。
9.如权利要求8中所述命名实体识别方法系统,其特征在于,所述命名实体识别单元在进行新的字的预测时,还包括:
命名实体储存单元,用于记录当前获得的至少一命名实体,将每一命名实体转化为对应的命名实体向量;
预测输入单元,用于将每一所述命名实体向量作为预测下一字的预测标签的输入之一;及
命名实体确认单元,用于基于前一字的字向量、前一字的预测标签、下一字的字向量及当前获得的所有命名实体向量,预测所述下一字的预测标签,并根据获得的多个预测标签组合获得对应的命名实体,以识别所述真实命名实体对应的命名实体类别。
10.一种电子设备,包括存储器和处理器,其特征在于:所述存储器中存储有计算机程序,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述命名实体识别方法;
所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述命名实体识别方法。
CN201911033901.XA 2019-10-26 2019-10-26 一种命名实体识别方法、系统及电子设备 Active CN110795940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911033901.XA CN110795940B (zh) 2019-10-26 2019-10-26 一种命名实体识别方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911033901.XA CN110795940B (zh) 2019-10-26 2019-10-26 一种命名实体识别方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN110795940A true CN110795940A (zh) 2020-02-14
CN110795940B CN110795940B (zh) 2024-01-12

Family

ID=69441599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911033901.XA Active CN110795940B (zh) 2019-10-26 2019-10-26 一种命名实体识别方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN110795940B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109635279A (zh) * 2018-11-22 2019-04-16 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109635279A (zh) * 2018-11-22 2019-04-16 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIU HONGJIAN等: "A Pre-Identification Method for Chinese Named Entity Recognition" *

Also Published As

Publication number Publication date
CN110795940B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN112015859B (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
US20180025121A1 (en) Systems and methods for finer-grained medical entity extraction
CN113486833B (zh) 多模态特征提取模型训练方法、装置、电子设备
US11003705B2 (en) Natural language processing and classification
WO2020056995A1 (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
CN112070093B (zh) 生成图像分类模型的方法、图像分类方法、装置和设备
US11663407B2 (en) Management of text-item recognition systems
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN116720184A (zh) 一种基于生成式ai的恶意代码分析方法及系统
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN114218940B (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN113220854B (zh) 机器阅读理解的智能对话方法及装置
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN113096687B (zh) 音视频处理方法、装置、计算机设备及存储介质
US11710098B2 (en) Process flow diagram prediction utilizing a process flow diagram embedding
CN112599211A (zh) 一种医疗实体关系抽取方法及装置
CN110795940B (zh) 一种命名实体识别方法、系统及电子设备
CN114880520B (zh) 视频标题生成方法、装置、电子设备和介质
CA3104292A1 (en) Systems and methods for identifying and linking events in structured proceedings
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN115759048A (zh) 一种剧本文本处理方法及装置
CN110795941B (zh) 一种基于外部知识的命名实体识别方法、系统及电子设备
CN115328753A (zh) 一种故障预测方法及装置、电子设备、存储介质
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN114548325A (zh) 基于对偶对比学习的零样本关系抽取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant