CN111274812A - 一种人物关系识别方法、设备及存储介质 - Google Patents

一种人物关系识别方法、设备及存储介质 Download PDF

Info

Publication number
CN111274812A
CN111274812A CN201811467131.5A CN201811467131A CN111274812A CN 111274812 A CN111274812 A CN 111274812A CN 201811467131 A CN201811467131 A CN 201811467131A CN 111274812 A CN111274812 A CN 111274812A
Authority
CN
China
Prior art keywords
character
text
analyzed
relation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811467131.5A
Other languages
English (en)
Other versions
CN111274812B (zh
Inventor
马春平
谢朋峻
王潇斌
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811467131.5A priority Critical patent/CN111274812B/zh
Publication of CN111274812A publication Critical patent/CN111274812A/zh
Application granted granted Critical
Publication of CN111274812B publication Critical patent/CN111274812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种人物关系识别方法、设备及存储介质,其中,方法包括:对待分析文本进行序列标注,以得到所述待分析文本中包含的人物名称;根据所述人物名称在所述待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,确定所述待分析文本中包含的人物关系。在本申请实施例中,将人物关系识别分为人物名称识别任务和人物关系抽取任务,通过共享两个任务之间的表征,且结合实体位置向量,可获得更高效率、更高准确率的人物关系识别结果。

Description

一种人物关系识别方法、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种人物关系识别方法、设备及存储介质。
背景技术
在公安案件侦查过程中,经常需要对相关案卷进行案卷分析,其中,案卷中人物之间的关系是案件分析过程中的重要信息。
目前,案卷中人物之间的关系仍采用人工抽取的方式,在人工阅读案卷的过程中记录案卷中的人物及人物关系。但是,采用这种方式获取到的人物关系准确性较低,而且,对于案情复杂的案件,需要耗费大量的人力物力才能获取到人物关系,处理效率比较低。
发明内容
本申请的多个方面提供一种人物关系识别方法、设备及存储介质,以提高人物关系识别的效率和准确性。
本申请实施例提供一种人物关系识别方法,包括:
对待分析文本进行序列标注,以得到所述待分析文本中包含的人物名称;
根据所述人物名称在所述待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,识别所述待分析文本中包含的人物关系。
本申请实施例还提供一种计算设备,包括:存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
对待分析文本进行序列标注,以得到所述待分析文本中包含的人物名称;
根据所述人物名称在所述待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,确定所述待分析文本中包含的人物关系。
本申请实施例还提供一种存储计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的人物关系识别方法。
在本申请实施例中,通过对待分析文本进行序列标注,可分析出待分析文本中包含的人物名称;并可基于序列标注结果,确定出待分析文本中人物名称的实体位置;在此基础上,可根据从训练语料中学习到的人物关系相关知识确定出待分析文本中包含的人物关系。在本申请实施例中,将人物关系识别分为人物名称识别任务和人物关系抽取任务,通过共享两个任务之间的表征,且结合实体位置向量,可获得更高效率、更高准确率的人物关系识别结果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一实施例提供的一种人物关系识别方法的流程示意图;
图2为本申请一实施例提供的一种标注效果示意图;
图3为本申请另一实施例提供的一种计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,仍采用人工方式识别文本中的人物关系,识别效率和识别结果准确性都不佳。在本申请的一些实施例中:通过对待分析文本进行序列标注,可分析出待分析文本中包含的人物名称;并可基于序列标注结果,确定出待分析文本中各个字相对于人物名称的实体位置;在此基础上,可根据从训练语料中学习到的人物关系相关知识确定出待分析文本中包含的人物关系。在本申请实施例中,将人物关系识别分为人物名称识别任务和人物关系抽取任务,通过共享两个任务之间的表征,且结合实体位置向量,可获得更高效率、更高准确率的人物关系识别结果。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请一实施例提供的一种人物关系识别方法的流程示意图。如图1所示,该方法包括:
100、对待分析文本进行序列标注,以得到待分析文本中包含的人物名称;
101、根据人物名称在待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,识别待分析文本中包含的人物关系。
本实施例提供的人物关系识别方法可应用于各种需要进行人物关系识别的场景,例如,公安的案情分析场景,等等。对于不同的应用场景,待分析文本的内容形式可以多种多样,例如,对于公安的案情分析场景,待分析文本可以是案情分析案卷。本实施例对待分析文本的内容形式不作限定。
本实施例中,将人物关系识别过程分为人物名称识别任务和人物关系抽取任务。以下将分别阐述这两个任务的执行过程。
针对人物名称识别任务,可采用序列标注的方式分析出待分析文本中包含的人物名称。其中,序列标注所采用的标注集可以有多种,例如,可采用BIO标注集,即B-PER代表人物名称首字,I-PER代表人物名称非首字,O代表该字不属于人物名称的一部分。又例如,可采用BMES标注集,Begin字为人物名称的起始、Middle字为人物名称的中间、End字为人物名称的结束、Single单字为不属于人物名称的部分。当然,这仅是示例性的,本实施例并不限于此。基于不同的标注集,可预设不同的词位标签,例如,对应于上述的BIO标注集,可预先设定B-PER、I-PER和O作为词位标签。
据此,可确定出待分析文本中包含人物名称的句子,此后,可将未包含人物名称的句子进行忽略处理,当然,这个操作不是必须的,也可不进行忽略处理,则对于未包含人物名称的句子的预测结果将是不包含任何人物名称及人物关系。
至此,完成了人物名称识别任务。基于人物名称识别任务,可分析出待分析文本中包含的人物名称。
针对人物关系抽取任务,可根据人物名称在待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,来确定待分析文本中包含的人物关系。
为了减少计算量,本实施例中,可以待分析文本中包含的单个句子作为分析单元,当然,也可以待分析文本中的一组句子作为分析单元,本实施例对此不做限定。以待分析文本中包含的单个句子作为分析单元为例,待分析文本中人物名称的实体位置,可以是在单个句子中人物名称的实体位置。例如,单个句子中包含两个人物名称时,可确定出该句子中两个人物名称的实体位置。相应地,在确定待分析文本中包含的人物关系时,可确定单个句子中包含的人物对之间的人物关系。
其中,在训练语料中学习到的人物关系相关知识可包括训练语料中人物对的上下文特征等等与人物关系抽取相关的知识,人物关系相关知识可以承载在前述的人物名称识别任务的表征中,当然还可以承载在其它辅助任务的表征中,本实施例对此不作限定。通过共享人物名称识别任务的表征,可使人物关系抽取过程和人物关系识别过程共享因素,合二为一,相辅相成,从而提高人物关系识别的准确率。
本实施例中,在确定待分析文本中包含的人物关系时,也可采用标签的方式标注待分析文本中包含的人物关系。可根据学习到的人物关系相关知识,预先设定各人物关系标签,例如,夫妻标签、兄弟标签等等。通过确定待分析文本中人物对所对应的人物关系标签,可确定出待分析文本中包含的人物对所对应的人物关系的类型。
至此,完成了人物关系抽取任务。针对不同的应用场景,人物抽取任务后所确定出的待分析文本中包含的人物关系可作为不同后续任务的基础,例如,对于公安的案情分析场景,可利用案情分析案卷中包含的人物关系进行案情分析,为案情分析提供信息参考,以提高案情分析的效率和准确率。
本实施例中,通过对待分析文本进行序列标注,可分析出待分析文本中包含的人物名称;并可基于序列标注结果,确定出待分析文本中人物名称的实体位置;在此基础上,可根据从训练语料中学习到的人物关系相关知识确定出待分析文本中包含的人物关系。在本申请实施例中,将人物关系识别分为人物名称识别任务和人物关系抽取任务,通过共享两个任务之间的表征,且结合实体位置向量,可获得更高效率、更高准确率的人物关系识别结果。
在上述或下述实施例中,可根据待分析文本中各个字对应各个词位标签的概率,确定出待分析文本中各个字对应的最大概率的词位标签,作为待分析文本中各个字对应的预测词位标签;根据待分析文本中预测词位标签为人物名称的字,分析出待分析文本中包含的人物名称。
基于预设的词位标签,序列标注过程的输出结果为待分析文本中每个字对应各词位标签的概率。该概率表示各个字对应各个词位标签的可能性,该概率越高,则表示字与词位标签相对应的可能性越高。例如,若采用上述的BIO标注集,则针对待分析文本中的每个字,都将对应3个概率值,即对应B-PER标签的概率、对应I-PER标签的概率和对应O标签的概率。
图2为一种待分析文本标注效果图。其中,“张”对应的预测词位标签为B-PER,“三”对应的预测词位标签为I-PER,“李”对应的预测词位标签为B-PER,“四”对应的预测词位标签为I-PER,其它字对应的预测词位标签均为O。据此,可确定,“张三”和“李四”为人物名称。值得说明的是,图2中仅示出了一个句子的标注结果,但应当理解的是,待分析文本中可包含一个或多个句子,通过序列标注可获得每个句子中每个字对应的预测词位标签。另外,图2中示出的是基于BIO标注集的标注效果,但这不应造成对本实施例的保护范围的限定,基于其它标注集的标注效果不再穷举。
基于此,本实施例中,可将待分析文本中各个字对应的最大概率的词位标签,作为待分析文本中各个字对应的预测词位标签。例如,对图2中的句子进行序列标注后,“李”字对应B-PER标签的概率为80%,对应I-PER标签的概率为50%,对应O标签的概率为10%,据此,可将B-PER标签作为“李”字对应的预测词位标签。相应地,图2中所示出的其它字对应的预测词位标签也可采用上述方式确定。
基于待分析文本中各个字对应的预测词位标签,可筛选出预测词位标签为人物名称的字。例如,根据图2中各个字对应的预测词位标签,可确定“张”、“三”、“李”、“四”为人物名称,则可据此确定出图2示出的句子中包含两个人物名称,分别为“张三”和“李四”。当然,根据不同的标注集对应的标注结果,在基于待分析文本中各个字对应的预测词位标签确定待分析文本中包含的人物名称的过程中可能存储细微差别,该过程可根据标注集的不同而做适应性调整,在此不再赘述。
本实施例中,将人物名称识别任务转化为序列标注任务,通过序列标注的方式为待分析文本中的各个字添加预测词位标签,并基于预测词位标签确定出待分析文本中包含的人物名称。这使得人物名称识别人物的识别结果更加的准确,相对于现有技术中的人工标注方式,本实施例提供的人物名称识别方式可获得更高的效率及更高的准确率。
在上述或下述实施例中,可根据待分析文本中各个字之间的相对位置,确定人物名称在待分析文本中的实体位置。
在一些实际应用中,可根据待分析文本中包含的人物名称,查找待分析文本中包含至少两个人物名称的句子,作为目标句子;以目标句子中的各个人物名称的位置作为基准位置,确定目标句子中的各个字与各个人物名称的相对位置;根据目标句子中的各个字与各个人物名称的相对位置,生成目标句子中的各个字相对各个人物名称的实体位置向量,并以所述实体位置向量表征所述人物名称在所述待分析文本中的实体位置。
如前文所述,待分析文本中可能包含一个或多个句子,本实施例中,可将可能包含人物关系信息的句子确定为目标句子,并通过分析目标句子中包含的人物对所对应的人物关系来获得待分析文本中包含的人物关系。
基于图2所示的标注效果,可确定出人物名称在目标句子中的位置,以此作为基准位置,可确定出目标句子中各个字相对于各人物名称的实体位置。例如,对于图2中的“张”字,其相对于人物名称“张三”的距离可表示为0,而其相对于人物名称“李四”的距离可表示为-3,“三”字相对于人物名称“张三”的距离可表示为0,而其相对于人物名称“李四”的距离可表示为-2,“和”字相对于人物名称“张三”的距离可表示为1,而其相对于人物名称“李四”的距离可表示为-1。
据此,可根据目标句子中的各个字与各个人物名称的相对位置,生成目标句子中的各个字相对各个人物名称的实体位置向量。实体位置向量可反映出目标句子中各个字与各人物名称的位置偏移量,并可作为后续的人物关系抽取任务中参数以提高人物关系抽取任务的抽取结果准确性。
在上述或下述实施例中,可基于双向长短记忆网络(Bidirectional long short-term memory,BILSTM)对待分析文本进行序列标注,当然,也可采用其它序列标注方式,本实施例对此不作限定。后文中将重点以采用BILSTM网络对待分析文本进行序列标注为例进行技术方案的相关说明。
基于BILSTM网络对待分析文本进行序列标注过程可包括:将待分析文本输入BILSTM网络的输入层,BILSTM网络在其输入层将待分析文本中的每个字映射为字向量。字向量将被输入到BILSTM网络的隐藏层,BILSTM网络的隐藏层为双向LSTM层,可自动提取句子特征,并将待分析文本中各个字的字向量作为双向LSTM层各个时间步的输入,再将正向LSTM输出的隐状态序列和反向LSTM输出的隐状态序列进行按位置拼接,得到待分析文本中各个字对应的隐状态向量。BILSTM网络的隐藏层连接至其输出层,输出层中可输出待分析文本中各个字对应各词位标签的概率。
之后,可对BILSTM网络的输出层执行softmax操作,以获得待分析文本中各个字对应的预测词位标签。当然,还可在BILSTM网络的输出层之后设定CRF(条件随机场)层,以确定出待分析文本中各个字对应的预测词位标签,本实施例对此不作限定。
本实施例中,在执行人物关系抽取任务时,可通过共享BILSTM网络的隐藏层实现共享人物名称识别任务的表征。据此,可对包含至少两个人物名称的目标句子执行以下处理:将目标句子中各个字对应的实体位置向量与BILSTM网络的隐藏层结合,以获取目标句子中的各个字对应的第一向量;对各个字对应的第一向量进行平均池化操作,以获得目标句子对应的第二向量;根据目标句子对应的第二向量,确定目标句子对应各个人物关系标签的概率;根据目标句子对应各个人物关系标签的概率,确定出目标句子对应的最大概率的人物关系标签,作为目标句子对应的预测人物关系标签;根据待分析文本中包含的至少一个目标句子各自对应的预测人物关系标签,确定待分析文本中包含的人物关系。
如前文所述,BILSTM网络的隐藏层中包含有待分析文本中各个字对应的隐状态向量,本实施例中,可将目标句子中各个字对应的实体位置向量与其对应隐状态向量结合,而获得目标句子中各个字对应的第一向量。之后可对目标句子中各个字对应的第一向量进行average pooling(平均池化)操作,以获得目标句子对应的第二向量。若目标句子中包含10个字,此处的平均池化操作可将目标句子对应的10个第一向量处理为一个第二向量。
第二向量可连接至一全连接层,其中,全连接层中的每个节点与前述实施例中提及的预设的人物关系标签一一对应,据此,全连接层输出的每个节点对应的概率即为目标句子对应各人物关系标签的概率。之后,可对全连接成输出的各个节点执行softmax操作,从而,可将最大概率的节点对应的人物关系标签,确定为目标句子对应的预测人物关系标签。当然,根据上述的第二向量,还可采用其它处理方式确定出目标句子对应的预测人物关系标签,本实施例并不限于此。
待分析文本中可能包含多个目标句子,根据各个目标句子对应的预测人物关系标签,可确定出待分析文本中包含的人物关系。
本实施例中,重点阐述了基于BILSTM网络进行序列标注,以及共享BILSTM网络的隐藏层执行人物关系分类的过程,据此,可实现人物名称识别任务和人物关系抽取任务的联合执行,可有效提高识别结果的准确性。
在上述或下述实施例中,人物关系识别方法的实施过程可由人物关系识别模型完成。当然,也可采用其它方式执行人物关系识别方法的各个步骤,本申请并不局限于模型的方式。当采用人物关系识别模型执行人物关系识别方法时,可将待分析文本输入人物关系识别模型,并由人物关系识别模型执行人物关系识别方法的各个步骤。
为了提高人物关系识别模型的输出结果的准确性,可预先对人物关系识别模型进行训练,以提高人物关系识别模型的精度。
本实施例中,可获取训练语料,训练语料中包含人物名称及人物关系;将训练语料输入人物关系识别模型,以供人物关系识别模型学习训练语料中包含的人物关系相关知识。其中,本实施例对训练语料的数量不作限定,为了提高训练精度,训练语料的数量可以尽量多。
训练语料中可标注人物名称及人物关系。其中,训练语料中的人物名称及人物关系的标注的形式,可与人物关系识别模型的输出结果的标注形式一致。例如,可采用前文所述提及的BIO标注形式,人物关系标签的标注形式,当然还可采用其它能够被人物关系识别模型学习的标注形式,本实施例对此不作限定。
基于从训练语料中学习到的人物关系相关知识,人物关系识别模型对文本进行人物关系识别,但是,由于训练语料中包含的人物关系相关知识的准确性参差不齐,因此,为了提高人物关系识别模型的精准地,本实施例中,可采用主动学习的方式对人物关系识别模型进行精度优化。
以前述的训练语料为基础,本实施例中,可遍历训练语料,利用人物关系识别模型确定当前遍历的训练语料中包含的人物名称及人物关系,并按照人物关系识别模型输出的人物名称及人物关系标注当前遍历的训练语料;若根据人物关系识别模型确定出的当前遍历的训练语料中包含的人物名称和/或人物关系的置信度不满足预设置信度要求,则通过人工对当前遍历的训练语料中的人物及人物关系进行重新标注;将重新标注后的当前遍历的训练语料重新输入人物关系识别模型,以供人物关系识别模型重新学习中重新标注后的当前遍历的训练语料中包含的人物及人物关系;继续遍历其它训练语料,直至每个训练语料对应的人物名称和人物关系的置信度均满足预设置信度要求为止。
其中,预设置信度要求可根据实际需求进行调整,例如,可为人物名称和人物关系分别配置置信度要求,当两者任意一个不满足对应的置信度要求时,对当前遍历的训练语料进行人工标注。当然,也可采用其它置信度要求判断策略,本实施例对此不作限定。
基于人物关系识别模型从训练语料中学习到的人物关系相关知识,人物关系识别模型可确定出训练语料中的可靠语料,也即人物名称和人物关系的置信度均满足预设置信度要求的训练语料,对于可靠语料,可按照人物关系识别模型的输出结果对相关的训练语料进行重新标注。而对于人物名称和/或人物关系的置信度不满足预设置信度要求的训练语料,则可将这类训练语料确定为非可靠语料,对于非可靠语料,可将其交给专业技术人员进行人工标注。人物关系识别模型可重新学习重新标注后的训练语料,包括人工标注和按照人物关系识别模型输出的高置信度结果标注的训练语料。并从中获取新的人物关系相关知识。从而可不断修正人物关系识别模型学习到的人物关系相关知识,有效提高人物关系识别模型的精准度。
本实施例中,通过主动学习的方式,对人物关系识别模型输出的置信度较低的训练语料进行人工标注纠正,从而可基于不断积累的信息去修正人物关系识别模型,以得到更加准确有用的模型。
另外,为了获取到训练语料,本实施例中,可根据户籍信息,建立人物对及人物关系之间的三元组;基于人物对及人物关系之间的三元组,形成人物关系网;从样本文本中提取出包含有人物关系网中任意人物对的句子作为训练语料。
本实施例中,可采用远程监督的方式生成训练语料。其中,户籍信息中包含大量的人物关系信息,且这些人物关系信息的准确性较高,因此,可基于户籍信息,形成庞大的人物关系网,人物关系网可以人物对及人物关系之间的三元组形式进行构建。
其中,样本文本可以是公安的历史案卷,也可以是新闻报道、网络周刊等等。对于样本文本中不规则的信息可预先将其处理为规则的文本数据,以用于提取训练语料。因此,本实施例对样本文本的内容形式及来源并不做限定。
通过远程监督的方式,可将样本文本与人物关系网进行对齐处理,从而识别出样本文本中的人物名称,并可从样本文本中提取出包含有人物关系网中任意人物对的句子作为训练语料。而且,还可基于提取出的训练语料所匹配到的人物关系网中的人物对所在的三元组,为训练语料进行人物名称及人物关系的标注,从而实现训练语料的自动标注。
据此,在训练语料的生成过程中以及在人物关系识别模型的主动学习过程中,只需进行极少量的人工标注,这大大减少了人工标注所耗费的人力和物力。虽然主动监督方式标注出的训练语料的准确度参差不齐,但基于人物关系识别模型的自动标注以及人工修订标注可不断提高训练语料的准确度。随着训练语料的准确度的提高,人物关系识别模型可通过不断地学习提高准确地后的训练语料来同步提高自身的模型精度。
图3为本申请另一实施例提供的一种计算设备的结构示意图。如图3所示,该计算设备包括:存储器30和处理器31。
存储器30,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算设备上的操作。这些数据的示例包括用于在计算设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,信息,图片,视频等。
存储器30可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器31,与存储器30耦合,用于执行存储器30中的计算机程序,以用于:
对待分析文本进行序列标注,以得到待分析文本中包含的人物名称;
根据人物名称在待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,识别待分析文本中包含的人物关系。
在一可选实施例中,待分析文本为案情分析案卷,处理器31还用于:
利用从案情分析案卷中识别出的人物关系进行案情分析。
在一可选实施例中,处理器31在对待分析文本进行序列标注,以得到待分析文本中包含的人物名称时,用于:
对待分析文本进行序列标注,以得到待分析文本中各个字对应各个词位标签的概率;
根据待分析文本中各个字对应各个词位标签的概率,确定出待分析文本中各个字对应的最大概率的词位标签,作为待分析文本中各个字对应的预测词位标签;
根据待分析文本中预测词位标签为人物名称的字,分析出待分析文本中包含的人物名称。
在一可选实施例中,处理器31在根据人物名称在待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,识别待分析文本中包含的人物关系之前,还用于:
根据待分析文本中各个字之间的相对位置,确定人物名称在待分析文本中的实体位置。
在一可选实施例中,处理器31在
根据待分析文本中各个字之间的相对位置,确定人物名称在待分析文本中的实体位置时,用于:
根据待分析文本中包含的人物名称,查找待分析文本中包含至少两个人物名称的句子,作为目标句子;
以目标句子中的各个人物名称的位置作为基准位置,确定目标句子中的各个字与各个人物名称的相对位置;
根据目标句子中的各个字与各个人物名称的相对位置,生成目标句子中的各个字相对各个人物名称的实体位置向量,并以实体位置向量表征人物名称在待分析文本中的实体位置。
在一可选实施例中,处理器31在对待分析文本进行序列标注时,用于:
基于BILSTM网络对待分析文本进行序列标注;
处理器在根据各个字相对人物名称的实体位置以及在训练语料中学习到的人物关系相关知识,确定待分析文本中包含的人物关系时,用于:
将目标句子中各个字对应的实体位置向量与BILSTM网络的隐藏层结合,以获取目标句子中的各个字对应的第一向量;
对各个字对应的第一向量进行平均池化操作,以获得目标句子对应的第二向量;
根据目标句子对应的第二向量,确定目标句子对应各个人物关系标签的概率;
根据目标句子对应各个人物关系标签的概率,确定出目标句子对应的最大概率的人物关系标签,作为目标句子对应的预测人物关系标签;
根据待分析文本中包含的至少一个目标句子各自对应的预测人物关系标签,确定待分析文本中包含的人物关系。
在一可选实施例中,处理器31在对待分析文本进行序列标注之前,还用于:
获取待分析文本;
将待分析文本输入人物关系识别模型,人物关系识别模型用于确定待分析文本中包含的人物名称及人物关系。
在一可选实施例中,处理器31在将待分析文本输入人物关系识别模型之前,还用于:
获取训练语料,训练语料中包含人物名称及人物关系;
将训练语料输入人物关系识别模型,以供人物关系识别模型学习多个训练语料中包含的人物关系相关知识。
在一可选实施例中,处理器31在将训练语料输入人物关系识别模型之后,还用于:
遍历训练语料中的每个训练语料,利用人物关系识别模型确定当前遍历的训练语料中包含的人物名称及人物关系,并按照人物关系识别模型输出的人物名称及人物关系标注当前遍历的训练语料;
若根据人物关系识别模型确定出的当前遍历的训练语料中包含的人物名称和/或人物关系的置信度不满足预设置信度要求,则通过人工对当前遍历的训练语料中的人物及人物关系进行重新标注;
将重新标注后的当前遍历的训练语料重新输入人物关系识别模型,以供人物关系识别模型重新学习中重新标注后的当前遍历的训练语料中包含的人物及人物关系;
继续遍历其它训练语料,直至每个训练语料对应的人物名称和人物关系的置信度均满足预设置信度要求为止。
在一可选实施例中,处理器31在获取训练语料时,用于:
根据户籍信息,建立人物对及人物关系之间的三元组;
基于人物对及人物关系之间的三元组,形成人物关系网;
从样本文本中提取出包含有人物关系网中任意人物对的句子作为训练语料。
进一步,如图3所示,该计算设备还包括:通信组件3、电源组件33等其它组件。图3中仅示意性给出部分组件,并不意味着计算设备只包括图3所示组件。
其中,图3中的通信组件32,被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现的近场通信(NFC)模块,以促进短程通信。
其中,图3中的电源组件33,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (21)

1.一种人物关系识别方法,其特征在于,包括:
对待分析文本进行序列标注,以得到所述待分析文本中包含的人物名称;
根据所述人物名称在所述待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,识别所述待分析文本中包含的人物关系。
2.根据权利要求1所述的方法,其特征在于,所述待分析文本包括案情分析案卷,所述方法还包括:
利用从所述案情分析案卷中识别出的人物关系进行案情分析。
3.根据权利要求1所述的方法,其特征在于,所述对待分析文本进行序列标注,以得到所述待分析文本中包含的人物名称,包括:
对所述待分析文本进行序列标注,以得到所述待分析文本中各个字对应各个词位标签的概率;
根据所述待分析文本中各个字对应各个词位标签的概率,确定出所述待分析文本中各个字对应的最大概率的词位标签,作为所述待分析文本中各个字对应的预测词位标签;
根据所述待分析文本中预测词位标签为人物名称的字,分析出所述待分析文本中包含的人物名称。
4.根据权利要求1所述的方法,其特征在于,还包括:
根据所述待分析文本中各个字之间的相对位置,确定所述人物名称在所述待分析文本中的实体位置。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待分析文本中各个字之间的相对位置,确定所述人物名称在所述待分析文本中的实体位置,包括:
根据所述待分析文本中包含的人物名称,查找所述待分析文本中包含至少两个人物名称的句子,作为目标句子;
以所述目标句子中的各个人物名称的位置作为基准位置,确定所述目标句子中的各个字与各个人物名称的相对位置;
根据所述目标句子中的各个字与各个人物名称的相对位置,生成所述目标句子中的各个字相对各个人物名称的实体位置向量,并以所述实体位置向量表征所述人物名称在所述待分析文本中的实体位置。
6.根据权利要求5所述的方法,其特征在于,所述对待分析文本进行序列标注,包括:
基于BILSTM网络对所述待分析文本进行序列标注;
所述根据各个字相对所述人物名称的实体位置以及在训练语料中学习到的人物关系相关知识,确定所述待分析文本中包含的人物关系,包括:
将所述目标句子中各个字对应的实体位置向量与所述BILSTM网络的隐藏层结合,以获取所述目标句子中的各个字对应的第一向量;
对所述各个字对应的第一向量进行平均池化操作,以获得所述目标句子对应的第二向量;
根据所述目标句子对应的第二向量,确定所述目标句子对应各个人物关系标签的概率;
根据所述目标句子对应各个人物关系标签的概率,确定出所述目标句子对应的最大概率的人物关系标签,作为所述目标句子对应的预测人物关系标签;
根据所述待分析文本中包含的至少一个目标句子各自对应的预测人物关系标签,确定所述待分析文本中包含的人物关系。
7.根据权利要求1所述的方法,其特征在于,在所述对待分析文本进行序列标注之前,还包括:
获取待分析文本;
将所述待分析文本输入人物关系识别模型,所述人物关系识别模型用于确定所述待分析文本中包含的人物名称及人物关系。
8.根据权利要求7所述的方法,其特征在于,所述将所述待分析文本输入人物关系识别模型之前,还包括:
获取训练语料,所述训练语料中包含人物名称及人物关系;
将所述训练语料输入所述人物关系识别模型,以供所述人物关系识别模型学习所述训练语料中包含的所述人物关系相关知识。
9.根据权利要求8所述的方法,其特征在于,所述将所述训练语料输入所述人物关系识别模型之后,还包括:
遍历所述训练语料,利用所述人物关系识别模型确定当前遍历的训练语料中包含的人物名称及人物关系,并按照所述人物关系识别模型输出的人物名称及人物关系标注所述当前遍历的训练语料;
若根据所述人物关系识别模型确定出的当前遍历的训练语料中包含的人物名称和/或人物关系的置信度不满足预设置信度要求,则通过人工对当前遍历的训练语料中的人物及人物关系进行重新标注;
将所述重新标注后的当前遍历的训练语料重新输入所述人物关系识别模型,以供所述人物关系识别模型重新学习中所述重新标注后的当前遍历的训练语料中包含的人物及人物关系;
继续遍历其它训练语料,直至每个训练语料对应的人物名称和人物关系的置信度均满足预设置信度要求为止。
10.根据权利要求8所述的方法,其特征在于,所述获取训练语料,包括:
根据户籍信息,建立人物对及人物关系之间的三元组;
基于所述人物对及人物关系之间的三元组,形成人物关系网;
从样本文本中提取出包含有所述人物关系网中任意人物对的句子作为所述训练语料。
11.一种计算设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
对待分析文本进行序列标注,以得到所述待分析文本中包含的人物名称;
根据所述人物名称在所述待分析文本中的实体位置以及在训练语料中学习到的人物关系相关知识,识别所述待分析文本中包含的人物关系。
12.根据权利要求11所述的设备,其特征在于,所述待分析文本为案情分析案卷,所述处理器还用于:
利用从所述案情分析案卷中识别出的人物关系进行案情分析。
13.根据权利要求11所述的方法,其特征在于,所述处理器在对待分析文本进行序列标注,以得到所述待分析文本中包含的人物名称时,用于:
对所述待分析文本进行序列标注,以得到所述待分析文本中各个字对应各个词位标签的概率;
根据所述待分析文本中各个字对应各个词位标签的概率,确定出所述待分析文本中各个字对应的最大概率的词位标签,作为所述待分析文本中各个字对应的预测词位标签;
根据所述待分析文本中预测词位标签为人物名称的字,分析出所述待分析文本中包含的人物名称。
14.根据权利要求11所述的设备,其特征在于,所述处理器还用于:
根据所述待分析文本中各个字之间的相对位置,确定所述人物名称在所述待分析文本中的实体位置。
15.根据权利要求14所述的设备,其特征在于,所述处理器在根据所述待分析文本中各个字之间的相对位置,确定所述人物名称在所述待分析文本中的实体位置时,用于:
根据所述待分析文本中包含的人物名称,查找所述待分析文本中包含至少两个人物名称的句子,作为目标句子;
以所述目标句子中的各个人物名称的位置作为基准位置,确定所述目标句子中的各个字与各个人物名称的相对位置;
根据所述目标句子中的各个字与各个人物名称的相对位置,生成所述目标句子中的各个字相对各个人物名称的实体位置向量,并以所述实体位置向量表征所述人物名称在所述待分析文本中的实体位置。
16.根据权利要求15所述的设备,其特征在于,所述处理器在对待分析文本进行序列标注时,用于:
基于BILSTM网络对所述待分析文本进行序列标注;
所述处理器在根据各个字相对所述人物名称的实体位置以及在训练语料中学习到的人物关系相关知识,确定所述待分析文本中包含的人物关系时,用于:
将所述目标句子中各个字对应的实体位置向量与所述BILSTM网络的隐藏层结合,以获取所述目标句子中的各个字对应的第一向量;
对所述各个字对应的第一向量进行平均池化操作,以获得所述目标句子对应的第二向量;
根据所述目标句子对应的第二向量,确定所述目标句子对应各个人物关系标签的概率;
根据所述目标句子对应各个人物关系标签的概率,确定出所述目标句子对应的最大概率的人物关系标签,作为所述目标句子对应的预测人物关系标签;
根据所述待分析文本中包含的至少一个目标句子各自对应的预测人物关系标签,确定所述待分析文本中包含的人物关系。
17.根据权利要求11所述的设备,其特征在于,所述处理器在对待分析文本进行序列标注之前,还用于:
获取待分析文本;
将所述待分析文本输入人物关系识别模型,所述人物关系识别模型用于确定所述待分析文本中包含的人物名称及人物关系。
18.根据权利要求17所述的设备,其特征在于,所述处理器在将所述待分析文本输入人物关系识别模型之前,还用于:
获取训练语料,所述训练语料中包含人物名称及人物关系;
将所述训练语料输入所述人物关系识别模型,以供所述人物关系识别模型学习所述训练语料中包含的所述人物关系相关知识。
19.根据权利要求18所述的设备,其特征在于,所述处理器在将所述训练语料输入所述人物关系识别模型之后,还用于:
遍历所述训练语料,利用所述人物关系识别模型确定当前遍历的训练语料中包含的人物名称及人物关系,并按照所述人物关系识别模型输出的人物名称及人物关系标注所述当前遍历的训练语料;
若根据所述人物关系识别模型确定出的当前遍历的训练语料中包含的人物名称和/或人物关系的置信度不满足预设置信度要求,则通过人工对当前遍历的训练语料中的人物及人物关系进行重新标注;
将所述重新标注后的当前遍历的训练语料重新输入所述人物关系识别模型,以供所述人物关系识别模型重新学习中所述重新标注后的当前遍历的训练语料中包含的人物及人物关系;
继续遍历其它训练语料,直至每个训练语料对应的人物名称和人物关系的置信度均满足预设置信度要求为止。
20.根据权利要求18所述的设备,其特征在于,所述处理器在获取训练语料时,用于:
根据户籍信息,建立人物对及人物关系之间的三元组;
基于所述人物对及人物关系之间的三元组,形成人物关系网;
从所述样本文本中提取出包含有所述人物关系网中任意人物对的句子作为所述训练语料。
21.一种存储计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1~10任一项所述的人物关系识别方法。
CN201811467131.5A 2018-12-03 2018-12-03 一种人物关系识别方法、设备及存储介质 Active CN111274812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811467131.5A CN111274812B (zh) 2018-12-03 2018-12-03 一种人物关系识别方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811467131.5A CN111274812B (zh) 2018-12-03 2018-12-03 一种人物关系识别方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111274812A true CN111274812A (zh) 2020-06-12
CN111274812B CN111274812B (zh) 2023-04-18

Family

ID=70996592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811467131.5A Active CN111274812B (zh) 2018-12-03 2018-12-03 一种人物关系识别方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111274812B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307194A (zh) * 2020-10-30 2021-02-02 联想(北京)有限公司 一种数据处理方法、装置及电子设备
WO2023227141A1 (zh) * 2022-05-25 2023-11-30 清华大学 基于目标-属性-关系的对抗场景语义分析方法以及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090112825A1 (en) * 2007-10-31 2009-04-30 Nec (China) Co., Ltd Entity relation mining apparatus and method
US20120209606A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for information extraction from interactions
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN108280058A (zh) * 2018-01-02 2018-07-13 中国科学院自动化研究所 基于强化学习的关系抽取方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090112825A1 (en) * 2007-10-31 2009-04-30 Nec (China) Co., Ltd Entity relation mining apparatus and method
US20120209606A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for information extraction from interactions
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN108280058A (zh) * 2018-01-02 2018-07-13 中国科学院自动化研究所 基于强化学习的关系抽取方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵蓉英;魏明坤;: "基于文本分析的网络人物观点识别研究" *
阳小华;张硕望;欧阳纯萍;: "中文关系抽取技术研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307194A (zh) * 2020-10-30 2021-02-02 联想(北京)有限公司 一种数据处理方法、装置及电子设备
WO2023227141A1 (zh) * 2022-05-25 2023-11-30 清华大学 基于目标-属性-关系的对抗场景语义分析方法以及装置

Also Published As

Publication number Publication date
CN111274812B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109558479B (zh) 一种规则匹配方法、装置、设备及存储介质
WO2018032937A1 (zh) 一种文本信息分类方法及其装置
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN109214407B (zh) 事件检测模型、方法、装置、计算设备及存储介质
CN110968776B (zh) 政策知识的推荐方法、装置存储介质及处理器
CN111291566A (zh) 一种事件主体识别方法、装置、存储介质
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN112417996B (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN110781204A (zh) 目标对象的标识信息确定方法、装置、设备及存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN111274812B (zh) 一种人物关系识别方法、设备及存储介质
CN111291168A (zh) 图书检索方法、装置及可读存储介质
CN114240672A (zh) 绿色资产的占比的识别方法及相关产品
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN110852103A (zh) 一种命名实体识别方法及装置
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN113362026B (zh) 文本处理方法及装置
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113902569A (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN113255829A (zh) 基于深度学习的零样本图像目标检测方法和装置
CN110347921B (zh) 一种多模态数据信息的标签抽取方法及装置
CN115730603A (zh) 基于人工智能的信息提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant