CN111259669B

CN111259669B - 信息标注方法、信息处理方法及装置

Info

Publication number: CN111259669B
Application number: CN201811456443.6A
Authority: CN
Inventors: 王潇斌; 马春平; 谢朋峻; 李林琳; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2023-06-27
Anticipated expiration: 2038-11-30
Also published as: CN111259669A

Abstract

本申请公开了一种信息标注方法、信息处理方法及装置，本申请根据通过少量人工标注获得的关系抽取模型，以及利用该关系抽取模型计算得到的第二信息的实体关系实例，借助结构化数据即摘要信息对非结构化数据即与摘要信息对应的待处理信息进行自动标注，有效地减少了人力成本，实现了高效的处理；而且保证信息的私密性不受到破坏，降低了数据泄露风险。而且本申请启动要求低，无需大规模的结构化知识库作为基础，因此适用范围广。

Description

信息标注方法、信息处理方法及装置

技术领域

本申请涉及但不限于人工智能技术，尤指一种信息标注方法、信息处理方法及装置。

背景技术

为了实现机器对信息的自动识别，会预先让机器对相关信息进行学习，以使机器具备根据学习的结果对信息进行自动识别的能力。

机器可以根据对训练数据的人工标注，对训练数据进行学习以产生出相应的模型，而得到的模型则可以应用来对待识别的数据进行识别。举个例子来看，假设有1000张预先人工标注有“苹果”的图片，机器通过对这些标注后的图片的学习得到一个模型，如果将苹果的图片作为输入信息输入该模型，那么机器可以识别出这张图片上的信息是苹果。

特别是对于数据量大而且具有私密性的数据如公安场景下的信息处理，如果采用人工标注来实现数据的学习的话，一方面无法保证高效，另一方面破坏了数据的私密性。

发明内容

本申请提供一种信息标注方法、信息处理方法及装置，能够实现高效的处理，而且保证信息的私密性不受到破坏。

本发明实施例提供了一种信息标注方法，包括：

对第一信息进行人工标注，并以人工标注后的第一信息作为第一训练数据生成关系抽取模型；

将第二信息输入关系抽取模型，计算得到实体关系实例；

利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据。

在一种示例性实例中，所述方法还包括：

利用所述第二训练数据对所述关系抽取模型进行训练，生成信息处理模型。

在一种示例性实例中，所述第二信息的数量大于所述第一信息的数量。

在一种示例性实例中，所述获取第二训练数据，包括：

对所述第二信息对应的待处理信息进行分词、实体识别处理；

在识别出的实体中匹配出计算得到的所述实体关系实例中的实体；

从所述第二信息对应的待处理信息中抽取同时匹配所述实体关系实例中的关系的两个实体的文本作为所述第二训练数据。

在一种示例性实例中，所述方法还包括：对所述第二训练数据进行过滤以删除错误的实例。

在一种示例性实例中，所述对所述第二训练数据进行过滤，包括：

根据所述抽取的文本中实体间的距离确定两个实体之间具有存在关系的可能性；

删除可能性小于预先设置的第一阈值的所述抽取的文本。

在一种示例性实例中，所述确定两个实体之间存在关系的可能性，包括：

所述实体间的距离包括：表示两个实体词之间间隔的词的个数的词距离Dw、表示两个实体间最短依存路径上词的个数的依存距离Dd、表示两个实体在句法树上最短路径上词的个数的句法距离Ds、表示两个实体之间间隔的其他实体的个数的实体距离De；

当Dw<Tw且Dd<Td且Ds<Ts且De<Te时，所述两个实体之间具有存在关系的可能性；

其中，Tw为词距离阈值、Td为依存距离阈值、Ts为句法距离阈值、Te为实体距离阈值。

利用所述抽取的文本训练分类器；

使用得到的分类器对所述抽取的文本进行评估，得到所述抽取的文本对应的概率；

删除概率值小于预先设置的第二阈值的所述抽取的文本。

计算所述抽取的文本与对应所述第二信息中的文本的语义相似度，其中，对应第二信息中的文本包含有该抽取的文本中的关系；

删除语义相似度小于预先设置的第三阈值的所述抽取的文本。

本申请还提供了一种信息处理方法，包括：

将待处理信息输入用于获取与待处理信息对应的摘要信息的信息处理模型，计算得到实体关系实例；

从待处理信息中抽取同时匹配实体关系实例中同一关系的两个实体的文本，以构成对应待处理信息的摘要信息；

其中，所述信息处理模型的获取包括：

对第一信息进行人工标注，并以人工标注后的第一信息作为第一训练数据，生成关系抽取模型；将第二信息输入关系抽取模型，计算得到实体关系实例；利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据；利用第二训练数据对所述关系抽取模型进行训练，生成信息处理模型。

在一种示例性实例中，所述从待处理信息中抽取同时匹配实体关系实例中同一关系的两个实体的文本，包括：

对所述待处理信息进行分词、实体识别处理；

在识别出的实体中匹配出计算得到的实体关系实例中的实体；

从所述待处理信息中抽取同时匹配某关系的两个实体的文本，以构成所述对应待处理信息的摘要信息。

本申请又提供了一种信息标注装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的信息处理模型生成方法的步骤。

本申请再提供了一种信息处理装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的信息处理方法的步骤。

本申请根据通过少量人工标注获得的关系抽取模型，以及利用该关系抽取模型计算得到的第二信息的实体关系实例，借助结构化数据即摘要信息对非结构化数据即与摘要信息对应的待处理信息进行自动标注，有效地减少了人力成本，实现了高效的处理；而且保证信息的私密性不受到破坏，降低了数据泄露风险。本申请启动要求低，无需大规模的结构化知识库作为基础，因此适用范围广。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请信息标注方法的流程图；

图2为本申请信息标注装置的组成结构示意图；

图3为本申请信息处理方法的流程图；

图4为本申请信息处理装置的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

具有私密性的信息很多，比如公安场景下的询问笔录、监狱的探监聊天记录、狱警与犯人沟通记录、国安等部分对嫌疑人的监听记录等等。

以公安场景为例，目前，对问询笔录的处理需求日趋旺盛。问询笔录是公安机关为了了解案件细节，对相关人员进行询问后得到的文字记录，问询笔录包括整个案件的各方面细节。为了案件查阅方便，公安机关会综合出警记录、问询记录等对整个案件做出简要描述，这种对案件进行简要描述的文件是案件的摘要信息，也称为简要案情文本。

为了获得简要案情文本，在相关技术中，一种方式是，公安人员根据问询笔录人工编写出对应的摘要信息，这种方式显然费时又费力；另一种方式是基于监督学习的方法，这种方式需要人工标注大量作为训练数据的问询笔录，而且，基于监督学习的方法会利用结构化知识库中存在的事实对文本进行基于远程监督学习的自动标注，在很多场景，尤其是公安场景是不具备这种依赖于大规模的结构化知识库的条件的。也就是说，第二种方式人工标注数据成本大，而且由于公安数据具有私密性，是不能大量对外披露进行标注的即完成人工标注的人力选择不能广。其中，事实可以从现存的结构化知识库中获取，如公开的维基百科，或公安内部维护的任务信息表等。文本既可以是新闻文本，也可以是公安积累的案件相关材料等。

本申请还提供一种信息标注方法，至少包括：

将第二信息输入关系抽取模型，计算得到实体关系实例；

利用本申请的信息标注方法，如果利用所述第二训练数据对所述关系抽取模型进行训练。

图1为本申请信息标注方法实施例的流程图，如图1所示，包括：

步骤100：对第一信息进行人工标注，并以人工标注后的第一信息作为第一训练数据，生成关系抽取模型。

以公安场景为例，第一信息、第二信息可以由摘要信息构成。摘要信息是与待处理信息对应的，用于对待处理信息做出简要描述的信息。比如：简要案情文本是问询笔录的摘要信息。再如：在监狱民警会跟犯人进行沟通以了解犯人的心理动向的场景下，简要案情文本可以是“摘要-详细对话”文本对的数据等。

在一种示例性实例中，生成关系抽取模型可以包括但不限于：基于支持向量机生成的关系抽取模型，或者基于神经网络生成的关系抽取模型等。具体如何生成并不用于限定本申请的保护范围。

这里以待处理信息为问询笔录，摘要信息为简要案情文本为例，本步骤会对少量的简要案情文本进行人工标注。比如，以简要案情文本包括：2018年8月7日接事主张三(男， 45岁，浙江杭州人)来所报案称：其在翠园一区家中被电话(对方号码：23454321)诈骗5000 元。经过本步骤的人工标注后，会标注出上述下划线加粗部分显示的有关系的实体。由于简要案情文本具有较强的格式，接近于半结构化文本，因此，人工标注是容易实现的。

本申请中用来进行人工标注的仅包括少量的第一信息，这样大大降低了人工成本，而且，由于人工标注工作量的大大减少，也保证了不会破坏与摘要信息对应的待处理信息的私密性。

步骤101：将第二信息输入关系抽取模型，计算得到实体关系实例。

在一种示例性实例中，第一信息归属于第一信息集，第二信息归属于第二信息集，第二信息集中第二信息的数量大于第一信息集中第一信息的数量。举例来看：第一信息受到数据披露和标注成本限制，比如可以是在千级别；第二信息则包括所有数据库中存在的数据，比如可以是百万级别。

这里仍以待处理信息为问询笔录，摘要信息为简要案情文本为例，本步骤利用生成的关系抽取模型，对大量未标注的简要案情文本进行关系抽取以获取实体关系实例。

仍以步骤100中的实例为例，经过本步骤的抽取后得到如表1所示的实体关系实例：

关系	实体1	实体2
			年龄	张三	45岁
住址	张三	翠园一区

表1

步骤102：利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据。

在一种示例性实例中，本步骤包括：

对第二信息对应的待处理信息进行分词、实体识别处理；

从第二信息对应的待处理信息中抽取同时匹配实体关系实例中的某关系的两个实体的文本(下文简称为抽取的文本)作为第二训练数据。这里，如果是多个实体的关系，可以转化为两个实体的关系来进行处理。

以第二信息对应的待处理信息经过分词、实体识别处理后，包括以下内容为例，其中，下划线加粗部分为实体识别处理识别出的实体：

报案人张三今年45岁。张三当时在李四家里(翠园一区)。警方接到报案后到翠园一区进行走访。

那么，与表1中的实体相匹配后，可以得到：第一句话“报案人张三今年45岁”中具有同时匹配一个关系即年龄的两个实体即张三和45岁；第二句话“张三当时在李四家里(翠园一区)”中也具有同时匹配一个关系即住址的两个实体即张三和翠园一区；第三句话“警方接到报案后到翠园一区进行走访”中则不具有同时匹配一个关系的两个实体。

因此，第一句话和第二句话会包括在第二训练数据中，而第三句话不会包括在第二训练数据中。因此类推，直到将各第二信息对应的待处理信息自动标注完为止。

上述第二句话中，虽然具有同时匹配一个关系即住址的两个实体即张三和翠园一区，但是，第二句话中提到的“翠园一区”指的并不是与表1中的关系“住址”对应的实体1即张三的住址，因此，对第二句话的匹配结果实际上是错误的。如果存在这种情况，那么第二训练数据的正确性就会受到影响，从而影响后续对信息处理模型的训练的正确性。

在一种示例性实例中，本步骤还可以包括：

对获得的第二训练数据进行过滤以删除错误的实例。

在一种示例性实例中，对获得的第二训练数据进行过滤包括：

根据抽取的文本中实体间的距离确定两个实体之间具有存在关系的可能性；

删除可能性小于预先设置的第一阈值的抽取的文本。

在一种示例性实例中，实体间的距离D可以包括：词距离Dw、依存距离Dd、句法距离Ds、实体距离De。其中，词距离Dw表示两个实体词之间间隔的词的个数；依存距离Dd表示两个实体间最短依存路径上词的个数；句法距离Ds表示两个实体在句法树上最短路径上词的个数；实体距离De表示两个实体之间间隔的其他实体的个数。当(Dw<Tw)且(Dd<Td)且(Ds<Ts)且(De<Te)时，认为两个实体间距离较近即两个实体之间具有存在关系的可能性。其中，Tw为词距离阈值、Td为依存距离阈值、Ts为句法距离阈值、Te为实体距离阈值。词距离阈值Tw、依存距离阈值Td、句法距离阈值Ts、实体距离阈值Te可以根据经验设定。

在一种示例性实例中，第一阈值可以根据经验设定。

如果两个实体之间跨越多个实体即距离长，那么，表明这两个实体存在关系的可能性较小，也就是说，包含这两个实体的文本(如句子)是错误的，需要从第二训练数据中删除。

利用抽取的文本训练分类器；

使用该分类器对抽取的文本进行评估，得到抽取的文本对应的概率；

删除概率值小于预先设置的第二阈值的抽取的文本。

…这里，可以直接采用分类器输出的分类的概率。

在一种示例性实例中，第二阈值可以根据经验设定。

计算抽取的文本与对应第二信息中的文本的语义相似度，其中，对应第二信息中的文本包含有该抽取的文本中的关系；

删除语义相似度小于预先设置的第三阈值的抽取的文本。

在一种示例性实例中，计算语义相似度可以包括但不限于如：采用基于词袋模型的向量空间模型计算句子相似度。使用句子编码器(一种深度学习模型)将句子转化为连续、低维、稠密的向量表示，计算向量之间的余弦相似度。

在一种示例性实例中，第三阈值可以根据经验设定。

为了生成信息处理模型，本申请方法还可以包括：

步骤103：利用第二训练数据对所述关系抽取模型进行训练，生成信息处理模型。

在一种示例性实例中，生成信息处理模型可以包括但不限于：基于支持向量机生成的信息处理模型，或者基于神经网络生成的信息处理模型等。具体如何生成并不用于限定本申请的保护范围。

本申请中，根据通过少量人工标注获得的关系抽取模型，以及利用该关系抽取模型计算得到的第二信息的实体关系实例，借助结构化数据即摘要信息对非结构化数据即与摘要信息对应的待处理信息进行自动标注，有效地减少了人力成本，实现了高效的处理；而且保证信息的私密性不受到破坏，降低了数据泄露风险。而且本申请启动要求低，无需大规模的结构化知识库作为基础，因此适用范围广。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上任一项的信息标注方法。

本申请再提供一种信息处理模型生成装置，包括存储器和处理器，其中，存储器中存储有上述任一项的信息标注方法的步骤。

图2为本申请信息标注装置的组成结构示意图，如图2所示，至少包括：人工标注模块、第一训练模块、抽取模块、自动标注模块；其中，

人工标注模块，用于对第一信息进行人工标注；

第一训练模块，用于以人工标注后的第一信息作为第一训练数据，生成关系抽取模型；

抽取模块，用于将第二信息输入关系抽取模型，计算得到实体关系实例；

自动标注模块，用于利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据。

为了生成信息处理模型，本申请装置还可以包括：

第二训练模块，用于利用第二训练数据对所述关系抽取模型进行训练，生成信息处理模型。

在一种示例性实例中，第二信息的数量大于第一信息的数量。

在一种示例性实例中，自动标注模块具体用于：

对第二信息对应的待处理信息进行分词、实体识别处理；

从第二信息对应的待处理信息中抽取同时匹配一个关系的两个实体的文本(下文简称为抽取的文本)作为第二训练数据。

在一种示例性实例中，自动标注模块还用于：对获得的第二训练数据进行过滤以删除错误的实例。

可选地，自动标注模块中的对获得的第二训练数据进行过滤以删除错误的实例，包括：

根据抽取的文本中实体间的距离判断两个实体之间有关系的可能性；删除可能性小于预先设置的第一阈值的抽取的文本；或者，

利用抽取的文本训练分类器；使用该分类器对抽取的文本进行评估，得到抽取的文本对应的概率；删除概率值小于预先设置的第二阈值的抽取的文本；或者，

计算抽取的文本所在句子与对应摘要信息中包含该抽取的文本包含的关系的句子的语义相似度；删除相似度小于预先设置的第三阈值的抽取的文本。

图3为本申请信息处理方法的流程图，如图3所示，包括：

步骤300：将待处理信息输入用于获取与待处理信息对应的摘要信息的信息处理模型，计算得到实体关系实例。

其中，信息处理模型的获取包括：

将待处理信息如问询笔录作为信息处理模型的输入信息，这样，信息处理模型的输出即是对将待处理信息进行关系抽取而获得的实体关系实例。

步骤301：从待处理信息中抽取同时匹配实体关系实例中同一关系的两个实体的文本，以构成对应待处理信息的摘要信息。

在一种示例性实例中，本步骤可以包括：

对待处理信息进行分词、实体识别处理；

从待处理信息中抽取同时匹配某关系的两个实体的文本，以构成对应待处理信息的摘要信息。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上任一项的信息处理方法。

本申请再提供一种信息处理装置，包括存储器和处理器，其中，存储器中存储有上述任一项的信息处理方法的步骤。

图4为本申请信息处理装置的组成结构示意图，如图4所示，至少包括：计算模块、处理模块；其中，

计算模块，用于将待处理信息输入用于获取与待处理信息对应的摘要信息的信息处理模型，计算得到实体关系实例；其中，信息处理模型的获取包括：对第一信息进行人工标注，并以人工标注后的第一信息作为第一训练数据，生成关系抽取模型；将第二信息输入关系抽取模型，计算得到实体关系实例；利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据；利用第二训练数据对所述关系抽取模型进行训练，生成信息处理模型。

处理模块，用于从待处理信息中抽取同时匹配实体关系实例中同一关系的两个实体的文本，以构成对应待处理信息的摘要信息。

在一种示例性实例中，处理模块具体用于：

对待处理信息进行分词、实体识别处理；

从待处理信息中抽取同时匹配某个关系的两个实体的文本，以构成对应待处理信息的摘要信息。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种信息标注方法，包括：

将第二信息输入关系抽取模型，计算得到实体关系实例；

利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据；

其中，所述利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据，包括：

2.根据权利要求1所述的信息标注方法，所述方法还包括：

3.根据权利要求1或2所述的信息标注方法，其中，所述第二信息的数量大于所述第一信息的数量。

4.根据权利要求1所述的信息标注方法，所述方法还包括：对所述第二训练数据进行过滤以删除错误的实例。

5.根据权利要求4所述的信息标注方法，其中，所述对所述第二训练数据进行过滤，包括：

删除可能性小于预先设置的第一阈值的所述抽取的文本。

6.根据权利要求5所述的信息标注方法，其中，所述确定两个实体之间存在关系的可能性，包括：

当Dw < Tw且Dd < Td且Ds < Ts且De < Te时，所述两个实体之间具有存在关系的可能性；

7.根据权利要求4所述的信息标注方法，其中，所述对所述第二训练数据进行过滤，包括：

利用所述抽取的文本训练分类器；

删除概率值小于预先设置的第二阈值的所述抽取的文本。

8.根据权利要求4所述的信息标注方法，其中，所述对所述第二训练数据进行过滤，包括：

9.一种信息处理方法，包括：

其中，所述信息处理模型的获取包括：

对第一信息进行人工标注，并以人工标注后的第一信息作为第一训练数据，生成关系抽取模型；将第二信息输入关系抽取模型，计算得到实体关系实例；利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据；利用第二训练数据对所述关系抽取模型进行训练，生成信息处理模型；

所述利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注，获取第二训练数据，包括：对所述第二信息对应的待处理信息进行分词、实体识别处理；在识别出的实体中匹配出计算得到的所述实体关系实例中的实体；从所述第二信息对应的待处理信息中抽取同时匹配所述实体关系实例中的关系的两个实体的文本作为所述第二训练数据。

10.根据权利要求9所述的信息处理方法，其中，所述从待处理信息中抽取同时匹配实体关系实例中同一关系的两个实体的文本，包括：

对所述待处理信息进行分词、实体识别处理；

11.一种信息标注装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1~权利要求8任一项所述的信息处理模型生成方法的步骤。

12.一种信息处理装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求9~权利要求10任一项所述的信息处理方法的步骤。