CN112733544A

CN112733544A - 目标人物活动轨迹信息提取方法、计算机设备及存储介质

Info

Publication number: CN112733544A
Application number: CN202110358761.4A
Authority: CN
Inventors: 曾曦; 魏刚; 张麒; 王效武; 蒋涛; 马军; 王海兮; 常明芳
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd; China Electronic Technology Cyber Security Co Ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd; China Electronic Technology Cyber Security Co Ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-04-30
Anticipated expiration: 2041-04-02
Also published as: CN112733544B

Abstract

本发明公开了一种目标人物活动轨迹信息提取方法、计算机设备及存储介质，其中该方法包括：对输入文本分句，输出文本分句列表；逐句提取实体信息，包括人物、地点、时间和动作；通过神经网络模型分析和判定句法模型；输出目标人物活动轨迹。本发明基于相似语义编码与实体特征相融合的特征提取方法，使得输出向量矩阵既能携带了文本语义信息，又具备实体特征，可节约大量模型训练时间，并提升分类判定模型的预测精度。本发明训练出的人物活动信息分类判定模型，可实现从大量干扰信息中准确提取出目标人物相关的活动信息，进而形成人物活动轨迹。本发明可用于目标追踪、人物画像等情报分析业务。

Description

目标人物活动轨迹信息提取方法、计算机设备及存储介质

技术领域

本发明涉及情报分析技术领域，尤其涉及一种目标人物活动轨迹信息提取方法、计算机设备及存储介质。

背景技术

在开源情报分析领域，人物活动信息由人物、时间、地点、行为方式四要素构成，把某个时段内所有人物活动信息按时间轴连接在一起，就形成了目标人物的活动轨迹，如何使用计算机从海量新闻报道中及时获取目标人物的活动轨迹信息，是一个待解难题。

发明内容

为了解决上述问题，本发明提出一种目标人物活动轨迹信息提取方法、计算机设备及存储介质，其基于相似语义编码与实体特征相融合的特征提取方法，使得输出向量矩阵既能携带了文本语义信息，又具备实体特征，可节约大量模型训练时间，并提升分类判定模型的预测精度。

本发明的技术方案如下：

一种目标人物活动轨迹信息提取方法，包括以下步骤：

S1. 对输入文本分句，输出文本分句列表；

S2. 逐句提取实体信息，包括人物、地点、时间和动作；

S3. 通过神经网络模型分析和判定句法模型；

S4. 输出目标人物活动轨迹。

进一步的，步骤S2中，采用分词工具提取实体信息，建立一个个人物活动信息，同时比对目标人物库，去除无关人物活动信息干扰项。

进一步的，步骤S3包括以下子步骤：

S31. 对输入文本相似语义进行编码，输出携带语义特征的字向量矩阵；

S32. 提取实体信息，采用特殊字符进行标记；

S33. 连接步骤S31输出的字向量矩阵和步骤S32标记的实体信息，输出包含实体信息的字向量矩阵；

S34. 标记句法模式：通过映射到高维向量空间后，提取出语法信息，获取到其句法模式的标记信息；得到句法标记向量后，和原向量连接，得到新的向量；

S35. 预测句法分类：根据步骤S34加入句法标记信息的向量，再通过神经网络匹配变换出用于分类的高维特征向量；

S36. 后置处理：让部分神经元节点失效，以减少训练过程中出现过拟合的概率；

S37. 降维输出分类结果：对步骤S36后置处理输出的高维特征向量进行降维处理，输出分类结果。

进一步的，步骤S34中，使用句法分析，得到语句中包括主语、谓语、宾语、介词和连词的信息，并分别编码。

进一步的，步骤S36中，后置处理的方法包括让一些神经节点的输出值以设定的概率失效，即临时停止当前节点的工作。

进一步的，步骤S37中，先将输入向量矩阵映射为多个分类，再将多个分类的输出值转换为范围在[0, 1]区间上的概率分布，其定义为：

式中：S_i表示第i个分类的概率值，i=1,2,3,...,n，其中n表示分类数量，V_i表示第i个分类的输出值，e为自然常数；并且：

。

进一步的，步骤S4中，对步骤S3提取的人物活动信息集合按时间轴排序，最终形成描述目标人物活动轨迹的格式化文本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述目标人物活动轨迹信息提取方法的步骤。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述目标人物活动轨迹信息提取方法的步骤。

本发明的有益效果在于：

本发明基于相似语义编码与实体特征相融合的特征提取方法，使得输出向量矩阵既能携带了文本语义信息，又具备实体特征，可节约大量模型训练时间，并提升分类判定模型的预测精度。本发明训练出的人物活动信息分类判定模型，可以实现从大量干扰信息中准确提取出目标人物相关的活动信息，进而形成人物活动轨迹。通过活动轨迹分析有助于了解目标人物的日常行为或习惯，本发明可用于目标追踪、人物画像等情报分析业务。

附图说明

图1是本发明实施例的活动轨迹数据提取流程图；

图2是本发明实施例的文本句法分析原理图

图3是本发明实施例的后置处理原理示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

人物活动轨迹由时间序列的多个人物活动信息和地理位置信息组成。本实施例利用神经网络通过包含相似语义编码与实体特征融合信息的向量矩阵训练出分类判别模型，可预测出目标人物何时出现在何地，提取人物活动信息，获得人物活动轨迹。

本实施例提供了一种目标人物活动轨迹信息提取方法，如图1所示，包括以下步骤：

S1. 对输入文本分句，输出文本分句列表；

S2. 逐句提取实体信息，包括人物、地点、时间和动作。优选的，采用分词工具提取实体信息，建立一个个人物活动信息，同时比对目标人物库，去除无关人物活动信息干扰项；

S3. 通过神经网络模型分析和判定句法模型，句法分析过程如图2所示，步骤S3包括以下子步骤：

S31. 对输入文本相似语义进行编码，输出携带语义特征的字向量矩阵。例如，“小明于1月4日到达成都”、“小明３月１日完成任务离开北京基地”、“５月４日，小明出席了重庆市青年先锋开幕式”可转换为：

S32. 提取实体信息，采用特殊字符进行标记。如上例，提取人名“小明”、地名“成都”、时间“1月4日”，然后把实体向量化，人名用1表示，地名用2表示，时间用3表示，其他用0表示。例如用上面的例子可转换为：

S33. 连接步骤S31输出的字向量矩阵和步骤S32标记的实体信息，输出包含实体信息的字向量矩阵。如上例，输出：

S34. 标记句法模式：通过映射到高维向量空间后，提取出语法信息，获取到其句法模式的标记信息。

优选的，使用句法分析，得到语句中包括主语、谓语、宾语、介词和连词的信息，并分别编码。例如“小明于1月4日到达成都”，“小明”为主语，“于”为介词，“1月4日”为宾语，“到达”为谓语，“成都”为宾语。然后给句法信息编码，主语为1，谓语为2，宾语为3，介词为4。那么该句可标记为[1,1,4,3,3,3,3,2,2,3,3]。

得到句法标记向量后，和原向量连接，得到新的向量。例如原向量为：

连接句法信息后得到新向量：

S36. 后置处理：让部分神经元节点失效，以减少训练过程中出现过拟合的概率。在神经网络的训练过程中，如果处理不当，很容易造成过拟合。为了防止这种现象的发生，后置处理让一些神经节点的输出值以设定的概率失效，即临时停止当前节点的工作。这样训练出来的模型具有更强的泛化能力，减少过拟合几率。图3给出了后置处理在网络中的作用，图中虚线部分为临时被删除的神经节点。

优选的，步骤S37中，先将输入向量矩阵映射为多个分类，再将多个分类的输出值转换为范围在[0, 1]区间上的概率分布，其定义为：

。

S4. 输出目标人物活动轨迹：对步骤S3提取的人物活动信息集合按时间轴排序，最终形成描述目标人物活动轨迹的格式化文本。例如“小明于1月4日到达成都”、“小明３月１日完成任务离开北京基地”、“５月４日，小明出席了重庆市青年先锋开幕式”。提取出的结果为（小明，1月4日，到达，成都），（小明，3月1日，离开，北京），（小明，5月4日，在，重庆）。综合3条结果就可以得到小明的路径信息，1月4日在成都，3月1日在北京，5月4日在重庆。

本实施例也提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述目标人物活动轨迹信息提取方法的步骤。

本实施例还提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述目标人物活动轨迹信息提取方法的步骤。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种目标人物活动轨迹信息提取方法，其特征在于，包括以下步骤：

S1. 对输入文本分句，输出文本分句列表；

S2. 逐句提取实体信息，包括人物、地点、时间和动作；

S3. 通过神经网络模型分析和判定句法模型；

S4. 输出目标人物活动轨迹。

2.根据权利要求1所述的目标人物活动轨迹信息提取方法，其特征在于，步骤S2中，采用分词工具提取实体信息，建立一个个人物活动信息，同时比对目标人物库，去除无关人物活动信息干扰项。

3.根据权利要求1所述的目标人物活动轨迹信息提取方法，其特征在于，步骤S3包括以下子步骤：

S32. 提取实体信息，采用特殊字符进行标记；

4.根据权利要求3所述的目标人物活动轨迹信息提取方法，其特征在于，步骤S34中，使用句法分析，得到语句中包括主语、谓语、宾语、介词和连词的信息，并分别编码。

5.根据权利要求3所述的目标人物活动轨迹信息提取方法，其特征在于，步骤S36中，后置处理的方法包括让一些神经节点的输出值以设定的概率失效，即临时停止当前节点的工作。

6.根据权利要求3所述的目标人物活动轨迹信息提取方法，其特征在于，步骤S37中，先将输入向量矩阵映射为多个分类，再将多个分类的输出值转换为范围在[0, 1]区间上的概率分布，其定义为：

。

7.根据权利要求1所述的目标人物活动轨迹信息提取方法，其特征在于，步骤S4中，对步骤S3提取的人物活动信息集合按时间轴排序，最终形成描述目标人物活动轨迹的格式化文本。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的目标人物活动轨迹信息提取方法的步骤。

9.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的目标人物活动轨迹信息提取方法的步骤。