CN112733544A - 目标人物活动轨迹信息提取方法、计算机设备及存储介质 - Google Patents
目标人物活动轨迹信息提取方法、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112733544A CN112733544A CN202110358761.4A CN202110358761A CN112733544A CN 112733544 A CN112733544 A CN 112733544A CN 202110358761 A CN202110358761 A CN 202110358761A CN 112733544 A CN112733544 A CN 112733544A
- Authority
- CN
- China
- Prior art keywords
- information
- activity
- outputting
- vector
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种目标人物活动轨迹信息提取方法、计算机设备及存储介质,其中该方法包括:对输入文本分句,输出文本分句列表;逐句提取实体信息,包括人物、地点、时间和动作;通过神经网络模型分析和判定句法模型;输出目标人物活动轨迹。本发明基于相似语义编码与实体特征相融合的特征提取方法,使得输出向量矩阵既能携带了文本语义信息,又具备实体特征,可节约大量模型训练时间,并提升分类判定模型的预测精度。本发明训练出的人物活动信息分类判定模型,可实现从大量干扰信息中准确提取出目标人物相关的活动信息,进而形成人物活动轨迹。本发明可用于目标追踪、人物画像等情报分析业务。
Description
技术领域
本发明涉及情报分析技术领域,尤其涉及一种目标人物活动轨迹信息提取方法、计算机设备及存储介质。
背景技术
在开源情报分析领域,人物活动信息由人物、时间、地点、行为方式四要素构成,把某个时段内所有人物活动信息按时间轴连接在一起,就形成了目标人物的活动轨迹,如何使用计算机从海量新闻报道中及时获取目标人物的活动轨迹信息,是一个待解难题。
发明内容
为了解决上述问题,本发明提出一种目标人物活动轨迹信息提取方法、计算机设备及存储介质,其基于相似语义编码与实体特征相融合的特征提取方法,使得输出向量矩阵既能携带了文本语义信息,又具备实体特征,可节约大量模型训练时间,并提升分类判定模型的预测精度。
本发明的技术方案如下:
一种目标人物活动轨迹信息提取方法,包括以下步骤:
S1. 对输入文本分句,输出文本分句列表;
S2. 逐句提取实体信息,包括人物、地点、时间和动作;
S3. 通过神经网络模型分析和判定句法模型;
S4. 输出目标人物活动轨迹。
进一步的,步骤S2中,采用分词工具提取实体信息,建立一个个人物活动信息,同时比对目标人物库,去除无关人物活动信息干扰项。
进一步的,步骤S3包括以下子步骤:
S31. 对输入文本相似语义进行编码,输出携带语义特征的字向量矩阵;
S32. 提取实体信息,采用特殊字符进行标记;
S33. 连接步骤S31输出的字向量矩阵和步骤S32标记的实体信息,输出包含实体信息的字向量矩阵;
S34. 标记句法模式:通过映射到高维向量空间后,提取出语法信息,获取到其句法模式的标记信息;得到句法标记向量后,和原向量连接,得到新的向量;
S35. 预测句法分类:根据步骤S34加入句法标记信息的向量,再通过神经网络匹配变换出用于分类的高维特征向量;
S36. 后置处理:让部分神经元节点失效,以减少训练过程中出现过拟合的概率;
S37. 降维输出分类结果:对步骤S36后置处理输出的高维特征向量进行降维处理,输出分类结果。
进一步的,步骤S34中,使用句法分析,得到语句中包括主语、谓语、宾语、介词和连词的信息,并分别编码。
进一步的,步骤S36中,后置处理的方法包括让一些神经节点的输出值以设定的概率失效,即临时停止当前节点的工作。
进一步的,步骤S37中,先将输入向量矩阵映射为多个分类,再将多个分类的输出值转换为范围在[0, 1]区间上的概率分布,其定义为:
式中:S i 表示第i个分类的概率值,i=1,2,3,...,n,其中n表示分类数量,V i 表示第i个分类的输出值,e为自然常数;并且:
进一步的,步骤S4中,对步骤S3提取的人物活动信息集合按时间轴排序,最终形成描述目标人物活动轨迹的格式化文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述目标人物活动轨迹信息提取方法的步骤。
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述目标人物活动轨迹信息提取方法的步骤。
本发明的有益效果在于:
本发明基于相似语义编码与实体特征相融合的特征提取方法,使得输出向量矩阵既能携带了文本语义信息,又具备实体特征,可节约大量模型训练时间,并提升分类判定模型的预测精度。本发明训练出的人物活动信息分类判定模型,可以实现从大量干扰信息中准确提取出目标人物相关的活动信息,进而形成人物活动轨迹。通过活动轨迹分析有助于了解目标人物的日常行为或习惯,本发明可用于目标追踪、人物画像等情报分析业务。
附图说明
图1是本发明实施例的活动轨迹数据提取流程图;
图2是本发明实施例的文本句法分析原理图
图3是本发明实施例的后置处理原理示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
人物活动轨迹由时间序列的多个人物活动信息和地理位置信息组成。本实施例利用神经网络通过包含相似语义编码与实体特征融合信息的向量矩阵训练出分类判别模型,可预测出目标人物何时出现在何地,提取人物活动信息,获得人物活动轨迹。
本实施例提供了一种目标人物活动轨迹信息提取方法,如图1所示,包括以下步骤:
S1. 对输入文本分句,输出文本分句列表;
S2. 逐句提取实体信息,包括人物、地点、时间和动作。优选的,采用分词工具提取实体信息,建立一个个人物活动信息,同时比对目标人物库,去除无关人物活动信息干扰项;
S3. 通过神经网络模型分析和判定句法模型,句法分析过程如图2所示,步骤S3包括以下子步骤:
S31. 对输入文本相似语义进行编码,输出携带语义特征的字向量矩阵。例如,“小明于1月4日到达成都”、“小明3月1日完成任务离开北京基地”、“5月4日,小明出席了重庆市青年先锋开幕式”可转换为:
S32. 提取实体信息,采用特殊字符进行标记。如上例,提取人名“小明”、地名“成都”、时间“1月4日”,然后把实体向量化,人名用1表示,地名用2表示,时间用3表示,其他用0表示。例如用上面的例子可转换为:
S33. 连接步骤S31输出的字向量矩阵和步骤S32标记的实体信息,输出包含实体信息的字向量矩阵。如上例,输出:
S34. 标记句法模式:通过映射到高维向量空间后,提取出语法信息,获取到其句法模式的标记信息。
优选的,使用句法分析,得到语句中包括主语、谓语、宾语、介词和连词的信息,并分别编码。例如“小明于1月4日到达成都”,“小明”为主语,“于”为介词,“1月4日”为宾语,“到达”为谓语,“成都”为宾语。然后给句法信息编码,主语为1,谓语为2,宾语为3,介词为4。那么该句可标记为[1,1,4,3,3,3,3,2,2,3,3]。
得到句法标记向量后,和原向量连接,得到新的向量。例如原向量为:
连接句法信息后得到新向量:
S35. 预测句法分类:根据步骤S34加入句法标记信息的向量,再通过神经网络匹配变换出用于分类的高维特征向量;
S36. 后置处理:让部分神经元节点失效,以减少训练过程中出现过拟合的概率。在神经网络的训练过程中,如果处理不当,很容易造成过拟合。为了防止这种现象的发生,后置处理让一些神经节点的输出值以设定的概率失效,即临时停止当前节点的工作。这样训练出来的模型具有更强的泛化能力,减少过拟合几率。图3给出了后置处理在网络中的作用,图中虚线部分为临时被删除的神经节点。
S37. 降维输出分类结果:对步骤S36后置处理输出的高维特征向量进行降维处理,输出分类结果。
优选的,步骤S37中,先将输入向量矩阵映射为多个分类,再将多个分类的输出值转换为范围在[0, 1]区间上的概率分布,其定义为:
式中:S i 表示第i个分类的概率值,i=1,2,3,...,n,其中n表示分类数量,V i 表示第i个分类的输出值,e为自然常数;并且:
S4. 输出目标人物活动轨迹:对步骤S3提取的人物活动信息集合按时间轴排序,最终形成描述目标人物活动轨迹的格式化文本。例如“小明于1月4日到达成都”、“小明3月1日完成任务离开北京基地”、“5月4日,小明出席了重庆市青年先锋开幕式”。提取出的结果为(小明,1月4日,到达,成都),(小明,3月1日,离开,北京),(小明,5月4日,在,重庆)。综合3条结果就可以得到小明的路径信息,1月4日在成都,3月1日在北京,5月4日在重庆。
本实施例也提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述目标人物活动轨迹信息提取方法的步骤。
本实施例还提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述目标人物活动轨迹信息提取方法的步骤。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种目标人物活动轨迹信息提取方法,其特征在于,包括以下步骤:
S1. 对输入文本分句,输出文本分句列表;
S2. 逐句提取实体信息,包括人物、地点、时间和动作;
S3. 通过神经网络模型分析和判定句法模型;
S4. 输出目标人物活动轨迹。
2.根据权利要求1所述的目标人物活动轨迹信息提取方法,其特征在于,步骤S2中,采用分词工具提取实体信息,建立一个个人物活动信息,同时比对目标人物库,去除无关人物活动信息干扰项。
3.根据权利要求1所述的目标人物活动轨迹信息提取方法,其特征在于,步骤S3包括以下子步骤:
S31. 对输入文本相似语义进行编码,输出携带语义特征的字向量矩阵;
S32. 提取实体信息,采用特殊字符进行标记;
S33. 连接步骤S31输出的字向量矩阵和步骤S32标记的实体信息,输出包含实体信息的字向量矩阵;
S34. 标记句法模式:通过映射到高维向量空间后,提取出语法信息,获取到其句法模式的标记信息;得到句法标记向量后,和原向量连接,得到新的向量;
S35. 预测句法分类:根据步骤S34加入句法标记信息的向量,再通过神经网络匹配变换出用于分类的高维特征向量;
S36. 后置处理:让部分神经元节点失效,以减少训练过程中出现过拟合的概率;
S37. 降维输出分类结果:对步骤S36后置处理输出的高维特征向量进行降维处理,输出分类结果。
4.根据权利要求3所述的目标人物活动轨迹信息提取方法,其特征在于,步骤S34中,使用句法分析,得到语句中包括主语、谓语、宾语、介词和连词的信息,并分别编码。
5.根据权利要求3所述的目标人物活动轨迹信息提取方法,其特征在于,步骤S36中,后置处理的方法包括让一些神经节点的输出值以设定的概率失效,即临时停止当前节点的工作。
7.根据权利要求1所述的目标人物活动轨迹信息提取方法,其特征在于,步骤S4中,对步骤S3提取的人物活动信息集合按时间轴排序,最终形成描述目标人物活动轨迹的格式化文本。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的目标人物活动轨迹信息提取方法的步骤。
9.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的目标人物活动轨迹信息提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110358761.4A CN112733544B (zh) | 2021-04-02 | 2021-04-02 | 目标人物活动轨迹信息提取方法、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110358761.4A CN112733544B (zh) | 2021-04-02 | 2021-04-02 | 目标人物活动轨迹信息提取方法、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733544A true CN112733544A (zh) | 2021-04-30 |
CN112733544B CN112733544B (zh) | 2021-07-09 |
Family
ID=75596324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110358761.4A Active CN112733544B (zh) | 2021-04-02 | 2021-04-02 | 目标人物活动轨迹信息提取方法、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733544B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688576A (zh) * | 2016-08-04 | 2018-02-13 | 中国科学院声学研究所 | 一种cnn‑svm模型的构建及倾向性分类方法 |
CN108090657A (zh) * | 2017-12-05 | 2018-05-29 | 大连理工大学 | 基于休哈特控制理论和概率神经网络的油气储运设施风险评估与在线预警管理系统及方法 |
CN108197337A (zh) * | 2018-03-28 | 2018-06-22 | 北京搜狐新媒体信息技术有限公司 | 一种文本分类方法及装置 |
US10567237B1 (en) * | 2019-02-06 | 2020-02-18 | TensorDRO, Inc. | System and methods for data evaluation through network sensitivity analysis |
US10572640B2 (en) * | 2015-11-16 | 2020-02-25 | Personnus | System for identity verification |
CN111597302A (zh) * | 2020-04-28 | 2020-08-28 | 北京中科智加科技有限公司 | 文本事件的获取方法、装置、电子设备及存储介质 |
CN112199829A (zh) * | 2020-09-27 | 2021-01-08 | 浙江大学 | 基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法 |
-
2021
- 2021-04-02 CN CN202110358761.4A patent/CN112733544B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572640B2 (en) * | 2015-11-16 | 2020-02-25 | Personnus | System for identity verification |
CN107688576A (zh) * | 2016-08-04 | 2018-02-13 | 中国科学院声学研究所 | 一种cnn‑svm模型的构建及倾向性分类方法 |
CN108090657A (zh) * | 2017-12-05 | 2018-05-29 | 大连理工大学 | 基于休哈特控制理论和概率神经网络的油气储运设施风险评估与在线预警管理系统及方法 |
CN108197337A (zh) * | 2018-03-28 | 2018-06-22 | 北京搜狐新媒体信息技术有限公司 | 一种文本分类方法及装置 |
US10567237B1 (en) * | 2019-02-06 | 2020-02-18 | TensorDRO, Inc. | System and methods for data evaluation through network sensitivity analysis |
CN111597302A (zh) * | 2020-04-28 | 2020-08-28 | 北京中科智加科技有限公司 | 文本事件的获取方法、装置、电子设备及存储介质 |
CN112199829A (zh) * | 2020-09-27 | 2021-01-08 | 浙江大学 | 基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法 |
Non-Patent Citations (2)
Title |
---|
LOOSVELT LIEN 等: "" Random Forests as a tool for estimating uncertainty at pixel-level in SAR image classification"", 《INTERNATIONAL JOURNAL OF APPLIED EARTH OBSERVATIONS AND GEOINFORMATION》 * |
黄佳佳 等: ""基于深度学习的主题模型研究"", 《计算机学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112733544B (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN107403375A (zh) | 一种基于深度学习的上市公司公告分类及摘要生成方法 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN110287297A (zh) | 对话答复方法、装置、计算机设备及计算机可读存储介质 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN112417153A (zh) | 文本分类方法、装置、终端设备和可读存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN107807958A (zh) | 一种文章列表个性化推荐方法、电子设备及存储介质 | |
CN113032552A (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN114490953A (zh) | 训练事件抽取模型、事件抽取的方法和目标事件抽取模型 | |
CN113869054B (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN112699684A (zh) | 命名实体识别方法和装置、计算机可读存储介质及处理器 | |
CN116136955B (zh) | 文本转写方法、装置、电子设备及存储介质 | |
CN110516236B (zh) | 一种社交短文本细粒度情感采集方法 | |
CN115600602B (zh) | 一种长文本的关键要素抽取方法、系统及终端设备 | |
CN112733544B (zh) | 目标人物活动轨迹信息提取方法、计算机设备及存储介质 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |