CN114241381A - 一种基于时序事件和语义背景的事件抽取和预测方法 - Google Patents

一种基于时序事件和语义背景的事件抽取和预测方法 Download PDF

Info

Publication number
CN114241381A
CN114241381A CN202111548478.4A CN202111548478A CN114241381A CN 114241381 A CN114241381 A CN 114241381A CN 202111548478 A CN202111548478 A CN 202111548478A CN 114241381 A CN114241381 A CN 114241381A
Authority
CN
China
Prior art keywords
model
video
event
semantic
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111548478.4A
Other languages
English (en)
Inventor
薛云兰
谢剑刚
蔡斌
汪静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Institute
Original Assignee
Guangdong Polytechnic Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Institute filed Critical Guangdong Polytechnic Institute
Priority to CN202111548478.4A priority Critical patent/CN114241381A/zh
Publication of CN114241381A publication Critical patent/CN114241381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于时序事件和语义背景的事件抽取和预测方法,其中包括以下步骤:(S1)对事件数据信息实时采集,采集方式通过图像采集、视频采集和语义背景采集;(S2)将采集到的视频流进行存储,进而获取视频流数据信息;同时将获取的视频流数据信息生成时序事件流,并记录时间戳;同时将获取的数据信息转换为短文本样本,并记录短文本样本标签;(S3)提取数据特征,视频流数据信息通过图像识别模型实现数据流信息特征提取,短文本样本通过构建的分类器实现数据信息分析;(S4)构建预测事件预测模型和语义背景模型实现数据预测;(S5)输出预测结果。本发明能够实现时序事件和语义背景的事件抽取和预测,提高了事件预测能力。

Description

一种基于时序事件和语义背景的事件抽取和预测方法
技术领域
本发明涉及时间预测与评估领域,且更具体地涉及一种基于时序事件和语义背景的事件抽取和预测方法。
背景技术
事件预测成为近年来计算机视觉领域的申请热点和难点,随着计算机技术、存储技术和网络技术的高速发展以及各种数码设备和移动终端设备的不断更新,各种数据信息的数据量以爆炸式速度不断增长。现有技术存在以下技术缺陷:
(1)对时间的预测缺乏标准,分析事件信息时,时间流混杂、较乱,无法从现有的事件数据信息中获取时序事件,提取精度较低,进而导致时间评估和预测能力差。
(2)缺乏规则,基于规则的方法和基于统计的方法。其中,基于规则的方法是指根据定义的语法规则、词性和构词与构句规则等,使用计算机语言进行描述;基于统计的方法是指采用深度学习和大数据,构建对话系统,并自动生成对话。实际使用中,现有的对话识别系统对于用户意图的识别能力不高,经常会出现因为无法判别用户意图而出现无法回答用户的情况,或者出现答非所问或重复回答的情况,使得对话系统构建的对话内容太过局限,用户体验不高。
发明内容
针对上述技术的不足,本发明公开一种基于时序事件和语义背景的事件抽取和预测方法,能够实现时序事件和语义背景的事件抽取和预测,提高了事件预测能力。
本发明采用以下技术方案:
一种基于时序事件和语义背景的事件抽取和预测方法,其中包括以下步骤:
(S1)对事件数据信息实时采集,采集方式通过图像采集、视频采集和语义背景采集;
(S2)将采集到的视频流进行存储,进而获取视频流数据信息;同时将获取的视频流数据信息生成时序事件流,并记录时间戳;同时将获取的数据信息转换为短文本样本,并记录短文本样本标签;
(S3)提取数据特征,视频流数据信息通过图像识别模型实现数据流信息特征提取,短文本样本通过构建的分类器实现数据信息分析;
(S4)构建预测事件预测模型和语义背景模型实现数据预测;
(S5)输出预测结果。
作为本发明进一步的技术方案,所述步骤(S1)中对事件数据信息实时采集的方式为基于嵌入式多通道的数字视频采集设备,包括视频输入接口、视频采集模块、核心处理器模块、视频存储模块、外部接口模块和视频发送模块,其中所述视频输入接口的输出端与视频采集模块的输入端连接,所述视频采集模块的输出端与所述核心处理器模块的输入端连接,所述核心处理器模块的输出端与视频存储模块的输入端连接,所述核心处理器模块的输出端还与外部接口模块的输入端连接,所述视频存储模块还与所述视频发送模块连接,其中视频主控芯片采用TMS320DM8168芯片或者TVP5158芯片,其中主控芯片包括ARM模块、视频处理模块、OCR识别模块和DSP模块;其中所述TVP5158芯片包括FPGA模块。上述技术方案构成了事件数据信息实时采集的整体方案,能够实现事件数据信息实时采集。
作为本发明进一步的技术方案,所述步骤(S2)中:
将获取的视频流数据信息生成时序事件流,并记录时间戳的方法为:设置mVideo数据采集接口,设置数据流输入时间和传递时间,构建时序事件判识域,将落在时序事件判识域内的数据信息记作为一个时间戳。其中记录短文本样本标签的方法为文本相似度评价方法,所述文本相似度评价方法采用基于n-grams模型的文本间相似度方法。
作为本发明进一步的技术方案,所述步骤(S3)中数据信息分析的方法为随机森林算法。
作为本发明进一步的技术方案,所述步骤(S4)中,所述预测事件预测模型的构建方法为NILA-GCN模型包括输入层、卷积层、融合层和损失函数模块,其中所述输入层的输处端与卷积层的输入端连接,所述卷积层的输出端与所述融合层的输入端连接,所述融合层的输出端与所述损失函数模块的输入端连接。
作为本发明进一步的技术方案,所述步骤(S4)中,所述预测事件预测模型的预测方法为
(S41)种群初始化,输入2n个获取的视频数据参数平均分配给两组作为候选种群,即雄性lionAm=[y1、y2、y3、···、yi]和雌性lionAf=[y1、y2、y3、···、yi];
(S42)交叉和变异;
获取的视频数据参数产生新个体的方式为交叉与变异,通过基于双概率的交叉算法实现两种不同信息数据概率实现,雄性lionAm和雌性lionAf通过交配产生了新的获取的视频数据参数Acub=[y1、y2、y3、···、yi];
(S43)领地防卫,在获取的视频数据参数迭代产生优良个体过程中,雄性lionAm和雌性lionAf会受到外部异常信息lion的攻击;此时,雄性lionAm将保卫和保护优良获取的视频数据参数,并划分种群周围区域成为领地;
(S44)得出最优解,雄性lionAm和雌性lionAf之间的劣解将被替换为最优解,在达到迭代终止条件之前,交叉不会结束,当达到迭代终止条件之后,交叉结束,输出最优解。
作为本发明进一步的技术方案,所述步骤(S4)中,所述语义背景模型的构建模型包括数据库、分析器、n-grams模型、聚类模型和综合评价模型,其中所述数据库的输出端与分析器的输入端连接,所述分析器的输出端与n-grams模型的输入端连接,所述n-grams模型的输出端与所述聚类模型的输入端连接,所述聚类模型的输出端与所述综合评价模型的输入端连接。
作为本发明进一步的技术方案,所述步骤(S4)中,所述语义背景模型的预测方法为:
(1)通过数据库输出数据信息,系统服务器采集语义参数主题数据;系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有倾向的语义并构成用户的新语义集合;
(2)通过分析器获取语义信息,系统服务器建立用户新语义模型;系统服务器通过新语义集合建立反映用户倾向的概念图;所述系统服务器在建立用户新语义模型之前先构建概念格;
(3)通过n-grams模型构建新语义背景,系统服务器建立概念语义背景图;所述系统服务器将概念格转换为可以直观表示语义间的语义关系的概念语义背景图;
(4)通过聚类模型和综合评价模型对获取的语音信息进行不同形式的分析与计算,系统服务器更新概念语义背景图以更新用户新语义数据,所述系统服务器增加或减少概念语义背景图,最终输出纯洁度较高的语义信息。
作为本发明进一步的技术方案,所述步骤(S2)中记录时间戳的方法为:
设置mVideo数据采集接口,设置数据流输入时间和传递时间,构建时序事件判识域,将落在时序事件判识域内的数据信息记作为一个时间戳;时序事件判识域构建过程为,将时序事件历史数据与模型对比,然后计算历史数据与模型数据之间的差,将96%以上的感知视频数据信息点落在模型周围的区域范围,则启动公式:
Figure BDA0003416374410000041
当公式(1)为逼近真实时序事件的多项方程,公式(1)的原理是线性代数原理,将不同的数据信息通过线性连接起来,以表示感知视频数据信息点的数据信息。
作为本发明进一步的技术方案,基于n-grams模型的文本间相似度方法为:
首先通过文本数据库调取有关事件的所有语义文本,之后进行适当的预处理得到n-grams语义模型,找到文本的数值表达式或者频率矩阵,用于可视化、聚类和数值估计,创建频率矩阵后,将矩阵提供给SOM,在SOM中对数据集进行聚类和可视化,检测文本在视觉形式上的相似性,同时,运用余弦法、骰子法、扩展Jaccard法与重叠系数法四种算法计算相似性度量或者数值估计;
在创建频率矩阵过程中,最终计算结果取决于创建n-grams单词,包括选择的过滤器,n-grams单词包括句子、段落、关键词与语义。
积极有益效果:
本发明能够即时获取视频数据信息,并将事件视频数据信息转换为时序时间和语音背景,通过将采集到的数据信息通过多路视频复用可同时对四路模拟视频信号转换为数字视频信号,能够接收ITU-R BT.656和BT.1120格式两种格式的数字视频信号,通过将视频数据信息记录时间戳实现事件视频流记录。
本发明还能够对时序事件判识域进行构建,将时序事件历史数据与模型对比,然后计算历史数据与模型数据之间的差,从而记录时间戳。
本发明基于n-grams模型的文本间相似度方法从视觉和数值两个方面对结果进行了估计,通过文本预处理、可视化聚类和数值估计等方法实现语义信息的处理。在语义评估时,还创建频率矩阵,最终实现评估结果的计算。
本发明还采用随机森林算法实现语义信息的分类和处理,通过NILA-GCN模型,并构建时空卷积结构提高语义分析能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明事件评估整体架构示意图;
图2为本发明事件视频采集模块结构示意图;
图3为本发明事件视频采集模块中视频采集电路示意图;
图4为本发明时序时间判别域示意图;
图5为本发明文本构建模型示意图;
图6为本发明随机森林算法模型构建示意图;
图7为本发明随机森林算法一种形式实施例分类示意图;
图8为本发明NILA-GCN模型架构示意图;
图9为本发明图卷积模块的时空卷积结构示意图;
图10为本发明预测事件中预测模型的预测方法示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种基于时序事件和语义背景的事件抽取和预测方法,其中包括以下步骤:
(S1)对事件数据信息实时采集,采集方式通过图像采集、视频采集和语义背景采集;
(S2)将采集到的视频流进行存储,进而获取视频流数据信息;同时将获取的视频流数据信息生成时序事件流,并记录时间戳;同时将获取的数据信息转换为短文本样本,并记录短文本样本标签;
(S3)提取数据特征,视频流数据信息通过图像识别模型实现数据流信息特征提取,短文本样本通过构建的分类器实现数据信息分析;
(S4)构建预测事件预测模型和语义背景模型实现数据预测;
(S5)输出预测结果。
为了使本发明的实施例更清楚,下面对本发明的实施例做详细说明。
如图2所示,所述步骤(S1)中对事件数据信息实时采集的方式为基于嵌入式多通道的数字视频采集设备,包括视频输入接口、视频采集模块、核心处理器模块、视频存储模块、外部接口模块和视频发送模块,其中所述视频输入接口的输出端与视频采集模块的输入端连接,所述视频采集模块的输出端与所述核心处理器模块的输入端连接,所述核心处理器模块的输出端与视频存储模块的输入端连接,所述核心处理器模块的输出端还与外部接口模块的输入端连接,所述视频存储模块还与所述视频发送模块连接,其中视频主控芯片采用TMS320DM8168芯片或者TVP5158芯片,其中主控芯片包括ARM模块、视频处理模块、OCR识别模块和DSP模块;其中所述TVP5158芯片包括FPGA模块。通过该技术方案实现了数据信息的采集、存储、交互与处理。
在上述实施例中,多通道的数字视频采集设备的主控芯片采用TMS320DM8168芯片,支持视频数据进行本地硬盘存储、本地实时显示和回放功能,作为核心控制模块对其他模块进行协同控制。主控芯片内部集成了多个处理核,包括ARM子系统、高清视频处理子系统、编解码子系统和DSP子系统,ARM子系统要负责对其他外围电路的配置和控制,高清视频处理子系统负责对视频数据进行压缩编码、滤波和格式转换等工作,DSP子系统负责视频数据的管理工作。视频采集模块使用TVP5158芯片,负责水电站多路视频的采集,将采集到的视频数据发送给主控模块进行相应的处理。通过采用TMS320DM8168芯片,能够实现视频数据采集的控制,TMS320DM8168是一款浮点DSP C674x+ARM Cortex-A8高性能视频处理器。主频参数有930MHz(DSP)+1.1GHz(ARM),在一种具体实施例中,系统通过串口控制图像传感器,使三路图像数据信号、时钟以及各种同步信号按要求输入,系统依次进行图像信号的采集、数据处理、存储。系统利用自带的接口可实现显示、上位机通信、键盘控制等更多的功能,能够实现友好的人机对话。本系统选取TI公司达芬奇系列最新的TMS320DM8168芯片。此芯片集成了1GHz ARMCortex-A8、1GHz TI C674x浮点DSP、若干二代可编程高清视频影像协处理器、一个创新型高清视频处理子系统(HDVPSS)以及综合编解码器,支持包括高清分辨率的H.264、MPEG-4以及VC1.并且包含千兆以太网、PCI Express、SATA2、DDR2、DDR3、USB2.0、MMC/SD、HDMI以及DVI等多种接口,可支持更多功能的扩展和复杂应用。利用该芯片设计并实现两路或三路不同分辨率的图像信号的采集、处理与显示,硬件原理图如图2所示。实现该系统的开发与设计所涉及的硬件模块有:图像采集接口模块、图像采集模块、图像存储模块、外围接口模块。在进行图像数据信息采集时,通过TMS320DM8168的HDVPSS(HDVideo ProcessingSubsystem)提供了视频输入接口和视频输出接口。视频输入接口提供了外部图像设备(如图像传感器、视频解码器等)的接入。
视频流数据信息为任何事情的信息,比如水电站运行数据信息、工业现场监控数据信息、行为人现场操作数据信息等等多种时间视频数据流。
如图3所示,在上述实施例中,视频采集模块采用多路视频复用可同时对四路模拟视频信号转换为数字视频信号,将采集到的水电站视频数据首先需要通过AD转换器,然后分离视频图像的色度信号和亮度信号,经过滤波将视频信号进行整合,再经过定标器处理制定视频信号的格式,然后根据系统对水电站视频图像的需求将数字视频格式发送到后端视频处理器的输入接口上。视频采集模块电路支持16路数字视频的输入,可接收ITU-RBT.656和BT.1120格式两种格式的数字视频信号。TVP5158芯片的解码器输入端输入的多路视频信号数字化后复用在一路输出,提高主控芯片VP口的利用率。
在一种具体实施例中,高清视频处理子系统(HDVPSS)有两个独立视频捕捉输入端口VIP0与VIP1.VIP0可配置成24b、16b、和两个独立的8b模式,VIP1可配置成16b、和两个独立的8b.从捕捉频率和各种配置模式可看出,针对不同的流量,可以有多种实现方法。为了存储设计简单,本方案将VIP0配置为24b进行采集。在此模式下,最高流量为165M×248=495MB/s,可以满足流量要求。数据采集结束后,通过配置HDVPSS子系统将数据送入VPDMA,最后转入DDR内存,当DDR内存的数据量达到设定的数据量时产生中断,中断发生后,根据存放地址启动内存和固态硬盘之间的DMA传输,将采集的图像通过SATA2接口存储在SSD上,实现数据存储。
如图4所示,将获取的视频流数据信息生成时序事件流,并记录时间戳的方法为:设置mVideo数据采集接口,设置数据流输入时间和传递时间,构建时序事件判识域,将落在时序事件判识域内的数据信息记作为一个时间戳。时序事件判识域构建过程为,将时序事件历史数据与模型对比,然后计算历史数据与模型数据之间的差,将96%以上的感知视频数据信息点落在模型周围的区域范围,则启动公式:
Figure BDA0003416374410000081
当公式(1)为逼近真实时序事件的多项方程,公式(1)的原理是线性代数原理,将不同的数据信息通过线性连接起来,以表示感知视频数据信息点的数据信息,比如A点、B点、C点等不同的数据点,贯穿起来。xk表示任意点的数据系列,ak表示采集该数据信息的系数值。在时序事件模型与实际的离散感知数据点之间必然存在误差,则该误差为提取的视频特征中每个离散点距离标准模型之间的距离,则可以通过误差函数表示,则有:
Figure BDA0003416374410000082
其中a表示回归方程的系数向量,xn表示为数据集合中第n个点的横坐标值,其中yn表示为xn的纵坐标值,(xn,yn)为实际的感知数据。如图4所示,落在线上位一个范畴内的点划分为一个时间戳,落在线外为剔除。
如图5所示,所述步骤(S2)中记录短文本样本标签的方法为文本相似度评价方法,所述文本相似度评价方法采用基于n-grams模型的文本间相似度方法。
首先通过文本数据库调取有关事件的所有语义文本,之后进行适当的预处理得到n-grams语义模型。文本预处理的主要目的是找到文本的数值表达式(找到频率矩阵),用于可视化、聚类和数值估计。在创建频率矩阵后,将矩阵提供给SOM,在SOM中对数据集进行聚类和可视化,检测文本在视觉形式上的相似性。同时,运用余弦法、骰子法、扩展Jaccard法与重叠系数法四种算法计算相似性度量(数值估计)。SOM有助于在一个地图上看到整个文本数据集的相似性,数值估计计算框架可以定量地证明和指定结果,通过两种技术的结合进行更深层的文本相似性分析,最终得出综合评价结果。
在创建频率矩阵过程中,最终计算结果取决于创建n-grams单词包时选择的过滤器,因此,选择合适的滤波器以获得准确的结果是非常重要的。n-grams包是定义在单词序列上的语义概率模型,其可以分析停电原因的所有文本,或者只是把它分成几个部分:句子、段落、关键词与语义。根据文本情况的不同,基于n-grams模型通过字符级或单词级来形成。
如图6所示,首先本发明进行设计的事件数据分类算法运行过程可以分为三个模块,其中数据采集模块进行采集需要相关数据信息,并通过Flume组件监测相关数据信息,并且通过队列信息和分布式数据管理系统对数据进行存储管理;数据处理模块对存储的数据进行数据包的聚类处理以及对网络数据特征将提取并进行数据流形式的处理;最后通过设计改进优化的随机森林算法进行模型数据训练,生成所需的数据分类模型。
如图7所示,为建立决策树相似度矩阵,本发明需要把树形结构的决策树转化为二叉树结构,转化成的二叉树结构决策树的每个子方案就可以转化为一个类似于{“A<=X”、“B>Y”、“C<=Z”、“class_3”}这样一个集合,通过把子方案集合中的各个元素进行比较,就可以得出两个方案的相似程度。
为完成对子方案集合中各个元素相似程度的比较,本发明针对于非数值元素相似程度Simn计算公式如式1所示。
Figure BDA0003416374410000091
针对于数值型元素进行的元素相似度Simn计算公式如式4所示。
Figure BDA0003416374410000092
如式4所示,其中k1和k2为数值,表示为竖向判别式为上下限,t表示为该用户对两个方案能够容忍的最大相似度。
通过计算每个元素的相似度的平均值就可以计算出决策树子方案的相似度Sim如式5所示。
Figure BDA0003416374410000093
通过计算子方案的相似度就可以计算出两个决策树的相似对方程如式4所示。
Figure BDA0003416374410000094
通过计算随机森林算法中的所有决策树的相似度可以建立任意两个决策树的相似度如式7所示。
Figure BDA0003416374410000101
如式7所示,其中通过观察随机森林算法相似矩阵,可以发现矩阵Simn,m中表示第n与m个决策树的相似度,算法的相似度矩阵进行分析可以选择更优的结果实现决策树的集成。
如图8所示,为了准确的预测事件,本发明基于时间维度设计出GCN模型的总体架构,为了得到充足的时间维信息,本发明描述事件发生的近期参数(xh)、日周期参数(xd)及周周期参数(xw)3种时间维参数特性,GCN模型由由多个图卷积模块和一层全连接(FullyConnected,FC)层组成共享相同的神经网络结构。其中,图卷积模块的设计包括空间维度的图卷积操作和时间维度的标准2维卷积操作两部分。
由于不同节点受不同时间维参数特性的影响程度不同,GCN模型最后将3个输出结果基于参数矩阵进行融合,以充分发挥多组件作用,融合结果即为最终的预测结果。预测方法具体可以为
步骤1:种群初始化
在该LA算法的第一阶段,2n个事件数据参数平均分配给两组作为候选种群,即雄性lionAm=[y1、y2、y3、···、yi]和雌性lionAf=[y1、y2、y3、···、yi]。其中i表示种群解向量的长度。
步骤2:交叉和变异
在LA算法中,事件数据参数产生新个体的方式为交叉与变异。本发明提出了一种基于双概率的交叉算法,即用两种不同的概率实现交叉。雄性lionAm和雌性lionAf通过交配产生了新的事件数据参数Acub=[y1、y2、y3、···、yi]。其中四个新的事件数据参数A1~4随机选择的两个交叉点利用p随机突变产生4个新的事件数据参数交叉点A5~8。经过交叉和变异后一共产生8个新的事件数据参数,用K均值聚类法将其分为雄性lionAm和雌性lionAf,然后,根据不同事件数据参数的优劣状况,筛选掉最差的事件数据参数,并确保雄性lionAm和雌性lionAf的事件数据参数数量相等。迭代计算并重新对种群初始化。
步骤3:领地防卫
在事件数据参数迭代产生优良个体过程中,雄性lionAm和雌性lionAf会受到种群外个体lion的攻击。此时,雄性lionAm将保卫和保护优良事件数据参数,并划分种群周围区域成为领地。
个体lion的产生方式与领地的雄性lionAm和雌性lionAf相同,然后用新的解yn攻击领地内事件数据参数种群。如果个体lion的解yn在该过程中优于其他解,则用yn替换领地内事件数据参数种群个体yi,新lion将继续交叉和变异过程。关于LA算法的目标函数f(y)可按式(8)计算:
Figure BDA0003416374410000111
式(8)中,f(ym)和f(yf)分别代表雄性lionAm和雌性lionAf的目标函数值,f(ym_cub)和f(yf_cub)分别代表雄性lion新事件数据参数个体和雌性lion新事件数据参数个体的目标函数值,||ym_cub||是指雄性lion新事件数据参数个体的数量。
步骤4:得出最优解
在这一步中,雄性lionAm和雌性lionAf之间的劣解将被替换为最优解,在达到迭代终止条件之前,交叉不会结束。LA算法的最优解yb根据以下不等式(3)标准来确定:
f(yb)<f(y),yb≠y (9)
在LA算法迭代计算中,存在参数g代表繁殖次数,gb是指事件数据参数种群最佳繁殖能力,一般设置为5。g在第一代时设置为0,并且逐渐递增。如果雌性lion事件数据参数种群被替换,g必须从0开始。完成上述步骤后,返回步骤2,直到满足迭代次数终止条件,得到LA算法的最优解。
NI优化的LA算法可执行如下操作:
根据目标函数的值,在指定的迭代间隔内,在lion种群位置中心得到克隆事件数据参数M:
Figure BDA0003416374410000112
式(10)中,Mj是第j个事件数据参数的克隆数,Mmax表示此处设置为40的最大克隆数,Pj是第j个事件数据参数的目标函数值,N是指lion种群的数量。克隆后,个体lion对M个克隆事件数据参数进行突变。对于目标函数值较低的lion种群进行突变,如方程(9)和(10)所示。
xi+1=xi+r×randn(1) (10)
Figure BDA0003416374410000113
式(10)~(11)中,x是指lion种群,xi+1是同性交叉后的新事件数据参数,r是指其他lion种群距离突变种群中心的半径长度;Pmax是lion种群位置中心的最大值。对M变异lion种群进行筛选比较,选择目标函数值最大的lion,并计算得到LA算法的最优解。
图9为本发明图卷积模块的时空卷积结构示意图;GCN模型最后将3个输出结果基于参数矩阵进行融合,以充分发挥多组件作用,融合结果即为最终的预测结果。
如图10所示,所述语义背景模型的预测方法为:
所述语义背景模型的构建模型包括数据库、分析器、n-grams模型、聚类模型和综合评价模型,其中所述数据库的输出端与分析器的输入端连接,所述分析器的输出端与n-grams模型的输入端连接,所述n-grams模型的输出端与所述聚类模型的输入端连接,所述聚类模型的输出端与所述综合评价模型的输入端连接。
(1)系统服务器采集语义参数主题数据;系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有倾向的语义并构成用户的新语义集合;
(2)通过分析器获取语义信息,系统服务器建立用户新语义模型;系统服务器通过新语义集合建立反映用户倾向的概念图;所述系统服务器在建立用户新语义模型之前先构建概念格;
(3)通过n-grams模型构建新语义背景,系统服务器建立概念语义背景图;所述系统服务器将概念格转换为可以直观表示语义间的语义关系的概念语义背景图;
(4)通过聚类模型和综合评价模型对获取的语音信息进行不同形式的分析与计算,系统服务器更新概念语义背景图以更新用户新语义数据,所述系统服务器增加或减少概念语义背景图,最终输出纯洁度较高的语义信息。
下面简单说一个具体实施例,假设省电力公司在成都某水库电站进行了试验与验证。其中发电站的水库总装机容量为3750kW,一共采用了3台水库总装机,通过上述方法进行事件预测。假设数据库输出数据信息包括出库水量(下文称为I)、尾水位量(下文称为II)、死水位(下文称为III)等。通过分析器获取语义信息,比如流量、最大出力、总水能、能耗值、最小能耗、误差值等不同的数据信息,通过分析器获取语义信息就可以获取上述不同的分类标签值。然后通过n-grams模型构建新语义背景,比如获取流量、最大出力、总水能、能耗值中的逆行流量、正向流量、最大处理时间、最小处理时间等,通过这种语义方式获取反映水电站运行数据信息的事件问题。然后通过聚类模型和综合评价模型对获取的语音信息进行不同形式的分析与计算,输出比如反映水电站运行功率的数据信息。
在进一步的实施例中,假设在三种因素中,比如出库水量、尾水位量和死水位的影响下进行发电时,观察水电站的总成本、设备成本和损耗成本,单位为元,假设在不同的时间时分析上述影响量下的水电站输出功率情况。然后根据输出功率,计算出不同时段范围内的最小成本。时间段(单位:小时)信息如表1所示。
表1不同时间段的水电站输出功率
Figure BDA0003416374410000131
通过上述描述,最小功耗成本的语义标签被上述方法识别出来后,再应用以下公式进行计算,其中f1-f7表示不同的时间段的功率输出。其中minf1=200234;minf2=220214;minf3=210124;minf4=221100;minf5=202110;minf6=201410;minf7=211010。则根据公式:
Figure BDA0003416374410000132
然后通过上述方法,多次试验求平均值,以提高数据精度,输出表2所示的误差数据。
表2误差数据分析
Figure BDA0003416374410000133
经过语义识别后,则能够快速识别出水电站运行功率的数据信息的平均误差,能够快速对误差数据进行下一步的分析与计算。通过上述计算,在应用上述论述的数学模型进行计算时,误差率较低。本申请的方法为实现水电站经济运行的分析提供技术依据。
在进一步的实施例中,建立决策树相似度矩阵,以出库水量、尾水位量和死水位为例,把树形结构的决策树转化为二叉树结构时{“出库水量<=尾水位量”、“尾水位量>死水位”、“死水位<=出水量”等}这样一个集合,
相似程度Simn计算公式如式1所示。
Figure BDA0003416374410000141
元素相似度Simn计算公式:
Figure BDA0003416374410000142
假设通过10秒的数据提取,令t=10,k1=10,k2=8,则代入公式(4),则有:
Figure BDA0003416374410000143
根据上述方法,取N为不同的数值,计算出sim1-simn的值,则为了计算的方便,假设其不同的数值分别为1.234、1.302、1.071、1.321、1.021、1.001、0.921、0.673、0.542、-1.86等,则通过
Figure BDA0003416374410000144
的内不同数值分别为:
Figure BDA0003416374410000145
任意相似度投通过矩阵
Figure BDA0003416374410000146
根据该值大小可以输出不同的预测值。这根据预测的阈值来确定,当该值大于设置阈值时,则为异常数据信息,当小于设定阈值时,则认为正常的数据信息。
在进一步的具体实施例中,再利用LA算法时,假设应用2n个事件数据参数时,雄性数据集合lionAm=[1、2、3、···、100]和雌性lionAf=[1、2、3、···、100]。当四个新的事件数据参数A1~4随机选择的两个交叉点利用p随机突变产生4个新的事件数据参数交叉点A5~8。经过交叉和变异后一共产生8个新的事件数据参数,LA算法的目标函数f(y)代入
Figure BDA0003416374410000151
则可以有:
Figure BDA0003416374410000152
在计算最优解,通过不断的计算,当f(yb)<f(y),yb≠y时,则输出最优解。在指定的迭代间隔内,假设Mmax的值为1.46,Pj为45,
Figure BDA0003416374410000153
为294,则l ion种群位置中心得到克隆事件数据参数M:
Figure BDA0003416374410000154
通过克隆事件数据参数M,进而计算出其他参数公式。本发明仅仅以示例性说明对本实施例进行阐释,但不局限于上述实施例,上述实施例中的数据信息可以根据实际测量时设定,数据集不同,得出的参数集合也不同,最终计算的参数也不同,通常数据集合越大,计算越精确。本发明的实施例仅仅是对上述理论进行数据化描述,本发明不局限于上述实施例的描述,该实施例也不是唯一实施例。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (6)

1.一种基于时序事件和语义背景的事件抽取和预测方法,其特征在于:包括以下步骤:
(S1)对事件数据信息实时采集,采集方式通过图像采集、视频采集和语义背景采集;
所述步骤(S1)中对事件数据信息实时采集的方式为基于嵌入式多通道的数字视频采集设备,包括视频输入接口、视频采集模块、核心处理器模块、视频存储模块、外部接口模块和视频发送模块,其中所述视频输入接口的输出端与视频采集模块的输入端连接,所述视频采集模块的输出端与所述核心处理器模块的输入端连接,所述核心处理器模块的输出端与视频存储模块的输入端连接,所述核心处理器模块的输出端还与外部接口模块的输入端连接,所述视频存储模块还与所述视频发送模块连接,其中视频主控芯片采用TMS320DM8168芯片或者TVP5158芯片,其中主控芯片包括ARM模块、视频处理模块、OCR识别模块和DSP模块;其中所述TVP5158芯片包括FPGA模块;
(S2)将采集到的视频流进行存储,进而获取视频流数据信息;同时将获取的视频流数据信息生成时序事件流,并记录时间戳;同时将获取的数据信息转换为短文本样本,并记录短文本样本标签;
将获取的视频流数据信息生成时序事件流,并记录时间戳的方法为:设置mVideo数据采集接口,设置数据流输入时间和传递时间,构建时序事件判识域,将落在时序事件判识域内的数据信息记作为一个时间戳;
其中记录短文本样本标签的方法为文本相似度评价方法,所述文本相似度评价方法采用基于n-grams模型的文本间相似度方法;
(S3)提取数据特征,视频流数据信息通过图像识别模型实现数据流信息特征提取,短文本样本通过构建的分类器实现数据信息分析;所述步骤(S3)中数据信息分析的方法为随机森林算法;
(S4)构建预测事件预测模型和语义背景模型实现数据预测;
在所述步骤(S4)中,所述预测事件预测模型的构建方法为NILA-GCN模型,包括输入层、卷积层、融合层和损失函数模块,其中所述输入层的输处端与卷积层的输入端连接,所述卷积层的输出端与所述融合层的输入端连接,所述融合层的输出端与所述损失函数模块的输入端连接;
(S5)输出预测结果。
2.根据权利要求1所述的一种基于时序事件和语义背景的事件抽取和预测方法,其特征在于:所述步骤(S4)中,所述预测事件预测模型的预测方法为
(S41)种群初始化,输入2n个获取的视频数据参数平均分配给两组作为候选种群,即雄性lionAm=[y1、y2、y3、···、yi]和雌性lionAf=[y1、y2、y3、···、yi];
(S42)交叉和变异;
获取的视频数据参数产生新个体的方式为交叉与变异,通过基于双概率的交叉算法实现两种不同信息数据概率实现,雄性lionAm和雌性lionAf通过交配产生了新的获取的视频数据参数Acub=[y1、y2、y3、···、yi];
(S43)领地防卫,在获取的视频数据参数迭代产生优良个体过程中,雄性lionAm和雌性lionAf会受到外部异常信息lion的攻击;此时,雄性lionAm将保卫和保护优良获取的视频数据参数,并划分种群周围区域成为领地;
(S44)得出最优解,雄性lionAm和雌性lionAf之间的劣解将被替换为最优解,在达到迭代终止条件之前,交叉不会结束,当达到迭代终止条件之后,交叉结束,输出最优解。
3.根据权利要求2所述的一种基于时序事件和语义背景的事件抽取和预测方法,其特征在于:所述步骤(S4)中,所述语义背景模型的构建模型包括数据库、分析器、n-grams模型、聚类模型和综合评价模型,其中所述数据库的输出端与分析器的输入端连接,所述分析器的输出端与n-grams模型的输入端连接,所述n-grams模型的输出端与所述聚类模型的输入端连接,所述聚类模型的输出端与所述综合评价模型的输入端连接。
4.根据权利要求3所述的一种基于时序事件和语义背景的事件抽取和预测方法,其特征在于:所述步骤(S4)中,所述语义背景模型的预测方法为:
(1)通过数据库输出数据信息,系统服务器采集语义参数主题数据;系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有倾向的语义并构成用户的新语义集合;
(2)通过分析器获取语义信息,系统服务器建立用户新语义模型;系统服务器通过新语义集合建立反映用户倾向的概念图;所述系统服务器在建立用户新语义模型之前先构建概念格;
(3)通过n-grams模型构建新语义背景,系统服务器建立概念语义背景图;所述系统服务器将概念格转换为可以直观表示语义间的语义关系的概念语义背景图;
(4)通过聚类模型和综合评价模型对获取的语音信息进行不同形式的分析与计算,系统服务器更新概念语义背景图以更新用户新语义数据,所述系统服务器增加或减少概念语义背景图,最终输出纯洁度较高的语义信息。
5.根据权利要求1所述的一种基于时序事件和语义背景的事件抽取和预测方法,其特征在于:所述步骤(S2)中记录时间戳的方法为:
设置mVideo数据采集接口,设置数据流输入时间和传递时间,构建时序事件判识域,将落在时序事件判识域内的数据信息记作为一个时间戳;时序事件判识域构建过程为,将时序事件历史数据与模型对比,然后计算历史数据与模型数据之间的差,将96%以上的感知视频数据信息点落在模型周围的区域范围,则启动公式:
Figure FDA0003416374400000031
当公式(1)为逼近真实时序事件的多项方程,公式(1)的原理是线性代数原理,将不同的数据信息通过线性连接起来,以表示感知视频数据信息点的数据信息。
6.根据权利要求4所述的一种基于时序事件和语义背景的事件抽取和预测方法,其特征在于:基于n-grams模型的文本间相似度方法为:
首先通过文本数据库调取有关事件的所有语义文本,之后进行适当的预处理得到n-grams语义模型,找到文本的数值表达式或者频率矩阵,用于可视化、聚类和数值估计,创建频率矩阵后,将矩阵提供给SOM,在SOM中对数据集进行聚类和可视化,检测文本在视觉形式上的相似性,同时,运用余弦法、骰子法、扩展Jaccard法与重叠系数法四种算法计算相似性度量或者数值估计;
在创建频率矩阵过程中,最终计算结果取决于创建n-grams单词,包括选择的过滤器,n-grams单词包括句子、段落、关键词与语义。
CN202111548478.4A 2021-12-17 2021-12-17 一种基于时序事件和语义背景的事件抽取和预测方法 Pending CN114241381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111548478.4A CN114241381A (zh) 2021-12-17 2021-12-17 一种基于时序事件和语义背景的事件抽取和预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111548478.4A CN114241381A (zh) 2021-12-17 2021-12-17 一种基于时序事件和语义背景的事件抽取和预测方法

Publications (1)

Publication Number Publication Date
CN114241381A true CN114241381A (zh) 2022-03-25

Family

ID=80757753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111548478.4A Pending CN114241381A (zh) 2021-12-17 2021-12-17 一种基于时序事件和语义背景的事件抽取和预测方法

Country Status (1)

Country Link
CN (1) CN114241381A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943312A (zh) * 2022-07-22 2022-08-26 广州市零脉信息科技有限公司 一种用于电网电力设备的信息化数据评估方法
CN114997278A (zh) * 2022-05-09 2022-09-02 浙江大学 基于计算机算法模型的工程数字化信息分析方法
CN116304117A (zh) * 2023-05-15 2023-06-23 北京睿企信息科技有限公司 一种获取文本信息的数据处理方法、系统和存储介质
CN116996844A (zh) * 2023-07-07 2023-11-03 中国科学院脑科学与智能技术卓越创新中心 一种描述、预测事件的多点通讯方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997278A (zh) * 2022-05-09 2022-09-02 浙江大学 基于计算机算法模型的工程数字化信息分析方法
CN114943312A (zh) * 2022-07-22 2022-08-26 广州市零脉信息科技有限公司 一种用于电网电力设备的信息化数据评估方法
CN116304117A (zh) * 2023-05-15 2023-06-23 北京睿企信息科技有限公司 一种获取文本信息的数据处理方法、系统和存储介质
CN116304117B (zh) * 2023-05-15 2023-09-08 北京睿企信息科技有限公司 一种获取文本信息的数据处理方法、系统和存储介质
CN116996844A (zh) * 2023-07-07 2023-11-03 中国科学院脑科学与智能技术卓越创新中心 一种描述、预测事件的多点通讯方法和装置

Similar Documents

Publication Publication Date Title
CN114241381A (zh) 一种基于时序事件和语义背景的事件抽取和预测方法
CN113408385B (zh) 一种音视频多模态情感分类方法及系统
CN112668671B (zh) 预训练模型的获取方法和装置
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN111488807B (zh) 基于图卷积网络的视频描述生成系统
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
CN113378784B (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
CN109961041B (zh) 一种视频识别方法、装置及存储介质
CN115359383B (zh) 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN110647632B (zh) 基于机器学习的图像与文本映射技术
CN107316635B (zh) 语音识别方法及装置、存储介质、电子设备
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
WO2022240449A1 (en) End-to-end speech diarization via iterative speaker embedding
CN110659392B (zh) 检索方法及装置、存储介质
Liu et al. Visually-aware audio captioning with adaptive audio-visual attention
WO2024139805A1 (zh) 一种音频处理方法及相关装置
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
Li et al. Audio–visual keyword transformer for unconstrained sentence‐level keyword spotting
CN113420179A (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN112488063A (zh) 一种基于多阶段聚合Transformer模型的视频语句定位方法
CN116502649A (zh) 文本生成模型的训练方法、装置、电子设备及存储介质
Lennox et al. Expanding the vocabulary of a protein: Application of subword algorithms to protein sequence modelling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination