CN114925692B

CN114925692B - 一种获取目标事件的数据处理系统

Info

Publication number: CN114925692B
Application number: CN202210856529.8A
Authority: CN
Inventors: 傅晓航; 刘羽; 张正义; 刘宸
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-11
Anticipated expiration: 2042-07-21
Also published as: CN114925692A

Abstract

本发明涉及一种获取目标事件的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：初始文本集，当所述计算机程序被处理器执行时，实现以下步骤：获取目标语句且对目标语句进行分词处理，获取目标语句对应的目标共现词列表，根据初始文本集中初始文本列表，获取初始文本列表对应的关键共现词列表，根据目标共现词列表和关键共现词列表，获取目标语句对应的相似度列表且当相似度列表中任一相似度预设的相似度阈值时，将相似度对应的事件作为目标事件；能够通过用户输入的共现词与事件的共现词之间的相似度，确定出用户是否需要查询该事件，有利于用户根据需求查询一系列事件，提高用户体验感。

Description

一种获取目标事件的数据处理系统

技术领域

本发明涉及获取事件技术领域，尤其涉及一种获取目标事件的数据处理系统。

背景技术

随着互联网的不断普及，人类社会进入信息爆炸时代，在这个信息爆炸时代，每一天用户可通过各种媒介平台接收各类数据信息，例如用户通过各种媒介平台获取各种话题对应的至少一个事件，其中一个话题可经历出现、发展、高潮、平淡到最后结束的历程，在这些历程中出现至少一个事件，且不同历程中的事件存在一些关系。

现有技术中存在问题：只是查询出历史上的一系列事件，但无法基于用户的需求，将事件都呈现出来，以便于用户进行查询。

发明内容

针对上述技术问题，本发明采用的技术方案为一种获取目标事件的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：初始文本集A={A₁，……，A_i，……，A_n}，A_i是指第i个事件对应的初始文本列表，i=1……n，n为事件数量，当所述计算机程序被处理器执行时，实现以下步骤：

S100、获取目标语句且对目标语句进行分词处理，获取目标语句对应的目标共现词列表D={D₁，……，D_t，……，D_k}，D_t是指目标语句中第t个目标共现词，t=1……k，k是指目标语句中目标共现词数量；

S200、根据A_i，获取A_i对应的关键共现词列表H_i={H_i1，……，H_iy，……，

}，H_iy是指A_i对应的第y个关键共现词，y=1……q_i，q_i是指A_i中关键共现词数量；

S300、根据D和H_i，获取目标语句对应的相似度列表F={F₁，……F_i，……，F_n}，F_i是指目标语句与A_i对应的事件之间的相似度，F_i符合如下条件：

，其中，F^t _iy是指D_t与H_iy之间的相似度，W_iy是指H_iy对应的权重值；

S400、当F_i＞预设的相似度阈值时，将F_i对应的事件作为目标事件；

S500、根据目标事件对应的初始文本列表，获取目标事件对应的事件特征集。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种识获取目标事件的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明的一种获取目标事件的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：初始文本集，当所述计算机程序被处理器执行时，实现以下步骤：获取目标语句且对目标语句进行分词处理，获取目标语句对应的目标共现词列表，根据初始文本集中初始文本列表，获取初始文本列表对应的关键共现词列表，

根据目标共现词列表和关键共现词列表，获取目标语句对应的相似度列表，当相似度列表中任一相似度预设的相似度阈值时，将相似度对应的事件作为目标事件，根据目标事件对应的初始文本列表，获取目标事件对应的特征列表；能够通过用户输入的共现词与事件的共现词之间的相似度，确定出用户是否需要查询该事件，有利于用户根据需求查询一系列事件，提高用户体验感。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种获取目标事件的数据处理系统的执行计算机程序的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效，详细说明如后。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本实施例一提供了一种获取目标事件的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：初始文本集A={A₁，……，A_i，……，A_n}，A_i是指第i个事件对应的初始文本列表，i=1……n，n为事件数量，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

S100、获取目标语句且对目标语句进行分词处理，获取目标语句对应的目标共现词列表D={D₁，……，D_t，……，D_k}，D_t是指目标语句中第t个目标共现词，t=1……k，k是指目标语句中目标共现词数量。

具体地，目标语句是指用户输入的语句。

具体地，在S100步骤中还通过如下步骤确定目标共现词：

S101、对目标语句进行分词处理，获取目标语句对应的目标词列表，本领域技术人员知晓采用现有技术中任一分词方法，在此不再赘述。

S103、从目标词列表中获取任意两个目标词，构建成目标共现词；可以理解为：目标共现词是指在目标语句中共同出现的目标词，即任一目标共现词包括第一目标词和第二目标词，其中，第一目标词和第二目标词是从目标词列表中获取任意两个目标词且第一目标词与第二目标词不一致；能够通过一组共同出现的词表征语句的含义，无需通过语句中所有词，查询出事件，简化确定事件的过程。

}，H_iy是指A_i对应的第y个关键共现词，y=1……q_i，q_i是指A_i中关键共现词数量。

具体地，在S200步骤之前还通过如下步骤H_i：

S1、从数据库中，获取A_i={A_i1，……，A_ij，……，

}，A_ij是指第i个事件对应的第j 初始文本，j=1……m_i，m_i是指第i个事件对应的初始文本数量。

S2、根据A_i，获取A_i对应的初始共现词集合B_i={B_i1，……，B_ij，……，

}，B_ij= {B¹ _ij，……，B^r _ij，……，B^Sj _ij}，B^r _ij是指A_ij中第r个初始共现词，r=1……Sj，Sj是指A_ij中初始共现词数量。

具体地，在S2步骤中还通过如下步骤获取初始共现词：

S21、将A_i进行语句处理，获取A_i对应的语句列表Yi={Y_i1，……，Y_ig，……，

}，Y_ig 是指A_i对应的第g个语句，g=1……z_i，z_i是指A_i对应的语句数量，本领域技术人员可以采取任一语句处理对文本划分成若干语句，在此不再赘述；

S22、对Y_ig进行分词处理，获取Y_ig对应的初始词列表；

S23、从Y_ig对应的初始词列表中获取任意两个初始词，构建成初始共现词。

S3、根据所有的B_ij中每一B^r _ij，获取A_i对应的中间共现词列表G_i={G_i1，……，G_ix，……，G_ip}，G_ix是指A_i中第x个中间共现词，x=1……p，p为A_i内中间共现词的数量，可以理解为：所有的B_ij中每一B^r _ij进行去重处理得到的，本领域技术人员可以采取任一去重方法，在此不再赘述。

S4、根据B_i，获取A_i对应的中间共现词数量列表C_i={C_i1，……，C_ix，……，C_ip}，C_ix是指在B_i中G_ix的重复次数。

S5、遍历C_i且当C_ix≤预设的重复次数阈值时，从中间共现词列表中删除C_ix对应的中间共现词，生成H_i，本领域技术人员根据实际需求设置重复次数阈值，优选地，重复次数阈值的取值为3。

，其中，F^t _iy是指D_t与H_iy之间的相似度，W_iy是指H_iy对应的权重值。

具体地，在S300步骤中，F^t _iy符合如下条件：

，其中，MK^t _γ是指D_t对应的词向量中第γ位bit值，NK^iy _γ是指 H_iy对应的词向量中第γ位bit值，γ=1……φ，φ是指词向量中向量维度。

进一步地，在S300步骤中还通过如下步骤获取W_iy，

S301、根据C_i，获取H_i对应的关键共现词数量列表C'_i={C'_i1，……，C'_iy，……，

}，C'_iy是指在C_i中H_iy的重复次数；

S302、根据C'_i，获取W_iy，其中，W_iy符合如下条件：

，可知，通过重复次数确定出权重值，使得对相似度的确定更加准确，有利于确定用户输入的语句与事件之间的关系，准确的确定出用户需要查询的事件，使得用户根据需求查询一系列事件，提高用户体验感。

优选地，在S300步骤中还通过如下步骤获取MK^t _γ：

S311、获取D_t={D_t1，D_t2}，其中，D_t1是指第t个目标共现词中第一个目标词，D_t2是指第t个目标共现词中第二个目标词；

S312、将D_t1和D_t2分别输入至预训练语言模型中，得到D_t1对应的词向量Q_t1=（Q¹ _t1，……，Q^γ _t1，……，Q^φ _t1），Q^γ _t1是指第t个目标共现词中第一个目标词对应的第γ位bit值，以及D_t2对应的词向量Q_t2=（Q¹ _t2，……，Q^γ _t2，……，Q^φ _t2），Q^γ _t2是指第t个目标共现词中第二个目标词对应的第γ位bit值；

S313、根据Q^γ _t1和Q^γ _t2，获取MK^t _γ，其中，MK^t _γ符合如下条件：

MK^t _γ=Q^γ _t1+Q^γ _t2。

优选地，在S300步骤中还通过如下步骤获取NK^iy _γ：

S321、获取H_iy={H¹ _iy，H² _iy}，其中，H¹ _iy是指第y个关键共现词中第一个关键词，H² _iy是指第y个关键共现词中第二个关键词；

S322、将H¹ _iy和H² _iy分别输入至预训练语言模型中，得到H¹ _iy对应的词向量P¹ _iy=（P¹¹ _iy，……，P^1γ _iy，……，P^1φ _iy），P^1γ _iy是指第y个关键共现词中第一个关键词对应的第γ位bit值，以及D_t2对应的词向量P² _iy=（P²¹ _iy，……，P^2γ _iy，……，P^2φ _iy），P^2γ _iy是指第y个关键共现词中第二个关键词对应的第γ位bit值；

S323、根据P^1γ _iy和P^2γ _iy，获取NK^t _γ，其中，NK^t _γ符合如下条件：

NK^iy _γ=P^1γ _iy+P^2γ _iy。

上述，无论目标共现词还是关键共现词均通过共现词中不同的两个词对应的向量之和作为共现词的向量，避免因共现词中词的位置关系，导致目标共现词和关键共现词之间的相似度存在差异，提高了目标共现词和关键共现词之间相似的确定性，进而有利于用户输入的语句与事件之间的关系，使得用户根据需求查询一系列事件，提高用户体验感。

S400、当F_i＞预设的相似度阈值时，将F_i对应的事件作为目标事件，本领域技术人员根据实际需求设置相似度阈值，在此不再赘述。

具体地，在S500步骤中还包括如下步骤：

S501、根据预设的事件特征列表TZ={TZ₁，……，TZ_α，……，TZ_β}，TZ_α是指第α个事件特征，α=1……β，β为事件特征数量。

优选地，当β=5时，事件特征为：时间、地点、人物、来源、内容。

S502、根据TZ，获取目标事件对应的任一初始文本的特征列表，可以理解为初始文本的特征列表中事件特征与TZ一致。

S503、按照目标事件对应的初始文本列表中每一初始文本对应的相似度的由大至小顺序，对每一初始文本中第α个事件特征的特征值进行排序；

S504、将排序后的目标事件对应的所有初始文本的特征列表作为目标事件对应的事件特征集；可知，通过目标共现词与关键共现词之间的相似度，对目标事件的特征进行排序，有利于用户能够快速的查询到与输入语句相似度最高的文本，使得用户可以快速知晓事件的相关内容，提高用户的体验感。

本实施例提供了一种获取目标事件的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：初始文本集，当所述计算机程序被处理器执行时，实现以下步骤：获取目标语句且对目标语句进行分词处理，获取目标语句对应的目标共现词列表，根据初始文本集中初始文本列表，获取初始文本列表对应的关键共现词列表，根据目标共现词列表和关键共现词列表，获取目标语句对应的相似度列表，当相似度列表中任一相似度预设的相似度阈值时，将相似度对应的事件作为目标事件，根据目标事件对应的初始文本列表，获取目标事件对应的特征列表；能够通过用户输入的共现词与事件的共现词之间的相似度，确定出用户是否需要查询该事件，有利于用户根据需求查询一系列事件，提高用户体验感。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种获取目标事件的数据处理系统，其特征在于，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：初始文本集A={A₁，……，A_i，……，A_n}，A_i是指第i个事件对应的初始文本列表，i=1……n，n为事件数量，当所述计算机程序被处理器执行时，实现以下步骤：

S100、获取目标语句且对目标语句进行分词处理，获取目标语句对应的目标共现词列表D={D₁，……，D_t，……，D_k}，D_t是指目标语句中第t个目标共现词，t=1……k，k是指目标语句中目标共现词数量，其中，目标共现词是指在目标语句中共同出现的目标词，任一目标共现词包括第一目标词和第二目标词，其中，第一目标词和第二目标词是从目标词列表中获取任意两个目标词且第一目标词与第二目标词不一致；