CN113139106B - 一种保密检查的事件审核方法和装置 - Google Patents
一种保密检查的事件审核方法和装置 Download PDFInfo
- Publication number
- CN113139106B CN113139106B CN202110497155.0A CN202110497155A CN113139106B CN 113139106 B CN113139106 B CN 113139106B CN 202110497155 A CN202110497155 A CN 202110497155A CN 113139106 B CN113139106 B CN 113139106B
- Authority
- CN
- China
- Prior art keywords
- event
- similarity
- events
- sequencing
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种保密检查的事件审核方法和装置,审核方法包括以下步骤:建立事件排序模型并训练,得到最优排序函数;事件去除冗余重排序,提取事件集合中的每个事件与查询词之间的相关性特征向量,以及该事件与排在其前面的事件集合的相似性特征矩阵;将每个事件的相关性特征向量和相似性特征矩阵代入最优排序函数,得到排序值;将排序值按照从大到小的顺序进行排序,即得到事件的排序;最后对事件进行标记。本发明还提供了一种实现上述审核方法的装置。本发明通过事件排序模型对保密检查事件重排序,可对相似度达到阈值的冗余事件进行批量审核,节约人力成本,并且提高保密检查效率以及准确率。
Description
技术领域
本发明涉及保密检查领域,具体涉及一种保密检查的事件审核方法和装置。
背景技术
保密检查是作为保密管理的一项重要工作内容,是加强保密工作的重要措施,然而当前的保密检查系统每次检查完之后都会有大量的保密检查事件产生,保密检查事件是指检查人员在保密检查中发现的可疑事件,这些事件可能是涉密事件,也可能是误报事件,这些事件的审核均需要依赖人工完成,费时费力,并且人工审核精力有限,存在漏掉涉密事件的现象。
发明内容
本发明的目的在于针对上述现有技术中保密检查的事件审核效率及准确率不高的问题,提供一种保密检查的事件审核方法和装置,通过事件排序模型对保密检查事件重排序,利用事件之间的相似性,对相似度达到阈值的冗余事件进行批量审核,提高审核效率和准确率。
为了实现上述目的,本发明有如下的技术方案:
一种保密检查的事件审核方法,包括以下步骤:
-建立事件排序模型;
构建训练数据集;
提取训练数据集中每个查询词的属性及其对应事件的属性;
利用每个查询词对应事件的属性,提取每个事件的相关性特征和相似性特征;
构建并训练排序模型,得到最优排序函数;
-事件去除冗余重排序;
搜索某个查询词得到包含若干个事件的事件集合;
提取每个事件的属性;
提取事件集合中的每个事件与查询词之间的相关性特征向量,以及该事件与排在其前面的事件集合的相似性特征矩阵;
将每个事件的相关性特征向量和相似性特征矩阵代入最优排序函数,得到排序值;
将排序值按照从大到小的顺序进行排序,即得到事件的排序;
-对事件进行标记。
构建训练数据集的具体步骤如下:训练数据集包括查询词集合Q={q1,…,qn},qi为第i个查询词,n为查询词的总数;每个查询词qi都有对应的一个事件集合Ei={eventi1,…,eventim},m为事件的个数;对每条事件按照是否与对应的查询词qi相关进行人工标注,通过这些标注信息生成事件集合Ei排序的标准答案ranki={ranki1,…,rankim}。
所述查询词的属性为查询词的向量表示;
事件的属性包括事件文本的向量表示、事件对应文档的创建时间、修改时间及文件类型。
所述事件的相关性特征通过BERT模型得到,BERT模型使用预训练模型并在训练数据集中,利用人工标注的相关性排序结果进行调优训练,保留BERT模型最后的回归层之前的输出为相关性特征向量。相似性特征包括文本相似特征、时间相似特征以及类型相似特征。
所述的文本相似特征:通过BERT模型得到,BERT模型使用预训练模型;
所述的时间相似特征:通过时间指标来评估事件相似的可能性,按下式进行计算:
T=f(|ti-tj|)/threshold
其中,ti和tj分别表示两个事件的时间,f为阈值函数,当|ti-tj|>threshold时,f返回threshold,否则,返回|ti-tj|,即T的取值范围为[0,1];
所述的类型相似特征根据文档类型预置不同类别之间的相似度。
所述排序模型的输入为一个查询词对应的每个事件Ei相关性特征向量组成的矩阵和每个事件相似性特征向量组成的矩阵和分别表示相关性特征权重和相似性特征的权重;max(x)为求最大值的函数;输出为事件的排序;排序函数表示为:
所述对事件进行标记的具体步骤如下:
本发明还提出一种保密检查的事件审核装置,包括:
事件排序模型建立模块,用于构建训练数据集,并提取训练数据集中每个查询词的属性及其对应事件的属性,利用每个查询词对应事件的属性,提取每个事件的相关性特征和相似性特征;构建排序模型并进行训练,得到最优排序函数;
事件去除冗余重排序模块,用于搜索某个查询词得到包含若干个事件的事件集合,提取每个事件的属性,提取事件集合中的每个事件与查询词之间的相关性特征向量以及该事件与排在其前面的事件集合的相似性特征矩阵,将每个事件的相关性特征向量和相似性特征矩阵代入最优排序函数,得到排序值,将排序值按照从大到小的顺序进行排序得到事件的排序;
事件标记模块,根据事件的相似性特征矩阵,找出相似度大于阈值的事件给予同样标记。
相较于现有技术,本发明具有如下的有益效果:在对事件进行检索时,通过事件排序模型对保密检查事件进行重排序,利用事件之间的相似性,可对相似度达到阈值的冗余事件进行批量审核,节约人力成本,并且提高保密检查效率以及准确率。本发明使用户在进行事件检索/审核时,返回去除冗余的检索结果,并通过自动批量标记,减少用户审核时间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例建立事件排序模型的方法流程图;
图2本发明实施例事件去除冗余重排序的方法流程图。
具体实施方式
下面结合附图以及实施例对本发明做进一步的详细说明。
针对目前保密检查中存在的保密检查事件审核费时费力的问题,本发明提出一种保密检查的事件审核方法,包括一种事件排序模型的建立方法,该方法通过提取训练样本集的相关性和相似性特征,训练出事件排序模型的权重;然后基于该模型,本发明还提供了一种去除冗余的重排序方法,该方法使得检查人员在对保密检查形成的事件进行检索和审核时,返回去除冗余的检索结果;同时可对相似度达到阈值的冗余事件进行批量审核。
参见图1,本发明事件排序模型的建立方法包括:
步骤S1)构建训练数据集;
训练数据集包括一系列查询词,每个查询词对应的若干个事件,通过人工标注的方式得到的这些事件的相关性排序及最终排列顺序。设训练集包括查询词集合Q={q1,…,qn},qi为第i个查询词,n为查询词的总数;每个查询词qi都有对应一个事件集合Ei={eventi1,…,eventim};m为事件的个数;对每条事件eventij进行人工标注:是否与对应的查询词qi相关,通过这些标注信息生成事件集合Ei排序的标准答案ranki={ranki1,…,rankim};
步骤S2)提取训练数据集中每个查询词的属性,及其对应的事件的属性;
步骤S3)利用每个查询词对应的事件的属性,提取每条事件的相关性特征和相似性特征;
事件的相关性特征可以通过BERT模型得到。BERT模型使用预训练模型并在训练数据集中,利用人工标注的相关性排序结果进行调优训练。保留BERT模型最后的回归层之前的输出为相关性特征向量。相似性特征包括文本相似特征、时间相似特征以及类型相似特征。
时间相似特征:相同或相近时间内发生的事件往往会有一些相关性,因此,可以通过时间指标来评估事件相似的可能性。时间特征的计算方式如公式所示:
T=f(|ti-tj|)/threshold
其中,ti和tj分别表示两个事件的时间,f为阈值函数,当|ti-tj|>threshold时,f返回threshold,否则,返回|ti-tj|,即T的取值范围为[0,1]。
类型相似特征:相同或相似的事件对应的文档类型可能也是相似的,可以采用文档类型的相似性来评估事件相似的可能性。将已知文档类型分为几大类:文本类、图片类、表格类,大类中又可分为小类,比如文本类可分为普通文本、XML文本、JSON文本等。根据文档类型预置好不同类别之间的相似度。
步骤S4)构建排序模型,对排序模型进行训练。
对提取好特征的训练数据,利用排序学习方法进行模型的训练,最终得到的模型是上述相关性特征和相似性特征的权重。输入为一个查询词对应的每个事件相关性特征向量组成的矩阵和每个事件相似性特征向量组成的矩阵,和分别表示相关性特征权重和相似性特征的权重;max(x)为求最大值的函数;输出为事件的排序。排序函数表示为:
参见图2,基于建立的事件排序模型,本发明去除冗余的重排序方法包括:
步骤T1)搜索某个查询词q得到若干个事件E={event1,…,eventm};
步骤T2)提取每个事件的属性;
步骤T3)提取衡量事件集合E中的每个事件eventj,1≤j≤m与查询词q间相关性特征向量xj以及事件eventj与排在其前面的事件集合的相似性特征矩阵sj;
步骤T5)将排序值按照从大到小的顺序进行排序,即得到事件的排序。
基于上述方法过程中计算的事件相似特征矩阵,本发明还可以方便用户对事件进行标记(确认为重要事件/一般事件/误报事件等):
步骤E1)用户对某个事件eventj进行标记;
一种保密检查的事件审核装置,主要包括:
事件排序模型建立模块,用于构建训练数据集,并提取训练数据集中每个查询词的属性及其对应事件的属性,利用每个查询词对应事件的属性,提取每个事件的相关性特征和相似性特征;构建排序模型并进行训练,得到最优排序函数;
事件去除冗余重排序模块,用于搜索某个查询词得到包含若干个事件的事件集合,提取每个事件的属性,提取事件集合中的每个事件与查询词之间的相关性特征向量以及该事件与排在其前面的事件集合的相似性特征矩阵,将每个事件的相关性特征向量和相似性特征矩阵代入最优排序函数,得到排序值,将排序值按照从大到小的顺序进行排序得到事件的排序;
事件标记模块,根据事件的相似性特征矩阵,找出相似度大于阈值的事件给予同样标记。
本发明通过去除冗余重排序模型对保密检查事件进行重排序,使得查询结果前面的部分呈现多样化的特点,方便用户进行查阅,同时由于计算了事件之间的相似性,可对相似度达到阈值的冗余事件进行批量审核,节约人力成本,并且提高保密检查效率以及准确率。
以上所述的仅仅是本发明的较佳实施例,并不用以对本发明的技术方案进行任何限制,本领域技术人员应当理解的是,在不脱离本发明精神和原则的前提下,该技术方案还可以进行若干简单的修改和替换,这些修改和替换也均属于权利要求书所涵盖的保护范围之内。
Claims (7)
1.一种保密检查的事件审核方法,其特征在于,包括以下步骤:
-建立事件排序模型;
构建训练数据集;
提取训练数据集中每个查询词的属性及其对应事件的属性;
利用每个查询词对应事件的属性,提取每个事件的相关性特征和相似性特征;
构建并训练排序模型,得到最优排序函数;
相似性特征包括文本相似特征、时间相似特征以及类型相似特征;
文本相似特征:通过BERT模型得到,BERT模型使用预训练模型;
时间相似特征:通过时间指标来评估事件相似的可能性,按下式进行计算:
T=f(|ti-tj|)/threshold
其中,ti和tj分别表示两个事件的时间,f为阈值函数,当|ti-tj|>threshold时,f返回threshold,否则,返回|ti-tj|,即T的取值范围为[0,1];
类型相似特征根据文档类型预置不同类别之间的相似度;
排序模型的输入为一个查询词对应的每个事件Ei相关性特征向量组成的矩阵和每个事件相似性特征向量组成的矩阵 和分别表示相关性特征权重和相似性特征的权重;max(x)为求最大值的函数;输出为事件的排序;排序函数表示为:
-事件去除冗余重排序;
搜索某个查询词得到包含若干个事件的事件集合;
提取每个事件的属性;
提取事件集合中的每个事件与查询词之间的相关性特征向量,以及该事件与排在其前面的事件集合的相似性特征矩阵;
将每个事件的相关性特征向量和相似性特征矩阵代入最优排序函数,得到排序值;
将排序值按照从大到小的顺序进行排序,即得到事件的排序;
-对事件进行标记。
2.根据权利要求1所述保密检查的事件审核方法,其特征在于:训练数据集包括查询词集合Q={q1,...,qn},qi为第i个查询词,n为查询词的总数;每个查询词qi都有对应的一个事件集合Ei={eventi1,...,eventim},m为事件的个数;对每条事件按照是否与对应的查询词qi相关进行人工标注,通过这些标注信息生成事件集合Ei排序的标准答案ranki={ranki1,...,rankim}。
3.根据权利要求1所述保密检查的事件审核方法,其特征在于:
查询词的属性为查询词的向量表示;
事件的属性包括事件文本的向量表示、事件对应文档的创建时间、修改时间及文件类型。
4.根据权利要求1所述保密检查的事件审核方法,其特征在于:事件的相关性特征通过BERT模型得到,BERT模型使用预训练模型并在训练数据集中,利用人工标注的相关性排序结果进行调优训练,保留BERT模型最后的回归层之前的输出为相关性特征向量。
7.一种保密检查的事件审核装置,其特征在于,实现如权利要求1所述保密检查的事件审核方法,包括:
事件排序模型建立模块,用于构建训练数据集,并提取训练数据集中每个查询词的属性及其对应事件的属性,利用每个查询词对应事件的属性,提取每个事件的相关性特征和相似性特征;构建排序模型并进行训练,得到最优排序函数;
事件去除冗余重排序模块,用于搜索某个查询词得到包含若干个事件的事件集合,提取每个事件的属性,提取事件集合中的每个事件与查询词之间的相关性特征向量以及该事件与排在其前面的事件集合的相似性特征矩阵,将每个事件的相关性特征向量和相似性特征矩阵代入最优排序函数,得到排序值,将排序值按照从大到小的顺序进行排序得到事件的排序;
事件标记模块,根据事件的相似性特征矩阵,找出相似度大于阈值的事件给予同样标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497155.0A CN113139106B (zh) | 2021-05-07 | 2021-05-07 | 一种保密检查的事件审核方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497155.0A CN113139106B (zh) | 2021-05-07 | 2021-05-07 | 一种保密检查的事件审核方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139106A CN113139106A (zh) | 2021-07-20 |
CN113139106B true CN113139106B (zh) | 2022-03-15 |
Family
ID=76817902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110497155.0A Active CN113139106B (zh) | 2021-05-07 | 2021-05-07 | 一种保密检查的事件审核方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139106B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677873A (zh) * | 2016-01-11 | 2016-06-15 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
CN107122469A (zh) * | 2017-04-28 | 2017-09-01 | 中国人民解放军国防科学技术大学 | 基于语义相似度与时效性频率的查询推荐排序方法与装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3598211B2 (ja) * | 1998-01-13 | 2004-12-08 | 富士通株式会社 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
CN101320375B (zh) * | 2008-07-04 | 2010-09-22 | 浙江大学 | 基于用户点击行为的数字图书搜索方法 |
US8166032B2 (en) * | 2009-04-09 | 2012-04-24 | MarketChorus, Inc. | System and method for sentiment-based text classification and relevancy ranking |
CN106484829B (zh) * | 2016-09-29 | 2019-05-17 | 中国国防科技信息中心 | 一种微博排序模型的建立及微博多样性检索方法 |
CN110046298B (zh) * | 2019-04-24 | 2021-04-13 | 中国人民解放军国防科技大学 | 一种查询词推荐方法、装置、终端设备及计算机可读介质 |
CN110347812B (zh) * | 2019-06-25 | 2021-09-10 | 银江股份有限公司 | 一种面向司法文本的搜索排序方法及系统 |
-
2021
- 2021-05-07 CN CN202110497155.0A patent/CN113139106B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677873A (zh) * | 2016-01-11 | 2016-06-15 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
CN107122469A (zh) * | 2017-04-28 | 2017-09-01 | 中国人民解放军国防科学技术大学 | 基于语义相似度与时效性频率的查询推荐排序方法与装置 |
Non-Patent Citations (1)
Title |
---|
新浪微博搜索排序方法研究;叶施仁等;《常州大学学报(自然科学版)》;20130725(第03期);71-75页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113139106A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
JP3041268B2 (ja) | 中国語誤り検査(cec)システム | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN111611356B (zh) | 信息查找方法、装置、电子设备及可读存储介质 | |
US20090327249A1 (en) | Intellegent Data Search Engine | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
CN113687826A (zh) | 一种基于需求项提取的测试用例复用系统及方法 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN110866102A (zh) | 检索处理方法 | |
CN110659282A (zh) | 数据路由的构建方法、装置、计算机设备和存储介质 | |
US20050138079A1 (en) | Processing, browsing and classifying an electronic document | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN112541077A (zh) | 一种用于电网用户服务评价的处理方法及系统 | |
KR101472451B1 (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
CN111930933A (zh) | 一种基于人工智能的检务案件处理方法及装置 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN113139106B (zh) | 一种保密检查的事件审核方法和装置 | |
CN116955818A (zh) | 一种基于深度学习的推荐系统 | |
CN111460206A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN115661834A (zh) | 一种多功能数据检索系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |