CN116049359A - 一种基于文档内容分析的查重算法 - Google Patents

一种基于文档内容分析的查重算法 Download PDF

Info

Publication number
CN116049359A
CN116049359A CN202211389077.3A CN202211389077A CN116049359A CN 116049359 A CN116049359 A CN 116049359A CN 202211389077 A CN202211389077 A CN 202211389077A CN 116049359 A CN116049359 A CN 116049359A
Authority
CN
China
Prior art keywords
text
data
scientific research
word
research project
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211389077.3A
Other languages
English (en)
Inventor
李牧
刘明涛
向国军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongke Hexun Technology Co ltd
Original Assignee
Chengdu Zhongke Hexun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongke Hexun Technology Co ltd filed Critical Chengdu Zhongke Hexun Technology Co ltd
Priority to CN202211389077.3A priority Critical patent/CN116049359A/zh
Publication of CN116049359A publication Critical patent/CN116049359A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文档内容分析的查重算法,涉及信息检索技术领域,构建词库模型:从所提供基础文件中,提取技术领域术语及名称术语,形成术语词库;构建分析模型:计算查询检索条件与数据库中各项数据之间的文本相似度;查询检索:将查询检索条件和待检测文本转化为计算机可识别的数据,之后对该文本进行分词处理,并根据分词生成对应的词向量,最后依据词向量计算查询检索条件与科研项目数据之间的文本相似度。本发明所述的一种基于文档内容分析的查重算法,通过借助自然语言处理、深度学习等人工智能算法,构建基于智能算法的信息查重检索模型,形成面向装备科研项目的信息检索能力和智能查重分析能力。

Description

一种基于文档内容分析的查重算法
背景技术
装备科研项目数据多为自然语言文本描述,存在着不规范性和二义性等规范性问题,计算机难以有效地对装备科研项目数据进行准确的查询检索和查重分析。而若单纯依赖于人工手段对大量装备科研项目数据进行查询检索或者查重分析,识别当前装备科研项目数据库中是否存在类似或者相同的数据信息,所需的工作量较大,且受到人的主观经验和精力的影响,科研项目检索和查重结果容易产生遗漏,较难保障科研项目检索与查重分析的准确性和充分性。
因此,借助自然语言处理、深度学习等人工智能算法,构建基于智能算法的信息查重检索模型,实现高效且准确的装备科研项目数据的查询检索与查重分析,是解决这一问题的有效途径,为此,我们提出一种基于文档内容分析的查重算法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于文档内容分析的查重算法,解决装备科研项目数据量日益增多,管理难度大,以及研项目数据多为自然语言描述,存在记录随意、具有二义性等不规范的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于文档内容分析的查重算法,该查重算法包括:
构建词库模型:从所提供基础文件中,提取技术领域术语及名称术语,形成术语词库;
构建分析模型:计算查询检索条件与数据库中各项数据之间的文本相似度,之后,依据用户输入或者选择的数据文本,计算该数据文本与数据库中各项历史数据之间的文本相似度;
查询检索:将查询检索条件和待检测文本转化为计算机可识别的数据,之后对该文本进行分词处理,并根据分词生成对应的词向量,最后依据词向量计算查询检索条件与科研项目数据之间的文本相似度;
检验:生成多组查询检索应用验证数据,并根据验证数据进行查询检索,最后根据查询检索结果计算查准率和查全率。
优选的,所述构建词库模型包括以下步骤:
技术领域术语词库:根据所提供的基础文本,选择或确定领域的专业词汇与标准术语,并进行统一规范化处理;
近义词词库:对技术领域术语以及专用术语进行分析,参考所提供基础文本的项目名称以及专家经验,识别每个术语的近义词或者缩写词。
优选的,所述构建词库模型后,参考术语相关标准规范,进行规范化处理方法研究,包括字段格式要求、字段记录要求和规范描述要求,从而指定统一的字段格式。
优选的,在查询检索步骤中,所述分词处理依靠术语词库字典与逆向最大匹配算法,将用户输入的查询检索条件文本以及待检测文本切分,所述分词处理包括以下步骤:
(1)、借助技术领域术语词库、通用分词字典,将用户输入的检索条件文本以及科研项目数据文本切分为独立词语的集合;
(2)、借助技术领域术语词库,将文本分词集合中存在的近义词进行统一描述;
(3)、借助“通用停用词字典”,将文本分词集合中的助词、语气词、介词、副词等不具有特定含义的词语去除,形成规范的检索条件文本分词集合以及科研项目数据文本分词集合。
优选的,所述词向量是借助基于深度学习的词向量模型,针对每项文本分词生成词向量,在此基础上,进一步生成科研项目数据的文本向量,以及查询条件的文本向量。
优选的,在查询检索步骤中,所述文本相似度需要计算查询检索条件与待检测文本之间的语义相似度,并选择语义相似度大于规定阈值的文本数据,作为查询检索结果。
优选的,所述文本相似度借助基于字符串匹配的相似度算法以及基于文本向量的相似度算法得到;
其中,所述基于字符串匹配的相似度算法是先对文本分词集合中的分词进行字符串匹配,之后进行文本相似分词数量统计,最后基于文本相似分词数量,计算数据文本相似度;
所述基于文本向量的相似度算法是依据各个分词在文本分词集合中的出现位置,将所有分词的词向量进行组合匹配,生成文本向量,之后借助基于余弦距离的语义相似度算法。
优选的,所述检验步骤中,每组所述查询检索应用验证数据中均包含设定的查询检索条件;以及根据每组查询检索条件,由领域专家或者项目研究人员在典型科研项目数据中,确定符合查询检索条件的科研项目数据。
(三)有益效果
1、通过借助自然语言处理、深度学习等人工智能算法,构建基于智能算法的信息查重检索模型,形成面向装备科研项目的信息检索能力和智能查重分析能力。
2、按专业领域形成面向装备科研项目的数据词库,包含的数据涵盖空军装备、空军装备技术领域术语、装备型号,全军装备军内科研计划项目名称内的装备及装备技术术语,且可批量导入“全军装备军内科研计划信息系统”。
3、装备科研项目信息查询检索验证应用算法模型及词库的查准率(即精度,检索出的相关项目与检出项目总量的百分比)不低于80%,查全率不低于90%(即召回率,检索出的相关项目与系统中的相关项目总量的百分比)。
4、装备科研项目查重分析验证应用算法模型及词库的查准率不低于80%,查全率不低于90%。
附图说明
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
图1为本发明实施例的整体结构框图;
图2为本发明实施例中制备科研项目信息智能查询检索模型图;
图3为本发明实施例中基于术语词库字典与逆向最大匹配算法框图;
图4为本发明实施例中基于文本相似度的科研项目数据智能查询检索流程框图;
图5为本发明实施例中制备科研项目数据智能查重分析模型框;
图6为本发明实施例中基于文本相似度的科研项目数据查重分析流程框图;
图7为本发明实施例中嵌入式验证系统开发与应用验证的整体实施方案图;
图8为本发明实施例中嵌入式验证系统功能组成图。
具体实施方式
本申请实施例通过提供一种基于文档内容分析的查重算法,在查重算法使用时,通过借助自然语言处理、深度学习等人工智能算法,构建基于智能算法的信息查重检索模型,形成面向装备科研项目的信息检索能力和智能查重分析能力;按专业领域形成面向装备科研项目的数据词库,包含的数据涵盖空军装备、空军装备技术领域术语、装备型号,全军装备军内科研计划项目名称内的装备及装备技术术语,且可批量导入“全军装备军内科研计划信息系统”。
实施例
本申请一种基于文档内容分析的查重算法(如图1),该查重算法包括:
步骤1:开展“科研项目数据词库规范化处理研究”
步骤1.1空军装备及装备技术领域术语词库字典构建
针对提供的军语、空军装备及装备技术领域项目的项目名称等数据进行梳理,从中提取空军装备、空军装备技术领域术语,装备型号等信息,形成空军装备及装备技术领域术语词库字典。
步骤1.2全军装备军内科研计划项目术语词库字典构建
针对提供的军语、全军装备军内科研项目的项目名称等数据进行梳理,从中提取全军装备军内科研计划项目名称内的装备及装备技术术语等信息,形成全军装备军内科研计划项目术语词库字典。
步骤1.3科研项目数据规范化处理方法研究
结合装备科研项目类别、专业领域等信息,开展科研项目数据规范化处理方法研究,即针对空军装备及装备技术领域术语、装备型号信息,全军装备军内科研计划项目数据等,提出字段格式、内容规范描述等要求。
步骤2:开展“基于智能算法的信息查重检索模型研究”。
步骤2.1装备科研项目信息智能查询检索模型研究
依据查询检索条件(既可以来自于用户的输入,也可以来自于装备科研项目数据词库),借助文本分词算法、字符串匹配/深度学习词向量模型、相似度距离等技术,计算查询检索条件与科研项目数据库中各项数据之间的文本相似度距离,进而实现基于文本相似度距离的科研项目数据检索过程。
步骤2.2装备科研项目智能查重分析模型研究
依据用户输入或者选择的科研项目数据文本,借助文本分词算法、字符串匹配/深度学习词向量模型、相似度距离等技术,计算该项目数据文本与科研项目数据库中各项历史数据之间的文本相似度距离,进而实现基于文本相似度距离的科研项目数据查重过程。
步骤3:嵌入式验证系统开发与应用验证
步骤3.1嵌入式验证系统开发
依据“基于智能算法的信息查重检索模型”以及“科研项目数据词库规范化处理”等技术研究内容,开发嵌入式验证系统。
步骤3.2项目应用与验证
在所研发的嵌入式验证系统基础上,针对典型装备科研项目数据(至少200项以上),开展基于智能算法的信息查重检索模型的验证与应用,包括如下应用验证活动:
装备科研项目信息查询检索验证应用算法模型及词库的查准率与查全率验证,即查准率不低于80%,查全率不低于90%;
装备科研项目查重分析验证应用算法模型及词库的查准率与查全率验证,即查准率不低于80%,查全率不低于90%。
2技术实施途径
2.1空军装备及装备技术领域术语词库字典构建
依据提供的军语、空军装备及装备技术领域项目的项目名称等数据,进行总结梳理,从中提取空军装备、装备技术领域术语以及装备型号等术语信息,形成“空军装备及装备技术领域术语词库字典”,进而在“嵌入式验证系统”中,实现对“空军装备及装备技术领域术语词库字典”的批量导入、修改、删除、保存等维护功能,为基于智能算法的信息检索与查重分析技术及应用提供支撑。
具体的空军装备及装备技术领域术语词库字典构建实施途径如下:
(1)空军装备及装备技术领域术语词库构建
针对提供的军语、空军装备及装备技术领域项目的项目名称等数据进行梳理,从中提取空军装备、装备技术领域术语,以及装备型号等专用或特定词语信息,形成“空军装备及装备技术领域术语词库”。主要包括:
空军装备领域专用术语:依据提供的军语、空军装备及装备技术领域项目的项目名称,针对空军装备系统名称、空军装备系统类别等信息进行梳理和总结,选择或确定空军装备领域的专业词汇与标准术语,并进行统一规范化处理。例如,飞行控制系统、大气数据系统等;
空军装备技术领域专用术语:依据提供的军语、空军装备及装备技术领域项目的项目名称,选择或确定空军装备技术领域的专业词汇与标准术语,并进行统一规范化处理。例如,余度设计技术、飞行控制律算法等;
空军装备型号专用术语:依据提供的军语、空军装备及装备技术领域项目的项目名称,选择或确定空军装备型号信息,并进行统一规范化处理。例如,某型飞机、某型装备等。所构造的空军装备及装备技术领域术语词库示例如下:
表1空军装备及装备技术领域术语词库示例
序号 类别 空军装备及装备技术领域术语
1. 空军装备领域专用术语 飞行控制系统、大气数据系统等
2. 空军装备技术领域专用术语 余度设计技术、飞行控制律等
3. 空军装备型号专用术语 例如尖10,海50等
(2)空军装备及装备技术领域近义词库构建
对空军装备、装备技术领域术语,以及装备型号等专用术语进行分析,参考提供的军语、空军装备及装备技术领域项目的项目名称以及专家经验,识别每个术语的近义词或者缩写词等,建立“空军装备及装备技术领域近义词库”。主要包括:术语的近似词:即与该专业术语具有相同或者类似含义、但描述不同的词语。例如,“余度设计技术”又可称为“余度表决算法”;术语的缩写词:某些专业术语可能具有简称或者缩写形式,例如,“飞行控制系统”可以简称为“飞控系统”;所构造的空军装备及装备技术领域近义词库示例如下:
表2空军装备及装备技术领域近义词库示例
序号 空军装备及装备技术领域术语 近义词
1. 余度设计技术 余度表决算法
2. 飞行控制系统 飞控系统
3. 全权限数字式发动机控制 FADCE
将构建的“空军装备及装备技术领域术语词库”和“空军装备及装备技术领域近义词库”合并,形成“空军装备及装备技术领域术语词库字典”,为后续基于智能算法的信息检索与查重分析技术提供输入。所建立的空军装备及装备技术领域术语词库字典示例如下:
表3空军装备及装备技术领域术语词库字典示例
序号 空军装备及装备技术领域术语 近义词 类别
1. 余度设计技术 余度表决算法 空军装备技术领域专用术语
2. 飞行控制系统 飞控系统 空军装备领域专用术语
3. 全权限数字式发动机控制 FADCE 空军装备领域专用术语
2.2全军装备军内科研计划项目术语词库字典构建
依据提供的军语、全军装备军内科研项目的项目名称、全军装备及科研计划项目术语等信息,形成全军装备军内科研计划项目术语词库字典。
在“嵌入式验证系统”中,实现对全军装备军内科研计划项目术语词库字典”的批量导入、修改、删除、保存等维护功能,为基于智能算法的信息检索与查重分析技术及应用提供支撑。
全军装备军内科研计划项目术语词库字典构建实施途径如下:
(1)全军装备军内科研计划项目术语词库构建
针对提供的军语、全军装备军内科研项目的项目名称等数据进行梳理,从中提取全军装备军内科研计划项目名称内的装备及装备技术术语等信息,形成全军装备军内科研计划项目术语词库。主要包括:
全军装备军内科研计划项目装备术语:依据提供的军语、全军装备军内科研项目的项目名称等数据,选择或确定全军装备军内科研计划项目名称内的装备术语,并进行统一规范化处理。例如,指挥控制系统、地面任务管理系统等;
全军装备军内科研计划项目技术术语:依据提供的军语、全军装备军内科研项目的项目名称等数据,选择或确定全军装备军内科研计划项目名称内的装备技术术语,并进行统一规范化处理。例如,人工智能、机器学习、数据挖掘等。
所构造的全军装备军内科研计划项目术语词库示例如下:
表4全军装备军内科研计划项目术语词库示例
序号 类别 术语词库
1. 全军装备术语 指挥控制系统、地面任务管理系统等
2. 全军技术术语 人工智能、机器学习、数据挖掘等
(2)全军装备军内科研计划项目近义词库构建
对全军装备军内科研计划项目名称内的装备术语以及装备技术术语进行分析,参考提供的军语、全军装备军内科研项目的项目名称等数据以及专家经验,识别每个术语的近义词、缩写词等,建立全军装备军内科研计划项目近义词库。主要包括:术语的近似词:即与该专业术语具有相同含义、但描述不同的词语。例如,“指挥控制系统”又可称为“指控系统”;术语的缩写词:某些专业术语可能具有简称或者缩写形式,例如,“人工智能技术”可以简称为“人工智能”;所构造的全军装备军内科研计划项目近义词库示例如下:
表5全军装备军内科研计划项目近义词库示例
序号 术语词库 近义词
1. 指挥控制系统 指控系统
2. 人工智能技术 人工智能
3. 自然语言处理 NLP
将构建的全军装备军内科研计划项目术语词库和全军装备军内科研计划项目近义词库合并,形成全军装备军内科研计划项目术语词库字典,为后续基于智能算法的信息检索与查重分析技术提供输入。所建立的全军装备军内科研计划项目术语词库字典示例如下:
表6全军装备军内科研计划项目术语词库字典示例
序号 术语词库 近义词 类别
1. 指挥控制系统 指控系统 装备术语
2. 人工智能技术 人工智能 装备技术术语
3. 自然语言处理 NLP 装备技术术语
2.3装备科研项目数据规范化处理方法
空军装备及装备技术领域术语、全军装备军内科研计划项目术语等装备科研项目数据具有来源广泛、类型多样、分散存储、非结构化记录等特点,是多源异构的大量自然语言文本集合,难以高效记录与应用。针对此问题,为提升装备科研项目数据的查询检索以及查重分析效率,结合装备科研项目数据的类别和内容,开展装备科研项目数据规范化处理技术研究。具体实施途径如下:
(1)装备科研项目数据字段格式要求
根据所需记录的装备科研项目数据内容,确定装备科研项目数据的统一字段格式,形成如下表所示的装备科研项目数据规范化记录表格,实现对不同来源、不同类别装备科研项目数据的结构化记录和处理。
表7科研项目数据结构化记录表格
项目名称:装备科研项目的名称或标识;项目摘要:规范描述项目名称等典型科研项目文本的中文摘要信息;项目来源:分类描述各类科研项目的来源或渠道;项目类别:空军装备项目、全军装备军内科研计划项目等;关键词:装备科研项目的一项或者多项关键词;项目起始时间:项目的起始年月日;项目结束时间:项目的结束年月日。
(2)装备科研项目数据字段记录要求
针对上述科研项目数据规范化记录表格中的若干字段提出规范化描述要求,确保数据记录的有效性和充分性。主要包括:
项目名称(或标识):该列不允许空缺,且具有唯一性;项目摘要:该列不允许空缺,且应用项目任务书或者研究报告中的摘要信息保持一致;项目来源:该列不允许空缺,且应按照航空基金、自然基金、总装预研课题等正规来源渠道名称进行描述;
项目起始时间&项目结束时间:按照“X年X月X日X时X分”(X必须是数字)记录;
关键词:该列不允许空缺,且应用项目任务书或者研究报告中的关键词信息保持一致。
(3)装备科研项目数据规范描述要求
装备科研项目数据规范化描述的核心思想在于:以规定的关键字与格式,描述装备科研项目数据中蕴含的对象、动作、结果等信息。使装备科研项目数据描述具有规范化、严谨性和一致性。从而为装备科研项目数据的智能化检索与查重分析奠定基础。
对应于装备科研项目数据中的对象、动作、结果等信息,本申请拟从“名词”、“动词”以及“宾语”等角度,对装备科研项目数据内容的规范描述方法说明如下:
规范名词描述:在装备科研项目数据中出现的名词,应保持描述前后一致,且与系统需求设计中的描述保持一致;
规范动词描述:在装备科研项目数据中出现的动词,必须进行规范描述,且前后一致。例如:“参数输入设置异常”、“参数输入设置异常”中的“设置”和“输入”等动词,均应统一描述为:“参数的输入取值为……”或者“参数的输入取值等于……”;
规范宾语描述:在装备科研项目数据中出现的宾语,必须进行明确描述,且前后一致。例如:“信息系统上报课题成果数据”中的“课题成果数据”为宾语,应规范描述为:“信息系统上报的课题成果数据包括技术报告、工具文档等”。
基于上述装备科研项目数据的内容规范描述方法可知,多数原始的装备科研项目数据采用自然语言描述,人为随意性强,不利于将数据形成知识,进行高效归纳与复用。所以,建议对装备科研项目数据进行规范化描述,通过规范定义自然语言描述,使装备科研项目数据描述具有格式化的严谨性。其核心思想在于以主谓宾等规范格式来描述装备科研项目数据中蕴含的关键信息,这样一方面仍然服从自然语言描述的习惯,但更加受约束;而一方面适用于工程师阅读,且这些关键字和格式均可被计算机识别和分析,形成结构化的装备科研项目数据。
装备科研项目数据描述规范化举例说明如下:
原始数据:信息系统上报课题成果数据;规范描述为:“信息系统”上报的“课题成果数据”包括“技术报告、工具文档”等;计算机识别为:<主语>[信息系统]<谓词>[上报]的<宾语>[课题成果数据]包括<宾语>[技术报告、工具文档]。
其中,<信息系统>、<上报>、<课题成果数据>是规定好的关键字,[信息系统]是该条数据的主语,以主谓宾结构组合之后,“信息系统”上报的“课题成果数据”包括“技术报告、工具文档”既容易被工程师读懂,准确提取出“信息系统上报课题成果数据”等关键信息,可作为科研项目数据查重和检索的规范输入,利于计算机进行准确的文本分词。
类似的装备科研项目数据规范化描述关键字如下表所示:
表8装备科研项目规范化描述关键字示意
(4)装备科研项目数据规范性检查要求
为确保在“全军装备军内科研计划信息系统”以及“嵌入式验证系统”中可以规范导入与记录装备科研项目数据,依据装备科研项目数据规范化记录要求,制定如下的规范性检查要求:
依据装备科研项目数据规范化记录要求,结合已有装备科研项目数据中的负面案例(即记录不规范的数据),从装备科研项目数据的记录完整性、描述规范性、数据有效性等角度,制定装备科研项目数据的规范性检查要求。依据针对记录不规范的装备科研项目数据,能够从装备科研项目数据文本中查找到关注的关键信息。装备科研项目数据的规范性检查要求可从记录完整性、描述规范性以及数据有效性这三个角度制定,分别说明如下。
1)记录完整性检查要求
依据装备科研项目数据规范格式,对装备科研项目数据的记录完整性进行检查,判断是否缺失关键字段,或者关键字段内容为空。例如,确认“项目名称”字段内容是否缺失或者内容为空,或者是否与其它“项目名称”相同;确认“项目摘要”、“项目来源”等关键字段是否缺失或者内容为空。
2)描述规范性检查要求
依据装备科研项目数据规范化记录要求,对装备科研项目数据的记录规范性进行检查,判断是否与规定的规范性记录方式不一致。例如,“项目来源”描述不为“航空基金、自然基金、总装预研课题”等标准来源渠道名称,“项目起始时间&项目结束时间”不为标准的“X年X月X日”格式(X需为数字)等。
3)数据有效性检查要求
针对装备科研项目数据中的特定字段,进行数据有效性检查,主要包括时间数据、人员信息等。例如,“项目起始时间&项目结束时间”为不存在的年月日或者不合理的年月日,“课题负责人”不为正规人名或者单位名称等等。
4)不规范数据的关键信息提取
针对一条装备科研项目数据的各项字段(例如起始时间、项目负责人、项目摘要等),按照上述规范性检查方法,按照如下步骤进行关键信息提取:
如果字段中有内容,且符合记录要求:从相应字段中提取关键信息;
如果字段中没有内容,或者有内容但不符合记录格式要求:则从其他字段中,提取符合记录格式要求的文本作为关键信息。例如,“项目起始时间”字段中没有内容,或者不为“X年X月X日X时X分”这种格式,则可以考虑在其他字段中寻找符合“X年X月X日X时X分”格式要求的文本;
若寻找出多个符合要求的文本,则按照出现顺序选择其中一个作为关键信息,也可以全部提取,再由人来辅助确认。
(5)装备科研项目数据应用方法
依据上述文本结构化记录要求,对各类科研项目文本进行归纳分析,从中提取结构中对应的重要信息,形成规范统一的科研项目结构化文本数据。从结构化、知识化、应用导向的角度,形成装备科研项目数据应用方法:
结构化:对不同来源、不同格式、不同类别的科研项目文本信息进行规范收集、分类处理,使得大量异构科研项目文本信息变为统一的结构化文本数据;
知识化:大量科研项目文本信息,在描述形式上呈现出“重复性”、“相似性”等特点,建立科研项目文本信息的知识化结构,为形成实现自然语言文本的关键词提取、相似度计算等工作提供知识基础;
应用导向:建立科研项目文本信息的结构化应用策略,例如信息检索、智能查重分析等,实现对不同年度、不同单位、不同渠道所形成的科研项目文本数据的快速查找积累以及精确查重分析。
2.4装备科研项目信息智能查询检索模型构建
开展“装备科研项目信息智能查询检索模型构建”研究,可以依据用户输入的查询检索条件,借助自然语言处理(NLP)、深度学习等智能算法,从科研项目数据库中查询相关或相似的项目数据信息,如图2所示:
科研项目数据文本分词:借助通用分词字典、空军制备及制备技术领域术语词库字典以及全军制备军内科研计划项目术语词库字典,针对用户查询条件以及科研项目数据进行文本分词,去除无意义的词语,形成文本分词集合(包括一个或多个词语)。进而借助空军制备及制备技术领域术语词库字典以及全军制备军内科研计划项目术语词库字典,将文本分词集合中的近义词进行统一描述,形成规范的查询条件文本分词集合以及科研项目数据文本分词集合;
文本向量生成:借助基于深度学习的词向量模型(Word2Vec模型),针对每项文本分词生成词向量,在此基础上,进一步生成科研项目数据的文本向量,以及查询条件的文本向量;
检索条件与项目数据的文本相似度计算:借助基于字符串匹配的相似度算法,以及基于文本向量的相似度算法,计算查询检索条件与科研项目数据之间的语义相似度;
基于文本相似度的信息检索过程:基于查询检索条件与科研项目数据之间的语义相似度,选择语义相似度大于规定阈值的科研项目数据,作为制备科研项目信息智能查询检索结果。
针对上述过程,阐述具体的技术实施途径如下:
(1)科研项目数据文本分词
用户输入的查询检索条件以及科研项目数据,多为自然语言描述的文本,存在非结构化、描述不规范等不足,计算机无法直接对这样的数据进行识别与处理。因此,需要先采用文本分词技术和深度学习词向量模型算法,对“查询检索条件”、“科研项目数据”等自然语言文本进行处理分析,转化为计算机可识别的数据,从而为制备科研项目信息智能查询检索模型构建提供支撑。而“文本分词”是实现“制备科研项目信息智能查询检索模型”的前提和基础。必须将“查询检索条件”、“科研项目数据”等句子或段落等长文本,先预处理为以“词语”为单位的数据结构,才能够进行词向量生成、语义相似度计算等后续操作。
目前,“文本分词”的技术大致可以分为“基于词典匹配的分词方法”、“基于统计模型的分词方法”以及“基于深度学习的分词方法”。由于本申请是面向空军制备技术领域(或者科研计划项目领域)的文本进行分词,存在可训练的语料少,专用性很强等特点。这导致后两种分词方法存在着统计数据或者训练数据不充分等不足,难以对专业术语进行准确分词。
因此,本申请拟采取“基于词典匹配的分词方法”,对用户输入的检索条件文本以及科研项目数据文本进行分词。
首先,借助空军制备及制备技术领域术语词库字典、全军制备军内科研计划项目术语词库字典、通用分词字典等,以及“逆向最大匹配文本分词算法”,将用户输入的检索条件文本以及科研项目数据文本切分为独立词语的集合;
然后,借助空军制备及制备技术领域术语词库字典与全军制备军内科研计划项目术语词库字典,将文本分词集合中存在的近义词进行统一描述;
最后,借助“通用停用词字典”,将文本分词集合中的助词、语气词、介词、副词等不具有特定含义的词语去除,形成规范的检索条件文本分词集合以及科研项目数据文本分词集合。
基于词典匹配的科研项目数据文本分词过程包括如下的关键技术方法:
1)基于术语词库字典与逆向最大匹配算法的分词处理
进行制备科研项目信息智能查询检索的一个重要前提,就是需要先依据通用分词字典、空军制备及制备技术领域术语词库字典以及全军制备军内科研计划项目术语词库字典,借助逆向最大匹配分词算法,将用户输入的查询检索条件文本以及科研项目数据文本准确切分为独立词语的集合。文本分词处理是否准确,可对制备科研项目信息智能查询检索的准确性和充分性产生重要影响。
基于术语词库字典与逆向最大匹配算法的文本分词过程,如图3所示:
活动1:假定X1为待分词的数据文本字符串(即用户输入的检索条件、科研项目数据),输出字符串X2为空集合,MaxWord为分词词库字典(包括通用分词字典、空军制备及制备技术领域术语词库字典以及全军制备军内科研计划项目术语词库字典)中的最大词长;
活动2:判断X1是否为空集合,若是,则输出字符串X2(即分词结果);若否,则执行活动3;
活动3:从X1左边开始,逐次取出待处理的候选字符串Xstr(其中,Xstr的长度小于等于MaxWord),执行活动4;
活动4:查询字符串Xstr是否属于词库字典,若是则转活动5,否则转活动6;
活动5:X2=X2+Xstr,X1=X1-Xstr,转活动2;
活动6:将Xstr最右边的一个字去除,执行活动7;
活动7:判断Xstr是否为单字词,若是则转活动5,否则转活动4。
2)基于术语词典的文本分词的统一描述
借助空军制备及制备技术领域术语词库字典、全军制备军内科研计划项目术语词库字典”,将文本分词集合中存在的近义词或近义词进行统一描述,形成规范的数据文本分词集合。
基于上述文本分词算法,查询检索条件和科研项目数据的文本分词示例如下表所示:
表9查询检索条件和科研项目数据文本分词示例
(2)科研项目数据文本向量生成
在进行查询检索条件与科研项目数据的文本相似度计算之前,需要先借助Word2Vec深度学习语言表征模型,将检索条件与科研项目数据的文本分词转化为词向量,综合反映各个分词在科研项目数据语料中的数量、位置等信息。进而依据各个分词在查询检索条件与科研项目数据的文本分词集合中的出现位置,将所有分词的词向量进行组合匹配,生成查询检索条件与科研项目数据的文本向量,从而为基于词向量的文本语义相似度算法提供输入基础。
本申请选取Word2Vec词向量模型,实现查询检索条件与科研项目数据的词向量以及文本向量生成,具体的技术方法说明如下:
借助Word2Vec模型中的深层双向神经网络,对文本语料(通用中文文本语料+制备科研项目数据文本语料)进行训练学习;
综合考虑词语在每项文本中的出现位置、上下文、出现频次等信息,依据训练学习结果,为查询检索条件与科研项目数据的文本分词集合中的每个分词生成词向量;
依据每项分词在分词集合中的出现位置,将所有分词的词向量进行组合匹配,最终生成查询检索条件与科研项目数据的文本向量。通常情况下,查询检索条件与科研项目数据的文本向量以(0.1,0.2,0.3,0.2,0.1,0.5,0.5,0.4,等)这类数字形式进行表示。
(3)检索条件与科研项目数据的文本相似度计算
在文本向量基础上,本申请将借助基于字符串匹配的文本相似度算法,以及基于文本向量和余弦距离的相似度算法,计算查询检索条件与科研项目数据之间的文本相似度。具体实施途径如下:
1)基于字符串匹配的文本相似度算法
首先,对数据文本分词集合中的分词进行字符串匹配。如果两个分词的字符串能够匹配上,则判定二者是相同或相似的。否则,判定二者是不相同或者不相似的;
然后,进行文本相似分词数量统计,确定检索条件文本与科研项目数据文本中的相似分词数量C。即针对检索条件文本A和科研项目数据文本B进行分词字符串匹配后,确定两个数据文本中相似的分词数量;
最后,基于文本相似分词数量,计算数据文本相似度。即检索条件文本A的分词数量为NA,科研项目数据文本B的分词数量为NB。取二者之间的大者NS,例如NA>NB,则记NA为NS。由此可以得到A和B的数据文本相似度为DL=C/NS。
2)基于文本向量和余弦距离的相似度算法
首先,借助基于深度学习的词向量模型,将查询检索条件以及科研项目数据的文本分词转化为词向量,综合反映各个分词在文本数据语料中的数量、位置等信息。进而依据各个分词在文本分词集合中的出现位置,将所有分词的词向量进行组合匹配,生成文本向量。
然后,借助基于距离的语义相似度算法,针对文本向量进行文本相似度计算。通常采用语义相似度距离来衡量两项文本数据之间的相似程度。针对查询检索条件以及科研项目数据的文本向量,借助语义相似度计算方法,分别计算查询检索条件以及科研项目数据之间的语义相似度距离。常见的语义相似度距离计算方法包括欧氏距离、余弦距离、广义军accard系数等。
这其中,余弦距离是最为常见且研究较为集中的文本向量语义相似度算法,其与欧式距离、广义军accard系数算法相比,后两者的距离数值容易受到维度的影响,而余弦相似度在高维的情况下也依然保持与低维完全相同的准确性质,并且余弦距离具有可以避免因为文本长度不同而导致语义距离偏大等优点,因此本申请选取余弦距离进行查询检索条件以及科研项目数据之间的语义相似度计算,即通过计算两个文本向量之间的夹角余弦值来评估它们的语义相似度。
假定查询检索条件文本向量记为Ki={w1,w2,…wn},科研项目数据文本向量记为Kj={W1,W2,…Wn},则基于余弦距离的文本相似度计算公式如下:
上式中,DL表示查询检索条件以及科研项目数据的文本相似度计算结果,其取值为0到1的数值,值越大说明二者之间的文本相似性越高。如果查询检索条件以及科研项目数据之间的语义相似度为1,则说明当前科研项目数据与查询检索条件之间完全相关。而如果查询检索条件以及科研项目数据之间的语义相似度为0,说明当前科研项目数据与查询检索条件完全不相关。
(4)基于文本相似度的科研项目数据智能查询检索过程
在上述文本分词,文本向量生成以及语义相似度算法基础上,提出基于文本相似度的科研项目数据智能查询检索过程。基于文本相似度的科研项目数据智能查询检索过程如图4所示:
首先,借助“基于字符串匹配的文本相似度算法”以及“基于文本向量和余弦距离的相似度算法”,计算查询检索条件Ri与每个科研项目数据Rj之间的文本相似度,得到RL={RLi1,…,RLij,…,RLiN};若Ri与Rj之间的相似度RLij取值大于等于规定阈值(为0~1之间的数值。例如,设置为0.6),则可判定查询检索条件Ri与科研项目数据Rj是相似或者相关的。并将科研项目数据Rj作为检索结果进行反馈;若Ri与Rj之间的相似度RLij取值小于规定阈值,则可判定查询检索条件Ri与科研项目数据Rj是不相似或者不相关的。此时不返回任务检索结果;重复上述过程,直至检索条件Ri与科研项目数据库中的所有项目数据均进行了相似度计算以及数据检索判定。
基于文本相似度的科研项目数据智能查询检索示例如下表所示:
表9查询检索结果
依据上表可知,查询检索条件Q1与科研项目数据CW-01“由于内存访问出现越界,导致服务进程死机”之间的语义相似度大于规定阈值0.7,则可认为查询检索条件Q1的检索结果为“CW-01:由于内存访问出现越界,导致服务进程死机”。
2.5制备科研项目智能查重分析模型构建
开展“制备科研项目智能查重分析模型构建”研究,可以依据用户输入或者选择一项或多项科研项目数据,借助自然语言处理(NLP)、深度学习等智能算法,在科研项目数据库中确认是否存在与其相同或者相似的历史科研项目数据信息,从而实现智能化查重分析,如下图5所示:
(1)科研项目数据文本分词
本申请拟借助空军制备及制备技术领域术语词库字典、全军制备军内科研计划项目术语词库字典、通用分词字典等,以及最大逆向匹配文本分词算法,对用户输入或者选择的科研项目数据文本,以及科研项目数据库中的历史项目数据文本进行分词。
具体的数据文本分词算法可参见2.4小节,不再重复描述。
(2)文本向量生成
在进行科研项目数据之间的文本相似度计算之前,需要先借助Word2Vec、深度学习语言表征模型,将科研项目数据的文本分词转化为词向量,综合反映各个分词在科研项目数据语料中的数量、位置等信息。
进而依据各个分词在科研项目数据的文本分词集合中的出现位置,将所有分词的词向量进行组合匹配,生成科研项目数据的文本向量,从而为基于词向量的文本语义相似度算法提供输入基础。具体的文本向量生成方法可参见2.4小节,不再重复描述。
(3)科研项目数据之间的文本相似度计算
在文本向量基础上,可借助字符串匹配、余弦距离等语义相似度算法,计算科研项目数据之间的语义相似度距离。本申请拟采取“基于字符串匹配的长文本相似度算法”以及“基于文本向量与余弦距离的长文本相似度算法”,实现对科研项目数据文本向量之间的相似度计算。具体实施途径如下:
1)基于字符串匹配的长文本相似度算法
首先,对文本分词集合中的分词进行字符串匹配。如果两个分词的字符串能够匹配上,则判定二者是相同或相似的。否则,判定二者是不相同或者不相似的;
然后,进行文本相似分词数量统计,确定科研项目数据文本中的相似分词数量C。即针对科研项目数据文本A和科研项目数据文本B进行分词字符串匹配后,确定两个数据文本中相似的分词数量;
最后,基于文本相似分词数量,计算数据文本相似度。即科研项目数据文本A的分词数量为NA,科研项目数据文本B的分词数量为NB。取二者之间的大者NS,例如NA>NB,则记NA为NS。由此可以得到A和B的数据文本相似度为DL=C/NS。
一般来说,科研项目查重分析的输入数据可能是一大段文字,即所谓的长文本。与短文本相似度计算相比,长文本由于包含的词语数量、词语次序等信息更加复杂,如何实现对长文本相似度的准确计算,是实现科研项目智能查重分析的关键所在。
上述基于字符串匹配的文本相似度算法没有考虑字符串匹配的位置次序对相似度计算的影响。因此,在上述算法基础上,本申请采取“考虑字符串匹配次序的长文本相似度算法”作为改进方案之一。具体技术途径如下:
步骤1:针对科研项目数据文本Di,确定与其字符串数量匹配率(大于0)相同的备选科研项目数据文本Dj1,Dj2等。
步骤2:将科研项目数据文本Di与Dj1,Dj2等,所匹配的字符串(包括重复出现的字符串),分别按照出现次序形成匹配字符串序列。例如,Di和Dj1有如下字符串匹配(ABCD),对于Di来说,序列是{A,C,D,B,A},对于Dj1来说,序列可能是{A,D,C,B}。
步骤3:根据匹配的字符串序列,分别计算Di和Dj1,Dj2等,之间的字符串位置匹配率S2=K2/N2。其中,K2是绝对位置匹配相同的字符串数量,N2是匹配字符串序列长度的大者。
例如,Di和Dj1有如下字符串匹配(ABCD),对于Di来说,序列是{A,C,D,B,A},对于Dj1来说,序列可能是{A,D,C,B}。则Di和Dj1的位置匹配率为1/5=20%
例如,Di和Dj2有如下字符串匹配(ABCD),对于Di来说,序列是{A,B,D,C,A,A},对于Dj1来说,序列可能是{A,B,D,B,C}。则Di和Dj2的位置匹配率为3/6=50%。
步骤4:将科研项目数据的字符串位置匹配率作为相似度计算结果。
2)基于文本向量与余弦距离的长文本相似度算法
首先,借助基于深度学习的词向量模型,将科研项目数据的文本分词转化为词向量,综合反映各个分词在文本数据语料中的数量、位置等信息。进而依据各个分词在文本分词集合中的出现位置,将所有分词的词向量进行组合匹配,生成文本向量。
然后,拟借助基于余弦距离的语义相似度算法,基于文本向量进行语义相似度计算。通常采用语义相似度距离来衡量两项科研项目数据文本之间的相似程度。即针对科研项目数据的文本向量,借助语义相似度计算方法,分别计算科研项目数据之间的语义相似度距离。
本申请拟选取余弦距离进行科研项目数据之间的语义相似度计算,即通过计算两个文本向量之间的夹角余弦值来评估它们的语义相似度。
假定用户输入或者选择的科研项目数据文本向量记为Ki={w1,w2,…wn},数据库中的科研项目数据文本向量记为Kj={W1,W2,…Wn},则基于余弦距离的文本相似度计算公式如下:
上式中,DL表示科研项目数据文本向量Ki以及科研项目数据Kj的文本相似度计算结果,其取值为0到1的数值,值越大说明二者之间的文本相似性越高。如果科研项目数据之间的语义相似度为1,则说明数据库中的当前科研项目数据与用户输入或者选择的科研项目数据完全相同,即查重率为100%。而如果科研项目数据之间的语义相似度为0,则说明数据库中的当前科研项目数据与用户输入或者选择的科研项目数完全不相关。即查重率为0%。
(4)基于文本相似度的科研项目数据智能查重分析
本申请采取基于文本相似度的科研项目数据查重分析方法,实现科研项目数据的智能查重分析。
基于文本相似度的科研项目数据查重分析过程如下图6所示:
首先,借助“基于字符串匹配的长文本相似度算法”以及“基于文本向量与余弦距离的长文本相似度算法”,计算用户输入或选择的项目数据Ri与每个历史项目数据Rj之间的文本相似度,得到RL={RLi1,…,RLij,…,RLiN};
若Ri与Rj之间的相似度RLij取值大于等于规定阈值(例如,设置为0.6),则可判定用户输入或选择的项目数据Ri与历史项目数据Rj是相似的,即二者文本之间具有重复性。此时,可将历史项目数据Rj作为查重分析结果进行反馈;
若Ri与Rj之间的相似度RLij取值小于等于规定阈值,则可判定用户输入或选择的项目数据Ri与历史项目数据Rj不是相似的,即二者文本之间不具有重复性。此时,可认为用户输入或选择的项目数据Ri不存在与其重复的历史项目数据;
重复上述过程,直至用户输入或选择的项目数据Ri与科研项目数据库中的所有历史项目数据均进行了相似度计算以及查重分析。
2.6嵌入式验证系统开发与应用验证
在上述技术研究基础上,为形成面向制备科研项目的信息检索能力和智能查重分析能力,开发嵌入式验证系统,实现对基于智能算法的信息查重检索模型的应用与验证。包括如下技术实施途径:
(1)整体方案
通过嵌入式验证系统开发以及典型项目应用验证研究,可以支撑制备科研项目管理人员形成规范化、智能化的科研项目数据的智能检索与查重分析能力,即借助该技术可以高效地从制备科研项目数据库中查询检索所需的科研项目数据信息,实现科研项目的准确查重分析,同时还可以对项目技术指标的满足情况进行验证。整体技术方法如图7所示:
具体的技术实施途径分别说明如下:
(2)嵌入式验证系统研发
1)系统功能组成
依据上述研究内容,嵌入式验证系统的功能组成图8。
嵌入式验证系统主要包括制备科研项目信息智能查询检索、制备科研项目智能查重分析、空军制备及制备技术领域术语词库字典管理、全军制备军内科研计划项目术语词库字典管理、制备科研项目数据管理等功能。每项功能及所采用的关键技术分别概述如下:
a)空军制备及制备技术领域术语词库字典管理功能
空军制备及制备技术领域术语词库字典管理功能可以支撑用户实现如下任务:
可实现对空军制备及制备技术领域术语词库字典中的专业术语以及近义词的记录、存储、增加、删除、修改等管理操作;可实现对专业术语以及近义词的分类管理;支持专业术语以及近义词的手动录入和批量导入;可批量导入至“全军制备军内科研计划信息系统”。
空军制备及制备技术领域术语词库字典管理功能所采用的关键技术包括:空军制备及制备技术领域术语词库构建技术;空军制备及制备技术领域近义词库构建技术。
b)全军制备军内科研计划项目术语词库字典管理功能
全军制备军内科研计划项目术语词库字典管理功能可以支撑用户实现如下任务:
可实现对全军制备军内科研计划项目术语词库字典中的专业术语以及近义词的记录、存储、增加、删除、修改等管理操作;可实现对专业术语以及近义词的分类管理;支持专业术语以及近义词的手动录入和批量导入;可批量导入至“全军制备军内科研计划信息系统”。
全军制备军内科研计划项目术语词库字典管理功能所采用的关键技术包括:全军制备军内科研计划项目术语词库构建技术;全军制备军内科研计划项目近义词库构建技术。
c)制备科研项目数据管理功能
制备科研项目数据管理功能可以支撑用户实现如下任务:
可实现对制备科研项目数据的记录、存储、增加、删除、修改等操作;可实现对制备科研项目数据的分类管理;支持制备科研项目数据的手动录入和批量导入。
制备科研项目数据库管理功能所采用的关键技术包括:制备科研项目数据规范化处理方法。
d)制备科研项目信息智能查询检索功能
制备科研项目信息智能查询检索功能可以支撑用户实现如下任务:
可实现科研项目数据的文本分词;可实现科研项目数据与查询条件的文本向量生成;可实现科研项目数据与查询条件之间的语义相似度计算;可基于用户输入的检索条件,计算检索条件与数据库中各项项目数据之间的语义相似度,并将语义相似度大于规定阈值的科研项目数据作为查询检索结果反馈。
在制备科研项目信息智能查询检索功能中,实现了“制备科研项目信息智能查询检索算法模型”,所采用的关键技术包括:
基于词典的文本分词技术:本申请基于通用分词字典、空军制备及制备技术领域术语词库字典以及全军制备军内科研计划项目术语词库字典,借助“逆向最大匹配分词算法”对查询检索条件以及科研项目数据进行文本分词;
基于深度学习词向量模型的文本向量生成技术:本申请拟选取基于深度学习的Word2Vec词向量模型,针对空军制备及制备技术领域术语、全军制备军内科研技术项目术语、提供的制备科研项目数据(例如,项目名称)进行训练学习,生成查询检索条件或科研项目数据的词向量以及文本向量;
科研项目数据文本相似度算法:本申请将借助“基于字符串匹配的数据文本相似度算法”以及“基于文本向量与余弦距离的文本相似度算法”,实现对检索条件以及科研项目数据之间的文本相似度计算;
基于文本相似度的科研项目数据智能查询检索过程:本申请拟基于检索条件以及科研项目数据之间的文本相似度,实现科研项目数据的智能查询检索。即将文本相似度大于规定阈值的科研项目数据作为查询检索结果返回。
e)制备科研项目智能查重分析功能
制备科研项目智能查重分析功能可以支撑用户实现如下任务:
可实现制备科研项目数据的文本分词;可实现制备科研项目数据的文本向量生成;可实现制备科研项目数据之间的语义相似度计算;可基于用户输入或者选择一项或多项科研项目数据,计算科研项目数据与数据库中各项项目数据之间的语义相似度,并将语义相似度大于规定阈值的科研项目数据作为查重分析结果反馈。
在制备科研项目智能查重分析功能中,实现了“制备科研项目智能查重分析算法模型”,所采用的关键技术包括:
基于词典的文本分词技术:本申请拟基于通用分词字典、空军制备及制备技术领域术语词库字典以及全军制备军内科研计划项目术语词库字典,借助“逆向最大匹配分词算法”对科研项目数据文本分词;
基于深度学习词向量模型的文本向量生成技术:本申请拟选取基于深度学习的Word2Vec词向量模型,针对空军制备及制备技术领域术语、全军制备军内科研技术项目术语、提供的制备科研项目数据(例如,项目名称等)进行训练学习,生成科研项目数据的词向量以及文本向量;
科研项目数据文本相似度算法:本申请采取“基于字符串匹配的长文本相似度算法”以及“基于文本向量与余弦距离的长文本相似度算法”,实现科研项目数据之间的长文本相似度计算;
基于文本相似度的科研项目数据智能查重分析过程:本申请拟基于科研项目数据之间的文本相似度,实现科研项目数据的智能查重分析。即将文本相似度大于规定阈值的科研项目数据作为查重分析结果返回。
(3)项目应用验证
1)制备科研项目信息查询检索验证应用算法模型及词库的查准率与查全率验证
基于“嵌入式验证系统”的制备科研项目信息智能查询检索功能(内置制备科研项目信息查询检索验证应用算法模型),以及制备科研项目数据库管理功能中的典型科研项目数据库,实现制备科研项目信息查询检索验证应用算法模型及词库的查准率与查全率验证。包括如下步骤:
步骤一:查询检索应用验证数据构造
依据制备科研项目数据库管理功能中的典型科研项目数据库(不少于200项典型数据),由项目研究人员人工构造至少两组“查询检索应用验证数据”,包括“查询检索条件”以及“相关科研项目数据”等内容。即每组应用验证数据中,均包含项目研究人员设定的查询检索条件;以及根据每组查询检索条件,由领域专家或者项目研究人员在典型科研项目数据中,确定符合查询检索条件的科研项目数据,即嵌入式验证系统中包含的全部相关项目数据,并将数据量记为NT。
步骤二:制备科研项目信息查询检索应用
在嵌入式验证系统的制备科研项目信息智能查询检索功能中,分别输入由项目研究人员人工构造的两组或者多组“查询检索条件”。
进而执行制备科研项目信息智能查询检索功能,根据嵌入式验证系统中的“制备科研项目信息查询检索验证应用算法模型及词库”,通过文本分词、文本向量生成、查询检索条件与典型科研项目数据的语义相似度计算等过程,自动推送并显示制备科研项目数据查询检索结果,即嵌入式验证系统依据查询检索条件检出的科研项目数据,并将数据量记为NS。
然后,依据由领域专家或者项目研究人员确定符合查询检索条件的全部科研项目数据,对检出的科研项目数据进行分析,确认与“查询检索条件”准确相关的科研项目数据,并将数据量记为NE。
步骤三:制备科研项目信息查询检索验证
依据至少两组制备科研项目信息查询检索应用结果,分别计算制备科研项目信息查询检索验证应用算法模型及词库的查准率与查全率:
查准率计算方法为:FP=NE/NS*100%;
查全率计算方法为:FR=NE/NT*100%.
如果依据至少两组制备科研项目信息查询检索应用结果,计算出的制备科研项目信息查询检索验证应用算法模型及词库的查准率不低于80%,查全率不低于90%,则认为制备科研项目信息查询检索验证应用算法模型及词库的查准率与查全率符合技术指标要求。
否则,需要对本申请的制备科研项目信息查询检索验证应用算法模型及词库进行调整和修正,并重新在嵌入式验证系统中进行应用和验证,直至查准率与查全率满足技术指标要求。
2)制备科研项目查重分析验证应用算法模型及词库查准率与查全率验证
基于“嵌入式验证系统”的制备科研项目智能查重分析功能(内置制备科研项目查重分析验证应用算法模型),以及制备科研项目数据库管理功能中的典型科研项目数据库,实现制备科研项目查重分析验证应用算法模型及词库的查准率与查全率验证。包括如下步骤:
步骤一:查重分析应用验证数据构造
依据制备科研项目数据库管理功能中的典型科研项目数据库(不少于200项典型数据),由项目研究人员人工构造至少两组“查重分析应用验证数据”,包括“待查重项目数据”以及“相关或相似科研项目数据”等内容。即每组应用验证数据中,均包含项目研究人员设定的待查重项目数据;以及根据待查重项目数据,由领域专家或者项目研究人员在典型科研项目数据中,确定与待查重项目数据相关或者相似的科研项目数据,即嵌入式验证系统中包含的全部相关或相似项目数据,并将数据量记为MT。
步骤二:制备科研项目查重分析应用
在嵌入式验证系统的制备科研项目智能查重分析功能中,分别输入或者选择由项目研究人员人工构造的两组或者多组“待查重项目数据”。
进而执行制备科研项目智能查重分析功能,根据嵌入式验证系统中的“制备科研项目查重分析验证应用算法模型及词库”,通过文本分词、文本向量生成、科研项目数据的语义相似度计算等过程,自动推送并显示制备科研项目数据查重分析结果,即嵌入式验证系统依据待查重项目数据查出的科研项目数据,并将数据量记为MS。
然后,依据由领域专家或者项目研究人员确定与待查重项目数据相关或者相似的全部科研项目数据,对查出的科研项目数据进行分析,确认与“待查重项目数据”准确相关或相似的科研项目数据,并将数据量记为ME。
步骤三:制备科研项目查重分析验证
依据至少两组制备科研项目查重分析应用结果,分别计算制备科研项目查重分析验证应用算法模型及词库的查准率与查全率:
查准率计算方法为:FP=ME/MS*100%;
查全率计算方法为:FR=ME/MT*100%.
如果依据至少两组制备科研项目查重分析应用结果,计算出的制备科研项目查重分析验证应用算法模型及词库的查准率不低于80%,查全率不低于90%,则认为制备科研项目查重分析验证应用算法模型及词库的查准率与查全率符合技术指标要求。
否则,需要对本申请的制备科研项目查重分析验证应用算法模型及词库进行调整和修正,并重新在嵌入式验证系统中进行应用和验证,直至查准率与查全率满足技术指标要求。
(4)嵌入式验证系统与“全军制备军内科研计划信息系统”的关系
1)制备科研项目数据词库可批量导入“全军制备军内科研计划信息系统”
“嵌入式验证系统”中形成的制备科研项目的数据词库(包括空军制备及制备技术领域术语词库字典以及全军制备军内科研计划项目术语词库字典)所包含的空军制备、空军制备技术领域术语、制备型号,全军制备军内科研计划项目名称内的制备及制备技术术语等科研项目数据,可以批量导入全军制备军内科研计划信息系统。
2)“全军制备军内科研计划信息系统”可以调用嵌入式验证系统中的制备科研项目查重分析验证应用算法模型
“嵌入式验证系统”的制备科研项目查重分析验证应用算法模型(内置在制备科研项目智能查重分析功能中),以可执行程序的方式,被全军制备军内科研计划信息系统调用。
3)“全军制备军内科研计划信息系统”可以调用制备科研项目信息查询检索验证应用算法模型
“嵌入式验证系统”中的制备科研项目信息查询检索验证应用算法模型(内置在制备科研项目信息智能查询检索功能中),以可执行程序的方式,被全军制备军内科研计划信息系统调用。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims (10)

1.一种基于文档内容分析的查重算法,其特征在于,该查重算法包括:
构建词库模型:从所提供基础文件中,提取技术领域术语及名称术语,形成术语词库;
构建分析模型:计算查询检索条件与数据库中各项数据之间的文本相似度,之后,依据用户输入或者选择的数据文本,计算该数据文本与数据库中各项历史数据之间的文本相似度;
查询检索:将查询检索条件和待检测文本转化为计算机可识别的数据,之后对该文本进行分词处理,并根据分词生成对应的词向量,最后依据词向量计算查询检索条件与科研项目数据之间的文本相似度;
检验:生成多组查询检索应用验证数据,并根据验证数据进行查询检索,最后根据查询检索结果计算查准率和查全率。
2.如权利要求1所述的一种基于文档内容分析的查重算法,其特征在于:所述构建词库模型包括以下步骤:
技术领域术语词库:根据所提供的基础文本,选择或确定领域的专业词汇与标准术语,并进行统一规范化处理;
近义词词库:对技术领域术语以及专用术语进行分析,参考所提供基础文本的项目名称以及专家经验,识别每个术语的近义词或者缩写词。
3.如权利要求1所述的一种基于文档内容分析的查重算法,其特征在于:所述构建词库模型后,参考术语相关标准规范,进行规范化处理方法研究,包括字段格式要求、字段记录要求和规范描述要求,从而指定统一的字段格式。
4.如权利要求1所述的一种基于文档内容分析的查重算法,其特征在于:在查询检索步骤中,所述分词处理依靠术语词库字典与逆向最大匹配算法,将用户输入的查询检索条件文本以及待检测文本切分,所述分词处理包括以下步骤:
(1)、借助技术领域术语词库、通用分词字典,将用户输入的检索条件文本以及科研项目数据文本切分为独立词语的集合;
(2)、借助技术领域术语词库,将文本分词集合中存在的近义词进行统一描述;
(3)、借助“通用停用词字典”,将文本分词集合中的助词、语气词、介词、副词等不具有特定含义的词语去除,形成规范的检索条件文本分词集合以及科研项目数据文本分词集合。
5.如权利要求1所述的一种基于文档内容分析的查重算法,其特征在于:所述词向量是借助基于深度学习的词向量模型,针对每项文本分词生成词向量,在此基础上,进一步生成科研项目数据的文本向量,以及查询条件的文本向量。
6.如权利要求1所述的一种基于文档内容分析的查重算法,其特征在于:在查询检索步骤中,所述文本相似度需要计算查询检索条件与待检测文本之间的语义相似度,并选择语义相似度大于规定阈值的文本数据,作为查询检索结果。
7.如权利要求6所述的一种基于文档内容分析的查重算法,其特征在于:所述文本相似度借助基于字符串匹配的相似度算法以及基于文本向量的相似度算法得到;
其中,所述基于字符串匹配的相似度算法是先对文本分词集合中的分词进行字符串匹配,之后进行文本相似分词数量统计,最后基于文本相似分词数量,计算数据文本相似度;
所述基于文本向量的相似度算法是依据各个分词在文本分词集合中的出现位置,将所有分词的词向量进行组合匹配,生成文本向量,之后借助基于余弦距离的语义相似度算法。
8.如权利要求1所述的一种基于文档内容分析的查重算法,其特征在于:在检验步骤中,采用基于文本相似度的数据查重分析,对检索数据与数据库历史数据进行分析,所述基于文本相似度的数据查重分析步骤如下:
计算用户输入或选择的项目条件Ri与每个项目数据Rj之间的文本相似度,得到RL={RLi1,…,RLij,…,RLiN},其中Ri为检索条件,Rj为所有的项目数据,j为项目数据的编号,RL为文本相似度,RLij是以Ri为条件对Rj进行检索的文本相似度;
若Ri与Rj之间的相似度RLij取值大于等于规定阈值,则可判定用户输入或选择的检索数据Ri与历史项目数据Rj是相似的,即二者文本之间具有重复性,此时,可将历史数据Rj作为查重分析结果进行反馈;
若Ri与Rj之间的相似度RLij取值小于等于规定阈值,则可判定用户输入或选择的数据Ri与历史数据Rj不是相似的,即二者文本之间不具有重复性,此时,可认为用户输入或选择的检索数据Ri不存在与其重复的历史数据;
重复上述过程,直至用户输入或选择的检索数据Ri与科研项目数据库中的所有历史数据均进行了相似度计算以及查重分析。
9.如权利要求1所述的一种基于文档内容分析的查重算法,其特征在于:所述检验步骤中,每组所述查询检索应用验证数据中均包含设定的查询检索条件;以及根据每组查询检索条件,由领域专家或者项目研究人员在典型科研项目数据中,确定符合查询检索条件的科研项目数据。
10.如权利要求1所述的一种基于文档内容分析的查重算法,其特征在于:在检验步骤中,所述查准率和查全率的计算:嵌入式验证系统中包含的全部相关项目数据,并将数据量记为NT;依据查询检索条件检出的科研项目数据,并将数据量记为NS;依据由领域专家或者项目研究人员确定符合查询检索条件的全部科研项目数据,对检出的科研项目数据进行分析,确认与“查询检索条件”准确相关的科研项目数据,并将数据量记为NE;
查准率计算方法为:FP=NE/NS*100%;
查全率计算方法为:FR=NE/NT*100%;
根据计算的结果分为以下两种情况:
情况一:计算出的查准率和查全率不低于设定值时,则认为符合技术指标要求;
情况二:计算出的查准率和查全率低于设定值时,需要进行调整和修正,并重新验证,直至查准率与查全率满足技术指标要求。
CN202211389077.3A 2022-11-08 2022-11-08 一种基于文档内容分析的查重算法 Pending CN116049359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211389077.3A CN116049359A (zh) 2022-11-08 2022-11-08 一种基于文档内容分析的查重算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211389077.3A CN116049359A (zh) 2022-11-08 2022-11-08 一种基于文档内容分析的查重算法

Publications (1)

Publication Number Publication Date
CN116049359A true CN116049359A (zh) 2023-05-02

Family

ID=86117010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211389077.3A Pending CN116049359A (zh) 2022-11-08 2022-11-08 一种基于文档内容分析的查重算法

Country Status (1)

Country Link
CN (1) CN116049359A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057329A (zh) * 2023-10-13 2023-11-14 赞塔(杭州)科技有限公司 表格数据处理方法及装置、计算设备
CN117591643A (zh) * 2023-11-10 2024-02-23 杭州市余杭区数据资源管理局 一种基于改进的结构化处理的项目文本查重方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057329A (zh) * 2023-10-13 2023-11-14 赞塔(杭州)科技有限公司 表格数据处理方法及装置、计算设备
CN117057329B (zh) * 2023-10-13 2024-01-26 赞塔(杭州)科技有限公司 表格数据处理方法及装置、计算设备
CN117591643A (zh) * 2023-11-10 2024-02-23 杭州市余杭区数据资源管理局 一种基于改进的结构化处理的项目文本查重方法及系统
CN117591643B (zh) * 2023-11-10 2024-05-10 杭州市余杭区数据资源管理局 一种基于改进的结构化处理的项目文本查重方法及系统

Similar Documents

Publication Publication Date Title
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
Su et al. Information resources processing using linguistic analysis of textual content
CN103473283B (zh) 一种文本案例匹配方法
CN109344250B (zh) 基于医保数据的单病种诊断信息快速结构化方法
US9009134B2 (en) Named entity recognition in query
CN116049359A (zh) 一种基于文档内容分析的查重算法
US20050203924A1 (en) System and methods for analytic research and literate reporting of authoritative document collections
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN102402561B (zh) 一种搜索方法和装置
CN106708929B (zh) 视频节目的搜索方法和装置
US20220358379A1 (en) System, apparatus and method of managing knowledge generated from technical data
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN110222192A (zh) 语料库建立方法及装置
CN111597349B (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN102156728A (zh) 一种改进的基于用户兴趣模型的个性化摘要系统
CN115687960B (zh) 一种面向开源安全情报的文本聚类方法
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
Bratus et al. Domain-specific entity extraction from noisy, unstructured data using ontology-guided search
CN115879901A (zh) 一种智能人事自助服务平台
Shi The design and implementation of domain-specific text summarization system based on co-reference resolution algorithm
Roy et al. Recovering resolutions for application maintenance incidents
Gayathri et al. An efficient medical document summarization using sentence feature extraction and ranking
CN116245108B (zh) 验证匹配导向方法、验证匹配导向器、设备及存储介质
Cesarano et al. A system for summary-document similarity in notary domain
Henriksen et al. SemTex: A Hybrid Approach for Semantic Table Interpretation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination