CN115618014A - 一种应用大数据技术的标准文献分析管理系统及方法 - Google Patents
一种应用大数据技术的标准文献分析管理系统及方法 Download PDFInfo
- Publication number
- CN115618014A CN115618014A CN202211297089.3A CN202211297089A CN115618014A CN 115618014 A CN115618014 A CN 115618014A CN 202211297089 A CN202211297089 A CN 202211297089A CN 115618014 A CN115618014 A CN 115618014A
- Authority
- CN
- China
- Prior art keywords
- standard
- knowledge
- retrieval
- information
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 42
- 238000005516 engineering process Methods 0.000 title claims abstract description 18
- 238000007726 management method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 title claims description 43
- 230000004927 fusion Effects 0.000 claims description 38
- 239000013256 coordination polymer Substances 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000009191 jumping Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013173 literature analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息技术领域,具体为一种应用大数据技术的标准文献分析管理系统及方法,所述检索文献优先级第二分析模块分析每个标准文献对应的技术热度及相应标准文献对应标准知识图谱与检索信息分析模块中标准知识图谱的融合结果之间的匹配度,计算每个标准文献对应的检索综合值,按照标准文献的检索综合值从大到小的顺序确定标准文献的显示优先级。本发明在根据检索信息检索标准文献时,一方面能够避免全文检索,另一方面,解决了同一行业不同标准的限制,即同一对象在不同行业标准中的关键词不统一的问题,使得用户能够检索到采用行业其余标准的标准文献,避免检索结果出现缺失,同时将检索到的标准文献的显示优先级进行量化。
Description
技术领域
本发明涉及信息技术领域,具体为一种应用大数据技术的标准文献分析管理系统及方法。
背景技术
标准文献是指由技术标准管理标准经济标准及其他具有标准性质的类似文件所组成的一种特种文献。当今社会,行业标准的制定尚且不够完善,不同的区域及不同责任人制定的行业标准是存在差异的,行业中的同一事件(对象)在不同的行业标准中对应的关键词是不同的,因此,人们采用同一行业的不同标准得到的标准文献中,针对同一对象的描述是存在较大差异的。
现有的行业标准文献检索方式还停留在PDF全文检索或简单的关键词匹配阶段,该方式标准知识检索效率低、标准之间关联程度弱,难以满足产品研制单位对标准知识高效供给的需要,在根据检索信息检索标准文献时,提取的只是包含检索信息中检索关键词的标准文献,该方式存在较大的缺陷,一方面是采用全文检索,检索过程中数据对比量较大;另一方面,用户在对标准文献进行检索时,可能由于用户采用的行业标准的限制(同一对象在不同行业标准中的关键词不统一),使得用户不能快速有效的检索到理想的标准文献,检索结果出现缺失,无法检索到采用行业其余标准的标准文献。
发明内容
本发明的目的在于提供一种应用大数据技术的标准文献分析管理系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种应用大数据技术的标准文献分析管理方法,所述方法包括以下步骤:
S1、获取每个标准文献所属的行业,参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取,选取每个标准文献抽取的信息中出现频率最高的n种关键词,所述n为数据库中预置的常数;
S2、提取标准文献中包含出现频率最高的n种关键词的语句,结合数据库中预置的语法结构,分析标准文献对应的各个提取语句中涉及的知识节点及各个知识节点之间的关系,生成相应标准文献对应的标准知识图谱;
S3、获取用户的检索信息,分析用户检索信息与历史检索信息的相似度,得到第一相似度,并将第一相似度与第一阈值进行比较,所述第一阈值为数据库中预置的常数,所述检索信息包括至少一个检索关键词,不同检索关键词通过空格隔开,
当第一相似度小于等于第一阈值时,则跳转至S4,
当第一相似度大于第一阈值时,则获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献,获取用户点赞的标准文献分别对应的标准知识图谱的融合结果,
若获取的标准知识图谱的融合结果为空,则跳转至S4,
若获取的标准知识图谱的融合结果不为空,则跳转至S5;
S4、获取检索信息内各个检索关键词在标准文献中出现的总次数,记为第一相关数,按第一相关数从大到小的顺序确定标准文献的显示优先级,获取用户每次关闭浏览的标准文献前是否进行点赞的信息,并跳转至S3,第一相关数相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级;
S5、分析每个标准文献对应的技术热度及相应标准文献对应标准知识图谱与S3中标准知识图谱的融合结果之间的匹配度,计算每个标准文献对应的检索综合值,按照标准文献的检索综合值从大到小的顺序确定标准文献的显示优先级,
检索综合值相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级,检索匹配度为0的标准文献不显示。
进一步的,所述S1中参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取时,将标准文献中的内容逐句与相应的关键词库进行比较,将标准文献语句中与相应关键词库中相同的关键词进行标记,标准文献中标记的关键词为抽取的信息,对抽取的每个关键词分类,统计每种关键词出现的频率,并将每个标准文献抽取的信息中出现频率最高的第n1种关键词对应的频率记为Pn1,0≤n1≤n。
本发明参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取的过程,是参照文献所属的行业实现对标准文献内容的筛选,便于后续构建相应的标准知识图谱,为后续判断检索文献的显示优先级提供数据参考。
进一步的,所述S2中生成相应标准文献对应的标准知识图谱的方法包括以下步骤:
S2.1、提取标准文献中包含出现频率最高的n种关键词的语句,将标准文献中出现频率最高的第n1种关键词中第n2次出现时对应的语句记为Nn2,1≤n2≤Pn1;
S2.2、获取Nn2与数据库中预置的语法结构中重合的字数,与相应语法结构中总字数的比值,
若所得比值存在不为0的情况,则选取比值最大的语法结构,记为第一语法结构,
若所得比值均为0,则判定第一语法结构为空,Nn2不存在知识节点之间的关系;
S2.3、识别Nm2中与第一语法结构不同的部分内容,通过第一标记方式对识别的部分内容进行标记,并对标记的识别部分内容进行切片处理,
若识别的部分内容包括多个不相邻的内容片段时,分别对每个内容片段进行切片处理,并按照语句从左到右的顺序对各个切片结果进行编号,每个切片结果对应一个知识节点,
切片过程中,以内容片段中的切片识别词作为分割点,所述切片识别词包括:和、及、或、与、顿号这五种,且知识节点不包含切片识别词;
S2.4、获取各个编号的知识节点在第一语法结构中的位置,及数据库中预置的第一语法结构在相应知识节点位置对应的知识节点关系,得到Nm2中各个知识节点之间的关系;
S2.5、获取标准文献中包含出现频率最高的n种关键词的各个语句分别对应的知识节点之间的关系,并将获取的各个语句分别对应的知识节点关系进行汇总,得到相应标准文献对应的标准知识图谱,汇总不同语句对应的知识节点关系时,每个知识节点在标准知识图谱中只出现一次且标准知识图谱包括每个知识节点对应的所有知识节点关系。
本发明S2中生成相应标准文献对应的标准知识图谱的过程中,该部分操作是可以提前执行的,按照该部分操作方式,每个标准文献生成的标准知识图谱是唯一的,进而每个标准文献生成相应标准知识图谱的只需要执行一次即可,可以将生成的标准知识图谱与相应标准文献生成关联关系,提前保存到数据库中,便于后续过程中随时调用。
进一步的,所述S3中分析用户检索信息与历史检索信息的相似度的方法包括以下步骤:
S3.1、获取用户的检索信息及历史检索信息,将用户检索信息记为A1,将历史检索信息中第k个检索信息记为Bk;
S3.2、分析A1与Bk之间的相似度WA1-Bk,WA1-Bk=(CA1∩Bk+CXA1-Bk)/{CA1,CBk}min,
其中,CA1∩Bk表示A1与Bk中相同的检索关键词个数,
CXA1-Bk表示A1与Bk中除相同检索关键词之外,相近的检索关键词个数;
{CA1,CBk}min表示A1对应检索关键词总个数CA1与Bk对应检索关键词总个数CBk中的最小值;
S3.3、获取k为不同值时,各个Bk对应的相似度WA1-Bk中的最大值,得到第一相似度;
获取CXA1-Bk的方法包括以下步骤:
S3.2.1、获取A1与Bk中相同检索关键词,记为D,得到A1中除D外的各个检索关键词的集合,记为AD1,得到Bk中除D外的各个检索关键词的集合,记为BkD1;
S3.2.2、提取AD1中的一个检索关键词与BkD1中的一个检索关键词构成一个检索关键词对,得到AD1与BkD1中检索关键词构成的所有检索关键词对;
S3.2.3、计算每个检索关键词对中的编辑距离比,所述编辑距离比等于相应检索关键词对应中两个检索关键词对应的莱文斯坦距离,除以相应检索关键词对中两个检索关键词分别对应的字符长度的最大值;
S3.2.4、将每个检索关键词对中的编辑距离比与第一预设值进行比较,所述第一预设值为数据库中预置的常数,
当AD1与BkD1中检索关键词构成的所有检索关键词对的编辑距离比均大于等于第一预设值时,则判定CXA1-Bk=0;
当AD1与BkD1中检索关键词构成的所有检索关键词对的编辑距离比存在小于第一预设值的情况时,采用第二标记方式对所有编辑距离比大于第一预设值的检索关键词对进行标记,逐个将第二标记方式标记的检索关键词对与数据库进行对比,判断检索关键词对中的两个检索关键词是否为数据库中同一标准单元下的两个意思相近的检索关键词,数据库中包括多个标准单元,同一标准单元对应多个意思相近的检索关键词,
若检索关键词对中的两个检索关键词为数据库中同一标准单元下的两个意思相近的检索关键词,则对相应检索关键词对进行二次标记,反之,则不对相应检索关键词对进行二次标记,
统计AD1与BkD1中检索关键词构成的所有检索关键词对中二次标记的检索关键词对个数,记为u,则CXA1-Bk=u。
本发明S3中分析用户检索信息与历史检索信息的相似度的过程中,分析用户检索信息A1与历史检索信息中第k个检索信息Bk,是为了将两者建立关联关系,通过分析历史数据检索信息检索到的标准文献中用户的行为,来判定用户检索信息中标准文献的显示优先级;获取CXA1-Bk是考虑到同一行业的不同标准中,虽然描述同一对象的关键词不同,但是描述同一对象的关键词之间往往存在关联关系(即关键词中的部分内容是相同的),通过计算相应关键词的莱文斯坦距离,进而获取检索关键词对中的编辑距离比,在一定程度上能够筛选出检索关键词对中不同检索关键词之间的关系,结合数据库中每个标准单元对应的各个意思相近的检索关键词,实现对用户检索信息与历史检索信息中相近的检索关键词个数的判断,便于精准计算用户检索信息与历史检索信息的相似度,为后续确定标准文献的显示优先级提供了数据参照。
进一步的,所述S3中获取用户点赞的标准文献分别对应的标准知识图谱的融合结果的方法包括以下步骤:
S3-1、获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献及获取的各个标准文献分别对应的标准知识图谱构成的集合,记为E;
S3-2、将E中各个标准知识图谱内的知识节点转化为相应的第一类型知识节点,得到新的标准知识图谱构成的集合E1,
第一类型知识节点是通过将相应知识节点与数据库中预置的各个第一数组进行比较获取的,第一数组为[Q,QH],Q为第一数组中的第一类型知识节点,QH表示第一类型节点对应的多个知识节点的集合,Q∈QH;
S3-3、获取E1中每个新的标准知识图谱中第一类型知识节点的集合,并获取各个第一类型知识节点集合的并集,得到标准知识图谱的融合结果中含有的第一类型知识节点的集合,记为R,
提取E1中每个新的标准知识图谱中各个第一类型知识节点之间的关系,记为不同第一类型知识节点之间的第一关系,在R中查找每个第一关系对应的第一类型知识节点,并在R中查找的第一类型知识节点之间标记上相应的第一关系,得到用户点赞的标准文献分别对应的标准知识图谱的融合结果。
本发明获取用户点赞的标准文献分别对应的标准知识图谱的融合结果,是为了结合历史检索信息中与用户检索信息相似的检索信息情况下(与用户检索信息对应的第一相似度大于第一阈值的各个检索信息),用户针对显示的标准文献的行为特征(用户是否点赞),得到判定标准文献显示优先级的标准(得到用户点赞的标准文献分别对应的标准知识图谱的融合结果),为后续确定标准文献的显示优先级提供了数据参照,显示优先级表示相应标准文献显示在屏幕上的先后顺序。
进一步的,所述S5中计算每个标准文献对应的检索综合值的方法包括以下步骤:
S5.1、获取第i个标准文献的发表时间t及相应的总点赞数dz,获取第i个标准文献对应的标准知识图谱;
S5.2、获取标准文献对应的标准知识图谱中每个知识节点与其余知识节点之间存在的关系的个数,得到关系个数最多的知识节点对应的第一类型知识节点构成的集合,记为M;
S5.3、获取第i个标准文献的标准知识图谱gi及S3中标准知识图谱的融合结果Y1;
S5.4、将分析gi与Y1之间的匹配度PPgi-Y1,PPgi-Y1=(CP1gi∩Y1+CPgi-Y1)/{CSgi,CSY1}min,
其中,CP1gi∩Y1表示gi与Y1中相同的知识节点个数,
CPgi-Y1表示gi与Y1中除相同的知识节点之外,相近的知识节点个数;
{CSgi,CSY1}min表示gi对应知识节点总个数CSgi与Y1对应第一类型知识节点总个数CSY1中的最小值;
S5.5、得到第i个标准文献对应的检索综合值PPgi-Y1*(dz/t)*(dM/dH),
其中,dM表示标准文献所属行业对应的各个标准文献分别对应的M中,与Mi的交集不为空的M个数,
所述Mi表示第i个标准文献的标准知识图谱内,关系个数最多的知识节点对应的第一类型知识节点构成的集合,
dH表示标准文献所属行业中对应的标准文献总数;
获取CPgi-Y1的方法包括以下步骤:
S5.4.1、获取gi中除与Y1相同的知识节点之外剩余知识节点的集合,记为Li,获取Y1中除与gi相同的知识节点之外剩余知识节点的集合,记为YLi;
S5.4.2、提取Li中的一个知识节点与YLi中的一个第一类型知识节点构成一个知识节点对,得到Li与YLi构成的所有知识节点对;
S5.4.3、计算每个知识节点对中相应的知识节点与第一类型知识节点之间的莱文斯坦距离,除以相应知识节点对中知识节点与第一类型知识节点分别对应的字符长度的最大值,得到每个知识节点对中的编辑距离比;
S5.4.4、将每个知识节点对中的编辑距离比与第二预设值进行比较,所述第二预设值为数据库中预置的常数,
当Li与YLi构成的所有知识节点对的编辑距离比均大于等于第二预设值时,则判定CPgi-Y1=0;
当Li中与YLi构成的所有知识节点对的编辑距离比存在小于第二预设值的情况时,将所有编辑距离比小于第二预设值的知识节点对按照编辑距离比从小到大的顺序进行排列,将排列结果中排名前v个知识节点对的编辑距离比之和记为BJv,
计算BJv1<YSZ≤BJv1+1时对应的v1值,得到CPgi-Y1=v1,所述YSZ表示第三预设值,第三预设值为数据库中预置的常数。
一种应用大数据技术的标准文献分析管理系统,所述系统包括以下模块:
信息抽取模块,所述信息抽取模块获取每个标准文献所属的行业,参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取,选取每个标准文献抽取的信息中出现频率最高的n种关键词,所述n为数据库中预置的常数;
标准知识图谱构建模块,所述标准知识图谱构建模块提取标准文献中包含出现频率最高的n种关键词的语句,结合数据库中预置的语法结构,分析标准文献对应的各个提取语句中涉及的知识节点及各个知识节点之间的关系,生成相应标准文献对应的标准知识图谱;
检索信息分析模块,所述检索信息分析模块获取用户的检索信息,分析用户检索信息与历史检索信息的相似度,得到第一相似度,并将第一相似度与第一阈值进行比较;
检索文献优先级第一分析模块,所述检索文献优先级第一分析模块获取检索信息内各个检索关键词在标准文献中出现的总次数,记为第一相关数,按第一相关数从大到小的顺序确定标准文献的显示优先级,获取用户每次关闭浏览的标准文献前是否进行点赞的信息,并跳转至检索信息分析模块,第一相关数相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级;
检索文献优先级第二分析模块,所述检索文献优先级第二分析模块分析每个标准文献对应的技术热度及相应标准文献对应标准知识图谱与检索信息分析模块中标准知识图谱的融合结果之间的匹配度,计算每个标准文献对应的检索综合值,按照标准文献的检索综合值从大到小的顺序确定标准文献的显示优先级,
检索综合值相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级,检索匹配度为0的标准文献不显示。
进一步的,所述检索信息分析模块中,所述第一阈值为数据库中预置的常数,所述检索信息包括至少一个检索关键词,不同检索关键词通过空格隔开,
当第一相似度小于等于第一阈值时,则跳转至检索文献优先级第一分析模块,
当第一相似度大于第一阈值时,则获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献,获取用户点赞的标准文献分别对应的标准知识图谱的融合结果,
若获取的标准知识图谱的融合结果为空,则跳转至检索文献优先级第一分析模块,
若获取的标准知识图谱的融合结果不为空,则跳转至检索文献优先级第二分析模块。
进一步的,所述信息抽取模块中参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取时,将标准文献中的内容逐句与相应的关键词库进行比较,将标准文献语句中与相应关键词库中相同的关键词进行标记,标准文献中标记的关键词为抽取的信息,对抽取的每个关键词分类,统计每种关键词出现的频率,并将每个标准文献抽取的信息中出现频率最高的第n1种关键词对应的频率记为Pn1,0≤n1≤n。
与现有技术相比,本发明所达到的有益效果是:本发明在根据检索信息检索标准文献时,一方面能够避免全文检索,通过获取标准知识图谱来概括标准文献中知识节点之间的关系,且将标准知识图谱作为检索信息的对比数据,减少了数据对比量,且能够快速精准的查询到理想的标准文献;另一方面,解决了同一行业不同标准的限制,即同一对象在不同行业标准中的关键词不统一的问题,使得用户能够检索到采用行业其余标准的标准文献,避免检索结果出现缺失,同时将检索到的标准文献的显示优先级进行量化。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种应用大数据技术的标准文献分析管理系统的结构示意图;
图2是本发明一种应用大数据技术的标准文献分析管理方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图2,本发明提供技术方案:一种应用大数据技术的标准文献分析管理方法,所述方法包括以下步骤:
S1、获取每个标准文献所属的行业,参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取,选取每个标准文献抽取的信息中出现频率最高的n种关键词,所述n为数据库中预置的常数;
S2、提取标准文献中包含出现频率最高的n种关键词的语句,结合数据库中预置的语法结构,分析标准文献对应的各个提取语句中涉及的知识节点及各个知识节点之间的关系,生成相应标准文献对应的标准知识图谱;
本发明中若标准文献抽取的信息中出现的关键词种类为nt,且nt<n时,则S2中提取不到标准文献中包含出现频率最高的n种关键词的语句,此时S2中提取的是标准文献中包含出现频率最高的nt种关键词的语句,但是该情况在实际情况中几乎不可能出现;
S3、获取用户的检索信息,分析用户检索信息与历史检索信息的相似度,得到第一相似度,并将第一相似度与第一阈值进行比较,所述第一阈值为数据库中预置的常数,所述检索信息包括至少一个检索关键词,不同检索关键词通过空格隔开,
当第一相似度小于等于第一阈值时,则跳转至S4,
当第一相似度大于第一阈值时,则获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献,获取用户点赞的标准文献分别对应的标准知识图谱的融合结果,
若获取的标准知识图谱的融合结果为空,则跳转至S4,
若获取的标准知识图谱的融合结果不为空,则跳转至S5;
本实施例中n为10,第一阈值为0.8;
S4、获取检索信息内各个检索关键词在标准文献中出现的总次数,记为第一相关数,按第一相关数从大到小的顺序确定标准文献的显示优先级,获取用户每次关闭浏览的标准文献前是否进行点赞的信息,并跳转至S3,第一相关数相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级;
S5、分析每个标准文献对应的技术热度及相应标准文献对应标准知识图谱与S3中标准知识图谱的融合结果之间的匹配度,计算每个标准文献对应的检索综合值,按照标准文献的检索综合值从大到小的顺序确定标准文献的显示优先级,
检索综合值相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级,检索匹配度为0的标准文献不显示。
所述S1中参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取时,将标准文献中的内容逐句与相应的关键词库进行比较,将标准文献语句中与相应关键词库中相同的关键词进行标记,标准文献中标记的关键词为抽取的信息,对抽取的每个关键词分类,统计每种关键词出现的频率,并将每个标准文献抽取的信息中出现频率最高的第n1种关键词对应的频率记为Pn1,0≤n1≤n。
所述S2中生成相应标准文献对应的标准知识图谱的方法包括以下步骤:
S2.1、提取标准文献中包含出现频率最高的n种关键词的语句,将标准文献中出现频率最高的第n1种关键词中第n2次出现时对应的语句记为Nn2,1≤n2≤Pn1;
S2.2、获取Nn2与数据库中预置的语法结构中重合的字数,与相应语法结构中总字数的比值,
若所得比值存在不为0的情况,则选取比值最大的语法结构,记为第一语法结构,
若所得比值均为0,则判定第一语法结构为空,Nn2不存在知识节点之间的关系;
S2.3、识别Nm2中与第一语法结构不同的部分内容,通过第一标记方式对识别的部分内容进行标记,并对标记的识别部分内容进行切片处理,
若识别的部分内容包括多个不相邻的内容片段时,分别对每个内容片段进行切片处理,并按照语句从左到右的顺序对各个切片结果进行编号,每个切片结果对应一个知识节点,
切片过程中,以内容片段中的切片识别词作为分割点,所述切片识别词包括:和、及、或、与、顿号这五种,且知识节点不包含切片识别词;
S2.4、获取各个编号的知识节点在第一语法结构中的位置,及数据库中预置的第一语法结构在相应知识节点位置对应的知识节点关系,得到Nm2中各个知识节点之间的关系;
S2.5、获取标准文献中包含出现频率最高的n种关键词的各个语句分别对应的知识节点之间的关系,并将获取的各个语句分别对应的知识节点关系进行汇总,得到相应标准文献对应的标准知识图谱,汇总不同语句对应的知识节点关系时,每个知识节点在标准知识图谱中只出现一次且标准知识图谱包括每个知识节点对应的所有知识节点关系。
本实施例中若Nm2为“自行车是由车架、车轮及车把组成”,
若第一语法结构为“……是由……组成”,数据库中“……是由……组成”中第一个省略号位置对应的知识节点与第二个省略号位置对应的知识节点是包含关系,
因此识别Nm2中与第一语法结构不同的部分内容后,得到两个内容片段,分别为“自行车”与“车架、车轮及车把”,
由于“自行车”中不存在切片识别词,则“自行车”为一个切片结果,
由于“车架、车轮及车把”中不存在切片识别词中的“、”与“及”,则“车架、车轮及车把”可以得到三个切片结果,分别为“车架”、“车轮”及“车把”;
由于数据库中数据库中“……是由……组成”中第一个省略号位置对应的知识节点与第二个省略号位置对应的知识节点是包含关系,
则标准知识图谱中“自行车”分别与“车架”、“车轮”及“车把”这三个知识节点之间的关系为包含关系;
所述S3中分析用户检索信息与历史检索信息的相似度的方法包括以下步骤:
S3.1、获取用户的检索信息及历史检索信息,将用户检索信息记为A1,将历史检索信息中第k个检索信息记为Bk;
S3.2、分析A1与Bk之间的相似度WA1-Bk,WA1-Bk=(CA1∩Bk+CXA1-Bk)/{CA1,CBk}min,
其中,CA1∩Bk表示A1与Bk中相同的检索关键词个数,
CXA1-Bk表示A1与Bk中除相同检索关键词之外,相近的检索关键词个数;
{CA1,CBk}min表示A1对应检索关键词总个数CA1与Bk对应检索关键词总个数CBk中的最小值;
S3.3、获取k为不同值时,各个Bk对应的相似度WA1-Bk中的最大值,得到第一相似度;
获取CXA1-Bk的方法包括以下步骤:
S3.2.1、获取A1与Bk中相同检索关键词,记为D,得到A1中除D外的各个检索关键词的集合,记为AD1,得到Bk中除D外的各个检索关键词的集合,记为BkD1;
S3.2.2、提取AD1中的一个检索关键词与BkD1中的一个检索关键词构成一个检索关键词对,得到AD1与BkD1中检索关键词构成的所有检索关键词对;
S3.2.3、计算每个检索关键词对中的编辑距离比,所述编辑距离比等于相应检索关键词对应中两个检索关键词对应的莱文斯坦距离,除以相应检索关键词对中两个检索关键词分别对应的字符长度的最大值;
S3.2.4、将每个检索关键词对中的编辑距离比与第一预设值进行比较,所述第一预设值为数据库中预置的常数,
当AD1与BkD1中检索关键词构成的所有检索关键词对的编辑距离比均大于等于第一预设值时,则判定CXA1-Bk=0;
当AD1与BkD1中检索关键词构成的所有检索关键词对的编辑距离比存在小于第一预设值的情况时,采用第二标记方式对所有编辑距离比大于第一预设值的检索关键词对进行标记,逐个将第二标记方式标记的检索关键词对与数据库进行对比,判断检索关键词对中的两个检索关键词是否为数据库中同一标准单元下的两个意思相近的检索关键词,数据库中包括多个标准单元,同一标准单元对应多个意思相近的检索关键词,
若检索关键词对中的两个检索关键词为数据库中同一标准单元下的两个意思相近的检索关键词,则对相应检索关键词对进行二次标记,反之,则不对相应检索关键词对进行二次标记,
统计AD1与BkD1中检索关键词构成的所有检索关键词对中二次标记的检索关键词对个数,记为u,则CXA1-Bk=u。
所述S3中获取用户点赞的标准文献分别对应的标准知识图谱的融合结果的方法包括以下步骤:
S3-1、获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献及获取的各个标准文献分别对应的标准知识图谱构成的集合,记为E;
S3-2、将E中各个标准知识图谱内的知识节点转化为相应的第一类型知识节点,得到新的标准知识图谱构成的集合E1,
第一类型知识节点是通过将相应知识节点与数据库中预置的各个第一数组进行比较获取的,第一数组为[Q,QH],Q为第一数组中的第一类型知识节点,QH表示第一类型节点对应的多个知识节点的集合,Q∈QH;
S3-3、获取E1中每个新的标准知识图谱中第一类型知识节点的集合,并获取各个第一类型知识节点集合的并集,得到标准知识图谱的融合结果中含有的第一类型知识节点的集合,记为R,
提取E1中每个新的标准知识图谱中各个第一类型知识节点之间的关系,记为不同第一类型知识节点之间的第一关系,在R中查找每个第一关系对应的第一类型知识节点,并在R中查找的第一类型知识节点之间标记上相应的第一关系,得到用户点赞的标准文献分别对应的标准知识图谱的融合结果。
所述S5中计算每个标准文献对应的检索综合值的方法包括以下步骤:
S5.1、获取第i个标准文献的发表时间t及相应的总点赞数dz,获取第i个标准文献对应的标准知识图谱;
S5.2、获取标准文献对应的标准知识图谱中每个知识节点与其余知识节点之间存在的关系的个数,得到关系个数最多的知识节点对应的第一类型知识节点构成的集合,记为M;
S5.3、获取第i个标准文献的标准知识图谱gi及S3中标准知识图谱的融合结果Y1;
S5.4、将分析gi与Y1之间的匹配度PPgi-Y1,PPgi-Y1=(CP1gi∩Y1+CPgi-Y1)/{CSgi,CSY1}min,
其中,CP1gi∩Y1表示gi与Y1中相同的知识节点个数,
CPgi-Y1表示gi与Y1中除相同的知识节点之外,相近的知识节点个数;
{CSgi,CSY1}min表示gi对应知识节点总个数CSgi与Y1对应第一类型知识节点总个数CSY1中的最小值;
S5.5、得到第i个标准文献对应的检索综合值PPgi-Y1*(dz/t)*(dM/dH),
其中,dM表示标准文献所属行业对应的各个标准文献分别对应的M中,与Mi的交集不为空的M个数,
所述Mi表示第i个标准文献的标准知识图谱内,关系个数最多的知识节点对应的第一类型知识节点构成的集合,
dH表示标准文献所属行业中对应的标准文献总数;
获取CPgi-Y1的方法包括以下步骤:
S5.4.1、获取gi中除与Y1相同的知识节点之外剩余知识节点的集合,记为Li,获取Y1中除与gi相同的知识节点之外剩余知识节点的集合,记为YLi;
S5.4.2、提取Li中的一个知识节点与YLi中的一个第一类型知识节点构成一个知识节点对,得到Li与YLi构成的所有知识节点对;
S5.4.3、计算每个知识节点对中相应的知识节点与第一类型知识节点之间的莱文斯坦距离,除以相应知识节点对中知识节点与第一类型知识节点分别对应的字符长度的最大值,得到每个知识节点对中的编辑距离比;
S5.4.4、将每个知识节点对中的编辑距离比与第二预设值进行比较,所述第二预设值为数据库中预置的常数,
当Li与YLi构成的所有知识节点对的编辑距离比均大于等于第二预设值时,则判定CPgi-Y1=0;
当Li中与YLi构成的所有知识节点对的编辑距离比存在小于第二预设值的情况时,将所有编辑距离比小于第二预设值的知识节点对按照编辑距离比从小到大的顺序进行排列,将排列结果中排名前v个知识节点对的编辑距离比之和记为BJv,
计算BJv1<YSZ≤BJv1+1时对应的v1值,得到CPgi-Y1=v1,所述YSZ表示第三预设值,第三预设值为数据库中预置的常数。
一种应用大数据技术的标准文献分析管理系统,所述系统包括以下模块:
信息抽取模块,所述信息抽取模块获取每个标准文献所属的行业,参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取,选取每个标准文献抽取的信息中出现频率最高的n种关键词,所述n为数据库中预置的常数;
标准知识图谱构建模块,所述标准知识图谱构建模块提取标准文献中包含出现频率最高的n种关键词的语句,结合数据库中预置的语法结构,分析标准文献对应的各个提取语句中涉及的知识节点及各个知识节点之间的关系,生成相应标准文献对应的标准知识图谱;
检索信息分析模块,所述检索信息分析模块获取用户的检索信息,分析用户检索信息与历史检索信息的相似度,得到第一相似度,并将第一相似度与第一阈值进行比较;
检索文献优先级第一分析模块,所述检索文献优先级第一分析模块获取检索信息内各个检索关键词在标准文献中出现的总次数,记为第一相关数,按第一相关数从大到小的顺序确定标准文献的显示优先级,获取用户每次关闭浏览的标准文献前是否进行点赞的信息,并跳转至检索信息分析模块,第一相关数相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级;
检索文献优先级第二分析模块,所述检索文献优先级第二分析模块分析每个标准文献对应的技术热度及相应标准文献对应标准知识图谱与检索信息分析模块中标准知识图谱的融合结果之间的匹配度,计算每个标准文献对应的检索综合值,按照标准文献的检索综合值从大到小的顺序确定标准文献的显示优先级,
检索综合值相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级,检索匹配度为0的标准文献不显示。
所述检索信息分析模块中,所述第一阈值为数据库中预置的常数,所述检索信息包括至少一个检索关键词,不同检索关键词通过空格隔开,
当第一相似度小于等于第一阈值时,则跳转至检索文献优先级第一分析模块,
当第一相似度大于第一阈值时,则获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献,获取用户点赞的标准文献分别对应的标准知识图谱的融合结果,
若获取的标准知识图谱的融合结果为空,则跳转至检索文献优先级第一分析模块,
若获取的标准知识图谱的融合结果不为空,则跳转至检索文献优先级第二分析模块。
所述信息抽取模块中参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取时,将标准文献中的内容逐句与相应的关键词库进行比较,将标准文献语句中与相应关键词库中相同的关键词进行标记,标准文献中标记的关键词为抽取的信息,对抽取的每个关键词分类,统计每种关键词出现的频率,并将每个标准文献抽取的信息中出现频率最高的第n1种关键词对应的频率记为Pn1,0≤n1≤n。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种应用大数据技术的标准文献分析管理方法,其特征在于,所述方法包括以下步骤:
S1、获取每个标准文献所属的行业,参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取,选取每个标准文献抽取的信息中出现频率最高的n种关键词,所述n为数据库中预置的常数;
S2、提取标准文献中包含出现频率最高的n种关键词的语句,结合数据库中预置的语法结构,分析标准文献对应的各个提取语句中涉及的知识节点及各个知识节点之间的关系,生成相应标准文献对应的标准知识图谱;
S3、获取用户的检索信息,分析用户检索信息与历史检索信息的相似度,得到第一相似度,并将第一相似度与第一阈值进行比较,所述第一阈值为数据库中预置的常数,所述检索信息包括至少一个检索关键词,不同检索关键词通过空格隔开,
当第一相似度小于等于第一阈值时,则跳转至S4,
当第一相似度大于第一阈值时,则获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献,获取用户点赞的标准文献分别对应的标准知识图谱的融合结果,
若获取的标准知识图谱的融合结果为空,则跳转至S4,
若获取的标准知识图谱的融合结果不为空,则跳转至S5;
S4、获取检索信息内各个检索关键词在标准文献中出现的总次数,记为第一相关数,按第一相关数从大到小的顺序确定标准文献的显示优先级,获取用户每次关闭浏览的标准文献前是否进行点赞的信息,并跳转至S3,第一相关数相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级;
S5、分析每个标准文献对应的技术热度及相应标准文献对应标准知识图谱与S3中标准知识图谱的融合结果之间的匹配度,计算每个标准文献对应的检索综合值,按照标准文献的检索综合值从大到小的顺序确定标准文献的显示优先级,
检索综合值相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级,检索匹配度为0的标准文献不显示。
2.根据权利要求1所述的一种应用大数据技术的标准文献分析管理方法,其特征在于:所述S1中参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取时,将标准文献中的内容逐句与相应的关键词库进行比较,将标准文献语句中与相应关键词库中相同的关键词进行标记,标准文献中标记的关键词为抽取的信息,对抽取的每个关键词分类,统计每种关键词出现的频率,并将每个标准文献抽取的信息中出现频率最高的第n1种关键词对应的频率记为Pn1,0≤n1≤n。
3.根据权利要求2所述的一种应用大数据技术的标准文献分析管理方法,其特征在于:所述S2中生成相应标准文献对应的标准知识图谱的方法包括以下步骤:
S2.1、提取标准文献中包含出现频率最高的n种关键词的语句,将标准文献中出现频率最高的第n1种关键词中第n2次出现时对应的语句记为Nn2,1≤n2≤Pn1;
S2.2、获取Nn2与数据库中预置的语法结构中重合的字数,与相应语法结构中总字数的比值,
若所得比值存在不为0的情况,则选取比值最大的语法结构,记为第一语法结构,
若所得比值均为0,则判定第一语法结构为空,Nn2不存在知识节点之间的关系;
S2.3、识别Nm2中与第一语法结构不同的部分内容,通过第一标记方式对识别的部分内容进行标记,并对标记的识别部分内容进行切片处理,
若识别的部分内容包括多个不相邻的内容片段时,分别对每个内容片段进行切片处理,并按照语句从左到右的顺序对各个切片结果进行编号,每个切片结果对应一个知识节点,
切片过程中,以内容片段中的切片识别词作为分割点,所述切片识别词包括:和、及、或、与、顿号这五种,且知识节点不包含切片识别词;
S2.4、获取各个编号的知识节点在第一语法结构中的位置,及数据库中预置的第一语法结构在相应知识节点位置对应的知识节点关系,得到Nm2中各个知识节点之间的关系;
S2.5、获取标准文献中包含出现频率最高的n种关键词的各个语句分别对应的知识节点之间的关系,并将获取的各个语句分别对应的知识节点关系进行汇总,得到相应标准文献对应的标准知识图谱,汇总不同语句对应的知识节点关系时,每个知识节点在标准知识图谱中只出现一次且标准知识图谱包括每个知识节点对应的所有知识节点关系。
4.根据权利要求1所述的一种应用大数据技术的标准文献分析管理方法,其特征在于:所述S3中分析用户检索信息与历史检索信息的相似度的方法包括以下步骤:
S3.1、获取用户的检索信息及历史检索信息,将用户检索信息记为A1,将历史检索信息中第k个检索信息记为Bk;
S3.2、分析A1与Bk之间的相似度WA1-Bk,WA1-Bk=(CA1∩Bk+CXA1-Bk)/{CA1,CBk}min,
其中,CA1∩Bk表示A1与Bk中相同的检索关键词个数,
CXA1-Bk表示A1与Bk中除相同检索关键词之外,相近的检索关键词个数;
{CA1,CBk}min表示A1对应检索关键词总个数CA1与Bk对应检索关键词总个数CBk中的最小值;
S3.3、获取k为不同值时,各个Bk对应的相似度WA1-Bk中的最大值,得到第一相似度;
获取CXA1-Bk的方法包括以下步骤:
S3.2.1、获取A1与Bk中相同检索关键词,记为D,得到A1中除D外的各个检索关键词的集合,记为AD1,得到Bk中除D外的各个检索关键词的集合,记为BkD1;
S3.2.2、提取AD1中的一个检索关键词与BkD1中的一个检索关键词构成一个检索关键词对,得到AD1与BkD1中检索关键词构成的所有检索关键词对;
S3.2.3、计算每个检索关键词对中的编辑距离比,所述编辑距离比等于相应检索关键词对应中两个检索关键词对应的莱文斯坦距离,除以相应检索关键词对中两个检索关键词分别对应的字符长度的最大值;
S3.2.4、将每个检索关键词对中的编辑距离比与第一预设值进行比较,所述第一预设值为数据库中预置的常数,
当AD1与BkD1中检索关键词构成的所有检索关键词对的编辑距离比均大于等于第一预设值时,则判定CXA1-Bk=0;
当AD1与BkD1中检索关键词构成的所有检索关键词对的编辑距离比存在小于第一预设值的情况时,采用第二标记方式对所有编辑距离比大于第一预设值的检索关键词对进行标记,逐个将第二标记方式标记的检索关键词对与数据库进行对比,判断检索关键词对中的两个检索关键词是否为数据库中同一标准单元下的两个意思相近的检索关键词,数据库中包括多个标准单元,同一标准单元对应多个意思相近的检索关键词,
若检索关键词对中的两个检索关键词为数据库中同一标准单元下的两个意思相近的检索关键词,则对相应检索关键词对进行二次标记,反之,则不对相应检索关键词对进行二次标记,
统计AD1与BkD1中检索关键词构成的所有检索关键词对中二次标记的检索关键词对个数,记为u,则CXA1-Bk=u。
5.根据权利要求4所述的一种应用大数据技术的标准文献分析管理方法,其特征在于:所述S3中获取用户点赞的标准文献分别对应的标准知识图谱的融合结果的方法包括以下步骤:
S3-1、获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献及获取的各个标准文献分别对应的标准知识图谱构成的集合,记为E;
S3-2、将E中各个标准知识图谱内的知识节点转化为相应的第一类型知识节点,得到新的标准知识图谱构成的集合E1,
第一类型知识节点是通过将相应知识节点与数据库中预置的各个第一数组进行比较获取的,第一数组为[Q,QH],Q为第一数组中的第一类型知识节点,QH表示第一类型节点对应的多个知识节点的集合,Q∈QH;
S3-3、获取E1中每个新的标准知识图谱中第一类型知识节点的集合,并获取各个第一类型知识节点集合的并集,得到标准知识图谱的融合结果中含有的第一类型知识节点的集合,记为R,
提取E1中每个新的标准知识图谱中各个第一类型知识节点之间的关系,记为不同第一类型知识节点之间的第一关系,在R中查找每个第一关系对应的第一类型知识节点,并在R中查找的第一类型知识节点之间标记上相应的第一关系,得到用户点赞的标准文献分别对应的标准知识图谱的融合结果。
6.根据权利要求5所述的一种应用大数据技术的标准文献分析管理方法,其特征在于:所述S5中计算每个标准文献对应的检索综合值的方法包括以下步骤:
S5.1、获取第i个标准文献的发表时间t及相应的总点赞数dz,获取第i个标准文献对应的标准知识图谱;
S5.2、获取标准文献对应的标准知识图谱中每个知识节点与其余知识节点之间存在的关系的个数,得到关系个数最多的知识节点对应的第一类型知识节点构成的集合,记为M;
S5.3、获取第i个标准文献的标准知识图谱gi及S3中标准知识图谱的融合结果Y1;
S5.4、将分析gi与Y1之间的匹配度PPgi-Y1,PPgi-Y1=(CP1gi∩Y1+CPgi-Y1)/{CSgi,CSY1}min,
其中,CP1gi∩Y1表示gi与Y1中相同的知识节点个数,
CPgi-Y1表示gi与Y1中除相同的知识节点之外,相近的知识节点个数;
{CSgi,CSY1}min表示gi对应知识节点总个数CSgi与Y1对应第一类型知识节点总个数CSY1中的最小值;
S5.5、得到第i个标准文献对应的检索综合值PPgi-Y1*(dz/t)*(dM/dH),
其中,dM表示标准文献所属行业对应的各个标准文献分别对应的M中,与Mi的交集不为空的M个数,
所述Mi表示第i个标准文献的标准知识图谱内,关系个数最多的知识节点对应的第一类型知识节点构成的集合,
dH表示标准文献所属行业中对应的标准文献总数;
获取CPgi-Y1的方法包括以下步骤:
S5.4.1、获取gi中除与Y1相同的知识节点之外剩余知识节点的集合,记为Li,获取Y1中除与gi相同的知识节点之外剩余知识节点的集合,记为YLi;
S5.4.2、提取Li中的一个知识节点与YLi中的一个第一类型知识节点构成一个知识节点对,得到Li与YLi构成的所有知识节点对;
S5.4.3、计算每个知识节点对中相应的知识节点与第一类型知识节点之间的莱文斯坦距离,除以相应知识节点对中知识节点与第一类型知识节点分别对应的字符长度的最大值,得到每个知识节点对中的编辑距离比;
S5.4.4、将每个知识节点对中的编辑距离比与第二预设值进行比较,所述第二预设值为数据库中预置的常数,
当Li与YLi构成的所有知识节点对的编辑距离比均大于等于第二预设值时,则判定CPgi-Y1=0;
当Li中与YLi构成的所有知识节点对的编辑距离比存在小于第二预设值的情况时,将所有编辑距离比小于第二预设值的知识节点对按照编辑距离比从小到大的顺序进行排列,将排列结果中排名前v个知识节点对的编辑距离比之和记为BJv,
计算BJv1<YSZ≤BJv1+1时对应的v1值,得到CPgi-Y1=v1,所述YSZ表示第三预设值,第三预设值为数据库中预置的常数。
7.一种应用大数据技术的标准文献分析管理系统,其特征在于,所述系统包括以下模块:
信息抽取模块,所述信息抽取模块获取每个标准文献所属的行业,参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取,选取每个标准文献抽取的信息中出现频率最高的n种关键词,所述n为数据库中预置的常数;
标准知识图谱构建模块,所述标准知识图谱构建模块提取标准文献中包含出现频率最高的n种关键词的语句,结合数据库中预置的语法结构,分析标准文献对应的各个提取语句中涉及的知识节点及各个知识节点之间的关系,生成相应标准文献对应的标准知识图谱;
检索信息分析模块,所述检索信息分析模块获取用户的检索信息,分析用户检索信息与历史检索信息的相似度,得到第一相似度,并将第一相似度与第一阈值进行比较;
检索文献优先级第一分析模块,所述检索文献优先级第一分析模块获取检索信息内各个检索关键词在标准文献中出现的总次数,记为第一相关数,按第一相关数从大到小的顺序确定标准文献的显示优先级,获取用户每次关闭浏览的标准文献前是否进行点赞的信息,并跳转至检索信息分析模块,第一相关数相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级;
检索文献优先级第二分析模块,所述检索文献优先级第二分析模块分析每个标准文献对应的技术热度及相应标准文献对应标准知识图谱与检索信息分析模块中标准知识图谱的融合结果之间的匹配度,计算每个标准文献对应的检索综合值,按照标准文献的检索综合值从大到小的顺序确定标准文献的显示优先级,
检索综合值相同的标准文献中,发表时间早的显示优先级高于发表时间晚的显示优先级,检索匹配度为0的标准文献不显示。
8.根据权利要求7所述的一种应用大数据技术的标准文献分析管理系统,其特征在于:所述检索信息分析模块中,所述第一阈值为数据库中预置的常数,所述检索信息包括至少一个检索关键词,不同检索关键词通过空格隔开,
当第一相似度小于等于第一阈值时,则跳转至检索文献优先级第一分析模块,
当第一相似度大于第一阈值时,则获取历史检索信息中,与用户检索信息对应的第一相似度大于第一阈值的各个检索信息中用户点赞的标准文献,获取用户点赞的标准文献分别对应的标准知识图谱的融合结果,
若获取的标准知识图谱的融合结果为空,则跳转至检索文献优先级第一分析模块,
若获取的标准知识图谱的融合结果不为空,则跳转至检索文献优先级第二分析模块。
9.根据权利要求7所述的一种应用大数据技术的标准文献分析管理系统,其特征在于:所述信息抽取模块中参照数据库中标准文献所属行业对应的关键词库对相应标准文献进行信息抽取时,将标准文献中的内容逐句与相应的关键词库进行比较,将标准文献语句中与相应关键词库中相同的关键词进行标记,标准文献中标记的关键词为抽取的信息,对抽取的每个关键词分类,统计每种关键词出现的频率,并将每个标准文献抽取的信息中出现频率最高的第n1种关键词对应的频率记为Pn1,0≤n1≤n。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211297089.3A CN115618014B (zh) | 2022-10-21 | 2022-10-21 | 一种应用大数据技术的标准文献分析管理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211297089.3A CN115618014B (zh) | 2022-10-21 | 2022-10-21 | 一种应用大数据技术的标准文献分析管理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618014A true CN115618014A (zh) | 2023-01-17 |
CN115618014B CN115618014B (zh) | 2023-07-18 |
Family
ID=84864356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211297089.3A Active CN115618014B (zh) | 2022-10-21 | 2022-10-21 | 一种应用大数据技术的标准文献分析管理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618014B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431799A (zh) * | 2023-06-14 | 2023-07-14 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
CN116796750A (zh) * | 2023-08-24 | 2023-09-22 | 宁波甬恒瑶瑶智能科技有限公司 | 一种基于ner模型基因文献信息提取方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593792A (zh) * | 2013-11-13 | 2014-02-19 | 复旦大学 | 一种基于中文知识图谱的个性化推荐方法与系统 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN115203576A (zh) * | 2022-09-09 | 2022-10-18 | 中信建投证券股份有限公司 | 一种金融知识协同管理系统、方法、设备及存储介质 |
-
2022
- 2022-10-21 CN CN202211297089.3A patent/CN115618014B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593792A (zh) * | 2013-11-13 | 2014-02-19 | 复旦大学 | 一种基于中文知识图谱的个性化推荐方法与系统 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
CN115203576A (zh) * | 2022-09-09 | 2022-10-18 | 中信建投证券股份有限公司 | 一种金融知识协同管理系统、方法、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431799A (zh) * | 2023-06-14 | 2023-07-14 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
CN116431799B (zh) * | 2023-06-14 | 2023-08-18 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
CN116796750A (zh) * | 2023-08-24 | 2023-09-22 | 宁波甬恒瑶瑶智能科技有限公司 | 一种基于ner模型基因文献信息提取方法、系统及存储介质 |
CN116796750B (zh) * | 2023-08-24 | 2023-11-10 | 宁波甬恒瑶瑶智能科技有限公司 | 一种基于ner模型基因文献信息提取方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115618014B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
US7971150B2 (en) | Document categorisation system | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
US8156097B2 (en) | Two stage search | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN115618014A (zh) | 一种应用大数据技术的标准文献分析管理系统及方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN113312503A (zh) | 一种新的教学类视频内容摘要和可视化浏览方法 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN116501875B (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
Gasparetti et al. | Exploiting web browsing activities for user needs identification | |
CN110162651B (zh) | 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
CN111680493B (zh) | 英语文本分析方法、装置、可读存储介质及计算机设备 | |
CN112597370A (zh) | 指定需求范围的网页信息自主搜集筛选系统 | |
Ajitha et al. | EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML. | |
JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 | |
TWI813028B (zh) | 文字資料之篩選關聯方法及系統 | |
CN107679154A (zh) | 一种基于时间轴的历史题解题方法、系统及介质 | |
Kene et al. | Various Approaches for Content Extraction from Web Pages based on Factors | |
Gurusamy et al. | Text mining in'Request for Comments Document Series' |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |