CN116562280A - 一种基于通用信息抽取的文献分析系统及方法 - Google Patents

一种基于通用信息抽取的文献分析系统及方法 Download PDF

Info

Publication number
CN116562280A
CN116562280A CN202310535642.0A CN202310535642A CN116562280A CN 116562280 A CN116562280 A CN 116562280A CN 202310535642 A CN202310535642 A CN 202310535642A CN 116562280 A CN116562280 A CN 116562280A
Authority
CN
China
Prior art keywords
entity
corpus
general information
parallel
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310535642.0A
Other languages
English (en)
Inventor
杨万征
蔡超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN202310535642.0A priority Critical patent/CN116562280A/zh
Publication of CN116562280A publication Critical patent/CN116562280A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于通用信息抽取的文献分析系统及方法,所述方法包括构建UIE模型;获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;确定检索词,通过所述检索词检索得到多个检索数据;根据通用信息抽取模型对所述检索数据进行分析得到分析结果;为实现schema的泛化能力,在训练过程中,通过对schema进行近义词实体词库替换,进行数据增强计算;并且通过人工定义分析维度的方式自由度高,可对文献内容展开任意维度分析;通过引入实体平行语料对以及平行实体损失函数,可快速进行实体对齐;通过检索词检索到多个检索数据后,对检索数据进行数据清洗及定义分析维度即可得到检索数据的分析结果。

Description

一种基于通用信息抽取的文献分析系统及方法
技术领域
本发明涉及文献分析领域,尤其涉及一种基于通用信息抽取的文献分析系统及方法。
背景技术
文献分析是指通过对收集到的某方面的文献资料进行研究,以探明研究对象的性质和状况,并从中引出自己观点的分析方法。它能帮助调查研究者形成关于研究对象的一般印象有利于对研究对象作历史的动态把握,还可研究已不可能接近的研究对象。
常规的分析可分为社会网络分析、引文分析、统计学分析等,但其分析维度主要集中于文献的属性值分析,如:作者、联合作者、单位、年限、引文、分类号等。基于内容的分析相对较少,常规的有关键词分析、词云分析、主题分析等,均以无监督的分析为主,可控性较小,欠缺目的性。像专利数据中的功效矩阵分析,这类带有强烈目的性的基于文本内容的分析,又多以人工标记为主,难以自动化进行,部分自动化功效矩阵构建系统也多采用限定类别的抽取模型,难以实现任意角度的抽取及分析。
发明内容
本发明的目的在于提供一种基于通用信息抽取的文献分析系统及方法,解决了现有技术中指出的上述技术问题。
本发明提供了一种基于通用信息抽取的文献分析系统,包括初始化模块、文献收集模块、抽取统计分析模块;
其中,所述初始化模块,用于构建UIE模型;获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;
所述文献收集模块,用于确定检索词,并通过所述检索词检索获取多个检索数据;
所述抽取统计分析模块,用于根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果。
较佳的,所述一种基于通用信息抽取的文献分析系统,还包括文献清洗模块、维度定义模块、schema拓展模块、通用信息抽取模块、实体对齐/合并模块;
其中,所述文献清洗模块,用于对所述检索数据进行数据清洗,得到清洗后的数据;并将所述清洗后的数据输入所述通用信息抽取模型;
所述维度定义模块,用于确定所述清洗后的数据的目标分析维度;
所述Schema拓展模块,用于对所述目标分析维度进行拓展,得到平行实体对;
所述通用信息抽取模块,用于将所述平行实体对输入所述通用信息抽取模型,从所述清洗后的数据中抽取得到目标实体;
所述实体对齐/合并模块,用于通过所述目标实体获取动态词向量,计算得到所述动态词向量的余弦相似度;预设余弦相似度最小阈值,分别判断所述余弦相似度是否大于或等于所述余弦相似度最小阈值;若是,则将所述动态词向量对应的目标实体聚类获取词汇组;获取所述词汇组中所有目标实体的出现频次;筛选所述目标实体的出现频次最高的目标实体作为标准化词汇;并将所述词汇组中的目标实体进行标准化处理,获取标准化词汇出现的频次。
较佳的,上述抽取统计分析模块,具体用于根据所述标准化词汇及所述标准化词汇出现的频次构建技术统计矩阵;通过所述技术统计矩阵得到分析结果。
相应地,本发明还提出了一种基于通用信息抽取的文献分析方法,包括如下操作步骤:
构建UIE模型;
获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;
确定检索词,通过所述检索词检索得到多个检索数据;根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果。
较佳的,所述利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型,包括如下操作步骤:
获取所述语料库的分析维度;基于公开实体抽取分析维度,获取所述分析维度的实体类别;基于关系抽取数据集,获取所述分析维度的关系类别;构建近义词实体词库;根据所述近义词实体词库对所述分析维度进行拓展,得到平行实体对;
基于所述平行实体语料对计算获取平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText
通过所述平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText计算获取UIE模型的损失函数;将所述UIE模型的损失函数输入所述UIE模型,得到通用信息抽取模型。
较佳的,所述根据所述近义词实体词库对所述分析维度进行拓展,得到平行实体对,包括如下操作步骤:
根据所述近义词实体词库对所述实体类别进行替换,得到实体类别替换数据;
根据所述近义词实体词库对所述关系类别进行替换,得到关系类别替换数据;
将所述实体类别替换数据与所述关系类别替换数据融合得到平行实体对。
较佳的,所述基于所述平行实体对构建平行实体语料对;基于所述平行实体语料对计算获取平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText,包括如下操作步骤:
随机任意选取一对平行实体对作为目标平行实体对;对所述语料库进行清洗,得到清洗后的数据;
在所述清洗后的数据中随机选取包含所述目标平行实体对的两条数据;对所述两条数据进行拼接;获取平行实体语料对;
获取所述平行实体语料对Dpair的token序列x与结构化记录y;根据所述token序列x与结构化记录y计算获取平行实体语料对的损失函数L_pair;
所述平行实体语料对的损失函数L_pair的计算方式为:
式中,Dpair为平行实体语料对;
x为token序列;
y为结构化记录;
θe为常数;
θd为常数;
根据所述结构化记录y获取结构化数据集Drecord;根据所述结构化记录y及所述结构化数据集Drecord计算获取结构数据集的损失函数Lrecord
所述结构数据集的损失函数Lrecord的计算方式为:
式中,Lrecord为结构数据集的损失函数;
Drecord为结构化数据集;
yi为第i个结构化记录;
θd为常数;
获取所述平行实体语料对的原始文本数据集Dtext;获取所述平行实体语料对的文本数据x'与所述平行实体语料对的目标维度x”,计算获取平行实体语料对的文本损失函数LText
所述平行实体语料对的文本损失函数LText的计算方式为:
式中,LText为平行实体语料对的文本损失函数;
Dtext为平行实体语料对的原始文本数据集;
x'为平行实体语料对的文本数据;
x”为平行实体语料对的目标维度;
分别获取所述平行实体语料对中第一实体语料的第一特征向量片段及所述第二实体语料对的第二特征向量片段;对所述第一特征向量片段进行均值操作,获取第一特征向量;对所述第二特征向量片段进行均值操作,获取第二特征向量;根据所述第一特征向量与所述第二特征向量,计算得到平行实体语料对的余弦损失函数Ls;
根据所述平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、所述平行实体语料对的文本损失函数LText、所述平行实体语料对的余弦损失函数Ls计算获取UIE模型的损失函数L;
所述UIE模型的损失函数L的计算方式为:
L=Lpair+Lrecord+LText+Ls。
较佳的,所述根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果,包括如下操作步骤:
对所述检索数据进行数据清洗,得到清洗后的数据;并将所述清洗后的数据输入所述通用信息抽取模型;
确定所述清洗后的数据的目标维度;
对所述目标维度进行拓展,获取平行实体对;
将所述平行实体对输入所述通用信息抽取模型,从所述清洗后的数据中抽取得到目标实体;
通过所述目标实体获取动态词向量;
计算得到所述动态词向量的余弦相似度;预设余弦相似度最小阈值,分别判断所述余弦相似度是否大于或等于所述余弦相似度最小阈值;若是,则将所述动态词向量对应的目标实体聚类获取词汇组;获取所述词汇组中所有目标实体的出现频次;筛选所述目标实体的出现频次最高的目标实体作为标准化词汇;并将所述词汇组中的目标实体进行标准化处理,获取标准化词汇出现的频次;
根据所述标准化词汇及所述标准化词汇出现的频次构建技术统计矩阵;通过所述技术统计矩阵得到分析结果。
与现有技术相比,本发明实施例至少存在如下方面的技术优势:
分析本发明提供的上述一种基于通用信息抽取的文献分析系统及方法可知,在具体应用时通过对UIE模型进行训练得到通用信息抽取模型,为实现schema的泛化能力,在训练过程中,通过对schema进行近义词实体词库替换,进行数据增强计算;并且通过人工定义分析维度的方式自由度高,可对文献内容展开任意维度分析;通过引入实体平行语料对以及平行实体损失函数,可快速进行实体对齐;通过检索词检索到多个检索数据后,对检索数据进行数据清洗及定义分析维度即可得到检索数据的分析结果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种基于通用信息抽取的文献分析系统的整体架构示意图;
图2为本发明实施例二提供的一种基于通用信息抽取的文献分析方法的操作流程示意图;
图3为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中得到通用信息抽取模型的操作流程示意图;
图4为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中得到平行实体对的操作流程示意图;
图5为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中计算获取平行实体语料对的余弦损失函数的操作流程示意图;
图6为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中得到分析结果的操作流程示意图;
图7为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中抽取得到通用信息的模拟示意图;
图8为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中构建技术统计矩阵的一种示意图;
图9为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中构建技术统计矩阵的另一种示意图。
标号:初始化模块10;维度定义模块20;schema拓展模块30;文献收集模块40;文献清洗模块50;通用信息抽取模块60;实体对齐/合并模块70;抽取统计分析模块80。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
实施例一
如图1所示,本发明提出了一种基于通用信息抽取的文献分析系统,包括初始化模块10、文献收集模块40、抽取统计分析模块80;
其中,所述初始化模块10,用于构建UIE模型;获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;
所述文献收集模块40,用于确定检索词,并通过所述检索词检索获取多个检索数据;
所述抽取统计分析模块80,用于根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果。
较佳的,所述一种基于通用信息抽取的文献分析系统,还包括文献清洗模块50、维度定义模块20、schema拓展模块30、通用信息抽取模块60、实体对齐/合并模块70;
其中,所述文献清洗模块50,用于对所述检索数据进行数据清洗,得到清洗后的数据;并将所述清洗后的数据输入所述通用信息抽取模型;
所述维度定义模块20,用于确定所述清洗后的数据的目标维度;
所述Schema拓展模块30,用于对所述目标分析维度进行拓展,得到平行实体对;
所述通用信息抽取模块60,用于将所述平行实体对输入所述通用信息抽取模型,从所述清洗后的数据中抽取得到目标实体;
所述实体对齐/合并模块70,用于通过所述目标实体获取动态词向量,计算得到所述动态词向量的余弦相似度;预设余弦相似度最小阈值,分别判断所述余弦相似度是否大于或等于所述余弦相似度最小阈值;若是,则将所述动态词向量对应的目标实体聚类获取词汇组;获取所述词汇组中所有目标实体的出现频次;筛选所述目标实体的出现频次最高的目标实体作为标准化词汇;并将所述词汇组中的目标实体进行标准化处理,获取标准化词汇出现的频次。
较佳的,上述抽取统计分析模块80,具体用于根据所述标准化词汇及所述标准化词汇出现的频次构建技术统计矩阵;通过所述技术统计矩阵得到分析结果。
综上,本发明提供的上述一种基于通用信息抽取的文献分析系统,首先利用初始化模块将UIE模型进行训练得到通用信息抽取模型;通过人工定义的方式得到目标分析维度,并利用Schema拓展模块对目标分析维度进行拓展,得到平行实体对;然后通过确定检索词检索多个检索数据;并对检索数据进行清洗得到清洗后的数据;将清洗后的数据输入通用信息抽取模型,作为抽取通用信息的基础;将平行实体对输入通用信息抽取模型,从清洗后的数据中抽取通用信息;然后获取通用信息的动态词向量,进一步地通过动态词向量计算余弦相似度;通过余弦相似度对通用信息进行分组,并筛选确定分组中同通用信息出现频次最多的一个通用信息作为标准化词汇,对分组中的通用信息进行标准化处理;然后统计标准化词汇的出现次数,进而构建技术统计矩阵,通过技术统计矩阵显示出分析结果。
实施例二
如图2所示,相应地,本发明还提出了一种基于通用信息抽取的文献分析方法,包括如下操作步骤:
步骤S10:构建UIE模型;获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;
需要说明的是,本发明实施例所采用的技术方案中,上述语料库指的是以维基百科与维基数据作为语料库,通过语料库对构建好的UIE模型进行训练从而得到训练好的UIE模型(即为通用信息抽取模型);
步骤S20:确定检索词,通过所述检索词检索得到多个检索数据;根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果。
举例说明:以“燃料电池”作为检索词,进行检索获取3000个检索数据;
具体地,如图3所示,在步骤S10中,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型,包括如下操作步骤:
步骤S11:获取所述语料库的分析维度;基于公开实体抽取分析维度,获取所述分析维度的实体类别;基于关系抽取数据集,获取所述分析维度的关系类别;构建近义词实体词库;根据所述近义词实体词库对所述分析维度进行拓展,得到平行实体对;
需要说明的是,所述近义词实体词库包括同义词表、近义词表、上位词表;
本发明实施例所采用的技术方案,上述语料库的分析维度是通过人工定义的方式对语料库的文本内容进行定义分析维度从而获取语料库的分析维度,如:产品-技术、产品-特征、技术-特征等;
本发明实施例所采用的技术方案,可使用哈工大《大词林》数据(“哈工大《大词林》”即上述公开实体)构建同义词、近义词、上位词表(上述“同义词、近义词、上位词表”即为近义词实体词库);然后根据同义词、近义词、上位词表等信息,对schema中定义的目标实体类别进行替换,通过对schema结合同义词、近义词、上位词替换的数据增强方式,提升后续操作步骤中schema(即概要拓展)的泛化能力;根据同义词表、近义词表、上位词表信息,对schema中定义的目标关系类别进行替换(即上述“基于关系抽取数据集,获取所述分析维度的关系类别”);根据近义词表、同义词表、上位词表,对用户输入的语料库的文本内容进行拓展,如:特征->特征、特点、优势等;
步骤S12:基于所述平行实体对构建平行实体语料对;基于所述平行实体语料对计算获取平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText
通过所述平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText计算获取UIE模型的损失函数;将所述UIE模型的损失函数输入所述UIE模型,得到通用信息抽取模型;
需要说明的是,上述近义词实体词库是由Wikipedia、百度百科、大词林等数据进行整理所得;
上述平行实体对包括关系类别替换数据与实体类别替换数据;
在具体操作中,对于两个平行实体,它们的特征向量分别输入到UIE模型中,计算它们之间的余弦相似度得到余弦距离,并将其作为损失函数的一部分;然后通过反向传播来更新模型参数(使得模型逐渐学会通过特征向量计算相似度并优化模型的表现),得到通用信息抽取模型。
构建平行实体语料对,可以用于实体对齐任务;实体对齐指的是将不同语料库中的实体进行对应,即找出它们之间的对应关系,例如将两个不同的知识图谱中代表同一概念的实体进行对应。而构建平行实体语料对,可以帮助我们获取训练实体对齐模型所需的数据。
具体来说,平行实体语料对中包含了语料库对应中两个实体的对齐关系,这些对齐关系可以用于训练实体对齐模型。在训练过程中,我们可以将一个语料库中的实体作为查询实体,通过与另一个语料库中的实体进行比较,找到最可能的对齐关系,并利用这些对齐关系来优化UIE模型。
具体地,如图4所示,在步骤S11中,根据所述近义词实体词库对所述分析维度进行拓展,得到平行实体对,包括如下操作步骤:
步骤S111:根据所述近义词实体词库对所述实体类别进行替换,得到实体类别替换数据;
步骤S112:根据所述近义词实体词库对所述关系类别进行替换,得到关系类别替换数据;
步骤S113:将所述实体类别替换数据与所述关系类别替换数据融合得到平行实体对;
举例说明:定义的分析维度的目标实体类别为:中学,结合近义词实体词库中的上位词表信息可将中学替换为学校或教育机构,所有满足“中学”类别的实体,同样也满足“学校”或“教育机构”类别。
同理如:schema中定义的目标关系类别为“妻子”,结合上位词表信息,同样可替换为“家人”类别,且不会对目标抽取内容有任何影响。
具体地,如图5所示,在步骤S12中,基于所述平行实体对构建平行实体语料对;基于所述平行实体语料对计算获取平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText,包括如下操作步骤:
步骤S121:随机任意选取一对平行实体对作为目标平行实体对;
对所述语料库进行清洗,得到清洗后的数据;
步骤S122:在所述清洗后的数据中随机选取包含所述目标平行实体对的两条数据(解释说明:平行实体对包含两条实体信息,因此选择的两条数据分别包含一条实体信息);
对所述两条数据进行拼接;获取平行实体语料对;
需要说明的是,本发明实施例所采用的技术方案,语料库的数据优先选取专利文件数据;对语料库进行清洗为常规清洗操作,包括清除HTML标识符、清除乱码、统一半全角;
对于上述“在所述清洗后的数据中随机选取包含所述平行实体对的两条数据”举例说明:如:存在平行实体词“无人机-无人飞行器”,筛选各自对应的样例句“一种基于无人机控制的压接金具检测系统及方法”,“一种喷洒式稻田除草用无人飞行器”,对其进行拼接“一种基于无人机控制的压接金具检测系统及方法[SEP]一种喷洒式稻田除草用无人飞行器”。
步骤S123:获取所述平行实体语料对Dpair的token序列x与结构化记录y;根据所述token序列x与结构化记录y计算获取平行实体语料对的损失函数L_pair;
所述平行实体语料对的损失函数L_pair的计算方式为:
式中,Dpair为平行实体语料对;
x为token序列;
y为结构化记录;
θe为常数;
θd为常数;
需要说明的是,本发明实施例通过Wikipedia(维基百科)对齐Wikidata(维基数据),每个实例都是一个并行对(token序列x,结构化记录y),用于预训练UIE的文本到结构映射能力。预训练时随机取样一些负例(spots、association)作为噪声训练(引入negativeschema(消极概要))。
步骤S124:根据所述结构化记录y获取结构化数据集Drecord;根据所述结构化记录y及所述结构化数据集Drecord计算获取结构数据集的损失函数Lrecord
所述结构数据集的损失函数Lrecord的计算方式为:
式中,Lrecord为结构数据集的损失函数;
Drecord为结构化数据集;
yi为第i个结构化记录;
θd为常数;
需要说明的是,本发明实施例为了使UIE模型具备SEL语言的结构化能力,根据结构化记录y获取结构化数据集Drecord;然后把结构化数据集Drecord输入UIE模型,训练UIE的decoder部分,使其学会SEL语法。
步骤S125:获取所述平行实体语料对的原始文本数据集Dtext;获取所述平行实体语料对的文本数据x'(即与平行实体对相比破坏过的源文本)与所述平行实体语料对的目标维度x”(即与平行实体对相比破坏的目标维度),计算获取平行实体语料对的文本损失函数LText
所述平行实体语料对的文本损失函数LText的计算方式为:
式中,LText为平行实体语料对的文本损失函数;
Dtext为平行实体语料对的原始文本数据集;
x'为平行实体语料对的文本数据;
x”为平行实体语料对的目标维度;
需要说明的是,本发明实施例构造无结构的原始文本数据:(None,x'(破坏过的源文本),x”(破坏的目标维度spans)),为了具备基础的语义编码能力,在原始句子中MASK掉15%的tokens,然后生成MASK的部分。
步骤S126:分别获取所述平行实体语料对中第一实体语料的第一特征向量片段及所述第二实体语料对的第二特征向量片段;对所述第一特征向量片段进行均值操作,获取第一特征向量;对所述第二特征向量片段进行均值操作,获取第二特征向量;根据所述第一特征向量与所述第二特征向量,计算得到平行实体语料对的余弦损失函数Ls;
步骤S127:根据所述平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、所述平行实体语料对的文本损失函数LText、所述平行实体语料对的余弦损失函数Ls计算获取UIE模型的损失函数L;
所述UIE模型的损失函数L的计算方式为:
L=Lpair+Lrecord+LText+Ls;
解释说明:上述平行实体语料对的余弦损失函数的计算方式为本领域的公知常识,本发明实施例不再赘述;在对构成平行实体语料对的两个平行实体进行解码阶段,提取两条平行语料的特征向量片段,在模型中,平行语料是按字符拆分的,因此平行语料是向量片段,如无人机是“无”“人”“机”;
本发明实施例所采用的技术方案通过在维持UIE模型原有三种损失函数D_pair、D_record、D_text的基础上,追加平行实体对损失函数引入实体平行语料对,以及平行实体损失函数,可快速进行实体对齐;
举例说明:假设有一份电商网站的销售订单数据,其中每个订单包含订单号、购买者信息、商品信息、价格等字段。我们将每个订单号作为一条记录,将每个字段作为结构化记录y中的一个属性,将每条订单数据转换为一个结构化记录y。同时,我们将每个订单涉及到的商品名称、价格、数量等信息作为一段文本内容x,将该文本内容x中的每个单词或数字作为一个token。
因此,在这个例子中,Dpair中的一个实例可以表示为(token序列x,结构化记录y)对,其中token序列x可以是一个订单中所有商品的名称、价格和数量的集合,结构化记录y可以是该订单的所有相关信息字段构成的结构化数据。这样,我们就可以在处理和分析这些数据时,同时利用文本分析技术和结构化数据分析技术,从而更加全面深入地了解订单数据的情况。
在进行实体对齐任务时,通过计算平行实体语料对的损失函数来优化模型。
具体来说,我们可以将每个语料库中的实体表示成一个向量,并计算它们之间的余弦相似度,得到两个实体在特征空间中的相似度分值。对于每个语料库中的实体,我们选取和它最匹配的另一个语料库中的实体作为它的真实对齐实体,即构成一个平行实体语料对。通过比较它们在特征空间中的余弦相似度得到一个余弦距离,把余弦距离作为平行实体语料对的损失函数,用来指导模型的优化。
如此一来,在训练过程中,模型会逐渐学习到通过实体向量计算相似度,并且不断调整参数以减少平行实体语料对的损失函数。这样,模型可以快速准确地进行实体对齐任务,也可以提供更好的表示学习能力,从而在各种自然语言处理任务中表现得更好。
具体地,如图6所示,在步骤S20中,根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果,包括如下操作步骤:
步骤S21:对所述检索数据进行数据清洗,得到清洗后的数据;并将所述清洗后的数据输入所述通用信息抽取模型(上述将清洗后的数据输入通用信息抽取模型是为了进行模型训练);
举例说明:对上述检索得到的3000个检索数据进行清除HTML标识符、清除乱码、统一半全角的数据清洗操作,得到清洗后的数据;
步骤S22:确定所述清洗后的数据的目标维度;
举例说明:技术-特征作为目标维度;
步骤S23:对所述目标维度进行拓展,获取平行实体对;
举例说明:基于同义词数据库+人工拓展的方式,对“技术”、“特征”二词进行拓展,将技术拓展为“产品”、“科技”,将特征拓展为“功能”、“用途”、“特点”;
需要说明的是,本发明实施例所采用的技术方案中,对目标维度进行拓展,实质上是对目标维度的实体类别拓展,举例说明:基于同义词数据库+人工拓展的方式,对“技术”、“特征”二词进行拓展,将技术拓展为“产品”、“科技”,将特征拓展为“功能”、“用途”、“特点”;
步骤S24:将所述平行实体对输入所述通用信息抽取模型,从所述清洗后的数据中抽取得到目标实体;
举例说明,如图7所示,将上述平行实体对输入通用信息抽取模型,然后从原始的待抽取文本中抽取出燃料电池相关的目标实体;
步骤S25:通过所述目标实体获取动态词向量;
需要说明的是,本发明实施例所采用的技术方案中,使用目标实体在decoder部分最后一层的动态编码作为动态词向量;decoder部分则主要负责将编码后的信息翻译为目标语言或生成文本;在这个过程中,每个单词都被表示为一个向量,称为词向量;每个词向量都包含了该单词在语境中的深度表示;
目标实体指的是我们要获取其对应的动态词向量的那个单词;对于这个单词,我们可以使用encoder-decoder架构,将它作为输入送入encoder部分,并在decoder部分的最后一层获取动态编码;这个动态编码就是该单词的动态词向量,它可以反映该单词在当前语境下的意义和特征;由于每个单词的动态词向量都是在特定的语境下计算得到的,因此它们具有更好的表达能力和语义信息,可以提高模型的效果;
步骤S26:计算得到所述动态词向量的余弦相似度(余弦损失函数);预设余弦相似度最小阈值,分别判断所述余弦相似度是否大于或等于所述余弦相似度最小阈值;若是,则将所述动态词向量对应的目标实体聚类获取词汇组;(相似度大于或等于所述余弦相似度的作为一个聚类簇);获取所述词汇组中所有目标实体的出现频次;筛选所述目标实体的出现频次最高的目标实体作为标准化词汇;并将所述词汇组中的目标实体进行标准化处理,获取标准化词汇出现的频次;
需要说明的是,本发明实施例所采用的技术方案,使用DBSCAN为聚类模型,将余弦相似度大于或等于余弦相似度最小阈值的目标实体归为一个词汇组,然后筛选获取词汇组中出现频次最多的目标实体作为标准化词汇,然后将词汇组中所有词汇进行标准化(即为将所有词替换为出现频次最多的目标实体);举例说明:如:[无人机、无人飞行器、无人驾驶飞机],余弦相似度大于或等于余弦相似度最小阈值,则[无人机、无人飞行器、无人驾驶飞机]被划分为一个词汇组,其出现次数即频次分别为[无人机10,无人飞行器8,无人驾驶飞机7],无人机频次最高,则标准化词汇为无人机,后续统计中,无人飞行器及无人驾驶飞机的出现的次数将会被记在无人机上。
本发明实施例所采用的技术方案可以方便统计分析,所抽取结果可能成百上千个,分析过程无法对其形成直观印象,且多为近似的,通过将其标准化划组统计,可形成更加直观可视结果。
步骤S27:根据所述标准化词汇及所述标准化词汇出现的频次构建技术统计矩阵;通过所述技术统计矩阵得到分析结果;
需要说明的是,如图8所示,图8为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中构建技术统计矩阵的一种示意图;本发明实施例以top10技术作为横轴,以top10特征作为纵轴,两两统计共同出现的论文数量,构造技术功效矩阵;同时,如图9所示,图9为本发明实施例二提供的一种基于通用信息抽取的文献分析方法中构建技术统计矩阵的另一中示意图;可利用技术出现时间作为横轴,以技术作为纵轴,统计各个技术论文在不同时间出现的数量,构建技术时间矩阵;
综上所述,本发明实例提出的一种基于通用信息抽取的文献分析系统及方法,通过预先训练通用信息抽取模型,在进行通用信息抽取模型过程中,首先构建UIE模型,并获取训练文本(即为语料库);定义分析维度(自由度高,可对文献内容展开任意维度分析),然后对分析维度进行拓展得到平行实体对(为实现schema的泛化能力,在训练过程中,通过对schema进行近义词实体词库替换,进行数据增强计算,通过引入schema数据增强,提升模型泛化能力,减少对schema的拓展工作);利用平行实体对从训练文本中抽取平行实体语料对,然后计算平行实体语料对中两个实体语料的损失函数(通过引入实体平行语料对,以及平行实体损失函数,可快速进行实体对齐),将损失函数进行反向传播后输入UIE模型,完成训练得到通用信息抽取模型;
进而确定检索词,从大数据(本发明实施例的技术方案中选择以专利数据库作为检索数据的来源)中检索获取多个检索数据;然后对检索数据进行清洗处理;进而定义目标分析维度;进一步地对目标分析维度进行拓展得到平行实体对;然后利用平行实体对通过通用信息抽取模型,从清洗后的数据中抽取通用信息;进而计算获取通用信息的余弦相似度(为满足快速实体对齐,构建实体平行语料对,提取decoder中的实体向量表示,构建余弦损失函数),将通用信息进行分组,然后筛选分组中出现频次最多的通用信息作为标准化词汇,并对分组中的词汇进行标准化处理(即为将本分组中其他词汇出现的频次加到标准化词汇的出现频次上);利用标准化词汇及标准化词汇出现的次数进行构建技术统计矩阵,从而获取得到分析结果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;本领域的普通技术人员可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于通用信息抽取的文献分析系统,包括初始化模块、文献收集模块、抽取统计分析模块;
其中,所述初始化模块,用于构建UIE模型;获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;
所述文献收集模块,用于确定检索词,并通过所述检索词检索获取多个检索数据;
所述抽取统计分析模块,用于根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果。
2.根据权利要求1所述的一种基于通用信息抽取的文献分析系统,其特征在于,还包括文献清洗模块、维度定义模块、schema拓展模块、通用信息抽取模块、实体对齐/合并模块;
其中,所述文献清洗模块,用于对所述检索数据进行数据清洗,得到清洗后的数据;并将所述清洗后的数据输入所述通用信息抽取模型;
所述维度定义模块,用于确定所述清洗后的数据的目标维度;
所述Schema拓展模块,用于对所述目标分析维度进行拓展,得到平行实体对;
所述通用信息抽取模块,用于将所述平行实体对输入所述通用信息抽取模型,从所述清洗后的数据中抽取得到目标实体;
所述实体对齐/合并模块,用于通过所述目标实体获取动态词向量,计算得到所述动态词向量的余弦相似度;预设余弦相似度最小阈值,分别判断所述余弦相似度是否大于或等于所述余弦相似度最小阈值;若是,则将所述动态词向量对应的目标实体聚类获取词汇组;获取所述词汇组中所有目标实体的出现频次;筛选所述目标实体的出现频次最高的目标实体作为标准化词汇;并将所述词汇组中的目标实体进行标准化处理,获取标准化词汇出现的频次。
3.一种基于通用信息抽取的文献分析方法,其特征在于,包括如下操作步骤:
构建UIE模型;
获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;
确定检索词,通过所述检索词检索得到多个检索数据;根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果。
4.根据权利要求3所述的一种基于通用信息抽取的文献分析方法,其特征在于,所述利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型,包括如下操作步骤:
获取所述语料库的分析维度;
基于公开实体抽取分析维度,获取所述分析维度的实体类别;基于关系抽取数据集,获取所述分析维度的关系类别;构建近义词实体词库;根据所述近义词实体词库对所述分析维度进行拓展,得到平行实体对;
基于所述平行实体语料对计算获取平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText
通过所述平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText计算获取UIE模型的损失函数;将所述UIE模型的损失函数输入所述UIE模型,得到通用信息抽取模型。
5.根据权利要求4所述的一种基于通用信息抽取的文献分析方法,其特征在于,所述根据所述近义词实体词库对所述分析维度进行拓展,得到平行实体对,包括如下操作步骤:
根据所述近义词实体词库对所述实体类别进行替换,得到实体类别替换数据;
根据所述近义词实体词库对所述关系类别进行替换,得到关系类别替换数据;
将所述实体类别替换数据与所述关系类别替换数据融合得到平行实体对。
6.根据权利要求5所述的一种基于通用信息抽取的文献分析方法,其特征在于,所述基于所述平行实体语料对计算获取平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、平行实体语料对的文本损失函数LText,包括如下操作步骤:
随机任意选取一对平行实体对作为目标平行实体对;对所述语料库进行清洗,得到清洗后的数据;
在所述清洗后的数据中随机选取包含所述目标平行实体对的两条数据;对所述两条数据进行拼接;获取平行实体语料对;
获取所述平行实体语料对Dpair的token序列x与结构化记录y;根据所述token序列x与结构化记录y计算获取平行实体语料对的损失函数L_pair;
所述平行实体语料对的损失函数L_pair的计算方式为:
式中,Dpair为平行实体语料对;
x为token序列;
y为结构化记录;
θe为常数;
θd为常数;
根据所述结构化记录y获取结构化数据集Drecord;根据所述结构化记录y及所述结构化数据集Drecord计算获取结构数据集的损失函数Lrecord
所述结构数据集的损失函数Lrecord的计算方式为:
式中,Lrecord为结构数据集的损失函数;
Drecord为结构化数据集;
yi为第i个结构化记录;
θd为常数;
获取所述平行实体语料对的原始文本数据集Dtext;获取所述平行实体语料对的文本数据x'与所述平行实体语料对的目标维度x”,计算获取平行实体语料对的文本损失函数LText
所述平行实体语料对的文本损失函数LText的计算方式为:
式中,LText为平行实体语料对的文本损失函数;
Dtext为平行实体语料对的原始文本数据集;
x'为平行实体语料对的文本数据;
x”为平行实体语料对的目标维度;
分别获取所述平行实体语料对中第一实体语料的第一特征向量片段及所述第二实体语料对的第二特征向量片段;对所述第一特征向量片段进行均值操作,获取第一特征向量;对所述第二特征向量片段进行均值操作,获取第二特征向量;根据所述第一特征向量与所述第二特征向量,计算得到平行实体语料对的余弦损失函数Ls;
根据所述平行实体语料对的损失函数L_pair、结构数据集的损失函数Lrecord、所述平行实体语料对的文本损失函数LText、所述平行实体语料对的余弦损失函数Ls计算获取UIE模型的损失函数L;
所述UIE模型的损失函数L的计算方式为:
L=Lpair+Lrecord+LText+Ls。
7.根据权利要求6所述的一种基于通用信息抽取的文献分析方法,其特征在于,所述根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果,包括如下操作步骤:
对所述检索数据进行数据清洗,得到清洗后的数据;并将所述清洗后的数据输入所述通用信息抽取模型;
确定所述清洗后的数据的目标维度;
对所述目标维度进行拓展,获取平行实体对;
将所述平行实体对输入所述通用信息抽取模型,从所述清洗后的数据中抽取得到目标实体;
通过所述目标实体获取动态词向量;
计算得到所述动态词向量的余弦相似度;预设余弦相似度最小阈值,分别判断所述余弦相似度是否大于或等于所述余弦相似度最小阈值;若是,则将所述动态词向量对应的目标实体聚类获取词汇组;获取所述词汇组中所有目标实体的出现频次;筛选所述目标实体的出现频次最高的目标实体作为标准化词汇;并将所述词汇组中的目标实体进行标准化处理,获取标准化词汇出现的频次;
根据所述标准化词汇及所述标准化词汇出现的频次构建技术统计矩阵;通过所述技术统计矩阵得到分析结果。
CN202310535642.0A 2023-05-12 2023-05-12 一种基于通用信息抽取的文献分析系统及方法 Pending CN116562280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310535642.0A CN116562280A (zh) 2023-05-12 2023-05-12 一种基于通用信息抽取的文献分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310535642.0A CN116562280A (zh) 2023-05-12 2023-05-12 一种基于通用信息抽取的文献分析系统及方法

Publications (1)

Publication Number Publication Date
CN116562280A true CN116562280A (zh) 2023-08-08

Family

ID=87489432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310535642.0A Pending CN116562280A (zh) 2023-05-12 2023-05-12 一种基于通用信息抽取的文献分析系统及方法

Country Status (1)

Country Link
CN (1) CN116562280A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350294A (zh) * 2023-10-30 2024-01-05 中国司法大数据研究院有限公司 一种基于法律文书结构特点的案由识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350294A (zh) * 2023-10-30 2024-01-05 中国司法大数据研究院有限公司 一种基于法律文书结构特点的案由识别方法及装置

Similar Documents

Publication Publication Date Title
WO2021000676A1 (zh) 问答方法、问答装置、计算机设备及存储介质
CN111475623B (zh) 基于知识图谱的案件信息语义检索方法及装置
CN107748757B (zh) 一种基于知识图谱的问答方法
Kaushik et al. A comprehensive study of text mining approach
JP5936698B2 (ja) 単語意味関係抽出装置
CN117033608A (zh) 一种基于大语言模型的知识图谱生成式问答方法及系统
CN110209818B (zh) 一种面向语义敏感词句的分析方法
CN114036281B (zh) 基于知识图谱的柑橘管控问答模块构建方法及问答系统
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN114579705B (zh) 一种面向可持续发展教育的学习辅助方法及系统
Almiman et al. Deep neural network approach for Arabic community question answering
Mehrbod et al. Tender calls search using a procurement product named entity recogniser
CN113486177A (zh) 一种基于文本分类的电力领域表格列标注方法
Nugraha et al. Typographic-based data augmentation to improve a question retrieval in short dialogue system
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN116562280A (zh) 一种基于通用信息抽取的文献分析系统及方法
Korade et al. Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning.
KR20120042562A (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
CN111581326B (zh) 一种基于异构外部知识源图结构抽取答案信息的方法
Alemu et al. A corpus-based word sense disambiguation for geez language
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination