CN115438195A - 一种金融标准化领域知识图谱的构建方法及装置 - Google Patents
一种金融标准化领域知识图谱的构建方法及装置 Download PDFInfo
- Publication number
- CN115438195A CN115438195A CN202211282420.4A CN202211282420A CN115438195A CN 115438195 A CN115438195 A CN 115438195A CN 202211282420 A CN202211282420 A CN 202211282420A CN 115438195 A CN115438195 A CN 115438195A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- named entity
- recognized
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Finance (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Animal Behavior & Ethology (AREA)
- Technology Law (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种金融标准化领域知识图谱的构建方法及装置,基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。对金融标准文件构建知识图谱,根据知识图谱中包括的命名实体的关系信息,对一种金融标准文件进一步分析金融标准文件以后的改进,提前布局相关领域,抢占先机,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种金融标准化领域知识图谱的构建方法及装置。
背景技术
标准化领域作为科技领域的最前沿,拥有着不同国家、不同来源却隐含关系的信息,虽然信息来源多样,但其形式以文件资料为主。而各国对于标准化领域的重视也使得领域发展迅速,汇聚了大量高精尖科技,数据呈现爆炸式增长态势。这些数据蕴含着丰富的价值信息,然而,相关人员在面对这些海量的标准化数据时,却无法高效地从中获取关键知识,从而也无法依据数据指导标准化工作,尤其是在金融标准化领域。
通过调研发现,导致数据中价值信息继续沉睡的首要问题是,这些数据缺乏紧凑有效的组织结构与直观形象的可视化查询方式,没有形成相应的标准化知识体系,难以进行深层次的数据挖掘与应用,因而利用相关数据并提供一个便捷交互的知识图谱具有重要意义。
发明内容
有鉴于此,本申请的目的在于提供一种金融标准化领域知识图谱的构建方法及装置,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。其具体方案如下:
第一方面,本申请提供了一种金融标准化领域知识图谱的构建方法,包括:
基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;
对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;
根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。
第二方面,本申请实施例还提供了一种金融标准化领域知识图谱的构建装置,包括:
获取单元,用于基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;
识别单元,用于对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;
构建单元,用于根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。
第三方面,本申请实施例还提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行所述的方法。
本申请实施例提供了一种金融标准化领域知识图谱的构建方法及装置,基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。可见,在本申请实施例中,可以对金融标准文件构建知识图谱,根据知识图谱中包括的命名实体的关系信息,对一种金融标准文件进一步分析金融标准文件以后的改进与创新,提前布局相关领域,抢占先机,而且,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本申请实施例提供的一种金融标准化领域知识图谱的构建方法的流程示意图;
图2示出了本申请实施例提供的一种BERT-BiLSTM-CRF模型结构图;
图3示出了本申请实施例提供的一种基于Bert的输入表示图;
图4示出了本申请实施例提供的一种BiLSTM-CRF模型结构图;
图5示出了本申请实施例提供的一种依存句法分析的示意图;
图6示出了本申请实施例提供的一种PCNN体系结构图;
图7示出了本申请实施例提供的一种用户查询实体链接任务示意图;
图8为本申请实施例提供的一种金融标准化领域知识图谱的构建装置的结构框图;
图9示出了本申请实施例提供的一种计算机设备的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
正如背景技术中的描述,利用相关数据并提供一个便捷交互的知识图谱具有重要意义,在现有技术中,传统的机器学习方法也可以应用在自然语言处理的领域,例如实体识别和关系抽取可以通过SVM,决策树这样的传统机器学习算法进行多分类,然而,机器学习的主要障碍是特征工程这个步骤,这需要领域专家在进入训练过程之前就要找到非常重要的特征。特征工程步骤是要靠手动完成的,而且需要大量领域专业知识,因此它成为当今大多数机器学习任务的主要瓶颈,大多数机器学习算法的性能依赖于所提取的特征的准确度,因此准确度无法保持稳定。还有一种方式是基于非BERT的深度学习模型,通常使用word2vec对词语进行向量化,接着对向量化的词语进行深度模型的训练,通常也会使用BiLSTM来进行实体识别,然而,Word2vec由词义的分布式假设出发,每一个单词都会被映射到一个唯一的一个稠密向量,但这样的方式无法处理一词多义的问题。也就是说word2vec产生的词是静态的,不考虑上下文的,具有较大的误差。
随着各个领域向信息化转型的不断深入,各级研究单位都希望能够获得更深入、更全面、更高效、更便捷的数据服务。为了实现金融标准化领域知识的主动推送,帮助科研人员扩展知识发现,揭示数据中蕴含的知识,构建知识中蕴含的关联,降低科研人员之间交流的时间成本,整合各类标准资源,构建金融标准化领域知识图谱势在必行。
基于以上技术问题,本申请实施例提供了一种金融标准化领域知识图谱的构建方法及装置,基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。可见,在本申请实施例中,可以对金融标准文件构建知识图谱,根据知识图谱中包括的命名实体的关系信息,对一种金融标准文件进一步分析金融标准文件以后的改进与创新,提前布局相关领域,抢占先机,而且,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。
为了便于理解,下面结合附图对本申请实施例提供的一种金融标准化领域知识图谱的构建方法及装置进行详细的说明。
可以对本申请涉及的一些专业术语进行解释说明,本体构建是指标准化领域本体旨在描述标准中存在的实体、概念及其关系,其本质是一种揭示实体关系的复杂网络。为提炼和抽象化相关知识,首先确定实体的基本类型或分类、各类实体具有的属性和属性值类型,然后分析不同类型实体之间的关系类型、关系的定义域以及关系值域等。根据所构建的本体支撑知识的扩展与关系的丰富化,既有助于知识的标准化,又便于知识图谱的后续使用。
实体是数据中承载信息的最小单位,实体识别是指从文本语料库中自动识别出专有名词(如机构名、地名、任命、时间等)或有意义的名词性短语,实体识别的准确性直接影响知识获取的质量和效率。
关系抽取是利用多种技术自动从文本中发现命名实体之间的语义关系,将文本中的关系映射到实体关系三元组上。研究的难点主要体现在并非所有的关系都很明显,即关系表达的隐含性;实体关系不仅有二元,还有多元,即关系的复杂性;一种关系可能会有多种表述形式,即语言的多样性。
实体链接是指将给定文本或数据源中的实体提及链接到目标知识图谱的过程。
BERT(Bidirectional Encoder Representation from Transformers)是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。
BiLSTM(Bi-directional Long Short-Term Memory):LSTM是RNN(RecurrentNeural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。BiLSTM是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。
依存句法分析(Dependency Parsing,DP)是指通过分析自然语言文本中各句子成分之间的依存关系,来揭示其句法结构的分析过程。直观上讲,DP分析的思路是识别语句中“主、谓、宾、定、状、补”等句法成分,并分析各成分之间的依存关系。其中,依存关系反映的是句中词语之间的关联关系,且两个词语一个为依存词,一个为核心词,可通过依存关系的箭头进行区分。
PCNN(Piece-Wise-CNN)是一种远程监督的卷积神经网络模型,通过将词表示成向量形式,与位置向量(各词语与两个实体的相对位置)进行拼接作为输入,之后卷积部分是采用了常见的针对文本的卷积核设计,单向滑动,得到feature map。相比于CNN使用单个最大池化(max-pooling)会忽略一些对关系抽取任务有用的结构特征。
参考图1所示,为本申请实施例提供的一种金融标准化领域知识图谱的构建方法的流程示意图,该方法可以包括以下步骤。
S101,基于金融标准文件获取待识别文本;所述待识别文本包括多个实体。
具体地,可以基于金融标准文件获取待识别文本,待识别文本中可以包括多个实体。
S102,对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签。
具体地,可以对所述待识别文本进行命名实体识别,得到命名实体,其中所述命名实体包括实体和所述实体的标签,可以根据待识别数据的数据量采用不同的方式进行命名实体识别,得到命名实体。
在本申请实施例中,在所述待识别文本的数据量小于第一阈值时,所述对所述待识别文本进行命名实体识别,得到命名实体,可以包括:将所述待识别文本和预设规则模板进行匹配,得到命名实体,使得在训练数据较少的情况下也可以较为有效地进行实体识别和关系抽取。
具体地,可以通过对金融标准文件的相关元数据的知识归纳和专家知识进行本体构建,当原始元数据数量较少,也就是说,待识别文本的数据量较少,可以采用基于规则(专家知识+领域术语)的命名实体识别方案进行实体识别,将待识别文本与事先制订好的预设规则模板进行匹配获得命名实体,而预设规则模板是通过专家的领域知识与相关数据文本制订的,针对不同的半结构化文本结构处理规则也不同。还可以充分考虑标准文件的特性,利用金融标准文件中的术语表,构造术语字典,快速准确对实体进行规则化的识别。
在本申请实施例中,所述金融标准文件为TXT文档格式的论文时,所述预设规则模板包括多个标签,所述多个标签包括标题、作者和摘要,所述将所述待识别文本和预设规则模板进行匹配,得到命名实体,可以包括:获取所述待识别文本中第一个非空行及第一个非空行之后的多个连续非空行的第一文本,作为标签为标题时对应的第一实体;将所述标签为标题时对应的第一实体和标题标签作为第一命名实体。
具体地,论文的结构比较明确,由于从PDF转换为了TXT文档,会出现很多空行,但是一句话不会被空行隔断。因此可以将论文分为多个部分,可以包括标题,作者,摘要和关键字,也就是说,预设规则模板可以包括多个标签,所述多个标签包括标题、作者和摘要。将论文里读到的第一个非空行以及接下来的多个非空行组成标题,遇到空行则停止,得到标签为标题时对应的第一实体,将标签为标题时对应的第一实体和标题标签作为一种命名实体。
在本申请实施例中,获取所述第一实体的下一个非空行中的第二文本,并以所述第二文本之间的逗号作为分隔符划分得到多个第三文本,将所述多个第三文本作为标签为作者时对应的第二实体;将所述标签为作者时对应的第二实体和作者标签作为第二命名实体。具体地,将标题之后的第一个非空行以及接下来的多个非空行组成作者,作者可能有多个,但其由逗号分隔,因此我们使用逗号作为分隔符将其分隔,得到标签为作者时对应的第二实体,将第二实体和作者标签作为又一种命名实体。比如,作者标签对应的实体为张三和李四。
在本申请实施例中,通过正则的方式对所述待识别文本进行abstract字段的匹配,将所述待识别文本中abstract之后的多个连续的非空行的内容,作为标签为摘要时对应的第三实体;将标签为摘要时对应的第三实体和摘要标签作为第三命名实体。具体地,通过正则的方式'(Abstract)|(ABSTRACT)',匹配第一个出现abstract出现的位置,将其接下来的内容作为摘要内容。
具体地,在读取完摘要后,之后的部分就是关键字,也可能部分论文没有关键字,则会读到Introduction,因此我们在最后保存时判断如果为INTRODUCTION则不进行保存,最后会对所有内容头尾进行空字符去除。
在本申请实施例中,会议的时间安排则是更加规则的文本,第一个非空行是会议名称+agenda-+时间,因此通过第一行我们可以很容易获取的信息是会议名称和此次会议的召开时间。接下来的多行则是日程安排,格式通常为时间点-演讲标题-作者,组织,但也有特殊的日程安排,例如休息,则不会有作者等信息。因此我们通过’-’切分,长度等于三的保留,继续处理,通过日程安排我们可以获取此次演讲的主题,专家以及专家所属的组织机构,得到多个命名实体。
在本申请实施例中,演讲PPT主题通过文件名确认,也就是说文件名就是该PPT的主题名称,此文件名应与会议中的日程安排中的名称对应。接下来会进入文件内部提取时间信息,将年月和会议中的会议时间进行比较,如果年月相对应,则判断该演讲是该时间该会议下的演讲,将两者进行关联。接着在PPT中通过正则的方式寻找与标准相关信息,在找到标准后,读取标准后的相关内容作为该标准的引用内容,并将该PPT与该标准进行关联。
作为一种具体实施方式,可以通过金融标准文件获得该项标准的制定者为专家A和专家B,同时通过对论文、会议及演讲PPT进行构建,发现专家A也参加了金融顶级会议M,并在会议上发表了关于该项标准的更加细致、要求更高的演讲,同时通过对论文分析,发现专家B在金融论文顶刊上发表了该项标准的最新论文,可以从这项金融标准出发,进一步分析这项标准日后的改进与创新,通过该种方式可以提前布局相关领域,抢占先机。知识图谱还可从某一个标准触发,挖掘两层乃至跟多层的隐藏关系,这种关系往往是通过文件的阅读是无法发现关联的。在进行可视化之后,相关专业人员可以很清晰很明了的看到它们之间的关联关系,有助于金融专业人员对金融行业的发展趋势有一个较为明确的判断。
在本申请实施例中,当项目运行到一定时期元数据标注已达到一定量级,可以采用基于BERT-BiLSTM-CRF模型的命名实体识别方案,以此来提升命名实体抽取的准确度。在所述待识别文本的数据量大于或等于第一阈值时,所述对所述待识别文本进行命名实体识别,得到命名实体,可以包括:基于BERT-BiLSTM-CRF模型对所述待识别文本进行命名实体识别,得到命名实体。BiLSTM能够充分利用先验知识,获取有效的上下文信息,CRF可以考虑句子级相邻标签之间的信息,并且获得全局最优序列,而对于将BERT语言模型(Bidirectional Encoder Representation from Transformers,BERT)融合到BiLSTM-CRF命名实体识别模型中可以对自然语言处理任务效率有很大的提升,利用该模型可以解决文本特征表示时的一词多义问题。
具体地,可以采用将BERT引入到BLSTM-CRF中所构建的基于BERT-BLSTM-CRF的实体识别模型,BERT的词语编码模式会考虑语境,实现词语的动态化处理,BERT的模型学习了一个考虑上下文的函数,每个词都应该是整个文本序列的函数,更加动态。
参考图2所示,为本申请实施例提供的一种BERT-BiLSTM-CRF模型结构图,首先使用BERT模型获取字向量,提取文本重要特征,然后通过BiILSTM深度学习上下文特征信息,进行命名实体识别,最后CRF层对BiLSTM的输出序列处理,结合CRF中的状态转移矩阵,根据相邻之间标签得到一个全局最优序列。模型第一层是利用预训练的BERT语言模型初始化获取输入文本信息中的字向量记为序列X=(x1,x2,x3,…,xn),所获取的字向量能够利用词与词之间的相互关系有效提取文本中的特征。模型第二层为双向LSTM层,第一层获取的n维字向量作为双向长短时记忆神经网各个时间步的输入,得到双向LSTM层的隐状态序列(表示前向)和(表示后向),待前向与后向全部处理完,对各个隐状态序列进行按照位置拼接得到完整的隐状态序列记为ht=(h1,h2,…,hn)∈Rnxm,接着线性输出层将完整的隐状态序列映射到s维(s维为标注集的标签类别数目),记提取的句子特征为全部映射之后的序列为矩阵L=(l1,l2,…,ln)∈Rnxs,li∈Rs的每一维li,j分别对应其字xi对应每个类别标签yi的分数值。如果此时直接对每个位置的分数值进行独立分类,选取每个分值最高的直接得到输出结果,则不能考虑相邻句子之间的信息,不能得到全局最优,分类结果不理想,所以引入模型最后一层。
参考图3所示,为本申请实施例提供的一种基于Bert的输入表示图,BERT中的编码器采用的是Transfommer模型,Transformer模型具有很好的并行性,对句子中的所有词的信息编码都不用考虑方向和距离。BERT的输入表示为每个词对应的词向量TokenEmbeddings,句子向量Segment Embeddings,位置向量Position Embeddings相加。输入序列的[CLS]为第一个单词,在分类任务中代表类别。在BERT-BLSTM-CRF模型中,输入的字符首先通过BERT模块层得到输入的语义表征,取得句子中每个字的向量表示之后,再将BERT层输出的字向量序列输入第二层BLSTM模块中做语义编码处理。
参考图4所示,为本申请实施例提供的一种BiLSTM-CRF模型结构图,在基于BERT-BiLSTM-CRF的NER模型中,LSTM单元用矩形表示,其中前向LSTM单元可以输出当前词语及其左边信息的向量;后向LSTM单元以输出当前词语及其右边信息的向量。将前向LSTM和后向LSTM输出的向量组合便得到了BiLSTM的输出结果,最后把BiLSTM的结果输入CRF层计算出最优化的标签序列。
图4中,x=(x0,x1,x2…xn)是输入序列,y=(y0,y1,y2…yn)是输出序列,其中序列的长度为n。对于输入序列x=(x0,x1,x2…xn)的每个字符xi在向量查找表中搜索其相应的字符向量ci,并输入神经网络。使用随机赋值的“UNK”的向量代替向量查找表中没有找到的字符xi的向量。把经过向量化后转换为字符向量序列的句子作为BiLSTM层的初始输入。经过BiLSTM层输出的上下文特征信息ht,能够有效的取得序列输出y=(y0,y1,y2…yn),但仅采用此分类方法还存在一些不足之处。鉴于BiLSTM层输出的结果会存在一些没有意义的字符,不会考虑到标签之间存在的依赖关系,那么这样识别出的命名实体就是无效的。但如果将所有BiLSTM层返回的字符进行再次标记将会耗费大量的资源。而CRF模型能够合理的考虑到上下文信息之间存在的依赖关系,因此把BiLSTM与CRF相结合,即BiLSTM-CRF模型,此模型不仅能够融合上下文信息而且能够合理地考虑到相邻标签之间存在的依赖关系,来保证最终的识别结果是合理的。CRF模型主要用于研究句子级别的序列特征而不是单个字符信息,模块的输入是经过BiLSTM层训练后的词向量,每个词向量特征fj,相应的权重值λj;在通过前面模块的训练已经获得,使用如下公式算出每个标记序列L的取值来标记整个句子S:
其中S是待标记的句子,i为词在句子中的位置,li是当前词的标记,li-1是上一个词的标记,相应的特征数是m,相应的句子长度是n,因此能够获得该标记序列的分数。
然后将分数通过指数函数和归一化转变为0和1之间的概率值;如下公式所示:
其中,公式中的分母为该句所有标注序列之和。计算出每个标记序列L的概率P(L|S),概率值最大的L就是最终的标记序列。
S103,根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。
在本申请实施例中,可以根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。具体地,可以采用两种方式进行关系抽取,当原始元数据数量较少采用基于依存句法分析的关系抽取,当项目运行到一定时期元数据标注已达到一定量级,采用基于PCNN(Piece-Wise-CNN)的方法进行抽取。
在本申请实施例中,在所述待识别文本的数据量小于第二阈值时,所述根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,包括:基于依存句法分析对所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息。
具体地,依存句法分析(Dependency Parsing,DP)是指通过分析自然语言文本中各句子成分之间的依存关系,来揭示其句法结构的分析过程。直观上讲,DP分析的思路是识别语句中“主、谓、宾、定、状、补”等句法成分,并分析各成分之间的依存关系。其中,依存关系反映的是句中词语之间的关联关系,且两个词语一个为依存词,一个为核心词,可通过依存关系的箭头进行区分。下表展示了各种依存关系标签及其句子样例。
关系类型 | 标签 | 描述 | 样例 |
主谓关系 | SBV | subject-verb | 我送她一束花(我<-送) |
动宾关系 | VOB | 直接宾语,verb-object | 我送她一束花(送->花) |
简宾关系 | ICB | 间接宾语indirect-object | 我送她一束花(送->她) |
前置宾语 | FOB | 前置宾语fronting-object | 他什么书都读(书<-读) |
兼语 | DBL | double | 他请我吃饭(请->我) |
定中关系 | ATT | attritube | 红苹果(红->苹果) |
状中关系 | ADV | adverbial | 非常美丽(非常->美丽) |
动补关系 | CMP | complement | 做完了作业(做-完) |
并列关系 | COO | coordinate | 大山和大海(大山->大海) |
介宾关系 | POB | preposition-object | 在贸易区内(在->内) |
左附加关系 | LAD | left adjunct | 大山和大海(和<-大海) |
右附加关系 | RAD | right adjunct | 孩子们(孩子->们) |
独立结构 | IS | Independent structure | 两个单句在结构上彼此独立 |
标点 | WP | punctuation | 。 |
核心关系 | HED | head | 指整个句子的核心 |
参考图5所示,为本申请实施例提供的一种依存句法分析的示意图,根据分析结果可以得出,句子的核心谓词为“遭到”,主语是“科尔号驱逐舰”,宾语是“袭击”,“科尔号驱逐舰”的修饰语是“美国停泊在也门”,“袭击”的主语是“基地组织”,箭头指向的词语为核心词,箭头指出的词语为依存词。
对金融标准相关文本数据通过依存句法分析将句子分析成一棵依存句法树,描述各个词语之间的依存关系,即指出词语之间在句法上的搭配关系,获得实体间的三元组关系,结合之前所抽取的实体过滤筛选,最终获得实体间的关系。
在本申请实施例中,在所述待识别文本的数据量大于或等于第二阈值时,所述根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,包括:基于PCNN对所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,可以从包含实体对的句子中提取正确的结构特征。
具体地,参考图6所示,为本申请实施例提供的一种PCNN体系结构图,通过将词表示成向量形式,与位置向量(各词语与两个实体的相对位置)进行拼接作为输入,之后卷积部分是采用了常见的针对文本的卷积核设计,单向滑动,得到feature map,相比于CNN使用单个最大池化(max-pooling)会忽略一些对关系抽取任务有用的结构特征。PCNN模型将包含两个实体的句子的滤波器输出ci通过两个实体位置分成三个部分:第一个实体之前的句子部分ci1,第一个实体到第二实体间的句子部分ci2,第二个实体之后的句子部分ci3,并在这三个部分中的每个部分上进行max-pooling。因此,利用实体位置信息来在max-pooling操作之后保留句子的结构特征,将max-pooling操作的输出拼接起来产生固定大小的输出,然后将输出通过tanh非线性处理,最后使用一个Softmax分类器进行类别判断。
在本申请实施例中,可以将对用户查询数据中的实体链接任务进行描述,并使用数字符号进行形式化表示,据此将一个实体链接任务分为候选实体产生、候选实体排序和空链接指称项预测三个阶段分别进行处理。获取用户输入的查询语句中的实体指称项;将所述实体指称项与所述知识图谱中的实体进行匹配,得到候选实体列表;所述候选实体列表包括多个实体;对所述候选实体列表中的多个实体进行相关性排序,将相关性最大的实体作为目标链接实体,并向所述用户展示。
具体地,本系统将对用户查询数据中的实体链接任务进行描述,并使用数字符号进行形式化表示。假设E为知识图谱中的实体集合,D为用户查询语句集合,其中实体指称项列表M(M∈D)被识别,实体链接的目标是将实体指称项m∈M匹配到知识库中相应的实体e∈E。首先从E中获取与m可能相关的候选实体列表然后对进行相关性排序,选择相关性分数最高的ei作为m的目标链接实体。如果列表为空,或ei低于相关性阈值,则定义m为空链接指称项,并使用NIL进行标记。上述内容可以形式化表示为:
根据上述定义,一个实体链接任务包含候选实体产生、候选实体排序和空链接指称项预测三个阶段。候选实体产生是指从给定的知识库中,获取与实体指称项相关的实体放入候选列表中。候选实体排序是指对实体指称项与其候选实体进行相关性度量,选择相关性最高的作为目标链接实体。空链接指称项预测是指获取并处理没有链接到给定知识库中实体的实体指称项。此外,由于用户查询数据受到搜索引擎的字数限制,通常语句简短,因而导致语境缺乏。人们对用户查询进行实体链接研究时,通常借助外部知识源挖掘相关知识来对用户查询语句进行信息扩展。
参考图7所示,为本申请实施例提供的一种用户查询实体链接任务示意图,对用户查询进行信息扩展和实体指称项识别,然后根据数据库进行实体链接,得到输出结果。
具体地,在候选实体生成时,使用规则生成较为模糊的结果,实体指称项被候选实体完全覆盖;指称项和候选实体的首字母完全匹配;指称项和候选实体有共同的几个词汇;实体之间有较强的字串相似度。相比于精准匹配,模糊匹配拥有较高的召回率,但是相应的会有较大的噪音。
在候选实体排名时,将候选实体加入到候选实体集合中时,需要在众多的候选实体中找出最合适的候选实体。候选实体的排序方法分两类,分别是监督学习的排序方法和非监督学习的排序方法。监督学习排序方法依赖于带注释的训练数据来学习如何对指称项的候选实体集进行排序,这些方法包括二分类、学习排序、概率方法和基于图的方法;非监督学习排序方法是基于未标记的语料库,不需要任何手动标注语料来训练模型,这些方法包括基于向量空间模型的方法和基于信息检索的方法。
在不可链接的指称预测时,上述的内容都是处理实体可链接的问题,而在现实的实际项目中,我们还要面临很多的不可链接问题,比如在计算相似度时,实际上相似度只有40%,这时候其实实体指称项和候选实体之间实际上是不存在链接的,这种时候就需要返回NULL,即实体指称项没有对应的候选实体。
在本申请实施例中,可以提供关系网络的可视化展示工具,提供针对关系网络图的交互操作工具,如网络关系图的拖拉、缩放、布局、选择等功能;提供网络数据的统计查询功能,如以出度入度为标准的统计查询,当前网络点、边、图密度、平均度的统计查询,针对节点和边进行列表统计等。将抽取的知识进行可视化展示,提供交互场景,针对抽取的内容,可根据实际经验进行调整。最后将人工验证的知识进行结构化存储,除存储在关系数据库外,还将节点和关系存储至图数据库中。同时提供查询的交互场景,对相关节点及关联关系进行可视化展示和相关交互功能。
在本申请实施例中,在构建知识图谱之前,需要进行数据预处理,用于适配后续自动化知识图谱构建,包含文本格式转化功能和文本数据标注功能。
在本申请实施例中,可以采用B/S的网络结构模式,将系统功能实现的核心部分集中到服务器上,简化系统的开发、维护和使用。
本申请实施例提供了一种金融标准化领域知识图谱的构建方法,基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。可见,在本申请实施例中,可以对金融标准文件构建知识图谱,根据知识图谱中包括的命名实体的关系信息,对一种金融标准文件进一步分析金融标准文件以后的改进与创新,提前布局相关领域,抢占先机,而且,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。
基于以上金融标准化领域知识图谱的构建方法,本申请实施例还提供了一种金融标准化领域知识图谱的构建装置,参考图8所示,为本申请实施例提供的一种金融标准化领域知识图谱的构建装置的结构框图,该装置可以包括:
获取单元100,用于基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;
识别单元200,用于对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;
构建单元300,用于根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。
本申请实施例提供了一种金融标准化领域知识图谱的构建装置,获取单元,用于基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;识别单元,用于对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;构建单元,用于根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。可见,在本申请实施例中,可以对金融标准文件构建知识图谱,根据知识图谱中包括的命名实体的关系信息,对一种金融标准文件进一步分析金融标准文件以后的改进与创新,提前布局相关领域,抢占先机,而且,通过知识图谱可以获取到仅仅通过阅读金融标准文件无法发现关联的关系信息,提高用户对金融标准文件的理解程度,以便用户正确使用金融标准文件。
又一方面,本申请实施例提供了一种计算机设备,参见图9,该图示出了本申请实施例提供的一种计算机设备的结构图,如图9所示,所述设备包括处理器310以及存储器320:
所述存储器310用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器320用于根据所述程序代码中的指令执行上述实施例提供的金融标准化领域知识图谱的构建方法。
该计算机设备可以包括终端设备或服务器,前述的金融标准化领域知识图谱的构建装置可以配置在该计算机设备中。
又一方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的金融标准化领域知识图谱的构建方法。
另外,本申请实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的金融标准化领域知识图谱的构建方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅是本申请的优选实施方式,虽然本申请已以较佳实施例披露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。
Claims (10)
1.一种金融标准化领域知识图谱的构建方法,其特征在于,包括:
基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;
对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;
根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。
2.根据权利要求1所述的方法,其特征在于,在所述待识别文本的数据量小于第一阈值时,所述对所述待识别文本进行命名实体识别,得到命名实体,包括:
将所述待识别文本和预设规则模板进行匹配,得到命名实体。
3.根据权利要求2所述的方法,其特征在于,所述金融标准文件为TXT文档格式的论文,所述预设规则模板包括多个标签,所述多个标签包括标题、作者和摘要,所述将所述待识别文本和预设规则模板进行匹配,得到命名实体,包括:
获取所述待识别文本中第一个非空行及第一个非空行之后的多个连续非空行的第一文本,作为标签为标题时对应的第一实体;
将所述标签为标题时对应的第一实体和标题标签作为第一命名实体;
获取所述第一实体的下一个非空行中的第二文本,并以所述第二文本之间的逗号作为分隔符划分得到多个第三文本,将所述多个第三文本作为标签为作者时对应的第二实体;
将所述标签为作者时对应的第二实体和作者标签作为第二命名实体;
通过正则的方式对所述待识别文本进行abstract字段的匹配,将所述待识别文本中abstract之后的多个连续的非空行的内容,作为标签为摘要时对应的第三实体;
将所述标签为摘要时对应的第三实体和所述摘要标签作为第三命名实体。
4.根据权利要求1所述的方法,其特征在于,在所述待识别文本的数据量大于或等于第一阈值时,所述对所述待识别文本进行命名实体识别,得到命名实体,包括:
基于BERT-BiLSTM-CRF模型对所述待识别文本进行命名实体识别,得到命名实体。
5.根据权利要求1-4任意一项所述的方法,其特征在于,在所述待识别文本的数据量小于第二阈值时,所述根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,包括:
基于依存句法分析对所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息。
6.根据权利要求1-4任意一项所述的方法,其特征在于,在所述待识别文本的数据量大于或等于第二阈值时,所述根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,包括:
基于PCNN对所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息。
7.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
获取用户输入的查询语句中的实体指称项;
将所述实体指称项与所述知识图谱中的实体进行匹配,得到候选实体列表;所述候选实体列表包括多个实体;
对所述候选实体列表中的多个实体进行相关性排序,将相关性最大的实体作为目标链接实体,并向所述用户展示。
8.一种金融标准化领域知识图谱的构建装置,其特征在于,包括:
获取单元,用于基于金融标准文件获取待识别文本;所述待识别文本包括多个实体;
识别单元,用于对所述待识别文本进行命名实体识别,得到命名实体;所述命名实体包括实体和所述实体的标签;
构建单元,用于根据所述待识别文本和所述命名实体进行关系抽取,得到命名实体的关系信息,并根据所述命名实体的关系信息构建知识图谱。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211282420.4A CN115438195A (zh) | 2022-10-19 | 2022-10-19 | 一种金融标准化领域知识图谱的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211282420.4A CN115438195A (zh) | 2022-10-19 | 2022-10-19 | 一种金融标准化领域知识图谱的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438195A true CN115438195A (zh) | 2022-12-06 |
Family
ID=84252722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211282420.4A Pending CN115438195A (zh) | 2022-10-19 | 2022-10-19 | 一种金融标准化领域知识图谱的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438195A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759104A (zh) * | 2023-01-09 | 2023-03-07 | 山东大学 | 基于实体识别的金融领域舆情分析方法与系统 |
CN117077631A (zh) * | 2023-10-16 | 2023-11-17 | 中国电建集团西北勘测设计研究院有限公司 | 一种基于知识图谱的工程应急预案生成方法 |
-
2022
- 2022-10-19 CN CN202211282420.4A patent/CN115438195A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759104A (zh) * | 2023-01-09 | 2023-03-07 | 山东大学 | 基于实体识别的金融领域舆情分析方法与系统 |
CN115759104B (zh) * | 2023-01-09 | 2023-09-22 | 山东大学 | 基于实体识别的金融领域舆情分析方法与系统 |
CN117077631A (zh) * | 2023-10-16 | 2023-11-17 | 中国电建集团西北勘测设计研究院有限公司 | 一种基于知识图谱的工程应急预案生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
Abello et al. | Computational folkloristics | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN115438195A (zh) | 一种金融标准化领域知识图谱的构建方法及装置 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
US20220004545A1 (en) | Method of searching patent documents | |
US20210350125A1 (en) | System for searching natural language documents | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN111104437A (zh) | 基于对象模型的试验数据统一检索方法和系统 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN112988982B (zh) | 一种计算机比较空间的自主学习方法及系统 | |
CN112632223B (zh) | 案事件知识图谱构建方法及相关设备 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
Kunanets et al. | Enhanced LSA Method with Ukraine Language Support. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |