CN112329468A

CN112329468A - 异质关系网络的构建方法、装置、计算机设备及存储介质

Info

Publication number: CN112329468A
Application number: CN202011212524.9A
Authority: CN
Inventors: 张广凯
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-05
Anticipated expiration: 2040-11-03
Also published as: CN112329468B

Abstract

本申请涉及人工智能技术，具体应用于自然语言处理中，揭露了一种异质关系网络的构建方法、装置、计算机设备及存储介质，包括从预设知识库获取待处理语句；基于结巴分析对待处理语句进行切词处理，得到多个字词；利用预设的词性标注对所述字词进行词性分类，至少分为停用词、关联词和特征词；利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特征词之间的关联权重，基于所述关联权重建立关系链路；根据所述关系链路建立异质关系网络。本申请还涉及区块链技术，所述异质关系网络中的所有数据存储于区块链中。本申请能清楚且完整的得到金融领域下的各实体概念或专业名词间的异质关系网络。

Description

异质关系网络的构建方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种异质关系网络的构建方法、装置、计算机设备及存储介质。

背景技术

随着社会的发展，人们不断重视金融产品的收益作用，所以对于金融产品的购入类型及购入后面临情况也越来越复杂。金融产品涉及的专业名词和实体概念很多，并且各概念实体间的关系复杂。例如在购入金融产品后，会出现的理赔情况，理赔作为金融产品整个流程中的一个重要的环节，其基本流程主要包括：报案、查勘定损、签收审核索赔单证、理算符合、审批、赔付结案等多个复杂的流程，其中的各部分之间关系更是复杂。目前现有的整理方法为建立体系网络或知识图谱来对其关系进行整理。现有的金融产品的体系网络或知识图谱通常以爬虫爬取、日志搜索(querylog)或基于Bootstrapping的多类别协同模式学习等方式来建立，通过这些方式形成的体系网络或知识图谱其各实体概念之间的关系不清楚，且所有实体概念之间的关系不够完整。

发明内容

本申请提供了一种异质关系网络的构建方法、装置、计算机设备及存储介质，以解决现有技术中不能清楚且完整的建立金融领域下的各实体概念或专业名词间的演化体系的问题。

为解决上述问题，本申请提供了一种异质关系网络的构建方法，包括：

从预设知识库获取待处理语句；

基于结巴分析对待处理语句进行切词处理，得到多个字词；

利用预设的词性标注对所述字词进行词性分类，至少分为停用词、关联词和特征词；

利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特征词之间的关联权重，基于所述关联权重建立关系链路；

根据所述关系链路建立异质关系网络。

进一步的，所述从预设知识库获取待处理语句包括：

向预设知识库发送调用请求，所述调用请求携带验签令牌；

接收所述知识库返回的验签结果，并在验签结果为通过时，调用所述预设知识库中的语句，获取所述待处理语句。

进一步的，所述基于结巴分析对待处理语句进行切词处理，得到多个字词包括：

基于预设的Trie树扫描所述待处理语句，识别所述待处理语句中字词的多种切分组合；

基于识别到的所有切分组合构建有向无环图，利用所述有向无环图进行动态规划查找最大概率路径，确定最大概率的切分组合，基于所述最大概率的切分组合对待处理语句进行切词；

对未被识别出的字词，采用隐马尔可夫模型进行切分。

进一步的，所述利用预设的词性标注对所述字词进行词性分类包括：

将所述字词分别与所述词性标注中的停用词库、关联词库和特征词库中的内容进行匹配，确定所述字词的词性类别；

基于所述字词的词性类别将所述字词进行分类。

进一步的，所述利用演化关系模型在两个所述特征词之间建立演化关系包括：

基于所述关联词，确定两个所述特征词之间的关联关系；

判断两个所述特征词之间的关联关系是否满足演化关系模型中预设的限制条件，所述限制条件为两个所述特征词互为先行概念和导向概念；

若满足，则在所述特征词之间建立演化关系。

进一步的，所述计算两个所述特征词之间的关联权重，基于所述关联权重建立关系链路包括：

识别所述特征词的属性，基于所述建立演化关系的两个特征词的属性计算所述建立演化关系的特征词之间的所述关联权重；

将所述关联权重与第一阈值进行比较；

当所述关联权重大于所述第一阈值时，以所述特征词作为节点，基于所述演化关系建立所述关系链路。

进一步的，所述当所述关联权重大于所述第一阈值时，以所述特征词作为节点，基于所述演化关系建立所述关系链路包括：

将所述关联权重与第二阈值进行比较；

当所述关联权重大于所述第二阈值时，所述关系链路使用实线连接；

当所述关联权重小于所述第二阈值且大于所述第一阈值时，所述关系链路使用虚线连接；

其中，所述第二阈值大于所述第一阈值。

为了解决上述问题，本申请还提供一种异质关系网络的构建装置，所述装置包括：

获取模块，用于从预设知识库获取待处理语句；

切词模块，用于基于结巴分析对待处理语句进行切词处理，得到多个字词；

标注模块，用于利用预设的词性标注对所述字词进行词性分类，至少分为停用词、关联词和特征词；

关系链路建立模块，用于利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特征词之间的关联权重，基于所述关联权重建立关系链路；

异质关系网络建立模块，用于根据所述关系链路建立异质关系网络。

为了解决上述问题，本申请还提供一种计算机设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述所述的异质关系网络的构建方法。

为了解决上述问题，本申请还提供一种非易失性的计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述所述的异质关系网络的构建方法。

根据本申请实施例提供的异质关系网络的构建方法、装置、计算机设备及存储介质，与现有技术相比至少具有以下有益效果：

通过从预设知识库中获取待处理语句，并通过结巴分析来对待处理语句进行切词，从而得到多个字词，并将切分后的字词利用预设的词性标注对字词进行词性分类，至少分为停用词、关联词和特征词，以便于后续对特证词之间建立联系；利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特证词间的关联权重，基于所述关联权重建立关系链路。即通过上述步骤使特征词之间两两建立联系，并最终基于特征词间的联系，建立异质关系网络。通过上述步骤建立的异质网络关系，能清楚且完整的得到金融领域下的各实体概念或专业名词间的异质关系网络。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图做一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的异质关系网络的构建方法的流程示意图；

图2为本申请一实施例提供的有向无环图；

图3为本申请一实施例提供的异质关系网络的构建装置的模块示意图；

图4为本申请一实施例的计算机设备的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例，也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供一种异质关系网络的构建方法。参照图1所示，为本申请一实施例提供的异质关系网络的构建方法的流程示意图。

在本实施例中，异质关系网络的构建方法包括：

S1、从预设知识库获取待处理语句；

具体的，所述预设知识库为金融知识库，所述金融知识库中含有本公司和网络上大量现实产生的金融领域的案子，例如其中的保险理赔领域的案例，其中保险理赔案子中含有大量与理赔情况或理赔流程等相关的语句，通过获取真实发生的案例来建立关系网络，能实现一个真实且完整的异质网络的建立。所以在建立异质关系网络时从金融知识库中获取真实案例中的语句来进行处理。

进一步的，从预设知识库获取待处理语句的步骤，具体包括：

向预设知识库发送调用请求，所述调用请求携带验签令牌；

具体的，由于预设知识库为金融知识库，其中包含了本公司真实产生的金融案例，其包含了用户的隐私，所以在对预设知识库中的内容进行调用时，需要进行验签的步骤，避免用户的隐私的泄露。

所以要从预设知识库中获取待处理语句需要向预设知识库发送调用请求，其中调用请求中其携带有验签令牌；预设知识库将对令牌进行验签步骤，并返回验签结果，只有在验签结果通过时，才能调用所述预设知识库中的语句，所述语句可以是一句也可以是多句。

通过上述步骤，进行一个验签的步骤能保证预设知识库中的内容的安全性，避免用户隐私泄露。

S2、基于结巴分析对待处理语句进行切词处理，得到多个字词；

具体的，所述结巴分析支持三种切词模式；精确模式，将语句最精确的分开；全模式，把句子中所有的可以成词的词语都扫描出来；搜索引擎模式，在精确模式的基础上，对长词再次进行切分。在本申请中使用的是精确模式的结巴分析，便于将待处理语句精确的分开。

在本申请中直接利用的python中的结巴工具包，通过导入这一结巴工具包，就可以处理每一条输入进来的金融领域相关的待处理语句，实现待处理语句的切词处理。

例如，将“勘察之后的流程是定损”利用结巴分析的精确模式进行切词处理后将得到“勘察/之后/的/流程/是/定损”这样的字词。

进一步的，基于结巴分析对待处理语句进行切词处理，得到多个字词的步骤，具体包括：

对未被识别出的字词，采用隐马尔可夫模型进行切分。

具体的，Trie树又叫字典树，是一种常见的数据结构，也是一种前缀树，用于在一个字符串列表中进行快速的字符串匹配。基于预设的Trie树扫描所述待处理语句，识别出所述待处理语句中字词的多种切分组合，就将待处理语句与Trie树进行扫描匹配，生成字词的多种切分组合。将多种切分组合构成有向无环图，在有向无环图中每个节点即切分后的字词。

如图2所示，示出了一有向无环图，将“去北京大学玩”这句话进行了切分，分为去/北/京/大/学/玩，去/北京/大/学/玩，去/北京/大学/玩，去/北京大学/玩，去/北/京/大学/玩五种切分组合，将这五种切分组合构成有向无环图。所述弧形箭头表示将将弧形箭头起点与终点之间的字词组合在一起。而横向箭头可以代表将字词切分。

随后利用所述有向无环图进行动态规划查找最大概率路径，在利用词典生成Trie树时，将每个词出现的次数转换为频率。对于给出的多种切分组合，对各切分组合查找该切分组合出现的频率，即有向无环图中每个节点的概率，计算最大概率路径的主函数是calc，函数根据构建好的有向无环图计算最大概率路径。所述函数calc是一个自底向上的动态规划，它从待处理语句的最后一个字词开始倒序遍历待处理语句的每个字词的方式，计算待处理语句各切分组合的概率对数得分。然后将概率对数得分最高的情况以这样的切分组合方式保存并输出。即得到概率最大的切分组合，并基于该切分组合对待处理语句进行切分。

并且由于词典的局限性，不能包含所有的字词，所以对未在词典中出现过的字词，将采用隐马尔可夫模型进行切分，隐马尔可夫模型将中文词汇按照BEMS四个状态来进行标记，B是指开始位置，E是指结束位置，M是指中间位置，S是指单独成词的位置，结巴分析采用上述四种状态来标记中文词语，例如北京可以标注为BE，即北/B京/E，即北为开始位置，京为结束位置。来进行拆分。

通过上述的方式对待处理语句进行切分，能得到最接近真实情况的切分组合。

S3、利用预设的词性标注对所述字词进行词性分类，至少分为停用词、关联词和特征词；

具体的，将上述经切词处理后的字词利用词性标注进行分类，例如将“勘察/之后/的/流程/是/定损”中的各字词进行分类，将“查勘/定损”归类为特征词，“之后”归类为关联词，而将“的/流程/是”归类为停用词。

进一步的，利用预设的词性标注对所述字词进行词性分类的步骤，具体包括：

基于所述字词的词性类别将所述字词进行分类。

具体的，所述停用词库、关联词库和特证词库都获取的现有已建成的数据库，可从网络上直接获取，其保存的内容则是其对应词性的字词，例如停用词库中保存的都是词性为停用词的字词，关联词库中保存的都是词性为关联词的字词，特证词库中保存的都是词性为特征词的字词。在标注词性时，将调用所述切分后的字词与上述三个数据库的内容来与进行匹配，从而得出所述字词的类别，并根据所述字词的类别来对其进行分类。

通过上述步骤对切分后的字词进行词性标注，得到所述字词的词性类别，便于后续对特征词的处理。

S4、利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特征词之间的关联权重，基于所述关联权重建立关系链路；

具体的，基于上述步骤将所述字词分为停用词、关联词和特征词后，在满足演化关系模型的两个特征词间建立演化关系，并计算两个所述特征词间的关联权重，基于所述关联权重建立关系链路。

所述关联权重指的是两个特征词间的关联性大小。

进一步的，利用演化关系模型在两个所述特征词之间建立演化关系，具体包括：

基于所述关联词，确定两个所述特征词之间的关联关系；

若满足，则在所述特征词之间建立演化关系。

具体的，不同特征词间都对应相同的限制条件，并且两两判断，若出现N个关联词，将会进行C_N ²次判断。例如出现3个特证词(A/B/C)时，将进行C₃ ²次判断(即AB/AC/BC)。

所述演化关系模型根据理赔之间的业务逻辑以及依存语法对每两个特征词之间的关系进行抽取，每个特征词也就是整个理赔流程的一个小环节，而在此小环节中，还存在其他的特征。

例如，理赔开始环节报案，在这个环节里面会存在一个特征就是人，定损会存在车这个特征。

先通过确定所述关联词，再查找关联词附近的特征词，进而确定具有关联关系的特征词。

对于给定的特征词A、B，即具有关联关系的两个特征词，若两者之间满足限制条件的句子S(A[限制条件]B)，则演化关系表示为restrict(A,B)，其中A为B的先行概念，B为A的导向概念。

在具有演化关系的句子中关联词在语句中起到重要作用，它将先行概念与导向概念之间的关联关系结合在一起，因此根据这一规则构建关系模式，如下：

{演化关系模式：<#concept1><#停用词><关联词><#concept2>}；

在演化关系模式中“concept1”和“concept2”代表的是特征词，<#concept1>、<#concept2>代表包含特征词的任意字符串，停用词即为上述所述的“的、得、地”等。所述关联词，其在特征词间起到桥梁的作用。所述停用词与关联词之间的位置可随意变动。

若两个特征词满足上述的演化关系模式的，则将先行概念标记为loaderS，相应的导向概念标记为guideS。

例如，将待处理语句“查勘之后的流程是定损”经切词处理及词性标注后，得到“查勘/(特征词)，之后/(关联词)，的/(停用词)，流程/(停用词),是/(停用词)，定损/(特征词)”，紧接着判断其演化关系，即其{演化关系模式：<查勘><之后><的/流程/是><定损>}，与上述演化关系模式的结构相匹配，所以得到演化关系restrict(查勘，定损)，其中上述查勘即为loaderS，所述定损即为guideS。

所述先行概念是指对于概念实体A与概念实体B，只有概念实体A先实行，才能实行概率实体B；

所述导向概念是指对于概念实体A与概念实体B，概念实体B的实施依赖于概念实体A实施，即只有概念实体A先实行，才能实行概率实体B。

通过上述步骤，能实现将所有的有演化关系的特征词间建立演化关系，保证了所有特征词间关系的完整性。

进一步的，计算两个所述特征词之间的关联权重，基于所述关联权重建立关系链路，具体包括：

将所述关联权重与第一阈值进行比较；

具体的，在所述两个特征词间建立演化关系后，将基于建立演化关系的两个特证词的属性来计算建立演化关系的特征词之间的所述关联权重，识别所述特征词的属性，所述特征词的属性包括内部属性和外部属性，所述内部属性指的是其自身表达的词义；而外部属性是指特征词的词性以及词的长度。

根据所述特征词的内部属性和外部属性来生成特征词对应的词向量，每个特征词可以利用各种词向量生成方法确定该词的词向量。词向量可以使用于表示词语特征的向量，词向量的每一维的值代表一个具有一定语义和语法上解释的特征，所述特征即可以为上述所述的内部属性和外部属性。词向量的获取方法有多种，一是在电子设备上预先存储了大量特征词对应的词向量，各个词向量可以具有相同的维数，语义上较为接近的词的词向量的余弦距离较小。在本申请中，将两个词向量夹角的余弦值度量两个词的差异大小，即上述中的关联权重，当两个词之间的差异小时，即此时的关联权重较大；反之，当两个词之间的差异大时，此时的关联权重较小；

并且对于关联权重还设有第一阈值，只有当建立演化关系的两个特征词间的关联权重大于所述第一阈值时，才能将已建立演化关系的两个特证词作为两个节点，并在所述两个节点间建立关系链路。若关联权重小于阈值时，则不建立所述关系链路。

并且所述第一阈值的设定，可根据用户的需求来自由设定，在本申请中所述第一阈值的大小设为0.7；

通过上述步骤，计算已建立演化关系的两个特征词间的关联权重，并且只有在关联权重满足第一阈值要求时，才建立在所述特征词间建立关系链路，基于上述方式实现了在特征词间完整的建立关系链路。

再进一步的，当所述关联权重大于所述第一阈值时，以所述特征词作为节点，基于所述演化关系建立所述关系链路，具体包括：

将所述关联权重与第二阈值进行比较，当所述关联权重大于所述第二阈值时，所述关系链路使用实线连接；

其中，所述第二阈值大于所述第一阈值。

具体的，当所述关联权重大于所述第二阈值时，在两个特征词之间的关系链路使用实线连接，以表明这两个特征词的关联性较大；而当所述关联权重小于预设数值且第二阈值时，将两个特征词使用虚线来进行连接，以表明虚线连接的这两个特征词的关联性稍小。

并且所述第二阈值的设定，可根据用户的需求来自由设定，在第一阈值设为0.7的基础上，将第二阈值设定为0.85。

通过上述方式，能清楚且完整的展示特征词间的关系链路。

S5、根据所述关系链路建立异质关系网络；

具体的，遍历整个预设知识库中所有已建立关系链路的特征词，将各关系链路收集统一管理，最终形成异质关系网络。

需要强调的是，为了进一步保证数据的私密性和安全性，所述异质关系网络的所有数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请通过从预设知识库中获取待处理语句，并通过结巴分析来对待处理语句进行切词，从而得到多个字词，并将切分后的字词利用预设的词性标注对字词进行词性分类，至少分为停用词、关联词和特征词，以便于后续对特证词之间建立联系；利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特证词间的关联权重，基于所述关联权重建立关系链路。即通过上述步骤使特征词之间两两建立联系，并最终基于特征词间的联系，建立异质关系网络。通过上述步骤建立的异质网络关系，能清楚且完整的得到金融领域下的各实体概念或专业名词间的异质关系网络。

如图3所示，是本申请异质关系网络的构建装置的功能模块图。

本申请所述异质关系网络的构建装置100可以安装于电子设备中。根据实现的功能，所述异质关系网络的构建装置100可以包括获取模块101、切词模块102、标注模块103、关系链路建立模块104和异质关系网络建立模块105。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

获取模块101，用于从预设知识库获取待处理语句；

具体的，所述预设知识库为金融知识库，所述金融知识库中含有本公司和网络上大量现实产生的金融领域的案子，例如其中的保险理赔领域的案例，其中保险理赔案子中含有大量与理赔情况或理赔流程等相关的语句，获取模块101通过获取真实发生的案例来建立关系网络，能实现一个真实且完整的异质网络的建立。所以在建立异质关系网络时从金融知识库中获取真实案例中的语句来进行处理。

进一步的，获取模块101包括发送请求子模块和接收调用子模块；

发送请求子模块，用于向预设知识库发送调用请求，所述调用请求携带验签令牌；

接收调用子模块，用于接收所述知识库返回的验签结果，并在验签结果为通过时，调用所述预设知识库中的语句，获取所述待处理语句。

具体的，要从预设知识库中获取待处理语句需要利用发送请求子模块向预设知识库发送调用请求，其中调用请求中其携带有验签令牌；预设知识库将对令牌进行验签步骤，接收调用子模块接收返回的验签结果，只有在验签结果通过时，接收调用子模块才能调用所述预设知识库中的语句，所述语句可以是一句也可以是多句。

通过发送请求子模块和接收调用子模块的配合，进行一个验签的步骤能保证预设知识库中的内容的安全性，避免用户隐私泄露。

切词模块102，用于基于结巴分析对待处理语句进行切词处理，得到多个字词；

具体的，在本申请中切词模块102是精确模式的结巴分析，便于将待处理语句精确的分开。

在本申请中切词模块102直接利用的python中的结巴工具包，通过导入这一结巴工具包，就可以处理每一条输入进来的金融领域相关的待处理语句，实现待处理语句的切词处理。

进一步的，切词模块102包括Trie树子模块、动态规划子模块和隐马尔可夫子模块；

Trie树子模块，利用预设的Trie树扫描所述待处理语句，识别所述待处理语句中字词的多种切分组合；

动态规划子模块，基于识别到的所有切分组合构建有向无环图，利用所述有向无环图进行动态规划查找最大概率路径，确定最大概率的切分组合，基于所述最大概率的切分组合对待处理语句进行切词；

隐马尔可夫子模块，用于对未被识别出的字词，采用隐马尔可夫模型进行切分；

具体的，Trie树子模块基于预设的Trie树扫描所述待处理语句，识别出所述待处理语句中字词的多种切分组合，即在结巴分析中有一词典，将词典生成了Trie树，就将待处理语句与Trie树进行扫描匹配，生成字词的多种切分组合。将多种切分组合构成有向无环图，在有向无环图中每个节点即切分后的字词。

动态规划子模块利用所述有向无环图进行动态规划查找最大概率路径，在利用词典生成Trie树时，将每个词出现的次数转换为频率。对于给出的多种切分组合，对各切分组合查找该切分组合出现的频率，即有向无环图中每个节点的概率，计算最大概率路径的主函数是calc，函数根据构建好的有向无环图计算最大概率路径。所述函数calc是一个自底向上的动态规划，它从待处理语句的最后一个字词开始倒序遍历待处理语句的每个字词的方式，计算待处理语句各切分组合的概率对数得分。然后将概率对数得分最高的情况以这样的切分组合方式保存并输出。即得到概率最大的切分组合，并基于该切分组合对待处理语句进行切分。

并且由于词典的局限性，不能包含所有的字词，所以隐马尔可夫子模块对未在词典中出现过的字词，将采用隐马尔可夫模型进行切分，隐马尔可夫模型将中文词汇按照BEMS四个状态来进行标记，B是指开始位置，E是指结束位置，M是指中间位置，S是指单独成词的位置，结巴分析采用上述四种状态来标记中文词语，例如北京可以标注为BE，即北/B京/E，即北为开始位置，京为结束位置。来进行拆分。

通过Trie树子模块、动态规划子模块和隐马尔可夫子模块的配合对待处理语句进行切分，能得到最接近真实情况的切分组合。

标注模块103，用于利用预设的词性标注对所述字词进行词性分类，至少分为停用词、关联词和特征词；

具体的，标注模块103将上述经切词处理后的字词利用词性标注进行分类。

进一步的，标注模块103包括词性类别判断子模块和分类子模块；

词性类别判断子模块，将所述字词分别与所述词性标注中的停用词库、关联词库和特征词库中的内容进行匹配，确定所述字词的词性类别；

分类子模块基于所述字词的词性类别将所述字词进行分类；

具体的，词性类别判断子模块在标注词性时，将调用所述切分后的字词与上述停用词库、关联词库和特征词库中的内容来与进行匹配，从而得出所述字词的类别，分类子模块根据所述字词的类别来对其进行分类。

通过词性类别判断子模块和分类子模块的配合对切分后的字词进行词性标注，得到所述字词的词性类别，便于后续对特征词的处理。

关系链路建立模块104，用于利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特征词之间的关联权重，基于所述关联权重建立关系链路；

具体的，关系链路建立模块104基于上述步骤将所述字词分为停用词、关联词和特征词后，在满足演化关系模型的两个特征词间建立演化关系，并计算两个所述特征词间的关联权重，基于所述关联权重建立关系链路。

进一步的，关系链路建立模块104包括关联关系子模块和演化关系判断模块；

关联关系子模块基于所述关联词，确定两个所述特征词之间的关联关系；

演化关系判断模块判断两个所述特征词之间的关联关系是否满足演化关系模型中预设的限制条件，所述限制条件为两个所述特征词互为先行概念和导向概念；若满足，则在所述特征词之间建立演化关系。

具体的，关联关系子模块先通过确定关联词，再查找关联词附近的特征词，进而确定具有关联关系的特征词。

演化关系判断模块对于给定的特征词A、B，即有关联关系的两个特征词，若两者之间满足限制条件的句子S(A[限制条件]B)，则演化关系表示为restrict(A,B)，其中A为B的先行概念，B为A的导向概念。

{演化关系模式：<#concept1><#停用词><关联词><#concept2>}；

通过关联关系子模块和演化关系判断模块的配合，能实现将所有的有演化关系的特征词间建立演化关系，保证了所有特征词间关系的完整性。

进一步的，关系链路建立模块104包括关联权重计算子模块、阈值比较子模块和链路建立子模块；

关联权重计算子模块用于识别所述特征词的属性，基于所述建立演化关系的两个特征词的属性计算所述建立演化关系的特征词之间的所述关联权重；

第一阈值比较子模块将所述关联权重与第一阈值进行比较；

链路建立子模块用于当所述关联权重大于所述第一阈值时，以所述特征词作为节点，基于所述演化关系建立所述关系链路。

具体的，在所述两个特征词间建立演化关系后，关联权重计算子模块将基于建立演化关系的两个特证词的属性来计算建立演化关系的特征词之间的所述关联权重，识别所述特征词的属性，所述特征词的属性包括内部属性和外部属性，所述内部属性指的是其自身表达的词义；而外部属性是指特征词的词性以及词的长度。

关联权重计算子模块根据所述特征词的内部属性和外部属性来生成特征词对应的词向量，利用各种词向量生成方法确定该词的词向量。词向量可以使用于表示词语特征的向量，词向量的每一维的值代表一个具有一定语义和语法上解释的特征，所述特征即可以为上述所述的内部属性和外部属性。词向量的获取方法有多种，一是在电子设备上预先存储了大量特征词对应的词向量，各个词向量可以具有相同的维数，语义上较为接近的词的词向量的余弦距离较小。在本申请中，将两个词向量夹角的余弦值度量两个词的差异大小，即上述中的关联权重，当两个词之间的差异小时，即此时的关联权重较大；反之，当两个词之间的差异大时，此时的关联权重较小；

第一阈值比较子模块对于关联权重还设有第一阈值，将关联权重与第一阈值进行比较，链路建立子模块只有当建立演化关系的两个特征词间的关联权重大于所述第一阈值时，才能将已建立演化关系的两个特证词作为两个节点，并在所述两个节点间建立关系链路。若关联权重小于阈值时，则不建立所述关系链路。

通过关联权重计算子模块、阈值比较子模块和链路建立子模块的配合，计算已建立演化关系的两个特征词间的关联权重，并且只有在关联权重满足第一阈值要求时，才建立在所述特征词间建立关系链路，基于上述方式实现了在特征词间完整的建立关系链路。

再进一步的，链路建立子模块包括第二阈值比较单元

第二阈值比较单元将所述关联权重与第二阈值进行比较，当所述关联权重大于所述第二阈值时，所述关系链路使用实线连接；

其中，所述第二阈值大于所述第一阈值。

具体的，第二阈值比较单元将所述关联权重与第二阈值进行比较，当所述关联权重大于所述第二阈值时，在两个特征词之间的关系链路使用实线连接，以表明这两个特征词的关联性较大；而当所述关联权重小于预设数值且第二阈值时，将两个特征词使用虚线来进行连接，以表明虚线连接的这两个特征词的关联性稍小。

通过第二阈值比较单元，能清楚且完整的展示特征词间的关系链路。

异质关系网络建立模块105，用于根据所述关系链路建立异质关系网络；

具体的，异质关系网络建立模块105遍历整个预设知识库终所有已建立关系链路的特征词，将各关系链路收集统一管理，最终形成异质关系网络。

通过采用上述装置，所述异质关系网络的构建装置100通过获取模块101、切词模块102、标注模块103、关系链路建立模块104和异质关系网络建立模块105的配合使用，能清楚且完整的得到金融领域下的各实体概念或专业名词间的异质关系网络

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如异质关系网络的构建方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述异质关系网络的构建方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例异质关系网络的构建方法的步骤，通过从预设知识库中获取待处理语句，并通过结巴分析来对待处理语句进行切词，从而得到多个字词，并将切分后的字词利用预设的词性标注对字词进行词性分类，至少分为停用词、关联词和特征词，以便于后续对特证词之间建立联系；利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特证词间的关联权重，基于所述关联权重建立关系链路。即通过上述步骤使特征词之间两两建立联系，并最终基于特征词间的联系，建立异质关系网络。通过上述步骤建立的异质网络关系，能清楚且完整的得到金融领域下的各实体概念或专业名词间的异质关系网络。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的异质关系网络的构建方法的步骤，通过从预设知识库中获取待处理语句，并通过结巴分析来对待处理语句进行切词，从而得到多个字词，并将切分后的字词利用预设的词性标注对字词进行词性分类，至少分为停用词、关联词和特征词，以便于后续对特证词之间建立联系；利用演化关系模型在两个所述特征词之间建立演化关系，并计算两个所述特证词间的关联权重，基于所述关联权重建立关系链路。即通过上述步骤使特征词之间两两建立联系，并最终基于特征词间的联系，建立异质关系网络。通过上述步骤建立的异质网络关系，能清楚且完整的得到金融领域下的各实体概念或专业名词间的异质关系网络。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种异质关系网络的构建方法，其特征在于，所述方法包括：

从预设知识库获取待处理语句；

基于结巴分析对待处理语句进行切词处理，得到多个字词；

根据所述关系链路建立异质关系网络。

2.根据权利要求1所述的异质关系网络的构建方法，其特征在于，所述从预设知识库获取待处理语句包括：

向预设知识库发送调用请求，所述调用请求携带验签令牌；

3.根据权利要求1所述的异质关系网络的构建方法，其特征在于，所述基于结巴分析对待处理语句进行切词处理，得到多个字词包括：

对未被识别出的字词，采用隐马尔可夫模型进行切分。

4.根据权利要求1所述的异质关系网络的构建方法，其特征在于，所述利用预设的词性标注对所述字词进行词性分类包括：

基于所述字词的词性类别将所述字词进行分类。

5.根据权利要求1所述的异质关系网络的构建方法，其特征在于，所述利用演化关系模型在两个所述特征词之间建立演化关系包括：

基于所述关联词，确定两个所述特征词之间的关联关系；

若满足，则在所述特征词之间建立演化关系。

6.根据权利要求5所述的异质关系网络的构建方法，其特征在于，所述计算两个所述特征词之间的关联权重，基于所述关联权重建立关系链路包括：

将所述关联权重与第一阈值进行比较；

7.根据权利要求6所述的异质关系网络的构建方法，其特征在于，所述当所述关联权重大于所述第一阈值时，以所述特征词作为节点，基于所述演化关系建立所述关系链路包括：

将所述关联权重与第二阈值进行比较；

其中，所述第二阈值大于所述第一阈值。

8.一种异质关系网络的构建装置，其特征在于，所述装置包括：

获取模块，用于从预设知识库获取待处理语句；

9.一种计算机设备，其特征在于，所述计算机设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一所述的异质关系网络的构建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一所述的异质关系网络的构建方法。