CN107633362A - 基于生物特征表达企业要素之间联结方式的方法及其系统 - Google Patents

基于生物特征表达企业要素之间联结方式的方法及其系统 Download PDF

Info

Publication number
CN107633362A
CN107633362A CN201710843358.4A CN201710843358A CN107633362A CN 107633362 A CN107633362 A CN 107633362A CN 201710843358 A CN201710843358 A CN 201710843358A CN 107633362 A CN107633362 A CN 107633362A
Authority
CN
China
Prior art keywords
enterprise
factor
vector
value
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710843358.4A
Other languages
English (en)
Other versions
CN107633362B (zh
Inventor
刘海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianhai Sycamore (shenzhen) Data Co Ltd
Original Assignee
Qianhai Sycamore (shenzhen) Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianhai Sycamore (shenzhen) Data Co Ltd filed Critical Qianhai Sycamore (shenzhen) Data Co Ltd
Priority to CN201710843358.4A priority Critical patent/CN107633362B/zh
Publication of CN107633362A publication Critical patent/CN107633362A/zh
Application granted granted Critical
Publication of CN107633362B publication Critical patent/CN107633362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于生物特征表达企业要素之间联结方式的方法及其系统,该方法包括对特定企业要素的值进行归一化处理;利用归一化处理后的企业要素值按照同一纬度的向量表示,对企业表征向量化,获取原始向量;采用神经网络训练模型进行企业的深度表征,获取企业深度向量;根据企业深度向量获取企业要素之间的内部联结以及外部联结。本发明通过对特定的企业要素的值进行归一化,企业表征向量化及深度向量化,利用获取的企业深度向量获取企业要素的内部联结和外部联结,实现利用生物特征中的神经网络模型与企业要素之间联结有相似之处,为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预测以及对多家企业的背景和态势的分析。

Description

基于生物特征表达企业要素之间联结方式的方法及其系统
技术领域
本发明涉及企业要素,更具体地说是指基于生物特征表达企业要素之间联结 方式的方法及其系统。
背景技术
企业要素之间存在联结,利用企业要素之间的联结,以进行企业态势的预测, 也可以对多家企业的背景和态势的分析,缺少联结的要素对分析企业之间关系 的作用不大。
目前,大部分企业要素之间的联结是通过关系数据库实现的,但是仅仅是一 定程度的要素联结,而且主要通过主键外键之间的映射进行联结,要素之间的 潜移默化的关系需要从不同角度挖掘,目前的联结方式无法表达深层的联结, 导致企业态势的预测不够准确。
因此,有必要设计一种基于生物特征表达企业要素之间联结方式的方法,利 用生物特征中的神经网络模型与企业要素之间联结有着相似之处,为建立企业 要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预测以及 对多家企业的背景和态势的分析。
发明内容
本发明的目的在于克服现有技术的缺陷,提供基于生物特征表达企业要素之 间联结方式的方法及其系统。
为实现上述目的,本发明采用以下技术方案:基于生物特征表达企业要素 之间联结方式的方法,所述方法包括:
对特定企业要素的值进行归一化处理;
利用归一化处理后的企业要素值按照同一纬度的向量表示,对企业表征向 量化,获取原始向量;
采用神经网络训练模型进行企业的深度表征,获取企业深度向量;
根据企业深度向量获取企业要素之间的内部联结以及外部联结。
其进一步技术方案为:对特定企业要素的值进行归一化处理的步骤,包括 以下具体步骤:
对所有企业要素进行编码;
将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业 要素的值。
其进一步技术方案为:将每类企业要素的值按照标准化算法进行标准化, 形成归一化处理的企业要素的值的步骤,包括以下具体步骤:
针对同一纬度的企业要素的值建立集合;
统计集合内同一纬度的企业要素的值出现的频率;
获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率, 以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理 的企业要素的值。
其进一步技术方案为:采用神经网络训练模型进行企业的深度表征,获取 企业深度向量的步骤,包括以下具体步骤:
建立<企业名词,企业名词>的频率表以及<企业名词,事件>的频率表;
根据频率表建立霍夫曼树;
原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权 重矩阵;
从权重矩阵中映射出企业向量,形成企业深度向量。
其进一步技术方案为:建立<企业名词,企业名词>的频率表以及<企业名 词,事件>的频率表的步骤,包括以下具体步骤:
获取符合要求的句子,提取二元组;
对所述句子进行切词处理,获取集合;
统计集合中的二元组的频率,形成建立<企业名词,企业名词>的频率表 以及<企业名词,事件>的频率表。
其进一步技术方案为:原始向量作为输入层,将霍夫曼树作为输出层, 训练神经网络,获取权重矩阵的步骤,包括以下具体步骤
根据原始向量获取二元组向量;
根据霍夫曼树获取二元组向量的路径;
根据路径获取对应的二元组向量的两个分类的概率;
将两个概率相乘,获取似然函数;
根据似然函数获取权重矩阵。
本发明还提供了基于生物特征表达企业要素之间联结方式的系统,包括归 一化处理单元、原始向量获取单元、企业深度向量获取单元以及联结获取单元;
所述归一化处理单元,用于对特定企业要素的值进行归一化处理;
所述原始向量获取单元,用于利用归一化处理后的企业要素值按照同一纬 度的向量表示,对企业表征向量化,获取原始向量;
所述企业深度向量获取单元,用于采用神经网络训练模型进行企业的深度 表征,获取企业深度向量;
所述联结获取单元,用于根据企业深度向量获取企业要素之间的内部联结 以及外部联结。
其进一步技术方案为:所述归一化处理单元包括编码模块以及标准化模块;
所述编码模块,用于对所有企业要素进行编码;
所述标准化模块,用于将每类企业要素的值按照标准化算法进行标准化, 形成归一化处理的企业要素的值。
其进一步技术方案为:所述标准化模块包括集合建立子模块、频率统计子 模块以及归一值获取子模块;
所述集合建立子模块,用于针对同一纬度的企业要素的值建立集合;
所述频率统计子模块,用于统计集合内同一纬度的企业要素的值出现的频 率;
所述归一值获取子模块,用于获取单个企业要素的值内的每个名词的权重 以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以 及对应的概率形成归一化处理的企业要素的值。
其进一步技术方案为:所述企业深度向量获取单元包括频率表建立模块、 霍夫曼树建立模块、权重矩阵获取模块以及深度向量形成模块;
所述频率表建立模块,用于建立<企业名词,企业名词>的频率表以及<企 业名词,事件>的频率表;
所述霍夫曼树建立模块,用于根据频率表建立霍夫曼树;
所述权重矩阵获取模块,用于原始向量作为输入层,将霍夫曼树作为输 出层,训练神经网络,获取权重矩阵;
所述深度向量形成模块,用于从权重矩阵中映射出企业向量,形成企 业深度向量。
本发明与现有技术相比的有益效果是:本发明的基于生物特征表达企业要素 之间联结方式的方法,通过对特定的企业要素的值进行归一化处理,企业表征 向量化以及深度向量化,进行企业要素进行规范化,再利用获取的企业深度向 量获取企业要素的内部联结和外部联结,实现利用生物特征中的神经网络模型 与企业要素之间联结有着相似之处,为建立企业要素之间深层联结的表达方式 提供了依据,有助于对单个企业态势的预测以及对多家企业的背景和态势的分 析。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
图1为本发明具体实施例提供的基于生物特征表达企业要素之间联结方式的 方法的流程图;
图2为本发明具体实施例提供的对特定企业要素的值进行归一化处理的流程 图;
图3为本发明具体实施例提供的将每类企业要素的值按照标准化算法进行标 准化的流程图;
图4为本发明具体实施例提供的采用神经网络训练模型进行企业的深度表征 的流程图;
图5为本发明具体实施例提供的建立<企业名词,企业名词>的频率表以及 <企业名词,事件>的频率表的流程图;
图6为本发明具体实施例提供的获取权重矩阵的流程图;
图7为本发明具体实施例提供的基于生物特征表达企业要素之间联结方式的 系统的结构框图;
图8为本发明具体实施例提供的归一化处理单元的结构框图;
图9为本发明具体实施例提供的标准化模块的结构框图;
图10为本发明具体实施例提供的企业要素及其值的表格;
图11为本发明具体实施例提供的总词频的表格;
图12为本发明具体实施例提供的单个企业要素所含词的词权重表格;
图13为本发明具体实施例提供的每一个企业要素的概率表格;
图14为本发明具体实施例提供的企业原始向量的表格;
图15为本发明具体实施例提供的霍夫曼树的框架图;
图16为本发明具体实施例提供的企业要素粒子产生的势能可视化图;
图17为本发明具体实施例提供的生物学中提出的神经元创新机制图;
图18为本发明具体实施例提供的BE->T->Q->V网络图;
图19为本发明具体实施例提供的内部联结图;
图20为本发明具体实施例提供的外部联结图。
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方 案进一步介绍和说明,但不局限于此。
如图1~20所示的具体实施例,本实施例提供的基于生物特征表达企业要 素之间联结方式的方法,可以运用在建立企业要素之间的联结机制的过程中, 实现利用生物特征中的神经网络模型与企业要素之间联结有着相似之处,为建 立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势的预 测以及对多家企业的背景和态势的分析。
如图1所示,本实施例提供了基于生物特征表达企业要素之间联结方式的 方法,该方法包括:
S1、对特定企业要素的值进行归一化处理;
S2、利用归一化处理后的企业要素值按照同一纬度的向量表示,对企业表 征向量化,获取原始向量;
S3、采用神经网络训练模型进行企业的深度表征,获取企业深度向量;
S4、根据企业深度向量获取企业要素之间的内部联结以及外部联结。
企业基础要素又称Basic Element(BE),是构建AI级企业数据平台的必要成 分,也是BE->T->Q->V体系的底层支柱,如何利用从权威文件中提取的BE来分 布式地表征企业,并对企业进行横向和垂直分析具有重要影响。对于上述的 BE->T->Q->V,是针对企业数据结构特点,提出了基于生物特征的企业要素的 应用场景,如图18所示。
为了便于计算机对BE的处理,首先对BE进行规范化。
对于上述的S1步骤,对特定企业要素的值进行归一化处理的步骤,包括以 下具体步骤:
S11、对所有企业要素进行编码;
S12、将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的 企业要素的值。
不同的BE具有特定的值域,首先对所有BE进行编码,每类BE都被赋予唯一 的“表头代码”,如图10所示,每类BE的值依据一定的标准化算法进行标准化, 主要是从BE内的名词,动词和形容词的频率进行标准化,对于图10的BE名称及 其值统计后的总词频情况如图11所示。
对于上述的S12步骤,将每类企业要素的值按照标准化算法进行标准化,形 成归一化处理的企业要素的值的步骤,包括以下具体步骤:
S121、针对同一纬度的企业要素的值建立集合;
S122、统计集合内同一纬度的企业要素的值出现的频率;
S123、获取单个企业要素的值内的每个名词的权重以及每一个企业要素的 概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一 化处理的企业要素的值。
对于上述的S121步骤,同一维度的BE值建立集合,统计同一维度BE值的词 频(仅考虑名词,动词和形容词),求单个BE值中每个词的权重以及每一个BE 的概率;BE值中每个词的权重标准化公式:W=C_in/C_all;其中,C_in和 C_all分别代表单词W在单个BE和一类BE值中的词频。每一个BE的概率标准化 公式:V_BE=W_1*W_2*W_i…*W_n,其中,W_i代表单词i的权重。对于BE 值中每个词的权重标准化采用单个BE所含词的词权重表表示,如图12所示,针 对图12的词权重表计算出来的每一个BE的概率如图13所示。
获取企业要素的名词权重具有迁移学习的应用价值,任何企业界问题都可以 调用已经训练好的模型,进行个性化问题处理。
对于上述的S2步骤,具体是应用上一步得到的标准化的值,每一个企业个体 都可以用同一纬度的向量表示,如图14所示,企业1=<0.88,0.76,…,0.78>以及 企业2=<0.25,null,…,0.66>称此企业向量为原始向量。在这种表征下,衡量企 业之间的相似度可以转换为计算向量之间的距离。可以利用原始相邻的距离计 算企业之间的相似度,以快速地获取其他企业的企业要素之间的联结方式。
更进一步地,对于上述的S3步骤,采用神经网络训练模型进行企业的深度 表征,获取企业深度向量的步骤,采用同样维度的向量表征企业是分布式信息 处理的一种表现,为进一步学习企业的深度表征模型奠定了基础,企业所发生 的事件代表了企业的动态,从自然语言理解的角度出发,分析某企业名词出现 的上下文可以捕获企业所关联的信息,描述企业的数据具有其独特的模式以及 上下文语境具体是获取在企业数据集下训练出来的词向量,该词向量涵盖有价 值的企业特性,其神经网络训练模型可以采用Tomas Mikolov提出的word2vec 训练方法。
上述的S3步骤,包括以下具体步骤:
S31、建立<企业名词,企业名词>的频率表以及<企业名词,事件>的频 率表;
S32、根据频率表建立霍夫曼树;
S33、原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络, 获取权重矩阵;
S34、从权重矩阵中映射出企业向量,形成企业深度向量。
对于上述的S31步骤,建立<企业名词,企业名词>的频率表以及<企业名 词,事件>的频率表的步骤,包括以下具体步骤:
S311、获取符合要求的句子,提取二元组;
S312、对所述句子进行切词处理,获取集合;
S313、统计集合中的二元组的频率,形成建立<企业名词,企业名词>的 频率表以及<企业名词,事件>的频率表。
具体地,上述的S311步骤至S313步骤,<企业名词,企业名词>,<企业名词, 事件>频率表的建立如下例所示,找到所有含有两个实体(或者以上),或者实 体和事件的句子;从中提取二元组<企业名词1,企业名词2>,<企业名词,事件>, 针对句子s=“企业名词1并购企业名词2”,首先进行切词,得到集合:{企业 名词1,并购,企业名词2},在企业语料库找到完整的企业词,从整个语料库中 统计出二元组<企业名词1,企业名词2>,<企业名词,事件>的频率。
对于上述的S32步骤,具体地,将二元组当作叶子节点,二元组出现的次数 当作权值。比如,统计语料库中的二元组,得到如下结果:<企业名词1,并购>,< 企业名词1,企业名词2>,<企业名词2,并购>出现的次数分别为:20,35,12。以 这些二元组当叶子结点,以出现的次数当作权值,构造出霍夫曼树,且这三个 二元组所对应的编码分别为:01,1和00,如图15所示。
对于上述的S33步骤,原始向量作为输入层,将霍夫曼树作为输出层,训 练神经网络,获取权重矩阵的步骤,包括以下具体步骤:
S331、根据原始向量获取二元组向量;
S332、根据霍夫曼树获取二元组向量的路径;
S333、根据路径获取对应的二元组向量的两个分类的概率;
S334、将两个概率相乘,获取似然函数;
S335、根据似然函数获取权重矩阵。
具体地,上述的S331步骤至S335步骤,上述输入的原始信息是从筛选出的 含有两个(或者以上)的企业名词,或者含有企业和事件的所有句子中摘出的2 个二元组向量。这个向量也要通过训练得到,最终通过霍夫曼树可以得到每个 二元组的路径,从每个路径可以得到其二分类的概率。将概率相乘可以得到: P(二元组|二元组上下文),并由此得到似然函数,进一步最大化这个似然函数。 其中的参数被优化后,可以得到企业深度向量(来自矩阵),其结果的应用场景 如下:比较两家企业的相似度,相似度=cos(企业1深度向量,企业2深度向量), 根据某企业及其动态和组合,预测另一家企业的动态:企业2动态词向量=企 业1深度向量+企业1动态词向量-企业2深度向量。
企业要素之间的联结一般由联结组呈现,联结组表征某一企业不为空的所有 BE构成最基本的BE联结组,依据企业实体的特性,BE与BE之间的联结是动态 的,联结行为的产生可以用注意力集中机制表达,可以以用量子力学为支撑演 化出信息运动学,也可以借鉴生物学理论。在注意力集中机制下,所有BE之间 都有联结,但是联结的权重不同,权重越高,BE之间的关系越紧密,将每一个 BE看做一个信息粒子,该粒子带有能量,称作信息势能,其能量来源于BE与BE 之间的距离,在信息势能的作用下,信息粒子向着某一方向运动,当粒子与粒 子之间的距离达到某一程度时,产生联结,设信息势能E表示为:E= N*N*∑i(∑i K((BEj-BEi))/sigma);则Renyi的二次熵为H:H=-ln(E),在某特定数据 集下,信息势能向着Renyi二次熵的方向趋近,如图16所示。运动的过程中会造 成溢出效应,溢出效应(Externality)是神经学中提出的产生创新思想的源泉,如 图17所示。
BE与BE之间是否形成联结,取决与它们之间的相互作用程度,可以用激活 函数表征。不同于普通神经网络中的激活函数,这里为了从联结组中提取有价 值的信息,将激活函数定义为:
阈值来源于溢出效应分析。
对于上述的S4步骤,建立企业内部要素联结,比如,找因果关系:收入提高 是因为技术或者管理的变动,这个关系可以通过向量间的运算得到,T层,Q层 的内部构成可以表示如图19所示。企业和企业之间可能有联系,比如,产生并 购关系,通过有监督训练,可以得到具有特定关系的企业向量之间的距离分布, 用于预测企业之间的关系,每一个企业都可以用图15表示。企业与企业之间的 关系及其相互作用可以用图20表示。内部联结应用于对某一企业态势的预测与 分类;外部联系可以应用于对多家企业的背景和态势的分析。
上述的基于生物特征表达企业要素之间联结方式的方法,通过设置对特定的 企业要素的值进行归一化处理,企业表征向量化以及深度向量化,进行企业要 素进行规范化,再利用获取的企业深度向量获取企业要素的内部联结和外部联 结,实现利用生物特征中的神经网络模型与企业要素之间联结有着相似之处, 为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势 的预测以及对多家企业的背景和态势的分析。
如图7所示,本实施例还提供了基于生物特征表达企业要素之间联结方式的 系统,其包括归一化处理单元1、原始向量获取单元2、企业深度向量获取单元3 以及联结获取单元4。
归一化处理单元1,用于对特定企业要素的值进行归一化处理。
原始向量获取单元2,用于利用归一化处理后的企业要素值按照同一纬度的 向量表示,对企业表征向量化,获取原始向量。
企业深度向量获取单元3,用于采用神经网络训练模型进行企业的深度表 征,获取企业深度向量。
联结获取单元4,用于根据企业深度向量获取企业要素之间的内部联结以及 外部联结。
企业基础要素又称Basic Element(BE),是构建AI级企业数据平台的必要成 分,也是BE->T->Q->V体系的底层支柱,如何利用从权威文件中提取的BE来分 布式地表征企业,并对企业进行横向和垂直分析具有重要影响。对于上述的 BE->T->Q->V,是针对企业数据结构特点,提出了基于生物特征的企业要素的 应用场景,如图18所示。
更进一步地,上述的归一化处理单元1包括编码模块11以及标准化模块12。
编码模块11,用于对所有企业要素进行编码。
标准化模块12,用于将每类企业要素的值按照标准化算法进行标准化,形 成归一化处理的企业要素的值。
不同的BE具有特定的值域,首先对所有BE进行编码,每类BE都被赋予唯一 的“表头代码”,如图10所示,每类BE的值依据一定的标准化算法进行标准化, 主要是从BE内的名词,动词和形容词的频率进行标准化,对于图10的BE名称及 其值统计后的总词频情况如图11所示。
更进一步地,上述的标准化模块12包括集合建立子模块121、频率统计子模 块122以及归一值获取子模块123。
集合建立子模块121,用于针对同一纬度的企业要素的值建立集合。
频率统计子模块122,用于统计集合内同一纬度的企业要素的值出现的频 率。
归一值获取子模块123,用于获取单个企业要素的值内的每个名词的权重以 及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及 对应的概率形成归一化处理的企业要素的值。
同一维度的BE值建立集合,统计同一维度BE值的词频(仅考虑名词,动词 和形容词),求单个BE值中每个词的权重以及每一个BE的概率;BE值中每个词 的权重标准化公式:W=C_in/C_all;其中,C_in和C_all分别代表单词W 在单个BE和一类BE值中的词频。每一个BE的概率标准化公式:V_BE= W_1*W_2*W_i…*W_n,其中,W_i代表单词i的权重。对于BE值中每个词的权 重标准化采用单个BE所含词的词权重表表示,如图12所示,针对图12的词权重 表计算出来的每一个BE的概率如图13所示。
获取企业要素的名词权重具有迁移学习的应用价值,任何企业界问题都可以 调用已经训练好的模型,进行个性化问题处理。
上述的原始向量获取单元2具体是应用上一步得到的标准化的值,每一个企 业个体都可以用同一纬度的向量表示,如图14所示,企业1=<0.88,0.76,…, 0.78>以及企业2=<0.25,null,…,0.66>称此企业向量为原始向量。在这种表征 下,衡量企业之间的相似度可以转换为计算向量之间的距离。可以利用原始相 邻的距离计算企业之间的相似度,以快速地获取其他企业的企业要素之间的联 结方式。
上述的企业深度向量获取单元3具体是采用同样维度的向量表征企业是分布 式信息处理的一种表现,为进一步学习企业的深度表征模型奠定了基础,企业 所发生的事件代表了企业的动态,从自然语言理解的角度出发,分析某企业名 词出现的上下文可以捕获企业所关联的信息,描述企业的数据具有其独特的模 式以及上下文语境具体是获取在企业数据集下训练出来的词向量,该词向量涵 盖有价值的企业特性,其神经网络训练模型可以采用Tomas Mikolov提出的 word2vec训练方法。
对于上述的企业深度向量获取单元3包括频率表建立模块、霍夫曼树建立 模块、权重矩阵获取模块以及深度向量形成模块。
频率表建立模块,用于建立<企业名词,企业名词>的频率表以及<企业名 词,事件>的频率表。
霍夫曼树建立模块,用于根据频率表建立霍夫曼树。
权重矩阵获取模块,用于原始向量作为输入层,将霍夫曼树作为输出层, 训练神经网络,获取权重矩阵。
深度向量形成模块,用于从权重矩阵中映射出企业向量,形成企业深 度向量。
对于上述的频率表建立模块包括二元组提取子模块、集合获取子模块以及表 格建立子模块。
二元组提取子模块,用于获取符合要求的句子,提取二元组。
集合获取子模块,用于对所述句子进行切词处理,获取集合。
表格建立子模块,用于统计集合中的二元组的频率,形成建立<企业名词, 企业名词>的频率表以及<企业名词,事件>的频率表。
<企业名词,企业名词>,<企业名词,事件>频率表的建立如下例所示,找到所 有含有两个实体(或者以上),或者实体和事件的句子;从中提取二元组<企业 名词1,企业名词2>,<企业名词,事件>,针对句子s=“企业名词1并购企业名 词2”,首先进行切词,得到集合:{企业名词1,并购,企业名词2},在企业语 料库找到完整的企业词,从整个语料库中统计出二元组<企业名词1,企业名词 2>,<企业名词,事件>的频率。
对于霍夫曼树建立模块,具体地,将二元组当作叶子节点,二元组出现的 次数当作权值。比如,统计语料库中的二元组,得到如下结果:<企业名词1,并 购>,<企业名词1,企业名词2>,<企业名词2,并购>出现的次数分别为:20,35, 12。以这些二元组当叶子结点,以出现的次数当作权值,构造出霍夫曼树,且 这三个二元组所对应的编码分别为:01,1和00,如图15所示。
对于上述的权重矩阵获取模块包括二元组向量获取子模块、路径获取子 模块、概率获取子模块、相乘子模块以及矩阵获取子模块。
二元组向量获取子模块,用于根据原始向量获取二元组向量。
路径获取子模块,用于根据霍夫曼树获取二元组向量的路径。
概率获取子模块,用于根据路径获取对应的二元组向量的两个分类的 概率。
相乘子模块,用于将两个概率相乘,获取似然函数。
矩阵获取子模块,用于根据似然函数获取权重矩阵。
具体地,上述输入的原始信息是从筛选出的含有两个(或者以上)的企业名 词,或者含有企业和事件的所有句子中摘出的2个二元组向量。这个向量也要通 过训练得到,最终通过霍夫曼树可以得到每个二元组的路径,从每个路径可以 得到其二分类的概率。将概率相乘可以得到:P(二元组|二元组上下文),并由此 得到似然函数,进一步最大化这个似然函数。其中的参数被优化后,可以得到 企业深度向量(来自矩阵),其结果的应用场景如下:比较两家企业的相似度, 相似度=cos(企业1深度向量,企业2深度向量),根据某企业及其动态和组合,预 测另一家企业的动态:企业2动态词向量=企业1深度向量+企业1动态词向量 -企业2深度向量。
企业要素之间的联结一般由联结组呈现,联结组表征某一企业不为空的所有 BE构成最基本的BE联结组,依据企业实体的特性,BE与BE之间的联结是动态 的,联结行为的产生可以用注意力集中机制表达,可以以用量子力学为支撑演 化出信息运动学,也可以借鉴生物学理论。在注意力集中机制下,所有BE之间 都有联结,但是联结的权重不同,权重越高,BE之间的关系越紧密,将每一个 BE看做一个信息粒子,该粒子带有能量,称作信息势能,其能量来源于BE与BE 之间的距离,在信息势能的作用下,信息粒子向着某一方向运动,当粒子与粒 子之间的距离达到某一程度时,产生联结,设信息势能E表示为:E= N*N*∑i(∑i K((BEj-BEi))/sigma);则Renyi的二次熵为H:H=-ln(E),在某特定数据 集下,信息势能向着Renyi二次熵的方向趋近,如图16所示。运动的过程中会造 成溢出效应,溢出效应(Externality)是神经学中提出的产生创新思想的源泉,如 图17所示。
BE与BE之间是否形成联结,取决与它们之间的相互作用程度,可以用激活 函数表征。不同于普通神经网络中的激活函数,这里为了从联结组中提取有价 值的信息,将激活函数定义为:
阈值来源于溢出效应分析。
对于上述的联结获取单元4而言,建立企业内部要素联结,比如,找因果关 系:收入提高是因为技术或者管理的变动,这个关系可以通过向量间的运算得 到,T层,Q层的内部构成可以表示如图19所示。企业和企业之间可能有联系, 比如,产生并购关系,通过有监督训练,可以得到具有特定关系的企业向量之 间的距离分布,用于预测企业之间的关系,每一个企业都可以用图15表示。企 业与企业之间的关系及其相互作用可以用图20表示。内部联结应用于对某一企 业态势的预测与分类;外部联系可以应用于对多家企业的背景和态势的分析。
上述的基于生物特征表达企业要素之间联结方式的系统,通过设置对特定的 企业要素的值进行归一化处理,企业表征向量化以及深度向量化,进行企业要 素进行规范化,再利用获取的企业深度向量获取企业要素的内部联结和外部联 结,实现利用生物特征中的神经网络模型与企业要素之间联结有着相似之处, 为建立企业要素之间深层联结的表达方式提供了依据,有助于对单个企业态势 的预测以及对多家企业的背景和态势的分析。
上述仅以实施例来进一步说明本发明的技术内容,以便于读者更容易理解, 但不代表本发明的实施方式仅限于此,任何依本发明所做的技术延伸或再创造, 均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims (10)

1.基于生物特征表达企业要素之间联结方式的方法,其特征在于,所述方法包括:
对特定企业要素的值进行归一化处理;
利用归一化处理后的企业要素值按照同一纬度的向量表示,对企业表征向量化,获取原始向量;
采用神经网络训练模型进行企业的深度表征,获取企业深度向量;
根据企业深度向量获取企业要素之间的内部联结以及外部联结。
2.根据权利要求1所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,对特定企业要素的值进行归一化处理的步骤,包括以下具体步骤:
对所有企业要素进行编码;
将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值。
3.根据权利要求2所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值的步骤,包括以下具体步骤:
针对同一纬度的企业要素的值建立集合;
统计集合内同一纬度的企业要素的值出现的频率;
获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。
4.根据权利要求1至3任一项所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,采用神经网络训练模型进行企业的深度表征,获取企业深度向量的步骤,包括以下具体步骤:
建立<企业名词,企业名词>的频率表以及<企业名词,事件>的频率表;
根据频率表建立霍夫曼树;
原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵;
从权重矩阵中映射出企业向量,形成企业深度向量。
5.根据权利要求4所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,建立<企业名词,企业名词>的频率表以及<企业名词,事件>的频率表的步骤,包括以下具体步骤:
获取符合要求的句子,提取二元组;
对所述句子进行切词处理,获取集合;
统计集合中的二元组的频率,形成建立<企业名词,企业名词>的频率表以及<企业名词,事件>的频率表。
6.根据权利要求5所述的基于生物特征表达企业要素之间联结方式的方法,其特征在于,原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵的步骤,包括以下具体步骤
根据原始向量获取二元组向量;
根据霍夫曼树获取二元组向量的路径;
根据路径获取对应的二元组向量的两个分类的概率;
将两个概率相乘,获取似然函数;
根据似然函数获取权重矩阵。
7.基于生物特征表达企业要素之间联结方式的系统,其特征在于,包括归一化处理单元、原始向量获取单元、企业深度向量获取单元以及联结获取单元;
所述归一化处理单元,用于对特定企业要素的值进行归一化处理;
所述原始向量获取单元,用于利用归一化处理后的企业要素值按照同一纬度的向量表示,对企业表征向量化,获取原始向量;
所述企业深度向量获取单元,用于采用神经网络训练模型进行企业的深度表征,获取企业深度向量;
所述联结获取单元,用于根据企业深度向量获取企业要素之间的内部联结以及外部联结。
8.根据权利要求7所述的基于生物特征表达企业要素之间联结方式的系统,其特征在于,所述归一化处理单元包括编码模块以及标准化模块;
所述编码模块,用于对所有企业要素进行编码;
所述标准化模块,用于将每类企业要素的值按照标准化算法进行标准化,形成归一化处理的企业要素的值。
9.根据权利要求8所述的基于生物特征表达企业要素之间联结方式的系统,其特征在于,所述标准化模块包括集合建立子模块、频率统计子模块以及归一值获取子模块;
所述集合建立子模块,用于针对同一纬度的企业要素的值建立集合;
所述频率统计子模块,用于统计集合内同一纬度的企业要素的值出现的频率;
所述归一值获取子模块,用于获取单个企业要素的值内的每个名词的权重以及每一个企业要素的概率,以每个名词以及对应的权重、每一个企业要素以及对应的概率形成归一化处理的企业要素的值。
10.根据权利要求9所述的基于生物特征表达企业要素之间联结方式的系统,其特征在于,所述企业深度向量获取单元包括频率表建立模块、霍夫曼树建立模块、权重矩阵获取模块以及深度向量形成模块;
所述频率表建立模块,用于建立<企业名词,企业名词>的频率表以及<企业名词,事件>的频率表;
所述霍夫曼树建立模块,用于根据频率表建立霍夫曼树;
所述权重矩阵获取模块,用于原始向量作为输入层,将霍夫曼树作为输出层,训练神经网络,获取权重矩阵;
所述深度向量形成模块,用于从权重矩阵中映射出企业向量,形成企业深度向量。
CN201710843358.4A 2017-09-18 2017-09-18 基于生物特征表达企业要素之间联结方式的方法及其系统 Active CN107633362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710843358.4A CN107633362B (zh) 2017-09-18 2017-09-18 基于生物特征表达企业要素之间联结方式的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710843358.4A CN107633362B (zh) 2017-09-18 2017-09-18 基于生物特征表达企业要素之间联结方式的方法及其系统

Publications (2)

Publication Number Publication Date
CN107633362A true CN107633362A (zh) 2018-01-26
CN107633362B CN107633362B (zh) 2020-11-20

Family

ID=61102883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710843358.4A Active CN107633362B (zh) 2017-09-18 2017-09-18 基于生物特征表达企业要素之间联结方式的方法及其系统

Country Status (1)

Country Link
CN (1) CN107633362B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753590A (zh) * 2018-12-07 2019-05-14 中国银行业监督管理委员会福建监管局 一种查询关联信息的方法及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055675A (zh) * 2016-06-06 2016-10-26 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
US20170193397A1 (en) * 2015-12-30 2017-07-06 Accenture Global Solutions Limited Real time organization pulse gathering and analysis using machine learning and artificial intelligence

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193397A1 (en) * 2015-12-30 2017-07-06 Accenture Global Solutions Limited Real time organization pulse gathering and analysis using machine learning and artificial intelligence
CN106055675A (zh) * 2016-06-06 2016-10-26 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753590A (zh) * 2018-12-07 2019-05-14 中国银行业监督管理委员会福建监管局 一种查询关联信息的方法及终端

Also Published As

Publication number Publication date
CN107633362B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN107766933B (zh) 一种解释卷积神经网络的可视化方法
CN108920544A (zh) 一种基于知识图谱的个性化职位推荐方法
CN107194433A (zh) 一种基于深度自编码网络的雷达一维距离像目标识别方法
CN106779087A (zh) 一种通用机器学习数据分析平台
CN111242948B (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN108198147A (zh) 一种基于判别字典学习的多源图像融合去噪的方法
CN107679183A (zh) 分类器用训练数据获取方法和装置、服务器及存储介质
CN108038205A (zh) 针对中文微博的观点分析原型系统
Chen et al. Recursive context routing for object detection
CN103761537B (zh) 基于低秩优化特征字典模型的图像分类方法
CN105427309A (zh) 面向对象高空间分辨率遥感信息提取的多尺度分层处理方法
CN108614992A (zh) 一种高光谱遥感图像的分类方法、设备及存储设备
Nauman et al. Fuzzy disaggregation of conventional soil maps using database knowledge extraction to produce soil property maps
CN107194422A (zh) 一种结合正反向实例的卷积神经网络关系分类方法
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
CN103530405B (zh) 一种基于分层结构的图像检索方法
CN108052625A (zh) 一种实体精细分类方法
CN107918761A (zh) 一种基于多流形核鉴别分析的单样本人脸识别方法
CN107133640A (zh) 基于局部图像块描述子和费舍尔向量的图像分类方法
CN114399685B (zh) 一种森林病虫害的遥感监测评估方法及装置
CN113688635B (zh) 一种基于语义相似度的类案推荐方法
CN104036242B (zh) 基于Centering Trick卷积限制玻尔兹曼机的物体识别方法
CN110377752A (zh) 一种应用于政务大厅运营的知识库系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant