CN109376202B

CN109376202B - 一种基于nlp的企业供应关系自动抽取分析方法

Info

Publication number: CN109376202B
Application number: CN201811277652.4A
Authority: CN
Inventors: 王金龙; 杨传龙; 房斐斐; 张云天
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2021-08-03
Anticipated expiration: 2038-10-30
Also published as: CN109376202A

Abstract

本发明属于智能分析技术领域，涉及一种基于NLP的企业供应关系自动抽取分析方法，包括公司名称识别、产品名称识别和供求关系判断三个步骤，利用规则和词典的方法改进Stanford NER工具包，有效的提高了该工具对公司简称的识别效果，并将多种特征融入到条件随机场模型中，通过结合规则后处理，有效的识别了文本中的产品类别词，能够高效准确的从文本中获取企业间供求关系信息，为投资者和消费者提供宝贵的参考情报，具有重要的理论研究和实际应用价值。

Description

一种基于NLP的企业供应关系自动抽取分析方法

技术领域：

本发明属于智能分析技术领域，涉及一种基于NLP(语言技术平台)的企业供应关系自动抽取分析方法。

背景技术：

随着经济全球化的进程不断加深，企业与企业之间的合作不断发展，制造业早已脱离了闭门造车的时代，现代工业中，某一个终端产品的零部件和生产工艺往往来自不同的国家和企业，这就引出了供应链和供应链管理的概念。供应链管理作为企业运营的重要组成部分，对于企业有着极为重要的作用，一个企业想要发展壮大，一个好的供应链是必不可少的，而一条供应链，实际上就是由一个个供应关系组成的。

对于现代企业来说，企业与企业之间的关系越来越复杂，企业与企业之间，企业和供应商之前往往存在多重委托，以小米手机为例，小米手机没有实体工厂，核心零部件全部来自于供应商，核心供应商数量达到40多家，供应商之间也存在复杂的合作和竞争关系，小米手机的成功离不开对供应链的精确掌控，由此可见，对供应商之间供求关系的分析对企业经营者来说具有极为重要的现实意义。除此之外，对企业供求关系的分析对投资者和消费者来说也具有极为重要的意义，对投资者而言，掌握了企业之间的供求关系，能在关键时候做出正确决策以获得最大的效益，还是以小米手机为例，小米手机出货量暴增，ODM供应商闻泰科技，摄像头模组供应商欧菲科技，天马面板，华勤通讯等国内上市公司由于给小米供货，业务收入随之暴涨，遥遥领先其他对手，若是投资者能尽早获知这些企业之间的合作关系，也可以从中获取巨大收益；对于消费者来说，在了解了某产品各零部件的供应商后，也能够帮助自己做出购买决策。从另一个方面来说，国家正在推行的中国制造2025计划中，要求以创新驱动、质量为先、绿色发展、结构优化、人才为本作为基本方针，这也要求我们通过挖掘供求关系来进行制造业的优化升级。

目前，国内的许多行业分析公司也推出了自己的供求关系分析产品，比较有代表性的是同花顺，同花顺推出了产品图谱，采用图谱的形式展现国内上市公司之前的上下游供求关系，帮助股票投资者进行投资分析，但是粒度比较粗，主要是描述企业产品之间的联系，可以帮助用户进行推断，但不能确定公司之前是否存在供应关系。

供应关系中涉及到产品名称和公司名称两类实体，在关系抽取前首先要把文本中的实体找出来，进而才能判断实体之前的关系类别，一个完整的供应关系应该包含供应商，产品和客户三个实体，供应商供应产品给客户。目前金融领域的实体关系抽取方面有很多研究成果，孙晨等人通过对上市公司公报数据的分析，将企业间的关系类型定义为持有、投资、转让、合并、收购五种，使用最大熵模型进行数据分析寻找最优特征模板，从而在企业公报数据集上得到85％以上的关系抽取准确率；孟蕾同样将公司间的关系进行分类，结合LSTM和依存句法分析计算句子权重，进而利用分类器进行实体关系分类，在网络取得了不错的效果；但是这两种方法判断的都是两个实体间的关系，并且基于机器学习和神经网络的关系抽取都需要进行大量的语料标注，需要耗费大量的时间，而且目前关系识别通常面向的是开放文本或者是多个类别的关系，目前的实体关系抽取方法并不适用；在产品名称识别方面，目前对产品名称识别的研究往往要求产品名称中包含品牌词或者型号词，但是实际中要识别的目标是产品名称属于产品类别词，通常不包含品牌和型号信息；在公司名称识别方面，由于公司名称属于组织机构名，目前针对组织机构名的识别有很多研究成果，出现了很多识别工具包，例如哈工大的LTP，HanLP等等，然而现有的这些工具在对公司简称的识别效果较差。

目前互联网上充斥着大量的企业信息，从发布者上划分可以大致分为两类，一类是由企业自己发布的信息，包括企业公报、半年报、年报等等，这类信息由企业自行发布，权威性比较高；另一类是由第三方机构组织发布的新闻，评测报告等等，这类信息通常经过二次加工，带有作者自己的主观色彩。在具体分析过程中，考虑到信息权威性和准确性，通常选用上市公司年报作为语料进行信息抽取，年报是每年出版一次的定期刊物，根据证券交易委员会规定，上市公司需要提交公司年度财务报表，报表描述了包括公司经营状况、资产负债和收入情况等信息，其中包含了大量公司供应关系信息，使用上市公司年报作为语料可以给本文的工作带来以下几点好处：(1)年报比较容易获取，国内上市公司的年报可以从上交所和深交所官网获取；(2)年报信息较权威，相对于第三方网站的新闻资讯，年报里给出的信息更加权威和准确；(3)年报中的内容较为丰富，且书面性强，方便进行处理。现有国内的上市公司数量高达三千多家，这些公司每年都要发布大量公告、半年报、年报等文本信息，其内容分散，数据不集中，并且属于无结构化信息，传统的命名实体识别和实体关系抽取方法大都采用人工处理数据，耗时费力，不适用于上市公司年报文本的挖掘。因此，设计一种针对上市公司年报文本的企业供应关系自动抽取分析方法。

发明内容：

本发明的目的在于克服现有技术存在的缺点，设计提供一种基于NLP的企业供应关系自动抽取分析方法，利用关系指示词库和句法分析结合的方法进行关系抽取。

为了实现上述目的，本发明实现企业供应关系自动抽取分析的具体过程包括公司名称识别、产品名称识别和供求关系判断三个步骤，具体为：

(一)公司名称识别：

(1)文本处理：读取年报自然句，使用哈工大的LTP自然语言处理工具对该句进行分词、词性标注、依存句法分析处理分别得到分词结果、词性标注结果、依存句法分析结果，将得到的分词结果作为Stanford NER的输入源进行公司名称识别；

(2)公司名称识别：将分词结果输入Stanford NER提供的条件随机场模型和自构建的公司名称词典进行公司名称匹配识别，将识别结果在分词结果上进行汇总整合得到公司名称识别结果；

(3)公司实体组处理：

(31)获取：对文本处理步骤中得到的依存句法分析结果中具有直接或间接并列关系的词放到一起形成并列词组并组成候选实体组；

(32)筛选：根据公司名称识别结果和公司实体组的词性特征判断该候选实体组是不是一个公司实体组并进行筛选；公司实体组的筛选按照以下两点规则进行：一是：如果候选实体组中的一个并列词组为一个公司实体组，那么该词组至少要有一个词语在公司名称识别阶段被标注为公司名；二是：公司实体组中至少含有一个词性为其他专有名词nz的词；

(33)规则后处理：

(331)将公司实体组中未标注为公司名称的词语标注为公司名，将非公司实体组的并列词组中标注为公司名称的词语标注为非公司名；

(332)利用依存句法补全新扩展出的公司名称，主要是利用句法规则补全新扩展出的公司名称，当公司实体组中的词被重新标注为公司名时，考虑到公司名的完整性，对该公司名的左边界进行重新计算，判断当前词与其左侧第一个词之间的依存关系，若为定中关系，则把其左侧的词也标注为公司名称；

(二)产品名称识别：

(1)文本处理：读取年报自然句，使用哈工大的LTP自然语言处理工具对该句进行分词、词性标注、依存句法分析处理分别得到分词结果、词性标注结果、依存句法分析结果；

(2)产品名称识别：使用现有CRF++0.58开源工具包来构建条件随机场(CRF)模型进行产品名称识别，具体过程为：

(21)实体类别标注：使用BIEO标注方式来对语料进行标注，用B_PRODUCT标签来标注产品名称的左边界，用E_PRODUCT标签来标注产品名称的右边界，用I_PRODUCT标签来标注左边界和右边界的中间字符，用O标签来标注其他的非产品名称的词语；其中语料是指用于训练条件随机场(CRF)模型所需的人工标注的语料

(22)语料库构建：先读取语料文本，对文本中的每条自然句使用哈工大LTP自然语言处理对其进行分词、词性标注；再人工对分词结果进行产品名称标注，遍历分词结果，当该词出现在边界词表中时，边界词特征为Y，否则为N；然后遍历分词结果，当该词出现在产品名称词表中时，词典特征为Y，否则为N；将分词、词性、边界词特征、词典特征、人工标注组合为一行token，将每个自然句的处理结果之间空一行，一行表示一个token，每个token包含多个特征，各个特征之前以空格或者制表符来间隔，最后一个特征为类别标签，也就是需要训练的正确的标注；在训练语料的文本进行人工标注后，还需要对语料格式进行转换后才能输入到CRF++中进行训练，格式如下表所示，

CRF++语料格式示例

(23)条件随机场(CRF)模型特征选取：选取词特征、词性特征、边界词特征和词典特征用于条件随机场模型的训练，其中词特征表示当前词自身，或者是与左右窗口中其他词的组合；词性特征是指把词的特点当做依据从而划分词类的依据，包含名词、动词、形容词、副词、连词、介词等词性特征；边界词特征是指出现在产品名称附近的词特征；词典采用与公司识别过程中相同的构建方法进行构建；

(三)规则后处理：

(31)利用哈工大LTP对自然句进行依存句法分析，通过对结果的分析，找出句子中具有并列关系的实体，确定潜在实体组，一个句子中的潜在实体组可能由多个{G1,G2…Gn}，n为句中实体组的总数，其中的任意一个实体组Gi＝{E1,E2…Em}，其中m为实体的个数，其中任意一个实体又包含一个或多个单词；自然句指以分号(；)、句号(。)、问号(？)等分割的单句；

(32)遍历每一个潜在实体组，如果该实体组中有实体被CRF模型标注为产品名称，那么该潜在实体组就是一个产品名称实体组，那么组中其他实体也是产品名称；在把之前的未标注词利用产品实体组标注为产品名称时，需要通过判断中心词左侧相邻词的句法关系是不是定中关系就可以判断相邻词是否为产品修饰词，并在进行产品名称标注时将这些修饰词标注出来；

(三)企业供求关系的判断和抽取

(1)文本筛选：一是筛选的文本中要包含自构建的供应关系关键词库中的词，供应关系关键词库用于判断文本的主题，当文本的主题中包含关键词库中的词时，认为该文本的主题与供应关系相关；二是文本中至少要含有两个公司名称，并且这两个公司实体间的关系不能为并列关系；

(2)实体语义关联判断：当确定文本主题与供应关系相关且文本中包含供应关系需要的基本信息后，需要判断文本中各实体之前的语义关联了，设一个句子中的公司集合C＝{c₁,c₂,…,c_n}，n为句子中公司数量，产品集合为P＝{p₁,p₂,…p_m}，m为句子中产品数量，则具体步骤如下：

(1)遍历集合C，对于C中的每一个实体对<ci,cj>，判断c_i和c_j之间是否存在语义关联；

(2)对于存在语义关联的公司实体对<ci,cj>，遍历产品集合中的产品pk，当pk与实体对中任一一个公司实体存在语义关联时，输出<c_i,c_j,p_k>；若在P中找不到该公司实体对对应的产品，则输出<c_i,c_j>。

本发明构建公司名称词典的具体过程为：

(1)初始词典构建：根据年报中出现的公司注释和专有名词注释，利用正则表达式“(\S+)+指+(\S+)“匹配注释词条，并利用关键词筛选关于公司的词条，再遍历筛选后的词条列表，判断当前词条在当前公司名称词典表中是否已经存在，若不存在则插入到其中；关键词包括组织机构名后缀，集团、公司、企业等；

(2)词典扩充：词典扩充的数据来自公司实体组处理中重新标识出来的公司名称，新标注的公司名称经过人工筛选去除标注错误后加入到公司名称词典中，用以提高识别公司名称识别的准确率和召回率。

本发明采用人工构建和自动构建相结合的方式构建供应关系关键词库，具体为：

本发明利用最近句法依赖动词判断语义关联，先把文本中的公司名称组成实体对，判断公司之间是否存在语义关联，若存在语义关联，则根据公司名称在句中出现的先后顺序可以确定供应关系中的供应商公司和客户公司，如果句子中也包含产品名称，进而可以利用最近依赖动词判断产品与公司之间的关系，从而确定供应的产品；实体对<ei，ej>的最近句法依赖动词特征的提取包括四步：

步骤1：分别提取与实体ei或ej存在COO并列结构或ATT定中结构关系的依存关联节点ei'和ej'；

步骤2：提取与第2个实体ej的依存关联节点ej'发生依存关系的最近动词Vj；

步骤3：获取与第1个实体ei的依存关联节点ei'发生SBV主谓关系或FOB前置宾语关系的最近动词Vi。

步骤4：通过判断动词Vi与Vj是否为同一个动词或为COO并列结构关系，确定该实体对<ei，ej>的最近句法依赖动词DV利用上述算法提取实体关系类型中的高频最近句法依赖动词信息。

本发明与现有技术相比，利用规则和词典的方法改进了Stanford NER工具包，有效的提高了该工具对公司简称的识别效果，并将多种特征融入到条件随机场模型中，通过结合规则后处理，有效的识别了文本中的产品类别词，能够高效准确的从文本中获取企业间供求关系信息，为投资者和消费者提供宝贵的参考情报，具有重要的理论研究和实际应用价值。

附图说明：

图1为本发明的工作流程示意框图。

图2为本发明所述中文公司名称识别及规则处理整体结构图。

图3为本发明所述公司实体组处理流程图。

图4为本发明所述产品名称识别过程框图。

图5为本发明所述条件随机场模型训练步骤流程图。

图6为本发明所述企业供应关系判断与抽取整体流程图。

图7为本发明实施例依存句法分析结果图。

图8为本发明实施例所述客户公司与产品之间的依存路径

具体实施方式：

下面通过实施例并结合附图对本发明做进一步说明。

实施例：

本实施例选用的文本为“东山精密通信业务主营产品天线和滤波器是基站建设的核心组件，主要客户包括华为、爱立信等全球领先的移动通信网络设备制造商。”，该句子来自东山精密的公司年报，企业供应关系自动抽取分析的具体过程为：

第一阶段，语句筛选阶段，首先判断该文本中是否含有关系指示词库中的词，文本中含有关系指示词“客户”，因此认为该文本的主题与企业供应关系相关，然后将该文本进行分词，词性标注和依存句法分析，并进行公司名称识别和产品名称识别；公司名称识别的具体过程为：

(1)Stanford NER识别结果

东山/ORGANIZATION精密/ORGANIZATION通信/O业务/O主营/O产品/O天线/O和/O滤波器/O是/O基站/O建设/O的/O核心/O组件/O，/O主要/O客户/O包括/O华为/ORGANIZATION、/O爱立信/O等/O全球/O领先/O的/O移动/O通信/O网络/O设备/O制造商/O。/O

(2)公司实体组处理

由依句法分析结果得到具有COO关系的候选实体组1{天线、滤波器}，实体组2{华为，爱立信}，实体组1不含标注为ORGANIZATION词，过滤掉，实体组2中华为已被标注为ORGANIZATION，实体组2为公司实体组，则爱立信也标注为公司名，修正Stanford NER结果为：

东山/ORGANIZATION精密/ORGANIZATION通信/O业务/O主营/O产品/O天线/O和/O滤波器/O是/O基站/O建设/O的/O核心/O组件/O，/O主要/O客户/O包括/O华为/ORGANIZATION、/O爱立信/ORGANIZATION等/O全球/O领先/O的/O移动/O通信/O网络/O设备/O制造商/O。/O

(3)前后同标注为ORGANIZATION的词合并，获得句中公司集合{东山精密、华为、爱立信}

产品名识别的具体过成为：

(1)CRF识别结果

东山精密通信业务主营产品天线(PRODUCT)和滤波器(PRODUCT)是基站建设的核心组件，主要客户包括华为、爱立信等全球领先的移动通信网络设备制造商；

(2)产品实体组处理：候选实体组1{天线、滤波器}，实体组2{华为，爱立信}，实体组2不含标注为PRODUCT词，过滤掉，实体组1中华天线、滤波器已被标注为PRODUCT，实体组1为产品实体组，该产品实体组中产品都已经识别成功，不再做处理；

最终识别出公司名称集合为C＝{东山精密，华为，爱立信}，产品名称集合为P＝{天线，滤波器}，由于公司名称集合中含有一个及以上的公司名称，且这三个公司名称不包含在同一实体组(华为、爱立信为同一实体组)，因此符合包含企业供应关系的基本条件；

第二阶段，构建公司实体对，由于该句子来自东山精密的年报，且句子中包含东山精密的信息，则把东山精密作为供应商，华为、爱立信作为客户公司，生成公司实体对两对，分别为<东山精密、华为>，<东山精密，爱立信>，句子的依存句法分析结果如图7所示；

第三阶段，从产品集合{天线，滤波器}中找出实体对<东山精密、华为>，<东山精密，爱立信>之间的供应的产品，以判断东山精密、华为、天线三个实体的关系为例，判断客户公司华为和天线之间是否存在语义关系，由图7可知，“华为”的依存节点为与其具备定中关系的“制造商”，制造商的最近动词为“包括”，而“天线”的最近依赖动词为“是”，“是”与“包括”为COO(并列关系)，因此“华为”与“天线”之间存在语义关联，其依存句法路径8所示，因此东山精密、华为和天线之间构成了一个供应关系，同理分析其他组合，最后得到四条企业供应关系，分别为<东山精密，华为，天线>、<东山精密，爱立信，天线>、<东山精密，华为，滤波器>和<东山精密，爱立信，滤波器>。

Claims

1.一种基于NLP的企业供应关系自动抽取分析方法，其特征在于具体过程包括公司名称识别、产品名称识别和供求关系判断三个步骤，具体为：

(一)公司名称识别：

(3)公司实体组处理：

(32)筛选：根据公司名称识别结果和公司实体组的词性特征判断该候选实体组是不是一个公司实体组并进行筛选；公司实体组的筛选按照以下两点规则进行：一是：如果候选实体组中的一个并列词组为一个公司实体组，那么该词组至少要有一个词语在公司名称识别阶段被标注为公司名；二是：公司实体组中至少含有一个词性为其他专有名词的词；

(33)规则后处理：

(332)利用依存句法补全新扩展出的公司名，主要是利用句法规则补全新扩展出的公司名，当公司实体组中的词被重新标注为公司名时，考虑到公司名的完整性，对该公司名的左边界进行重新计算，判断当前词与其左侧第一个词之间的依存关系，若为定中关系，则把其左侧的词也标注为公司名；

(二)产品名称识别：

(2)产品名称识别：使用现有CRF++0.58开源工具包来构建条件随机场模型进行产品名称识别，具体过程为：

(21)实体类别标注：使用BIEO标注方式来对语料进行标注，用B_PRODUCT标签来标注产品名称的左边界，用E_PRODUCT标签来标注产品名称的右边界，用I_PRODUCT标签来标注左边界和右边界的中间字符，用O标签来标注其他的非产品名称的词语；其中语料是指用于训练条件随机场模型所需的人工标注的语料；

(22)语料库构建：先读取语料文本，对文本中的每条自然句使用哈工大LTP自然语言处理对其进行分词、词性标注；再人工对分词结果进行产品名称标注，遍历分词结果，当该词出现在边界词表中时，边界词特征为Y，否则为N；然后遍历分词结果，当该词出现在产品名称词表中时，词典特征为Y，否则为N；将分词、词性、边界词特征、词典特征、人工标注组合为一行token，将每个自然句的处理结果之间空一行，一行表示一个token，每个token包含多个特征，各个特征之前以空格或者制表符来间隔，最后一个特征为类别标签，也就是需要训练的正确的标注；在训练语料的文本进行人工标注后，还需要对语料格式进行转换后才能输入到CRF++0.58中进行训练；

(23)条件随机场模型特征选取：选取词特征、词性特征、边界词特征和词典特征用于条件随机场模型的训练，其中词特征表示当前词自身，或者是与左右窗口中其他词的组合；词性特征是指把词的特点当做依据从而划分词类的依据，包含名词、动词、形容词、副词、连词、介词；边界词特征是指出现在产品名称附近的词特征；词典采用与公司识别过程中相同的构建方法进行构建；

(3)规则后处理：

(31)利用哈工大LTP对自然句进行依存句法分析，通过对结果的分析，找出句子中具有并列关系的实体，确定潜在实体组，一个句子中的潜在实体组可能有多个{G1,G2…Gn}，n为句中实体组的总数，其中的任意一个实体组Gi＝{e1,e2…em}，其中ei表示实体，i＝1,2,…m，其中任意一个实体又包含一个或多个单词；自然句指以分号、句号、问号分割的单句；

(32)遍历每一个潜在实体组，如果该实体组中有实体被条件随机场模型标注为产品名称，那么该潜在实体组就是一个产品名称实体组，那么组中其他实体也是产品名称；在把之前的未标注词利用产品实体组标注为产品名称时，需要通过判断中心词左侧相邻词的句法关系是不是定中关系就可以判断相邻词是否为产品修饰词，并在进行产品名称标注时将这些修饰词标注出来；

(三)企业供求关系的判断和抽取：

(1)文本筛选：一是筛选的文本中要包含自构建的供应关系关键词库中的词，供应关系关键词库用于判断文本的主题，当文本的主题中包含关键词库中的词时，认为该文本的主题与供应关系相关；二是文本中至少要含有两个公司名，并且这两个公司实体间的关系不能为并列关系；

2.根据权利要求1所述基于NLP的企业供应关系自动抽取分析方法，其特征在于构建公司名称词典的具体过程为：

(2)词典扩充：词典扩充的数据来自公司实体组处理中重新标注出来的公司名，新标注的公司名经过人工筛选去除标注错误后加入到公司名称词典中，用以提高识别公司名称识别的准确率和召回率。

3.根据权利要求1所述基于NLP的企业供应关系自动抽取分析方法，其特征在于采用人工构建和自动构建相结合的方式构建供应关系关键词库，具体为：

For each语句集合set

For each关键词k∈关键词词库

For each两个包含了同一个k且包含两个以上公司名称的不同语句S1,S2

寻找两个句子中的公共词组

进行去停用词操作

将去停用词以后的关键词词组保存进备选词库，并计算出现频率

For each备选词word

IF word出现频率大于0.3THEN

把该词添加到关系指示词库

END IF

End for

End for。

4.根据权利要求1所述基于NLP的企业供应关系自动抽取分析方法，其特征在于利用最近句法依赖动词判断语义关联，先把文本中的公司名组成实体对，判断公司之间是否存在语义关联，若存在语义关联，则根据公司名在句中出现的先后顺序可以确定供应关系中的供应商公司和客户公司，如果句子中也包含产品名称，进而可以利用最近依赖动词判断产品与公司之间的关系，从而确定供应的产品；实体对<ci,cj>的最近句法依赖动词特征的提取包括四步：

步骤1：分别提取与实体ci或cj存在COO并列结构或ATT定中结构关系的依存关联节点ci'和cj'；

步骤2：提取与第2个实体cj的依存关联节点cj'发生依存关系的最近动词Vj；

步骤3：获取与第1个实体ci的依存关联节点ci'发生SBV主谓关系或FOB前置宾语关系的最近动词Vi；

步骤4：通过判断动词Vi与Vj是否为同一个动词或为COO并列结构关系，确定该实体对<ci,cj>的最近句法依赖动词DV利用上述算法提取实体关系类型中的高频最近句法依赖动词信息。