CN107341142B

CN107341142B - 一种基于关键词提取分析的企业关系计算方法及系统

Info

Publication number: CN107341142B
Application number: CN201710354039.7A
Authority: CN
Inventors: 辛柯俊
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2020-08-21
Anticipated expiration: 2037-05-18
Also published as: CN107341142A

Abstract

本发明提出了一种基于关键词提取分析的企业关系计算方法及系统，包括：获取文本信息并获取文本信息包含的段落数；计算文本信中每个段落的字数，组装成新的文字段落；设定词典，并设置词典中的词语为引导词，根据设置的引导词对文本信息进行一次搜索，将文本中的语句在此摘录出一个新的文本；得到三个短语序列；分别设置对应的权重值，从三个短语序列中检查出重复词语，根据重复词语出现的次数与所在序列的权重值的乘积作为得分值，不重复的词语的得分值即为所在序列的权重值；将企业之间共同的关键短语作为连接点连接不同的企业。本发明计算企业之间的关联关系，将企业之间共同的关键短语作为连接点连接不同的企业，形成企业之间的关联关系。

Description

一种基于关键词提取分析的企业关系计算方法及系统

技术领域

本发明涉及计算机网络技术领域，特别涉及一种基于关键词提取分析的企业关系计算方法及系统。

背景技术

现有的企业信息综合网站，大都是对企业信息的简单罗列，并且是主要针对单一企业的信息汇总和分析。现有技术的缺点是存在缺少一种对企业之间的相互关系进行分析的方式。其中，如何分析各个企业的基本信息，然后通过自然语义的方式从企业信息中提取出相应关键词，以实现计算机自动化对该企业关系分析，是当前需要解决的技术问题。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于关键词提取分析的企业关系计算方法。

为了实现上述目的，本发明的实施例提供一种基于关键词提取分析的企业关系计算方法，包括如下步骤：

步骤S1，获取文本信息T1，并获取所述文本信息包含的段落数；

步骤S2，计算文本信息T1中每个段落的字数Cn以及所有段落的字数平均值CV，提取出Cn/CV大于等于某个阈值k的段落文字，组装成为一个新的文字段落T2；

步骤S3，设定词典，并设置所述词典中的词语为引导词，根据设置的引导词对所述文本信息进行一次搜索，将文本中的语句在此摘录出一个新的文本T3；

步骤S4，对所述T1、T2和T3分别提取关键短语，得到三个L1、L2和L3三个短语序列；

步骤S5，将L1、L2和L3分别设置对应的权重值a、b和c，从三个短语序列中检查出重复词语，根据重复词语出现的次数与所在序列的权重值的乘积作为得分值，不重复的词语的得分值即为所在序列的权重值；

步骤S6，将企业之间共同的关键短语作为连接点连接不同的企业，以形成企业之间的关联关系。

进一步，在所述步骤S4中，采用以下算法提取关键词：

TextRank算法、基于最大熵模型自动提取算法、基于决策树或基于朴素贝叶斯的机器学习方法、基于词的语义相似性度量的语言处理方法。

进一步，所述提取关键词的多个算法，限定只筛选出名词、动名词、和专有名词。

进一步，在所述步骤S5中，根据得分值进行排序，得到新的序列L4，作为特征词。

进一步，向用户提供企业之间的相互关系，再进行结构化加工即可显示竞争关系和上下游关系。

本发明实施例还提供一种基于关键词提取分析的企业关系计算系统，包括：文本信息获取模块、文本字数平均值计算模块、词典设定模块、短语序列提取模块、权重值计算模块和企业关联模块。

具体地，文本信息获取模块用于获取文本信息包含的段落数。

文本字数平均值计算模块，用于计算文本信息T1中每个段落的字数Cn以及所有段落的字数平均值CV，提取出Cn/CV大于等于某个阈值k的段落文字，组装成为一个新的文字段落T2。

词典设定模块，用于设置所述词典中的词语为引导词，根据设置的引导词对所述文本信息进行一次搜索，将文本中的语句在此摘录出一个新的文本T3。

短语序列提取模块，用于对所述T1、T2和T3分别提取关键短语，得到三个L1、L2和L3三个短语序列。

在本发明的一个实施例中，所述短语序列模块采用以下算法提取关键词：

TextRank算法、基于最大熵模型自动提取算法、基于决策树或基于朴素贝叶斯的机器学习方法、基于词的语义相似性度量的语言处理方法。其中，短语序列模块采用的提取关键词的多个算法，限定只筛选出名词、动名词、和专有名词。

权重值计算模块，用于将L1、L2和L3分别设置对应的权重值a、b和c，从三个短语序列中检查出重复词语，根据重复词语出现的次数与所在序列的权重值的乘积作为得分值，不重复的词语的得分值即为所在序列的权重值。

企业关联模块，用于将企业之间共同的关键短语作为连接点连接不同的企业，以形成企业之间的关联关系。

进一步，权重值计算模块根据得分值进行排序，得到新的序列L4，作为特征词。

进一步，企业关联模块向用户提供企业之间的相互关系，再进行结构化加工即可显示竞争关系和上下游关系。

根据本发明实施例的基于关键词提取分析的企业关系计算方法及系统，根据给定的若干描述企业介绍的文本(企业介绍和企业信息)，计算企业之间的关联关系。本发明先提取出文本中文字较多的段落T1，同时在全文中寻找引导词，提取出引导词周围的句子T2，提取出T1和T2中的关键短语，将企业之间共同的关键短语作为连接点连接不同的企业，形成企业之间的关联关系。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于关键词提取分析的企业关系计算方法的流程图；

图2为根据本发明实施例的基于关键词提取分析的企业关系计算系统的结构图；

图3为根据本发明实施例的企业之间的关联关系图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明实施例的基于关键词提取分析的企业关系计算方法，包括如下步骤：

步骤S1，获取文本信息T1，并获取文本信息包含的段落数。

步骤S2，计算文本信息T1中每个段落的字数C1、C2、Cn…以及所有段落的字数平均值CV，提取出Cn/CV大于等于某个阈值k的段落文字，组装成为一个新的文字段落T2。该文字段落T2即为文字较多的段落。

在本发明的一个实施例中，阈值k对具体数值在具体工程中优化确定。

步骤S3，设定词典，并设置词典中的词语为引导词，根据设置的引导词对文本信息进行一次搜索，将文本中的语句在此摘录出一个新的文本T3。

在本发明的一个实施例中，词典为人工预先设定，词典中的词称为“引导词”。

下面对词典进行举例说明。

(某某企业)是一家集*(某某业务、某某业务为一体的某某)

(某某企业)是集*(某某业务、某某业务为一体的某某)

公司集*(某某业务、某某业务为一体)

成为集*(某某业务、某某业务为一体的某某)

(公司)专注*(某某领域、某某行业)

(公司)从事*(某某领域、某某行业)

(公司)是一家*(什么什么公司)

公司是*(什么什么公司)

我们提供*(什么什么服务)

公司提供*(什么什么服务)

我们致力于*(什么什么服务)

公司致力于*(什么什么服务)

我们从事*(什么什么服务)

公司从事*(什么什么服务)

产品覆盖*

产品线覆盖*

产品包括*

主要经营*

*核心业务*

*核心战略*

*核心产品*

*主导产品*

*高科技企业

*业务

*供应商

*提供商

*主业

需要说明的是，上述词汇中，括号内的词语是用于方便人理解阅读的，计算机会忽略掉。星号*表示让计算机提取这个词的前面还是后面的句子。词典可以在必要时重新建立并调整。

在本步骤中，根据上述引导词，对给定文本的进行一次搜索，将文本中的句子再次摘录出一个新的文本T3。从引导词*号指示的位置到底提取多少字数还是几句话在具体工程中确定。

步骤S4，对T1、T2和T3分别提取关键短语，得到三个L1、L2和L3三个短语序列。

在本发明的一个实施例中，采用以下算法提取关键词：

其中，所述提取关键词的多个算法，限定只筛选出名词、动名词、和专有名词。

步骤S5，将L1、L2和L3分别设置对应的权重值a、b和c，从三个短语序列中检查出重复词语，根据重复词语出现的次数与所在序列的权重值的乘积作为得分值，不重复的词语的得分值即为所在序列的权重值。其中，根据得分值进行排序，得到新的序列L4，作为特征词。

如图3所示，将企业之间共同的关键短语(特征词)作为连接点连接不同的企业，形成企业之间的关联关系。通过企业间的关联关系图，可以非常方便地帮助用户快速理解企业之间的相互关系，再进行结构化加工就可以更加清晰地显示竞争关系和上下游关系。

参考图3，公司1包括特征词1、2、3、6、9；公司2包括特征词2、3、4、5、6、7；公司3包括特征词6、7、8、9。从图中，可以清楚的看出，公司1与公司2的特征词交集为特征词2和3，公司1和公司3的特征词交集为特征词6和9，公司2和3的特征词交集为特征词7。从上述公司之间的特征词关系，可以快速判断出企业之间的相互关系，并进而通过结构化加工就可以更加清晰地显示竞争关系和上下游关系。

如图2所示，本发明实施例的基于关键词提取分析的企业关系计算系统，包括：文本信息获取模块1、文本数字平均值计算模块2、词典设定模块3、短语序列提取模块4、权重值计算模块5和企业关联模块6。

具体地，文本信息获取模块1用于获取文本信息包含的段落数。

文本字数平均值计算模块2用于计算文本信息T1中每个段落的字数C1、C2、Cn…以及所有段落的字数平均值CV，提取出Cn/CV大于等于某个阈值k的段落文字，组装成为一个新的文字段落T2。该文字段落T2即为文字较多的段落。

词典设定模块3用于设置词典中的词语为引导词，根据设置的引导词对文本信息进行一次搜索，将文本中的语句在此摘录出一个新的文本T3。

下面对词典进行举例说明。

(某某企业)是一家集*(某某业务、某某业务为一体的某某)

(某某企业)是集*(某某业务、某某业务为一体的某某)

公司集*(某某业务、某某业务为一体)

成为集*(某某业务、某某业务为一体的某某)

(公司)专注*(某某领域、某某行业)

(公司)从事*(某某领域、某某行业)

(公司)是一家*(什么什么公司)

公司是*(什么什么公司)

我们提供*(什么什么服务)

公司提供*(什么什么服务)

我们致力于*(什么什么服务)

公司致力于*(什么什么服务)

我们从事*(什么什么服务)

公司从事*(什么什么服务)

产品覆盖*

产品线覆盖*

产品包括*

主要经营*

*核心业务*

*核心战略*

*核心产品*

*主导产品*

*高科技企业

*业务

*供应商

*提供商

*主业

根据上述引导词，对给定文本的进行一次搜索，将文本中的句子再次摘录出一个新的文本T3。从引导词*号指示的位置到底提取多少字数还是几句话在具体工程中确定。

短语序列提取模块4用于对T1、T2和T3分别提取关键短语，得到三个L1、L2和L3三个短语序列。

在本发明的一个实施例中，短语序列模块采用以下算法提取关键词：

其中，短语序列模块采用的提取关键词的多个算法，限定只筛选出名词、动名词、和专有名词。

权重值计算模块5用于将L1、L2和L3分别设置对应的权重值a、b和c，从三个短语序列中检查出重复词语，根据重复词语出现的次数与所在序列的权重值的乘积作为得分值，不重复的词语的得分值即为所在序列的权重值。其中，根据得分值进行排序，得到新的序列L4，作为特征词。

企业关联模块6用于将企业之间共同的关键短语作为连接点连接不同的企业，以形成企业之间的关联关系。

在本发明的一个实施例中，将企业之间共同的关键短语(特征词)作为连接点连接不同的企业，形成企业之间的关联关系。通过企业间的关联关系图，可以非常方便地帮助用户快速理解企业之间的相互关系，再进行结构化加工就可以更加清晰地显示竞争关系和上下游关系。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于关键词提取分析的企业关系计算方法，其特征在于，包括如下步骤：

步骤S4，对所述T1、T2和T3分别提取关键短语，得到L1、L2和L3三个短语序列；

步骤S5，将L1、L2和L3分别设置对应的权重值a、b和c，从三个短语序列中检查出重复词语，根据重复词语出现的次数与所在序列的权重值的乘积作为得分值，不重复的词语的得分值即为所在序列的权重值，其中，根据得分值进行排序，得到新的序列L4，作为特征词；

步骤S6，将企业之间共同的关键短语作为连接点连接不同的企业，以形成企业之间的关联关系，通过企业间的关联关系图，向用户提供企业之间的相互关系，再进行结构化加工即可显示竞争关系和上下游关系。

2.如权利要求1所述的基于关键词提取分析的企业关系计算方法，其特征在于，在所述步骤S4中，所述对T1、T2和T3分别提取关键短语，采用以下算法实现：

3.如权利要求2所述的基于关键词提取分析的企业关系计算方法，其特征在于，提取关键词的多个算法，限定只筛选出名词、动名词、和专有名词。

4.一种基于关键词提取分析的企业关系计算系统，其特征在于，包括：

文本信息获取模块，用于获取文本信息包含的段落数；

文本字数平均值计算模块，用于计算文本信息T1中每个段落的字数Cn以及所有段落的字数平均值CV，提取出Cn/CV大于等于某个阈值k的段落文字，组装成为一个新的文字段落T2；

词典设定模块，用于设置所述词典中的词语为引导词，根据设置的引导词对所述文本信息进行一次搜索，将文本中的语句在此摘录出一个新的文本T3；

短语序列提取模块，用于对所述T1、T2和T3分别提取关键短语，得到L1、L2和L3三个短语序列；

权重值计算模块，用于将L1、L2和L3分别设置对应的权重值a、b和c，从三个短语序列中检查出重复词语，根据重复词语出现的次数与所在序列的权重值的乘积作为得分值，不重复的词语的得分值即为所在序列的权重值，其中，所述权重值计算模块根据得分值进行排序，得到新的序列L4，作为特征词；

企业关联模块，用于将企业之间共同的关键短语作为连接点连接不同的企业，以形成企业之间的关联关系，向用户提供企业之间的相互关系，再进行结构化加工即可显示竞争关系和上下游关系。

5.如权利要求4所述的基于关键词提取分析的企业关系计算系统，其特征在于，所述短语序列提取模块对所述T1、T2和T3分别提取关键短语，采用以下算法实现：

6.如权利要求4所述的基于关键词提取分析的企业关系计算系统，其特征在于，所述短语序列提取模块采用的提取关键词的多个算法，限定只筛选出名词、动名词、和专有名词。