CN109299248A

CN109299248A - 一种基于自然语言处理的商业情报收集方法

Info

Publication number: CN109299248A
Application number: CN201811520920.0A
Authority: CN
Inventors: 祝守宇; 张辉; 熊楗洲; 刘勇; 王开业; 樊妍睿; 马波涛; 朱芝濡
Original assignee: Chengdu Aerospace Science Institute Of Data Research Co Ltd
Current assignee: Chengdu Aerospace Science Institute Of Data Research Co Ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-02-01

Abstract

本发明属于数据处理领域，公开了一种基于自然语言处理的商业情报收集方法，包括如下步骤：S1：设定收集范围，并组建基本语料库；S2：根据组建的基本语料库，组建学习模型；S3：根据收集范围，使用学习模型，收集对应的语句；S4：对收集到的语句进行解析，获取解析结果；S5：根据解析结果，进行态度分析，判断语句是否有语料价值，若是则将对应语句加入基本语料库，并返回步骤S3，否则直接进入步骤S6；S6：根据当前基本语料库，进行情报汇集；本发明解决了现有技术存在的不能保证提供服务的及时性、安全性、准确性，并且不能保证服务的连续性的问题。

Description

一种基于自然语言处理的商业情报收集方法

技术领域

本发明属于数据处理领域，具体涉及一种基于自然语言处理的商业情报收集方法。

背景技术

为了保障增加产出的边际效益接近于极限，生产者需要从消费者的手中获得及时、有效的相关反馈，从而为下一步的生产选择和战略决策提供事实依据。与传统的商业信息相比，现代商业信息在信息海洋中呈碎片化分布。反馈信息并不能够集中且直观的表现出来，并且信息的来源多种多样，其真实性与有效性得不到保证，与此同时鉴于汉语系统表达上的复杂性，商业情报收集往往容易遗漏或出现误判。因此，从海量的数据中挖掘出生产者所需的重要信息这一过程往往是比较困难的。作为人工智能科技的一个重要的分支，针对汉语系统的自然语言处理已有长足的进步，在此基础上，针对于各类场景的自然语言处理应用已经广泛普及。

目前，国内外各科技巨头及权威机构在自然语言处理的基础技术上已经有了很大的进展。Google已有一套完整的机器学习平台——TensorFlow，而各大工程计算软件也都推出了相应的机器学习支持。目前已经能使用Matlab的NNSTART工具箱来完成基本的GNN，同时可以使用TensorFlow来建立相应模型。

目前，国内最接近的现有技术为知舆感知型商业情报搜集系统。该技术存在的重大缺陷为不能保证提供服务的及时性、安全性、准确性，并且不能保证服务的连续性。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供一种基于自然语言处理的商业情报收集方法，用于解决现有技术存在的不能保证提供服务的及时性、安全性、准确性，并且不能保证服务的连续性的问题。

以现有的自然语言处理技术和工业大数据平台实际情况为基础，通过分析自然语言处理技术在商业情报挖掘方面的可能应用，形成一套有效信息的处理方案。

本发明所采用的技术方案为：

一种基于自然语言处理的商业情报收集方法，包括如下步骤：

S1：设定收集范围，并组建基本语料库；

S2：根据组建的基本语料库，组建学习模型；

S3：根据收集范围，使用学习模型，收集对应的语句；

S4：对收集到的语句进行解析，获取解析结果；

S5：根据解析结果，进行态度分析，判断语句是否有语料价值，若是则将对应语句加入基本语料库，并返回步骤S3，否则直接进入步骤S6；

S6：根据当前基本语料库，进行情报汇集。

进一步地，步骤S3中，使用爬虫工具，根据组建的基本语料库，进行对应的语句收集；面向特定主题需求，根据种子样本，在实施网页抓取时对内容进行处理筛选，基于目标网页特征的爬虫所抓取、存储并索引的对象为网站或网页；

网页特征包括网页的内容特征和网页的链接结构特征。

进一步地，种子样本的获取方式可分为：

预先给定初始抓取种子样本；

预先给定的网页分类目录和与分类目录对应的种子样本；

通过用户行为确定的抓取目标样例吗，包括：用户浏览过程中显示标注的抓取样本；通过用户日志挖掘得到访问模式及相关样本。

进一步地，步骤S4中，对收集到的语句进行解析，即为对收集到的语句进行中文语言分词，其具体方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法；

基于统计的分词方法为：使用字与字相邻共现的频率或概率反映成词的可信度；对语料中相邻共现的各个字的组合的频度进行统计，计算互现信息；定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率；互现信息体现了汉字之间结合关系的紧密程度；当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词；

实际应用的统计分词系统都使用一部基本的分词词典即常用词词典进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来。

进一步地，步骤S5中，进行态度分析，其具体方法包括以下步骤：

A1：根据解析结果，进行中文语言分词；

A2：根据分词结果，进行特征提取；

A3：根据提取的特征，进行情感分类。

进一步地，步骤A2中，特征提取的方法为主成分分析法：通过搜索最能代表原数据的正交向量，创立一个替换的、较小的变量集来组合属性的精华，原数据可以投影到这个较小的集合；

PCA由于其处理方式的不同又分为数据方法和矩阵方法：矩阵方法中，所有的数据通过计算方差一协方差结构在矩阵中表示出来，矩阵的实现目标是确定协方差矩阵的特征向量，它们和原始数据的主要成分相对应：在主成分方法中，由于矩阵方法的复杂度在n很大的情况以二次方增长，使用建立在Hebbian学习规则基础上的PCA神经网络方法。

进一步地，步骤A3中，采用贝叶斯分类器进行情感分类，其具体公式为：

进一步地，步骤S5中，使用TextRank算法提取数据的关键词，即需加入基本语料库的对应语句；

关键词提取TextRank算法的具体步骤为：

B1：根据预设收集范围的文本，按照完整句子进行分割；

使用的分割公式为：

T＝[S₁,2,…,_m]

B2：对于每个完整句子，对其进行分词和词性标注，并剔除停用词，保留指定词性的词；

B3：构建词图，即采用共现关系构造任意两个句子节点之间的边；

衡量句子之间相似性的公式为：

B4：迭代计算各节点的权重，直至收敛；

B5：对节点的权重进行倒序排序，从中得到最重要的t个单词，作为top-t关键词；

B6：对于得到的top-t关键词，在原始文本中进行标记，若它们之间形成了相邻词组，则作为关键词组提取出来。

进一步地，步骤S6中，预先设定技术指标，根据技术指标，进行情报汇集。

进一步地，技术指标包括：准确率、精确率、召回率和综合检索评价。

本发明的有益效果为：

(1)统计与字典相结合：在统计中文分词模型中融入词典相关特征的方法，使得统计中文分词模型和词典有机结合起来。一方面可以进一步提高中文分词的准确率，另一方面大大改善了中文分词的领域自适应性。

(2)CRF介绍:条件随机场，代表了新一代的机器学习技术分词，其基本思路是对汉字进行标注即由字构词(组词)，不仅考虑了文字词语出现的频率信息，同时考虑上下文语境，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。

(3)构建情感词典：使用义元分解和情感强度值计算方法来计算义元的情感趋向值，从而得到词语正面和负面的情感趋向值。且注意在使用过程中根据语境的不同来修改词语的情感趋向值。

(4)知识挖掘：经过海量的网络数据与知识的挖掘分析，将各种结构化、非结构化、半结构化的知识进行组织与梳理，最终以结构化、清晰化的知识形式完整地呈现给用户。

附图说明

图1是基于自然语言处理的商业情报收集方法流程图；

图2是情报汇集图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

如图1所示，一种基于自然语言处理的商业情报收集方法，包括如下步骤：

S1：设定收集范围，并组建基本语料库；

S2：根据组建的基本语料库，组建学习模型；

S3：根据收集范围，使用学习模型，收集对应的语句；

S4：对收集到的语句进行解析，获取解析结果；

S6：根据当前基本语料库，如图2所示，进行情报汇集。

作为优选，步骤S3中，使用爬虫工具，根据组建的基本语料库，进行对应的语句收集；面向特定主题需求，根据种子样本，在实施网页抓取时对内容进行处理筛选，基于目标网页特征的爬虫所抓取、存储并索引的对象为网站或网页；

网页特征包括网页的内容特征和网页的链接结构特征。

作为优选，种子样本的获取方式可分为：

预先给定初始抓取种子样本；

预先给定的网页分类目录和与分类目录对应的种子样本；

作为优选，步骤S4中，对收集到的语句进行解析，即为对收集到的语句进行中文语言分词，其具体方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法；

基于理解的分词方法又称为知识分词，通过计算机模拟人对句子的李姐，达到设别的效果，但是由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式；

基于字符串匹配的分词方法即扫描字符串，如果发现字符串的子串和词相同，就算匹配。这类分词通常会加入一些启发式规则，比如“正向/反向最大匹配”,“长词优先”等策略，其缺点为就是对歧义和未登录词处理不好的问题；

本实施例中使用基于统计的分词方法，从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词；因此字与字相邻共现的频率或概率能够较好的反映成词的可信度；可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息；定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率；互现信息体现了汉字之间结合关系的紧密程度；当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词；这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

作为优选，步骤S5中，进行态度分析，其具体方法包括以下步骤：

A1：根据解析结果，进行中文语言分词；

A2：根据分词结果，进行特征提取；

A3：根据提取的特征，进行情感分类。

作为优选，步骤A2中，特征提取的方法为主成分分析法；特征提取的方法为主成分分析法：通过搜索最能代表原数据的正交向量，创立一个替换的、较小的变量集来组合属性的精华，原数据可以投影到这个较小的集合；

PCA由于其处理方式的不同又分为数据方法和矩阵方法：矩阵方法中，所有的数据通过计算方差一协方差结构在矩阵中表示出来，矩阵的实现目标是确定协方差矩阵的特征向量，它们和原始数据的主要成分相对应：在主成分方法中，由于矩阵方法的复杂度在n很大的情况以二次方增长，进一步使用建立在Hebbian学习规则基础上的PCA神经网络方法；

主成分分析法是特征选取常用的方法之一，它能够揭示更多有关变量方向的信息，但它的问题在于矩阵方法中要使用奇异值分解对角化矩阵求解方差一协方差。

作为优选，步骤A3中，采用贝叶斯分类器进行情感分类，

其具体公式为：

对一个多维的输入向量x,根据贝叶斯公式：

P(y|x₁,x₂,……x_n)＝(P(y)P(x₁,x₂,……x_n|y))/P(x1…….xn)

条件独立性假设：

放到自然语言分类器的应用中理解，就是在给定文本的类别的条件下，文本中出现的词的概率是相互独立的，因为条件独立性假设是一个较强的假设。

又有在给定输入下，是一个常数，即进行情感分类的公式为：

作为优选，步骤S5中，使用TextRank算法提取数据的关键词，即需加入基本语料库的对应语句；

采用TextRank算法，该算法是一种文本排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它能够从一个给定的文本中提取出该文本的关键词、关键词组。

TextRank算法是由网页重要性排序算法PageRank算法迁移而来：PageRank算法根据万维网上页面之间的链接关系计算每个页面的重要性；TextRank算法将词视为“万维网上的节点”，根据词之间的共现关系计算每个词的重要性，并将PageRank中的有向边变为无向边，所以，在介绍TextRank算法之前，先构建PageRank算法；

该算法通过计算网页链接的数量和质量来粗略估计网页的重要性，PageRank算法被用于Google搜索引擎中对网页进行排名；PageRank算法的核心思想如下：

如果一个网页被很多其他网页链接到，说明这个网页比较重要，即该网页的PageRank值(以下简称PR指)会相对较高；如果一个PR值很高的网页链接到一个其他网页，那么被链接到的网页的PR值会相应地因此而提高；

根据构建的PageRank算法，进行改进得到TextRank算法，二者的思想有相同之处，区别在于：PageRank算法根据网页之间的链接关系构造网络，而TextRank算法根据词之间的共现关系构造网络；PageRank算法构造的网络中的边是有向无权边，而TextRank算法构造的网络中的边是无向有权边。TextRank算法的核心公式如下，其中用于表示两个节点之间的边连接具有不同的重要程度，其重要程度的技术公式为：

关键词提取TextRank算法的具体步骤为：

B1：根据预设收集范围的文本，按照完整句子进行分割；

使用的分割公式为：

T＝[S₁,S₂,…,S_m]

B2：对于每个完整句子，对其进行分词和词性标注，并剔除停用词，保留指定词性的词，如名词、动词、形容词等，即，其中为句子i中保留下的词；

B3：构建词图，其中V为节点集合，由以上步骤生成的词组成，然后采用共现关系构造任意两个节点之间的边：两个节点之间存在边仅当它们对应的词在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词，一般K取2；

从给定文本中提取关键句时，将文本中的每个句子分别看作一个节点，如果两个句子有相似性，则认为这两个句子对应的节点之间存在一条无向有权边，衡量句子之间相似性的公式为：

S_i,S_j表示两个句子；w_k表示句子中的词；

B4：迭代计算各节点的权重，直至收敛；分子部分的意思是同时出现在两个句子中的同一个词的数量，分母是对句子中词的个数求对数后求和，这样设计可以遏制较长的句子在相似度计算上的优势；

B6：对于得到的top-t关键词，在原始文本中进行标记，若它们之间形成了相邻词组，则作为关键词组提取出来；

本实施例中，根据以上相似度计算公式循环计算任意两个节点之间的相似度，设置阈值去掉两个节点之间相似度较低的边连接，构建出节点连接图，然后迭代计算每个节点的TextRank值，排序后选出TextRank值最高的几个节点对应的句子作为关键句。

作为优选，步骤S6中，预先设定技术指标，根据技术指标，进行情报汇集。

作为优选，技术指标包括：准确率、精确率、召回率和综合检索评价；四个指标对收集到的信息进行评估。可以通过以上指标将所收集信息分为A、B、C、D四类：

A：收集到且被认定为有效数据

B：收集到但被认为无效数据

C：未被收集到但未有效数据

D：未被收集到且为无效数据

其中，被归类到A的数据将会被标记为可用的商业情报。

本发明的有益效果为：

本发明提供了一种基于自然语言处理的商业情报收集方法，解决了现有技术存在的不能保证提供服务的及时性、安全性、准确性，并且不能保证服务的连续性的问题。

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于自然语言处理的商业情报收集方法，其特征在于：包括如下步骤：

S1：设定收集范围，并组建基本语料库；

S2：根据组建的基本语料库，组建学习模型；

S3：根据收集范围，使用学习模型，收集对应的语句；

S4：对收集到的语句进行解析，获取解析结果；

S6：根据当前基本语料库，进行情报汇集。

2.根据权利要求1所述的基于自然语言处理的商业情报收集方法，其特征在于：所述步骤S3中，使用爬虫工具，根据组建的基本语料库，进行对应的语句收集；面向特定主题需求，根据种子样本，在实施网页抓取时对内容进行处理筛选，基于目标网页特征的爬虫所抓取、存储并索引的对象为网站或网页；

网页特征包括网页的内容特征和网页的链接结构特征。

3.根据权利要求2所述的基于自然语言处理的商业情报收集方法，其特征在于：所述种子样本的获取方式可分为：

预先给定初始抓取种子样本；

预先给定的网页分类目录和与分类目录对应的种子样本；

4.根据权利要求1所述的基于自然语言处理的商业情报收集方法，其特征在于：所述步骤S4中，对收集到的语句进行解析，即为对收集到的语句进行中文语言分词，其具体方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法；

所述基于统计的分词方法为：使用字与字相邻共现的频率或概率反映成词的可信度；对语料中相邻共现的各个字的组合的频度进行统计，计算互现信息；定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率；互现信息体现了汉字之间结合关系的紧密程度；当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词；

5.根据权利要求1所述的基于自然语言处理的商业情报收集方法，其特征在于：所述步骤S5中，进行态度分析，其具体方法包括以下步骤：

A1：根据解析结果，进行中文语言分词；

A2：根据分词结果，进行特征提取；

A3：根据提取的特征，进行情感分类。

6.根据权利要求5所述的基于自然语言处理的商业情报收集方法，其特征在于：所述步骤A2中，特征提取的方法为主成分分析法：通过搜索最能代表原数据的正交向量，创立一个替换的、较小的变量集来组合属性的精华，原数据可以投影到这个较小的集合；

7.根据权利要求5所述的基于自然语言处理的商业情报收集方法，其特征在于：所述步骤A3中，采用贝叶斯分类器进行情感分类，其具体公式为：

8.根据权利要求1所述的基于自然语言处理的商业情报收集方法，其特征在于：所述步骤S5中，使用TextRank算法提取数据的关键词，即需加入基本语料库的对应语句；

关键词提取TextRank算法的具体步骤为：

B1：根据预设收集范围的文本，按照完整句子进行分割；

使用的分割公式为：

T＝[S₁,S₂,…,S_m]

衡量句子之间相似性的公式为：

B4：迭代计算各节点的权重，直至收敛；

9.根据权利要求1所述的基于自然语言处理的商业情报收集方法，其特征在于：所述步骤S6中，预先设定技术指标，根据技术指标，进行情报汇集。

10.根据权利要求9所述的基于自然语言处理的商业情报收集方法，其特征在于：所述技术指标包括：准确率、精确率、召回率和综合检索评价。