CN109992245A

CN109992245A - 一种基于主题模型进行企业科技服务需求建模的方法及系统

Info

Publication number: CN109992245A
Application number: CN201910288042.2A
Authority: CN
Inventors: 刘行兵; 张震; 张非; 田柔嘉; 王英英; 柴斌; 刘孝飞; 司思
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-07-09

Abstract

本发明具体公开了本发明具体公开了一种基于主题模型进行企业科技服务需求建模的方法，第一步：通过企业终端使企业将需求文档上传至服务器；第二步：服务器将同一个企业上传的需求文档进行解析并整合成一个企业需求文档；第三步：服务器通过LDA模型提取出企业需求文档的企业需求主题；第四步：服务器提取企业需求主题的特征词，并根据特征词建立企业需求的VSM模型；第五步：通过用户终端显示企业需求的VSM模型。本发明将每一个企业科技服务的需求用向量空间模型来表示，表示出的模型具有个性化。从应用角度来讲，本发明从个性推荐上精准的解决企业所提出的科技服务的需求问题，满足企业在科技服务上的个性化需求。

Description

一种基于主题模型进行企业科技服务需求建模的方法及系统

技术领域

本发明涉及业务流程处理领域，特别涉及一种基于主题模型进行企业科技服务需求建模的方法及系统。

背景技术

计算机的发展和应用在当今社会已经不可替代，当今的大数据时代、AI兴起以及互联网区块链时代的到来，无一不暗示着当今世界计算机已经成为发展的主流。目前前我国科技部在“现代服务业共性关键技术研发及应用示范”重点专项2018年度项目申报指南中指出，我国现代服务业发展模式创新不足、科技创新支撑不足、服务实体经济的能力薄弱等问题突出。需要解决的问题中提到，要研究分类用户对科技服务的个性化需求。传统的科技服务模式比较单一，很难实现科技化和个性化。通过对企业科技服务需求的获取预处理并转化为数字模型将成为目前科技服务的一种趋势。

然而目前对于企业的科技服务的需求，政府了解的并不是很多主要是由于了解的渠道不够广泛，参与的企业也不多，因此，对于科技服务需求的数据是少之又少。

发明内容

本发明的目的是克服上述现有技术中存在的问题，提供一种基于主题模型进行企业科技服务需求建模的方法及系统。通过企业将需求文档的上传至系统的服务器，服务器将企业上传的需求文档进行处理，并建立需求的向量模型，同时将需求的向量模型展示给用户。

本发明的技术方案是：一种基于主题模型进行企业科技服务需求建模的方法，包括如下步骤：

S1：通过企业终端使企业将需求文档上传至服务器；

S2：服务器将同一个企业上传的需求文档进行解析并整合成一个企业需求文档；

S3：服务器通过LDA模型提取出企业需求文档的企业需求主题；

S4：服务器提取企业需求主题的特征词，并根据特征词建立企业需求的VSM模型；

S5：通过用户终端显示企业需求的VSM模型。

较佳地，在步骤S3中，包括如下步骤：

S3-1：通过Python语言中的jieba库将企业需求文档中的词语和标点断开，根据“哈工大停用词表.txt”将词语中的停用词去除，得到新的企业需求文档；

S3-2：以对话框的形式让用户设定最优主题数K以及模型的超参数α和β，并新的企业需求文档中的词语作为输入语料，建立LDA模型；

S3-3：通过LDA模型获取语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布；

S3-4：整合语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布，得到企业需求主题。

较佳地，在步骤S4中，包括如下步骤：

S4-1：将步骤S3中的企业需求主题通过空间向量的形式进行表示，得到企业需求主题向量；

S4-2：将企业需求主题向量加上设定的权重构成VSM模型。

一种基于主题模型进行企业科技服务需求建模系统，包括：

企业终端，用于使企业上传需求文档，并将企业上传的需求文档发送至服务器；

服务器，用于接收企业终端发送的需求文档，将同一个企业上传的需求文档进行解析并整合成一个企业需求文档，并通过LDA模型提取出企业需求文档的企业需求主题，提取企业需求主题的特征词，并建立企业需求的VSM模型，将建立好的VSM模型发送至用户终端；

用户终端，用于接收服务器发送的VSM模型，并将VSM模型进行显示。

本发明的有益效果：本发明实施例中提供一种基于主题模型进行企业科技服务需求建模的方法及系统，将每一个企业科技服务的需求用向量空间模型来表示，表示出的模型具有个性化。从应用角度来讲，本发明从个性推荐上精准的解决企业所提出的科技服务的需求问题，满足企业在科技服务上的个性化需求。

附图说明

图1为本发明提供的一种基于主题模型进行企业科技服务需求建模的方法的流程图；

图2为本发明提供的一种基于主题模型进行企业科技服务需求建模的系统的系统结构框图。

具体实施方式

下面结合附图，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

参见图1，本发明实施例提供了一种基于主题模型进行企业科技服务需求建模的方法，包括如下步骤：

S1：通过企业终端使企业将需求文档上传至服务器；

S5：通过用户终端显示企业需求的VSM模型。

进一步的，在步骤S3中，包括如下步骤：

S3-1：通过Python语言中的jieba库将企业需求文档中的词语和标点断开，根据“哈工大停用词表.txt”(哈工大停用词表是一个经常被使用的停用此表,可以在自然语言处理过程中的分词时过滤掉不必要的单词，具体参见链接：https://wenku.baidu.com/view/b3275a66f5335a8102d2200d.html)将词语中的停用词去除，得到新的企业需求文档。分词和去停用词处理，本专利分词采用Python语言中的jieba库来做分词工具，jieba库是一款优秀的Python语言中第三方中文分词库，jieba支持三种分词模式：精确模式、全模式和搜索引擎模式，从效果上看，文本中的词和标点均被断开，能够达到分词的效果。本专利的停用词表主要使用“哈工大停用词表.txt”，通过Python语言打开文档，传送一定数量的停用词，与文本信息进行匹配，同时，自己也可以在停用词表的文档里添加一些必要的停用词。

S3-2：以对话框的形式让用户设定最优主题数K以及模型的超参数α和β，并新的企业需求文档中的词语作为输入语料，建立LDA模型。设定最优主题数和模型的超参数，本专利所涉及的企业需求文本数据的最优主题数K可以自行设定，能够很好的表达文档中的主题和词的分布情况即可，超参数：本案例的超参数α、β分别按照α＝50/K，β＝0.01来进行模型参数的计算的，如主题数K＝3，则两参数分别为50/3和0.01。

S3-3：通过LDA模型获取语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布。确定LDA模型的超参数后，将经过清洗、分词、去停用词后的企业需求信息作为LDA模型的输入语料，对LDA模型进行训练。最终可以得到训练好的LDA模型，以及训练集上文档－主题分布和主题－词分布。在原有语料集的基础上加入新的测试文本信息，在同样的参数条件下重复上述过程，利用LDA模型即可获取语料集中每篇文档所服从的隐含主题分布，以及每个隐含主题所服从的词分布。

S3-4：整合语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布，得到企业需求主题。文档-主题-词分布，由于LDA模型自身是三层贝叶斯的概率模型，对应的包含词、主题和文档的三层结构。因为模型的特殊性，使得文本中的每个词要经过“以某个准确的概率选择某个主题，还要从这个主题中以某个概率来获得选择某个词语”这样完整的过程得到，所以说从文档到主题是符合多项式分布的，同理，主题到词也符合多项式分布。可以理解为每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

进一步的，在步骤S4中，模型采用了“词袋”的思想，这种思想认为文档之间所体现出来的差别在于文档间词的权重值不同，而和词所在文档中的顺序无关，文档用向量空间模型的表示形式，直接忽略了文档中词语、句子之间复杂的关系，将一篇文档表示成了若干词，具体包括如下步骤：

S4-2：将企业需求主题向量加上设定的权重构成VSM模型。

S4中根据提取的主题对科技服务需求进行数字建模和系统设计实现的具体过程为：分词、停用词过滤(中文文档中通常会包含“的”，“了”等词语，这种词语在文档中没有实际意义，但是大量的停用词会影响文档特征词的提取。本文在使用常见的停用词表的基础上还引入了一些专门针对学术论文的停用词，如“研究”、“论文”等词)、特征词提取、建立VSM模型，将特征词及其权重按照式d＝{(t₁,ω₁),(t₂,ω₂),...,(t_n,ω_n)}所示，组成向量空间模型所需要的结构。

参见图2，本发明实施例提供了一种基于主题模型进行企业科技服务需求建模系统，包括：

综上所述，本发明具体公开了一种基于主题模型进行企业科技服务需求建模的方法，第一步：通过企业终端使企业将需求文档上传至服务器；第二步：服务器将同一个企业上传的需求文档进行解析并整合成一个企业需求文档；第三步：服务器通过LDA模型提取出企业需求文档的企业需求主题；第四步：服务器提取企业需求主题的特征词，并根据特征词建立企业需求的VSM模型；第五步：通过用户终端显示企业需求的VSM模型。参照上述方法，本发明提供的一种基于主题模型进行企业科技服务需求建模系统配合改方法的使用，包括：企业终端，用于使企业上传需求文档，并将企业上传的需求文档发送至服务器；服务器，用于接收企业终端发送的需求文档，将同一个企业上传的需求文档进行解析并整合成一个企业需求文档，并通过LDA模型提取出企业需求文档的企业需求主题，提取企业需求主题的特征词，并建立企业需求的VSM模型，将建立好的VSM模型发送至用户终端；用户终端，用于接收服务器发送的VSM模型，并将VSM模型进行显示。本发明将每一个企业科技服务的需求用向量空间模型来表示，表示出的模型具有个性化。从应用角度来讲，本发明从个性推荐上精准的解决企业所提出的科技服务的需求问题，满足企业在科技服务上的个性化需求。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于主题模型进行企业科技服务需求建模的方法，其特征在于，包括如下步骤：

S1：通过企业终端使企业将需求文档上传至服务器；

S5：通过用户终端显示企业需求的VSM模型。

2.如权利要求1所述的一种基于主题模型进行企业科技服务需求建模的方法，其特征在于，在步骤S3中，包括如下步骤：

S3-1：通过程序语言中的第三方中文分词库将企业需求文档中的词语和标点断开，根据停用词表将词语中的停用词去除，得到新的企业需求文档；

3.如权利要求2所述的一种基于主题模型进行企业科技服务需求建模的方法，其特征在于，在步骤S3-1中，通过Python语言中的jieba库将企业需求文档中的词语和标点断开，根据“哈工大停用词表.txt”将词语中的停用词去除，得到新的企业需求文档。

4.如权利要求1所述的一种基于主题模型进行企业科技服务需求建模的方法，其特征在于，在步骤S4中，包括如下步骤：

S4-2：将企业需求主题向量加上设定的权重构成VSM模型。

5.一种基于主题模型进行企业科技服务需求建模系统，其特征在于，包括：