CN109992245A - 一种基于主题模型进行企业科技服务需求建模的方法及系统 - Google Patents

一种基于主题模型进行企业科技服务需求建模的方法及系统 Download PDF

Info

Publication number
CN109992245A
CN109992245A CN201910288042.2A CN201910288042A CN109992245A CN 109992245 A CN109992245 A CN 109992245A CN 201910288042 A CN201910288042 A CN 201910288042A CN 109992245 A CN109992245 A CN 109992245A
Authority
CN
China
Prior art keywords
enterprise
demand
model
theme
enterprise demand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910288042.2A
Other languages
English (en)
Inventor
刘行兵
张震
张非
田柔嘉
王英英
柴斌
刘孝飞
司思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN201910288042.2A priority Critical patent/CN109992245A/zh
Publication of CN109992245A publication Critical patent/CN109992245A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/10Requirements analysis; Specification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明具体公开了本发明具体公开了一种基于主题模型进行企业科技服务需求建模的方法,第一步:通过企业终端使企业将需求文档上传至服务器;第二步:服务器将同一个企业上传的需求文档进行解析并整合成一个企业需求文档;第三步:服务器通过LDA模型提取出企业需求文档的企业需求主题;第四步:服务器提取企业需求主题的特征词,并根据特征词建立企业需求的VSM模型;第五步:通过用户终端显示企业需求的VSM模型。本发明将每一个企业科技服务的需求用向量空间模型来表示,表示出的模型具有个性化。从应用角度来讲,本发明从个性推荐上精准的解决企业所提出的科技服务的需求问题,满足企业在科技服务上的个性化需求。

Description

一种基于主题模型进行企业科技服务需求建模的方法及系统
技术领域
本发明涉及业务流程处理领域,特别涉及一种基于主题模型进行企业科技服务需求建模的方法及系统。
背景技术
计算机的发展和应用在当今社会已经不可替代,当今的大数据时代、AI兴起以及互联网区块链时代的到来,无一不暗示着当今世界计算机已经成为发展的主流。目前前我国科技部在“现代服务业共性关键技术研发及应用示范”重点专项2018年度项目申报指南中指出,我国现代服务业发展模式创新不足、科技创新支撑不足、服务实体经济的能力薄弱等问题突出。需要解决的问题中提到,要研究分类用户对科技服务的个性化需求。传统的科技服务模式比较单一,很难实现科技化和个性化。通过对企业科技服务需求的获取预处理并转化为数字模型将成为目前科技服务的一种趋势。
然而目前对于企业的科技服务的需求,政府了解的并不是很多主要是由于了解的渠道不够广泛,参与的企业也不多,因此,对于科技服务需求的数据是少之又少。
发明内容
本发明的目的是克服上述现有技术中存在的问题,提供一种基于主题模型进行企业科技服务需求建模的方法及系统。通过企业将需求文档的上传至系统的服务器,服务器将企业上传的需求文档进行处理,并建立需求的向量模型,同时将需求的向量模型展示给用户。
本发明的技术方案是:一种基于主题模型进行企业科技服务需求建模的方法,包括如下步骤:
S1:通过企业终端使企业将需求文档上传至服务器;
S2:服务器将同一个企业上传的需求文档进行解析并整合成一个企业需求文档;
S3:服务器通过LDA模型提取出企业需求文档的企业需求主题;
S4:服务器提取企业需求主题的特征词,并根据特征词建立企业需求的VSM模型;
S5:通过用户终端显示企业需求的VSM模型。
较佳地,在步骤S3中,包括如下步骤:
S3-1:通过Python语言中的jieba库将企业需求文档中的词语和标点断开,根据“哈工大停用词表.txt”将词语中的停用词去除,得到新的企业需求文档;
S3-2:以对话框的形式让用户设定最优主题数K以及模型的超参数α和β,并新的企业需求文档中的词语作为输入语料,建立LDA模型;
S3-3:通过LDA模型获取语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布;
S3-4:整合语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布,得到企业需求主题。
较佳地,在步骤S4中,包括如下步骤:
S4-1:将步骤S3中的企业需求主题通过空间向量的形式进行表示,得到企业需求主题向量;
S4-2:将企业需求主题向量加上设定的权重构成VSM模型。
一种基于主题模型进行企业科技服务需求建模系统,包括:
企业终端,用于使企业上传需求文档,并将企业上传的需求文档发送至服务器;
服务器,用于接收企业终端发送的需求文档,将同一个企业上传的需求文档进行解析并整合成一个企业需求文档,并通过LDA模型提取出企业需求文档的企业需求主题,提取企业需求主题的特征词,并建立企业需求的VSM模型,将建立好的VSM模型发送至用户终端;
用户终端,用于接收服务器发送的VSM模型,并将VSM模型进行显示。
本发明的有益效果:本发明实施例中提供一种基于主题模型进行企业科技服务需求建模的方法及系统,将每一个企业科技服务的需求用向量空间模型来表示,表示出的模型具有个性化。从应用角度来讲,本发明从个性推荐上精准的解决企业所提出的科技服务的需求问题,满足企业在科技服务上的个性化需求。
附图说明
图1为本发明提供的一种基于主题模型进行企业科技服务需求建模的方法的流程图;
图2为本发明提供的一种基于主题模型进行企业科技服务需求建模的系统的系统结构框图。
具体实施方式
下面结合附图,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
参见图1,本发明实施例提供了一种基于主题模型进行企业科技服务需求建模的方法,包括如下步骤:
S1:通过企业终端使企业将需求文档上传至服务器;
S2:服务器将同一个企业上传的需求文档进行解析并整合成一个企业需求文档;
S3:服务器通过LDA模型提取出企业需求文档的企业需求主题;
S4:服务器提取企业需求主题的特征词,并根据特征词建立企业需求的VSM模型;
S5:通过用户终端显示企业需求的VSM模型。
进一步的,在步骤S3中,包括如下步骤:
S3-1:通过Python语言中的jieba库将企业需求文档中的词语和标点断开,根据“哈工大停用词表.txt”(哈工大停用词表是一个经常被使用的停用此表,可以在自然语言处理过程中的分词时过滤掉不必要的单词,具体参见链接:https://wenku.baidu.com/view/b3275a66f5335a8102d2200d.html)将词语中的停用词去除,得到新的企业需求文档。分词和去停用词处理,本专利分词采用Python语言中的jieba库来做分词工具,jieba库是一款优秀的Python语言中第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式,从效果上看,文本中的词和标点均被断开,能够达到分词的效果。本专利的停用词表主要使用“哈工大停用词表.txt”,通过Python语言打开文档,传送一定数量的停用词,与文本信息进行匹配,同时,自己也可以在停用词表的文档里添加一些必要的停用词。
S3-2:以对话框的形式让用户设定最优主题数K以及模型的超参数α和β,并新的企业需求文档中的词语作为输入语料,建立LDA模型。设定最优主题数和模型的超参数,本专利所涉及的企业需求文本数据的最优主题数K可以自行设定,能够很好的表达文档中的主题和词的分布情况即可,超参数:本案例的超参数α、β分别按照α=50/K,β=0.01来进行模型参数的计算的,如主题数K=3,则两参数分别为50/3和0.01。
S3-3:通过LDA模型获取语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布。确定LDA模型的超参数后,将经过清洗、分词、去停用词后的企业需求信息作为LDA模型的输入语料,对LDA模型进行训练。最终可以得到训练好的LDA模型,以及训练集上文档-主题分布和主题-词分布。在原有语料集的基础上加入新的测试文本信息,在同样的参数条件下重复上述过程,利用LDA模型即可获取语料集中每篇文档所服从的隐含主题分布,以及每个隐含主题所服从的词分布。
S3-4:整合语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布,得到企业需求主题。文档-主题-词分布,由于LDA模型自身是三层贝叶斯的概率模型,对应的包含词、主题和文档的三层结构。因为模型的特殊性,使得文本中的每个词要经过“以某个准确的概率选择某个主题,还要从这个主题中以某个概率来获得选择某个词语”这样完整的过程得到,所以说从文档到主题是符合多项式分布的,同理,主题到词也符合多项式分布。可以理解为每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
进一步的,在步骤S4中,模型采用了“词袋”的思想,这种思想认为文档之间所体现出来的差别在于文档间词的权重值不同,而和词所在文档中的顺序无关,文档用向量空间模型的表示形式,直接忽略了文档中词语、句子之间复杂的关系,将一篇文档表示成了若干词,具体包括如下步骤:
S4-1:将步骤S3中的企业需求主题通过空间向量的形式进行表示,得到企业需求主题向量;
S4-2:将企业需求主题向量加上设定的权重构成VSM模型。
S4中根据提取的主题对科技服务需求进行数字建模和系统设计实现的具体过程为:分词、停用词过滤(中文文档中通常会包含“的”,“了”等词语,这种词语在文档中没有实际意义,但是大量的停用词会影响文档特征词的提取。本文在使用常见的停用词表的基础上还引入了一些专门针对学术论文的停用词,如“研究”、“论文”等词)、特征词提取、建立VSM模型,将特征词及其权重按照式d={(t11),(t22),...,(tnn)}所示,组成向量空间模型所需要的结构。
参见图2,本发明实施例提供了一种基于主题模型进行企业科技服务需求建模系统,包括:
企业终端,用于使企业上传需求文档,并将企业上传的需求文档发送至服务器;
服务器,用于接收企业终端发送的需求文档,将同一个企业上传的需求文档进行解析并整合成一个企业需求文档,并通过LDA模型提取出企业需求文档的企业需求主题,提取企业需求主题的特征词,并建立企业需求的VSM模型,将建立好的VSM模型发送至用户终端;
用户终端,用于接收服务器发送的VSM模型,并将VSM模型进行显示。
综上所述,本发明具体公开了一种基于主题模型进行企业科技服务需求建模的方法,第一步:通过企业终端使企业将需求文档上传至服务器;第二步:服务器将同一个企业上传的需求文档进行解析并整合成一个企业需求文档;第三步:服务器通过LDA模型提取出企业需求文档的企业需求主题;第四步:服务器提取企业需求主题的特征词,并根据特征词建立企业需求的VSM模型;第五步:通过用户终端显示企业需求的VSM模型。参照上述方法,本发明提供的一种基于主题模型进行企业科技服务需求建模系统配合改方法的使用,包括:企业终端,用于使企业上传需求文档,并将企业上传的需求文档发送至服务器;服务器,用于接收企业终端发送的需求文档,将同一个企业上传的需求文档进行解析并整合成一个企业需求文档,并通过LDA模型提取出企业需求文档的企业需求主题,提取企业需求主题的特征词,并建立企业需求的VSM模型,将建立好的VSM模型发送至用户终端;用户终端,用于接收服务器发送的VSM模型,并将VSM模型进行显示。本发明将每一个企业科技服务的需求用向量空间模型来表示,表示出的模型具有个性化。从应用角度来讲,本发明从个性推荐上精准的解决企业所提出的科技服务的需求问题,满足企业在科技服务上的个性化需求。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (5)

1.一种基于主题模型进行企业科技服务需求建模的方法,其特征在于,包括如下步骤:
S1:通过企业终端使企业将需求文档上传至服务器;
S2:服务器将同一个企业上传的需求文档进行解析并整合成一个企业需求文档;
S3:服务器通过LDA模型提取出企业需求文档的企业需求主题;
S4:服务器提取企业需求主题的特征词,并根据特征词建立企业需求的VSM模型;
S5:通过用户终端显示企业需求的VSM模型。
2.如权利要求1所述的一种基于主题模型进行企业科技服务需求建模的方法,其特征在于,在步骤S3中,包括如下步骤:
S3-1:通过程序语言中的第三方中文分词库将企业需求文档中的词语和标点断开,根据停用词表将词语中的停用词去除,得到新的企业需求文档;
S3-2:以对话框的形式让用户设定最优主题数K以及模型的超参数α和β,并新的企业需求文档中的词语作为输入语料,建立LDA模型;
S3-3:通过LDA模型获取语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布;
S3-4:整合语料集中每篇文档所服从的隐含主题分布以及每个隐含主题所服从的词分布,得到企业需求主题。
3.如权利要求2所述的一种基于主题模型进行企业科技服务需求建模的方法,其特征在于,在步骤S3-1中,通过Python语言中的jieba库将企业需求文档中的词语和标点断开,根据“哈工大停用词表.txt”将词语中的停用词去除,得到新的企业需求文档。
4.如权利要求1所述的一种基于主题模型进行企业科技服务需求建模的方法,其特征在于,在步骤S4中,包括如下步骤:
S4-1:将步骤S3中的企业需求主题通过空间向量的形式进行表示,得到企业需求主题向量;
S4-2:将企业需求主题向量加上设定的权重构成VSM模型。
5.一种基于主题模型进行企业科技服务需求建模系统,其特征在于,包括:
企业终端,用于使企业上传需求文档,并将企业上传的需求文档发送至服务器;
服务器,用于接收企业终端发送的需求文档,将同一个企业上传的需求文档进行解析并整合成一个企业需求文档,并通过LDA模型提取出企业需求文档的企业需求主题,提取企业需求主题的特征词,并建立企业需求的VSM模型,将建立好的VSM模型发送至用户终端;
用户终端,用于接收服务器发送的VSM模型,并将VSM模型进行显示。
CN201910288042.2A 2019-04-11 2019-04-11 一种基于主题模型进行企业科技服务需求建模的方法及系统 Pending CN109992245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910288042.2A CN109992245A (zh) 2019-04-11 2019-04-11 一种基于主题模型进行企业科技服务需求建模的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910288042.2A CN109992245A (zh) 2019-04-11 2019-04-11 一种基于主题模型进行企业科技服务需求建模的方法及系统

Publications (1)

Publication Number Publication Date
CN109992245A true CN109992245A (zh) 2019-07-09

Family

ID=67133237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910288042.2A Pending CN109992245A (zh) 2019-04-11 2019-04-11 一种基于主题模型进行企业科技服务需求建模的方法及系统

Country Status (1)

Country Link
CN (1) CN109992245A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136589A1 (en) * 1999-12-28 2006-06-22 Utopy, Inc. Automatic, personalized online information and product services
CN105955981A (zh) * 2016-04-15 2016-09-21 清华大学 一种基于需求分类和主题分析的个性化旅行包推荐方法
CN106777359A (zh) * 2017-01-18 2017-05-31 安徽农业大学 一种基于受限玻尔兹曼机的文本业务推荐方法
CN106777043A (zh) * 2016-12-09 2017-05-31 宁波大学 一种基于lda的学术资源获取方法
CN107247751A (zh) * 2017-05-26 2017-10-13 武汉大学 基于lda主题模型的内容推荐方法
CN108846139A (zh) * 2018-07-10 2018-11-20 河南师范大学 一种基于蓝牙技术的智能成长记录系统
CN109344248A (zh) * 2018-07-27 2019-02-15 中山大学 一种基于科技文献摘要聚类的学术主题生命周期分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136589A1 (en) * 1999-12-28 2006-06-22 Utopy, Inc. Automatic, personalized online information and product services
CN105955981A (zh) * 2016-04-15 2016-09-21 清华大学 一种基于需求分类和主题分析的个性化旅行包推荐方法
CN106777043A (zh) * 2016-12-09 2017-05-31 宁波大学 一种基于lda的学术资源获取方法
CN106777359A (zh) * 2017-01-18 2017-05-31 安徽农业大学 一种基于受限玻尔兹曼机的文本业务推荐方法
CN107247751A (zh) * 2017-05-26 2017-10-13 武汉大学 基于lda主题模型的内容推荐方法
CN108846139A (zh) * 2018-07-10 2018-11-20 河南师范大学 一种基于蓝牙技术的智能成长记录系统
CN109344248A (zh) * 2018-07-27 2019-02-15 中山大学 一种基于科技文献摘要聚类的学术主题生命周期分析方法

Similar Documents

Publication Publication Date Title
CN107451126B (zh) 一种近义词筛选方法及系统
CN107766371B (zh) 一种文本信息分类方法及其装置
CN106407178B (zh) 一种会话摘要生成方法、装置、服务器设备以及终端设备
CN107341145B (zh) 一种基于深度学习的用户情感分析方法
CN105740229B (zh) 关键词提取的方法及装置
CN110110054A (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN103793501B (zh) 基于社交网络的主题社团发现方法
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
CN109740159B (zh) 用于命名实体识别的处理方法及装置
CN109992781B (zh) 文本特征的处理方法、装置和存储介质
CN105404693B (zh) 一种基于需求语义的服务聚类方法
CN102193951A (zh) 信息抽取的方法及系统
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN105740342A (zh) 一种基于社会关系主题模型的社交网络朋友推荐方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN112380868B (zh) 一种基于事件三元组的信访目的多分类装置及其方法
CN113282701B (zh) 作文素材生成方法、装置、电子设备及可读存储介质
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN113742496A (zh) 一种基于异构资源融合的电力知识学习系统及方法
CN110674298A (zh) 一种深度学习的混合主题模型构建方法
CN107577713B (zh) 基于电力词典的文本处理方法
Devika et al. A semantic graph-based keyword extraction model using ranking method on big social data
CN104714940A (zh) 智能交互系统中未登录词的识别方法和装置
CN118332086A (zh) 一种基于大语言模型的问答对生成方法和系统
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190709