CN117195004B

CN117195004B - 一种融合行业分类和wvLDA主题模型的政策匹配方法

Info

Publication number: CN117195004B
Application number: CN202311451902.2A
Authority: CN
Inventors: 华绿绿; 沈钰峰; 徐晓康
Original assignee: Shengze Town People's Government Of Wujiang District Suzhou City
Current assignee: Shengze Town People's Government Of Wujiang District Suzhou City
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-02-06
Anticipated expiration: 2043-11-03
Also published as: CN117195004A

Abstract

本发明提供一种融合行业分类和wvLDA主题模型的政策匹配方法。该政策匹配方法包括获取企业信息，并与行业标签库进行匹配得到企业对应的企业行业标签；获取政策文档并进行预处理得到数据集；将数据集通过wvLDA主题模型进行主题提取，并将提取的政策主题词和企业行业标签进行相似度计算，筛选出符合预设相似度的政策主题词；获取筛选出的政策主题词所对应的政策文件或新闻文件，按照相似度由大到小排列并以列表形式展示。本发明能够从政策文档中抽取潜在的主题信息，将政策文本转化为主题特征表示，结合行业分类更加准确地衡量政策文本和用户需求之间的语义相似度，在减少企业错失与其匹配政策概率的同时也提高可用性和适用性。

Description

一种融合行业分类和wvLDA主题模型的政策匹配方法

技术领域

本发明涉及数据处理技术领域，具体为一种融合行业分类和wvLDA主题模型的政策匹配方法。

背景技术

政府部门和其他组织通常会依据当前情况或者未来规划等发布一些政策文件，这些政策文件往往包含了各种规定、措施、指导和要求等内容。但是，不同的部门或组织所发布的文件所涉及的行业或者领域有所不同，而且政策文件的文本通常数量庞大且复杂，对于政策的理解和适用往往成为一个挑战。用户在面对政策时也常常面临理解政策内容繁琐的问题，这导致政策的推动和应用困难。

尤其是用户群体是企业时，许多利好政策或者对于行业规定、措施、指导和要求等，企业若是不能及时知晓或者理解，对于企业的发展是一个弊端。尤其是部分企业不能及时关注到所需了解的政策，亦或者是查阅到但是由于政策文本自身的文本量繁多，企业未仔细阅读便认为和自身不相关，进而错过所需了解的政策。

因此，需要一种能够准确匹配政策和用户需求的方法，以提高政策的可用性和适用性，进一步为企业纾困解难。

发明内容

基于此，有必要针对现有因政策文件数量大且文本量多造成企业容易错失与其相关的政策的问题，提供一种融合行业分类和wvLDA主题模型的政策匹配方法。

为实现上述目的，本发明采用了以下技术方案：

一种融合行业分类和wvLDA主题模型的政策匹配方法，其包括以下步骤：

获取企业信息，并与行业标签库进行匹配得到企业对应的企业行业标签；

获取由新闻文件和政策文件构成的政策文档并进行预处理得到数据集；

将数据集通过wvLDA主题模型进行主题提取，并将提取的政策主题词和企业行业标签进行相似度计算，筛选出符合预设相似度的政策主题词；其中，wvLDA主题模型包括LDA模块和Word2Vec模块，数据集通过wvLDA主题模型进行主题提取的具体步骤如下：

预先获取与企业行业标签相关的数据构建训练集，输入至wvLDA主题模型结合困惑度和JS散度对wvLDA主题模型的预设主题值进行微调，得到微调后的主题值K；

将数据集通过LDA模块进行初步提取，获取K个主题以及每个主题下的TopN个词作为初选关键词，形成初步主题词数据；

采用基于Word2Vec模块的CBOW方法对所述数据集进行训练，结合初步主题词数据得到政策主题词；

获取筛选出的政策主题词所对应的政策文件或新闻文件，按照相似度由大到小排列并以列表形式展示。

进一步的，困惑度越低，对应的wvLDA主题模型泛化能力越强；困惑度perplexity(D)的计算公式为：

；

其中，N_d表示第d个文档的词汇数；D为文档个数；P(W_d)为第d个文档中词汇的概率分布。

进一步的，两个主题之间的差异性越大，wvLDA主题模型的主题识别效果越强；其中，JS散度的计算公式如下：

；

其中，K表示主题数目，T表示抽取的主题，T_i表示第i个主题，T_j表示第j个主题，JS(T_i||T_j)表示T_i和T_j主题之间的散度，表示T_i和T_j主题之间的差异性，衡量了T_i和T_j主题之间的稳定性和差异性，越大时，主题之间的差异性越大，主题之间的区分性就越好，这样的主题结构就越稳定。

进一步的，通过Jaccard相似度方式对提取的政策主题词和企业行业标签进行相似度计算，具体步骤如下：

将提取的政策主题词和企业行业标签转换成相应的字符串集合A和B；

将字符串集合A和B进行Jaccard相似度计算得到二者的相似度J(A,B)：。

进一步的，LDA模块输出包括用于保存数据集中的所有单词唯一编号的wordidmap.dat文件、用于保存每个主题所对应向量的model_phi.dat文件、用于保存文档–主题向量的model_theta.dat文件和用于保存每个主题下的关键从属概率的model_twords.dat文件；其中，从model_twords.dat文件中获取每个主题下的TopN个词作为初选关键词。

进一步的，政策文档的预处理的具体步骤如下：

采用自然语言处理方法对政策文档提取政策文档的标题及摘要，通过添加词典、文本分词以及去停用词方式得到干净的数据集。

进一步的，企业信息包括企业名称、注册类型、注册资金、所属行业、规模。

进一步的，行业标签库是结合行业分类信息及行业标准信息建立而成。

进一步的，列表包括政策文件或新闻文件的标题、发布的时间以及政策文件的相似度。

本发明还涉及一种融合行业分类和wvLDA主题模型的政策匹配系统，其采用如前述的融合行业分类和wvLDA主题模型的政策匹配方法，包括数据采集模块、企业行业标签获取模块、数据集获取模块、政策主题提取模块和结果展示模块。

数据采集模块用于采集企业信息以及政策文档；

企业行业标签获取模块，其用于获取企业信息，并与行业标签库进行匹配得到企业对应的企业行业标签；

数据集获取模块用于获取由新闻文件和政策文件构成的政策文档并进行预处理得到数据集；

政策主题提取模块用于将数据集通过wvLDA主题模型进行主题提取，并将提取的政策主题词和企业行业标签进行相似度计算，筛选出符合预设相似度的政策主题词；

结果展示模块用于获取筛选出的政策主题词所对应的政策文件或新闻文件，按照相似度由大到小排列并以列表形式展示。

与现有技术相比，本发明的有益效果包括：

1、本发明通过wvLDA主题模型能够从政策文档中抽取潜在的主题信息，将政策文本转化为主题特征表示，结合行业分类更加准确地衡量政策文本和用户需求之间的语义相似度，进而协助企业快速知晓了解政策，在减少企业错失与其匹配政策概率的同时也提高可用性和适用性；

2、本发明采用文本预处理和特征提取等自然语言处理技术，结合wvLDA主题模型，将政策文本和用户需求转化为可计算的特征表示，实现了政策匹配的自动化和高效化；

3、本发明通过困惑度和JS散度的配合能够对wvLDA主题模型的主题个数进行微调，进而得到最优值，随后结合Jaccard相似度输出与企业匹配的政策主题词，协助企业快速了解政策情况。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。其中：

图1为本发明介绍的一种融合行业分类和wvLDA主题模型的政策匹配方法的流程图；

图2为基于图1的政策文本预处理的流程框图；

图3为基于图1的基于wvLDA主题模型输出政策主题词的流程框图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

实施例1

请参阅图1，本实施例介绍了一种融合行业分类和wvLDA主题模型的政策匹配方法，该政策匹配方法主要是应用在政府面向企业的服务平台中，所以在企业登陆平台之后会填入企业自己的相关信息，来获取自己需要的政策需求。政策匹配方法包括以下步骤：

第一步：获取企业信息，并与行业标签库进行匹配得到企业对应的企业行业标签。

企业信息包括企业名称、注册类型、注册资金、所属行业、规模等相关信息。行业标签库是预先构建好的，通过行业分类信息，并结合行业标准分类、规模等，建立行业标签数据库。行业标准优先考虑国家级行业标准。将企业信息与行业标签数据库中的标签数据进行匹配，进而知晓该企业对应的企业行业标签，便于后续与政策匹配。

第二步：获取由新闻文件和政策文件构成的政策文档并进行预处理得到数据集。

政策文档可以是国家级、省级、市级、区级等政策文件，也可以是官方媒体发布的新闻文件。收集这些文件以后进行用自然语言处理（NLP,Natural Language Processing）技术将文件进行标题和摘要提取，进行文本清洗、分词、添加词典等预处理操作，去除无关信息和噪声，进而形成干净的数据集。具体流程可参阅图2。

第三步：将数据集通过wvLDA主题模型进行主题提取，并将提取的政策主题词和企业行业标签进行相似度计算，筛选出符合预设相似度的政策主题词。具体流程可参阅图3。

wvLDA主题模型包括LDA模块和Word2Vec模块，在使用wvLDA主题模型前需要对其的主题个数K值进行微调。主题个数K为模型的关键参数，可以结合先验知识，以及多次实验，得到K的最优值。即预先准备好训练集对模型进行训练。训练集根据企业行业标签所对应，即具有多个与行业标签相对应的训练集，根据企业行业标签进行对K值进行微调。

在wvLDA主题模型中，一般使用困惑度（Perplexity）和JS散度（Jensen-Shannondivergence）来对模型的K值进行调参。困惑度是一种评估模型泛化能力的参数，其值越低，模型的泛化能力越强。困惑度值计算公式如下：

JS散度公式如下：

其中，K表示主题数目，T表示抽取的主题，T_i表示第i个主题，T_j表示第j个主题，JS(T_i||T_j)表示T_i和T_j主题之间的散度，表示T_i和T_j主题之间的差异性，衡量了主题之间的稳定性和差异性，越大时，主题之间的差异性越大，主题之间的区分性就越好，这样的主题结构就越稳定。

两个主题之间的差异性越大，证明主题识别效果越强。

假设wvLDA主题模型初始K值设置为10，并在滑动范围内进行微调，综合P值（困惑度）和JS值来确定最终的主题数，经调整后K的最终取值为8，使得模型识别出的主题效果最优。

将数据集输入调整后的wvLDA主题模型中。LDA模块对数据集的主题进行初步提取，生成初步主题词数据，也就是初步主题-词（m×n）矩阵，由参数（α，β）确定，α反映文档集合中隐含主题间的相对强弱，β刻画所隐含主题自身的概率分布。LDA模块的输出主要包含4个文件。wordidmap.dat文件保存数据集所有单词的唯一编号；model_phi.dat文件保存的是每个主题所对应的向量，其中每个向量表示该主题在每个词上的分布；model_theta.dat保存文档–主题向量，即每一篇文档在各个主题下的分布；model_twords.dat保存每个主题下的关键从属概率。从model_twords.dat中获取每个主题下的TopN个词作为初选关键词。

再利用Word2Vec模块训练，选择连续词袋模型(CBOW)预测关键词的概率，设置滑动窗口为5，则可以通过窗口内的上下文单词对目标词进行预测，如下式所示：

P表示主题的概率分布，t表示单词编号，w表示单词，每个单词选择k个负样本。根据Mikolov等提出的模型要求，对于小型数据集，负样本k的数量在5-20范围内，而对于大型数据集，k可以小到2-5范围内。所以选择k=5，负采样集中于上下文中的学习词向量，可以增大正样本的概率同时降低负样本的概率。基于Word2Vec模块中的CBOW方法对数据集进行训练，可以从模型中获取所有单词的低维度向量化表示，与LDA模块的输出词嵌入得到所需的政策主题词。

在wvLDA主题模型提取新发布的政策文件或新闻文件时，若是存在提取的主题词不合适，则采用困惑度（Perplexity）和JS散度（Jensen-Shannon divergence）来对模型的K值重新进行调参。

然后采用合适的相似度计算方法，比如Jaccard相似度，计算政策主题词和企业行业标签的相似度，也就是政策文档和用户需求之间的相似度。Jaccard相似度是将文本理解为一种字符串集合，文本A和文本B分别表示政策主题词和行业企业行业标签，用文本A和文本B交集字数与并集字数的商表示，如下式所示：

该相似度计算方法与文本的位置顺序无关，计算方法简单，不适用于文字顺序敏感以及重复字符较多的文本。由于本实施例对于文本的顺序敏感度要求不高且预先已进行文本清洗，因此可采用该相似度计算方法进行相似度计算。但是不局限于该相似度计算方法。

第四步：获取筛选出的政策主题词所对应的政策文件或新闻文件，按照相似度由大到小排列并以列表形式展示。

政策主题词包含主题和对应的词，预设相似度是一个阈值，最终所需的政策主题词是大于这个阈值。由于大于阈值的政策主题词可能不止一个或者是多个，因此为方便企业用户查阅，将多个政策主题词所对应的政策文件或新闻文件按照相似度由大到小排列，以列表的形式展现，列表中每行不仅包含政策文件或新闻文件的标题，还包含对应的相似度以及发布的时间。

本实施例还可以结合人工智能算法，通过对企业进行政策匹配的历史数据和实时数据的学习和分析，来优化和提升匹配效果，并实现政策智能化的发展。通过wvLDA主题模型能够从文本中抽取潜在的主题信息，将政策文本转化为主题特征表示，结合行业分类更加准确地衡量政策文本和用户需求之间的语义相似度，进而协助企业快速知晓且了解政策，在减少企业错失知晓政策概率的同时也提高可用性和适用性。

实施例2

本实施例介绍了一种融合行业分类和wvLDA主题模型的政策匹配系统，其包括数据采集模块、企业行业标签获取模块、数据集获取模块、政策主题提取模块和结果展示模块。

数据采集模块用于采集企业信息以及政策文档；

系统在实际应用时，不仅包含用户端，还包含管理端，管理端可以实时更新政策文档，且结合企业信息及其历史情况对将与最新政策相匹配的企业进行政策文档进行推送，以便企业用户及时知晓最新颁布的政策。

下面以一个实际应用过程进行说明。企业登录企业服务云平台，点击平台中的政策计算器，引导企业填写基本信息，系统会在企业填写的基本信息上自动匹配企业名称、社会信用代码等，企业需填入注册类型、注册时间（例如2004年5月28日）、注册资金（例如5000万）、所属行业（例如纺织业）、所属区域等信息，系统会自动加载企业行业类别专有词表，结合行业标签库建立该企业所对应的企业行业标签，便于后期与政策匹配。同时，根据采集到的国家级、省级、市级、区级等政策文档，形成文档集，进行政策文本预处理，并且根据wvLDA模型将这些预处理后的政策文件训练出相应的主题类型，与获取的企业行业标签进行相似度计算，若未匹配出相应政策，则展示暂时无申报政策，若匹配出符合企业的政策，则列表形式反馈给前端企业用户，便于企业进行申报，如2023年江苏省科技副总项目的通知，入选的科技副总可以申报高层次人才相关优惠政策。另外，当有新政策发布时，管理端也可以在系统中利用该模型算法进行政企匹配，并将该政策推送给符合要求的企业。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.一种融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，其包括以下步骤：

将所述数据集通过wvLDA主题模型进行主题提取，并将提取的政策主题词和所述企业行业标签进行相似度计算，筛选出符合预设相似度的政策主题词；其中，所述wvLDA主题模型包括LDA模块和Word2Vec模块，所述数据集通过wvLDA主题模型进行主题提取的具体步骤如下：

预先获取与企业行业标签相关的数据构建训练集，输入至wvLDA主题模型结合困惑度和JS散度平均值对wvLDA主题模型的预设主题值进行微调，得到微调后的主题值K；

将所述数据集通过LDA模块进行初步提取，获取K个主题以及每个主题下的TopN个词作为初选关键词，形成初步主题词数据；

获取筛选出的政策主题词所对应的政策文件或新闻文件，按照相似度由大到小排列并以列表形式展示；

其中，表征两个主题之间差异性的JS散度平均值的计算公式如下：

；

其中，K表示主题数目，T表示抽取的主题，T_i表示第i个主题，T_j表示第j个主题，JS(T_i||T_j)表示T_i和T_j主题之间的散度。

2.根据权利要求1所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，所述困惑度越低，对应的wvLDA主题模型泛化能力越强；困惑度perplexity(D)的计算公式为：

；

3.根据权利要求1所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，两个主题之间的差异性越大，wvLDA主题模型的主题识别效果越强。

4.根据权利要求1所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，通过Jaccard相似度方式对提取的政策主题词和所述企业行业标签进行相似度计算，具体步骤如下：

将提取的政策主题词和所述企业行业标签转换成相应的字符串集合A和B；

5.根据权利要求1所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，所述LDA模块输出包括用于保存所述数据集中的所有单词唯一编号的wordidmap.dat文件、用于保存每个主题所对应向量的model_phi.dat文件、用于保存文档–主题向量的model_theta.dat文件和用于保存每个主题下的关键从属概率的model_twords.dat文件；其中，从model_twords.dat文件中获取每个主题下的TopN个词作为初选关键词。

6.根据权利要求1所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，所述政策文档的预处理的具体步骤如下：

7.根据权利要求1所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，所述企业信息包括企业名称、注册类型、注册资金、所属行业、规模。

8.根据权利要求1所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，所述行业标签库是结合行业分类信息及行业标准信息建立而成。

9.根据权利要求1所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，所述列表包括政策文件或新闻文件的标题、发布的时间以及政策文件的相似度。

10.一种融合行业分类和wvLDA主题模型的政策匹配系统，其采用如权利要求1-9中任意一项所述的融合行业分类和wvLDA主题模型的政策匹配方法，其特征在于，包括：

数据采集模块，其用于采集企业信息以及政策文档；

数据集获取模块，其用于获取由新闻文件和政策文件构成的政策文档并进行预处理得到数据集；

政策主题提取模块，其用于将所述数据集通过wvLDA主题模型进行主题提取，并将提取的政策主题词和所述企业行业标签进行相似度计算，筛选出符合预设相似度的政策主题词；

结果展示模块，其用于获取筛选出的政策主题词所对应的政策文件或新闻文件，按照相似度由大到小排列并以列表形式展示。