CN116842180B

CN116842180B - 公文所属产业识别方法及装置

Info

Publication number: CN116842180B
Application number: CN202311100296.XA
Authority: CN
Inventors: 薛彦凯; 谭敏; 孔德智; 杨迪丹; 洒科进
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-12-19
Anticipated expiration: 2043-08-30
Also published as: CN116842180A

Abstract

本发明公开了一种公文所属产业识别方法及装置，该方法包括：预先采集公文数据构建产业关键词词典；获取待识别公文；根据所述产业关键词词典计算所述待识别公文对应的各产业得分；选取产业得分最高的产业作为所述待识别公文所属产业。利用本发明方案，可以提升公文所属产业识别的准确性和效率，节约企业和咨询机构工作人员对公文产业分类的时间花费，节省人工成本。

Description

公文所属产业识别方法及装置

技术领域

本发明涉及信息处理技术领域，具体涉及一种公文所属产业识别方法及装置。

背景技术

企业或者咨询研究机构在开展产业相关的业务研究工作中，常常需要研读、参考政府发布的产业政策公文。各级政府机关每年都会发布各行各业相关的公文，因此企业或咨询机构的工作人员需要从海量公文库中识别出关注产业的公文。

目前虽然存在个别的文本产业识别方法，但现有方案对产业识别结果的准确性和工作效率都有待提高。

发明内容

本发明提供一种公文所属产业识别方法及装置，以提升公文所属产业识别的准确性和效率。

为此，本发明提供如下技术方案：

一种公文所属产业识别方法，所述方法包括：

预先采集公文数据构建产业关键词词典；

获取待识别公文；

根据所述产业关键词词典计算所述待识别公文对应的各产业得分，所述待识别公文对应的各产业得分是指所述待识别公文属于各产业的得分；

选取产业得分最高的产业作为所述待识别公文所属产业。

可选地，所述采集公文数据构建产业关键词词典包括：

采集公文语料，所述公文语料包括多篇公文；

对每篇公文进行所属产业标注，得到各产业的样本集合；

对各产业的样本集合中的每篇公文进行分词，得到分词集合；

对所述分词集合进行关键词抽取，得到所述产业的关键词；

根据所述关键词生成所述产业的关键词词典。

可选地，所述对所述分词集合进行关键词抽取，得到所述产业的关键词词表包括：

利用2-gram模型对所述分词集合进行重组，得到组合词集合；

分别从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词。

可选地，所述分别从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词包括：

利用TF-IDF算法分别从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词。

可选地，所述根据所述产业关键词词典计算所述待识别公文对应的各产业得分包括：

确定所述待识别公文中出现的所述产业关键词词典中的各关键词，将这些关键词作为所述产业关键词词典中与所述待识别公文相匹配的各关键词；

记录相匹配的各关键词的长度、在所述待识别公文中第一次匹配的位置、以及全文匹配的频数；

计算相匹配的各关键词在对应产业下的位置分数；

对相匹配的各关键词在对应产业下的位置分数进行加权计算，得到所述待识别公文对应所述产业的产业得分。

可选地，所述根据所述产业关键词词典计算所述待识别公文对应的各产业得分还包括：根据相匹配的各关键词的长度确定所述关键词的权重。

一种公文所属产业识别装置，所述装置包括：

词典构建模块，用于预先采集公文数据构建产业关键词词典；

公文获取模块，用于获取待识别公文；

产业得分计算模块，用于根据所述产业关键词词典计算所述待识别公文对应的各产业得分，所述待识别公文对应的各产业得分是指所述待识别公文属于各产业的得分；

产业确定模块，用于选取产业得分最高的产业作为所述待识别公文所属产业。

可选地，所述词典构建模块包括：

公文采集单元，用于采集公文语料，所述公文语料包括多篇公文；

标注单元，用于对每篇公文进行所属产业标注，得到各产业的样本集合；

分词单元，用于对各产业的样本集合中的每篇公文进行分词，得到分词集合；

关键词抽取单元，用于对所述分词集合进行关键词抽取，得到所述产业的关键词；

词典生成单元，用于根据所述关键词生成所述产业的关键词词典。

可选地，所述产业得分计算模块包括：

匹配单元，用于确定所述待识别公文中出现的所述产业关键词词典中的各关键词，将这些关键词作为所述产业关键词词典中与所述待识别公文相匹配的各关键词；

参数记录单元，用于记录相匹配的各关键词的长度、在所述待识别公文中第一次匹配的位置、以及全文匹配的频数；

位置分数计算单元，用于计算相匹配的各关键词在对应产业下的位置分数sj；

产业得分计算单元，用于对相匹配的各关键词在对应产业下的位置分数进行加权计算，得到所述待识别公文对应所述产业的产业得分。

可选地，所述产业得分计算模块还包括：

权重确定单元，用于根据相匹配的各关键词的长度确定所述关键词的权重；

所述产业得分计算单元根据相匹配的各关键词的权重及其在对应产业下的位置分数进行加权计算，得到所述待识别公文对应所述产业的产业得分。

本发明提供的公文所属产业识别方法及装置，引入关键词在待识别公文中的位置、关键词的长度特征，计算该待识别公文在对应产业下的产业得分，根据产业得分确定待识别公文所属产业，从而可以更加准确、客观地反映关键词在产业识别中起到的作用，有效提升了对公文进行产业识别的准确性及识别效率。

附图说明

图1是本发明提供的公文所属产业识别方法的一种流程图；

图2是本发明方法中构建产业关键词词典的流程图；

图3是本发明提供的公文所属产业识别装置的一种结构示意图；

图4是本发明实施例中词典构建模块的一种结构示意图；

图5是本发明提供的公文所属产业识别装置中产业得分计算模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有的针对文本所属产业识别准确性及识别效率存在的问题，本发明提供一种公文所属产业识别方法及装置，基于产业的关键词，结合词长度、词位置等信息，对公文与产业的关联进行计算，节约了企业和咨询机构工作人员的大量对公文产业分类的时间花费，提升了产业识别的准确性和工作效率。

如图1所示，是本发明提供的公文所属产业识别方法的一种流程图，包括以下步骤：

步骤101，预先采集公文数据构建产业关键词词典。

具体地，可以从政府官方网站上爬取政府公文语料，对每篇公文进行所属产业标注，根据标注确定每篇公文所属产业，进而对这些公文进行关键词抽取，根据抽取的关键词生成对应该产业的产业关键词词典。

产业关键词词典的构建过程将在后面详细说明。

步骤102，获取待识别公文。

步骤103，根据所述产业关键词词典计算所述待识别公文对应的各产业得分。

也就是说，计算所述待识别公文属于各产业的得分，对于产业X的产业得分的计算过程如下：

（1）确定X的产业关键词词典中与待识别公文相匹配的各关键词。

对于产业X，其产业关键词词典中包含产业关键词表[关键词1，关键词2, ...]，确定其中与待识别公文相匹配的各关键词，也就是说，待识别公文中出现的上述产业关键词词典中的各关键词。

具体匹配方法本发明实施例不做限定。

（2）记录相匹配的各关键词j的长度、在所述待识别公文中第一次匹配的位置/>、以及全文匹配的频数/>。

其中，全文匹配的频数是指关键词j在所述待识别公文中出现的次数。

（3）计算相匹配的各关键词在对应产业下的位置分数。

具体可以按以下公式计算关键词j在产业X下的位置分数：

；

其中，表示待识别公文的长度。

（4）对相匹配的各关键词在对应产业下的位置分数进行加权计算，得到所述待识别公文对应所述产业的产业得分。

具体地，根据每一待识别公文中出现的所有关键词的位置分数，计算产业特征总分数；

其中，为关键词j在所述待识别公文中的权重。

各关键词的权重可以根据所述关键词的长度来确定，比如，在一种非限制性实施例中，关键词的权重常数默认值为1，如果关键词长度/>>2，则该关键词的权重可以基于公式/>而变化。

按照上述步骤（1）至（4），遍历每一个产业，可以得到所述待识别公文对应每个产业的产业得分。

步骤104，选取产业得分最高的产业作为所述待识别公文所属产业。

具体地，可以将所有产业的产业得分由高到低进行排列，分数最高的一个对应的产业为该待识别公文识别的产业。

如图2所示，是本发明方法中构建产业关键词词典的流程图，包括以下步骤：

步骤201，采集公文语料，所述公文语料包括多篇公文。

比如，可以采集各地政府官方网站公开发布的公文数据，包含标题和正文。

步骤202，对每篇公文进行所属产业标注，得到各产业的样本集合。

具体地，可以基于产业标签体系对采集的公文数据进行所属产业的标注，标注工作可以由人工来完成。

相应地，可以将相同产业的公文放入一个样本集合，从而得到对应各产业的样本集合。

步骤203，对各产业的样本集合中的每篇公文进行分词，得到分词集合。

对公文的分词处理可以采用现有的一些分词工具，比如使用jieba分词软件对每篇公文进行分词。jieba分词首先基于统计词典，构造一个前缀词典进行词图扫描，然后利用前缀词典对输入句子进行切分，得到所有的切分可能，根据切分的位置，构造一个有向无环图，最后根据动态规划算法，计算得到最大概率路径，也就得到了最终切分形式。对于未登录词，jieba使用了基于汉字成词的HMM模型，采用了Viterbi算法进行推导。

当然，也可以使用其它分词工具，对此本发明实施例不做限定。

不论采用何种分词工具，最终均可得到各产业下对应的分词集合，记为{Ai}。

步骤204，对所述分词集合进行关键词抽取，得到所述产业的关键词。

在一种非限制性实施例中，可以分别对上述得到的各产业的分词集合{Ai}进行关键词抽取，得到该产业的关键词。

为了使抽取的关键词更全面，在另一种非限制实施例中，还可以先利用2-gram模型对所述分词集合{Ai}进行重组，得到组合词集合{Bi}；然后分别从所述分词集合{Ai}和所述组合词集合{Bi}中抽取一定数量的词语作为所述产业的关键词。

在本发明实施例中，使用2-gram模型对所述分词集合{Ai}进行重新组合，即将分词后的词语，按照顺序两两相邻地进行拼接，例如在“人工智能”产业的句子分词后形成包含6个词的分词集合｛培养高水平计算机视觉智能驾驶｝，重新组合得到包含｛培养高水平高水平计算机计算机视觉视觉智能智能驾驶｝共5个新组合词的组合词集合，对每个产业下所有的公文进行相应处理后，即可得到对应该产业的组合词集合{Bi}。

步骤205，根据所述关键词生成所述产业的关键词词典。

在一种非限制性实施例中，可以利用关键词抽取算法，比如TF-IDF（termfrequency–inverse document frequency，词频-逆文本频率指数）算法，分别从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词。

在另一种非限制性实施例中，还可以先将组合词集合{Bi}与分词集合{Ai}进行合并并去重，然后使用TF-IDF算法抽取一定数量的词语作为所述产业的关键词。

TF-IDF算法是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

对于每个产业，利用TF-IDF算法，将该产业下所有的分词集合{Ai}和组合词集合{Bi}为语料，各自分别得到TF-IDF值最高的一定数量的词语，即前top k（K可根据实际需要来设定，比如K=10）的词语作为该产业的关键词。

通过上述方法，可以得到各产业对应的关键词词典。

本发明提供的公文所属产业识别方法，利用各产业对应的关键词词典，确定待识别公文中相匹配的各关键词及其相关参数，根据这些参数计算各关键词的位置得分，然后再根据所有关键词及其位置得分进行加权计算，得到所述待识别公文对应各产业的产业得分，选取产业得分最高的产业作为所述待识别公文所属产业，有效提升了对公文进行产业识别的准确性及识别效率。

相应地，本发明实施例还提供一种公文所属产业识别装置，如图3所示，是该装置的一种结构示意图。

该实施例中，所述公文所属产业识别装置300包括以下各模块：

公文获取模块302，用于获取待识别公文；

产业得分计算模块303，用于根据预先建立的产业关键词词典400计算所述待识别公文对应的各产业得分；

产业确定模块304，用于选取产业得分最高的产业作为所述待识别公文所属产业。

其中，所述产业关键词词典可以由词典构建模块301预先根据采集的公文数据构建。需要说明的是，在实际应用中，所述词典构建模块301可以作为公文所属产业识别装置300的一部分，也可以作为一个单独的模块独立于公文所属产业识别装置300之外，对此本发明实施例不做限定。

所述词典构建模块301的一种具体结构如图4所示，包括以下各单元：

公文采集单元311，用于采集公文语料，所述公文语料包括多篇公文；

标注单元312，用于对每篇公文进行所属产业标注，得到各产业的样本集合；

分词单元313，用于对各产业的样本集合中的每篇公文进行分词，得到分词集合；

关键词抽取单元314，用于对所述分词集合进行关键词抽取，得到所述产业的关键词；

词典生成单元315，用于根据所述关键词生成所述产业的关键词词典。

上述产业得分计算模块303的一种具体结构如图5所示，可以包括以下各单元：

匹配单元331，用于确定所述产业关键词词典中与所述待识别公文相匹配的各关键词；

参数记录单元332，用于记录相匹配的各关键词的长度lj、在所述待识别公文中第一次匹配的位置pj、以及全文匹配的频数fj；

位置分数计算单元333，用于计算相匹配的各关键词在对应产业下的位置分数sj；

产业得分计算单元334，用于对相匹配的各关键词在对应产业下的位置分数进行加权计算，得到所述待识别公文对应所述产业的产业得分。

进一步地，各关键词的权重可以由相应的权重确定单元（未图示）来确定，具体地，权重确定单元可以根据相匹配的各关键词的长度确定所述关键词的权重。

相应地，所述产业得分计算单元334根据相匹配的各关键词的权重及其在对应产业下的位置分数进行加权计算，得到所述待识别公文对应所述产业的产业得分。

关于公文所属产业识别装置300的其他相关描述可以参照前述实施例中的相关描述，此处不再赘述。

本发明提供的公文所属产业识别装置，利用各产业对应的关键词词典，确定待识别公文中相匹配的各关键词及其相关参数，根据这些参数计算各关键词的位置得分，然后再根据所有关键词及其位置得分进行加权计算，得到所述待识别公文对应各产业的产业得分，选取产业得分最高的产业作为所述待识别公文所属产业，有效提升了对公文进行产业识别的准确性及识别效率。

本发明提供的公文所属产业识别方法及装置，具体有以特点：

1.用户可以从已标注产业的公文数据语料中，自动化生成各个产业对应的关键词，形成产业关键词词典，无需手动进行各产业关键词总结。

2.可以为用户提供可供修改的关键词权重设置，从而可以使用户根据对业务及关键词重要性的不同理解及偏好，设置产业识别功能中的各关键词的重要性权重值。

3.识别算法引入关键词在文中出现的位置信息、关键词的长短这两种特征信息，可以更加客观地反映关键词在产业识别中起到的作用。

本发明提供的公文所属产业识别方法及装置，基于产业的关键词，结合词长度、词位置等信息，对公文与产业的关联进行计算，提升了产业识别的准确性和识别效率，进而可以节约企业和咨询机构工作人员对公文产业分类的时间花费，节省人工成本。

需要说明的是，上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的部分步骤。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的，即可以位于一个网络单元上，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统，其仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围，本说明书内容不应理解为对本发明的限制。因此，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种公文所属产业识别方法，其特征在于，所述方法包括：

预先采集公文数据构建产业关键词词典；

获取待识别公文；

根据所述产业关键词词典计算所述待识别公文对应的各产业得分；

选取产业得分最高的产业作为所述待识别公文所属产业；

其中，所述根据所述产业关键词词典计算所述待识别公文对应的各产业得分包括：

确定所述产业关键词词典中与所述待识别公文相匹配的各关键词；

记录相匹配的各关键词j的长度、在所述待识别公文中第一次匹配的位置/>、以及全文匹配的频数/>；

其中，全文匹配的频数是指关键词j在所述待识别公文中出现的次数；

计算相匹配的各关键词在对应产业下的位置分数；具体按以下公式计算关键词j在产业X下的位置分数：

；

其中，表示待识别公文的长度；

对相匹配的各关键词在对应产业下的位置分数进行加权计算，得到所述待识别公文对应所述产业的产业得分；根据每一待识别公文中出现的所有关键词的位置分数，计算产业特征总分数；

其中，为关键词j在所述待识别公文中的权重；

各关键词的权重根据所述关键词的长度来确定，关键词的权重常数默认值为1，如果关键词长度/>>2，则该关键词的权重基于公式/>而变化。

2.根据权利要求1所述的方法，其特征在于，所述采集公文数据构建产业关键词词典包括：

采集公文语料，所述公文语料包括多篇公文；

对每篇公文进行所属产业标注，得到各产业的样本集合；

对所述分词集合进行关键词抽取，得到所述产业的关键词；

根据所述关键词生成所述产业的关键词词典。

3.根据权利要求2所述的方法，其特征在于，所述对所述分词集合进行关键词抽取，得到所述产业的关键词词表包括：

利用2-gram模型对所述分词集合进行重组，得到组合词集合；

4.根据权利要求3所述的方法，其特征在于，所述分别从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词包括：

利用TF-IDF算法从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词。

5.一种公文所属产业识别装置，其特征在于，所述装置包括：

公文获取模块，用于获取待识别公文；

产业得分计算模块，用于根据预先建立的产业关键词词典计算所述待识别公文对应的各产业得分；

其中，所述产业得分计算模块包括：

匹配单元，确定所述产业关键词词典中与所述待识别公文相匹配的各关键词；

参数记录单元，用于记录相匹配的各关键词j的长度、在所述待识别公文中第一次匹配的位置/>、以及全文匹配的频数/>；

位置分数计算单元，用于计算相匹配的各关键词在对应产业下的位置分数；具体按以下公式计算关键词j在产业X下的位置分数：

；

其中，表示待识别公文的长度；

产业得分计算单元，用于对相匹配的各关键词在对应产业下的位置分数进行加权计算，得到所述待识别公文对应所述产业的产业得分；根据每一待识别公文中出现的所有关键词的位置分数，计算产业特征总分数；

其中，为关键词j在所述待识别公文中的权重；

权重确定单元，用于各关键词的权重根据所述关键词的长度来确定，关键词的权重常数默认值为1，如果关键词长度/>>2，则该关键词的权重基于公式而变化；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：词典构建模块，用于预先采集公文数据构建产业关键词词典；

所述词典构建模块包括：