CN110532451B

CN110532451B - 针对政策文本的检索方法和装置、存储介质、电子装置

Info

Publication number: CN110532451B
Application number: CN201910559076.0A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2023-08-29
Anticipated expiration: 2039-06-26
Also published as: CN110532451A

Abstract

本发明提供了一种针对政策文本的检索方法和装置、存储介质、电子装置，其中，该方法通过对政策文本进行分类，利用政策文本的主题类型来作为检索的标签，用户在检索时，通过用户选择的标签基于完全匹配算法和非完全匹配算法分别在政策文本中匹配对应的标签，并统计每个标签的评估值，基于每个政策文本对所有标签的评估值之和的大小来排列展示检索结果，从而解决了现有技术中的针对政策文本的检索方式与搜索关键词相关度较低的问题，达到了能够提高检索结果与搜索词相关度的技术效果。

Description

针对政策文本的检索方法和装置、存储介质、电子装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种针对政策文本的检索方法和装置、存储介质、电子装置。

背景技术

目前的政策信息文本比较繁琐，需要基于文本信息进行主题分类，预先对每个政策文本标注相关主题类型的标签，达到方便快速检索的效果。但是，目前的检索方法在匹配用户输入检索的关键词时，对匹配结果的排序方法较复杂，需要耗费大量算力，尤其在用户输入多个检索关键词时，由于检索和排序的策略不合理，会导致政策文本如果不完整的包含某一个关键词，即使政策文本与用户需要检索的关键词相关性较高，其排序仍然靠后的情况。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种针对政策文本的检索方法和装置、存储介质、电子装置，以至少解决现有技术中的针对政策文本的检索方式与搜索关键词相关度较低的问题。

根据本发明的一个实施例，提供了一种针对政策文本的检索方法，该方法包括：利用多个爬虫工具爬取多个网站中的政策文本，根据爬取结果构建政策文本数据库，其中，多个爬虫工具为针对不同网站预先配置的爬虫工具；针对政策文本数据库中的每个政策文本进行主题类型分类，确定每个政策文本的主题类型；将确定主题类型的政策文本存储至检索数据库中，并更新检索数据库的标签列表，其中，检索数据库的标签列表包括每个政策文本的主题类型；基于时效热度展示标签列表中的部分标签；获取用户在展示的部分标签中所选择的标签组合；针对被选择的每个标签开启一个进程，每个进程基于完全匹配算法和非完全匹配算法统计所有政策文本匹配到对应标签的评估值；针对每个政策文本，统计所有进程统计得到的所有标签的评估值之和，得到每个政策文件的综合评估值，根据综合评估值降序的排列展示针对标签组合的检索结果。

进一步地，标签列表还包括每个政策文本的关键词，在针对政策文本数据库中的每个政策文本进行主题类型分类之前，该方法还包括：获取被预先标注有主题类型的政策文本样本；针对每个政策文本样本，执行分词处理；利用TF-IDF矩阵计算每个分词的重要度；抽取重要度排序在前N 个的分词，得到每个政策文本样本的N个关键词。

进一步地，在抽取重要度排序在前N个的分词，得到每个政策文本样本的N个关键词之后，该方法还包括：利用词向量模型确定每个关键词的多维词向量；统计每个主题类型包括的政策文本样本的所有关键词向量；针对政策文本数据库中的每个政策文本进行主题类型分类，包括：针对待分类的政策文本进行分词处理；利用词向量模型确定待分类的政策文本的每个关键词的多维词向量；计算待分类的政策文本的每个关键词的词向量与每个主题类型的每个关键词向量的向量余弦相似度；统计向量余弦相似度高于预设阈值的次数，确定次数最高的主题类型为待分类的政策文本对应的主题类型。

进一步地，通过每个进程分别基于完全匹配算法和非完全匹配算法统计所有政策文本匹配到对应标签的评估值，包括：针对每个政策文本，以待匹配标签作为一个词进行全文匹配，统计对应政策文本中出现待匹配标签的频数；针对每个政策文本，在政策文本中匹配待匹配标签中每两个相邻的检索字按序出现所间隔的字符数之和，得到字符间隔数总和；根据频数和字符间隔数总和，得到对应政策文本针对待匹配标签的评估值。

进一步地，根据频数和字符间隔数总和，得到对应政策文本针对待匹配标签的评估值，通过如下公式计算：w₁r+w₂s其中，w₁为完全匹配算法的权重值，r为待匹配标签的频数；w₂为非完全匹配算法的权重值，s为字符间隔数总和。

进一步地，检索数据库为图数据库，图数据库中的实体节点为每个政策文本的唯一标识，图数据库中每个实体节点的属性至少包括每个政策文本的内容和关键词，图数据库中的关系用于表示不同政策文本之间的关系。

进一步地，在根据爬取结果构建政策文本数据库之后，该方法还包括：针对每个政策文本，利用预设正则表达式抽取政策文本的指定维度的信息；确定指定维度的信息有预设联系的多个政策文本；根据预设联系建立多个政策文本中两两政策文本之间的关系，其中，关系的属性名称用于描述预设联系。

根据本发明的另一个实施例，提供了一种针对政策文本的检索装置，该装置包括：爬取模块，用于利用多个爬虫工具爬取多个网站中的政策文本，根据爬取结果构建政策文本数据库，其中，多个爬虫工具为针对不同网站预先配置的爬虫工具；确定模块，用于针对政策文本数据库中的每个政策文本进行主题类型分类，确定每个政策文本的主题类型；更新模块，用于将确定主题类型的政策文本存储至检索数据库中，并更新检索数据库的标签列表，其中，检索数据库的标签列表包括每个政策文本的主题类型；展示模块，用于基于时效热度展示标签列表中的部分标签；获取模块，用于获取用户在展示的部分标签中所选择的标签组合；匹配模块，用于针对被选择的每个标签开启一个进程，每个进程基于完全匹配算法和非完全匹配算法统计所有政策文本匹配到对应标签的评估值；统计模块，用于针对每个政策文本，统计所有进程统计得到的所有标签的评估值之和，得到每个政策文件的综合评估值，根据综合评估值降序的排列展示针对标签组合的检索结果。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，本实施例提供的针对政策文本的检索方法通过对政策文本进行分类，利用政策文本的主题类型来作为检索的标签，用户在检索时，通过用户选择的标签基于完全匹配算法和非完全匹配算法分别在政策文本中匹配对应的标签，并统计每个标签的评估值，基于每个政策文本对所有标签的评估值之和的大小来排列展示检索结果，从而解决了现有技术中的针对政策文本的检索方式与搜索关键词相关度较低的问题，达到了能够提高检索结果与搜索词相关度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的针对政策文本的检索方法的流程图；

图2是根据本发明实施例的针对政策文本的检索装置的示意图；

图3是本发明实施例的一种移动终端的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本实施例提供了一种针对政策文本的检索方法，可以应用于客户端侧，其中，客户端可以运行中移动终端、手持终端或类似的运算设备之中。运行在不同的运算设备仅是方案在执行主体上的差异，本领域人员可预见在不同运算设备中运行能够产生相同的技术效果。

本实施例提供的针对政策文本的检索方法通过对政策文本进行分类，利用政策文本的主题类型来作为检索的标签，用户在检索时，通过用户选择的标签基于完全匹配算法和非完全匹配算法分别在政策文本中匹配对应的标签，并统计每个标签的评估值，基于每个政策文本对所有标签的评估值之和的大小来排列展示检索结果，从而解决了现有技术中的针对政策文本的检索方式与搜索关键词相关度较低的问题，达到了能够提高检索结果与搜索词相关度的技术效果。

如图1所示，本实施例提供的针对政策文本的检索方法包括如下步骤：

步骤101，利用多个爬虫工具爬取多个网站中的政策文本，根据爬取结果构建政策文本数据库，其中，多个爬虫工具为针对不同网站预先配置的爬虫工具。

爬虫工具是设置有能够执行的爬虫代码程序的Docker容器，不同的 Docker容器中设置有针对一个政策类网站(如各省市的政府网站)的爬虫代码程序，以爬取对应网站中的政策文本，政策文本的文本内容可以是以网页形式发布的信息，也可以是以超链接附在网页中的文件(如word文档格式的文件)的内容，通过爬虫代码程序可以实现政策文本的爬取。

配置好爬虫代码程序的每个Docker容器存储在云服务器中，在需要针对一个网站执行爬取操作时，本发明实施例提供的方法的执行方从云服务器中下载对应的爬取工具，也即，设置有针对对应网站的爬虫代码程序的Docker容器，在下载之后利用爬虫工具执行爬取。

爬取操作可以被预先配置好爬取的周期，以按照周期自动执行爬取，例如，针对A省的政府网站，每周三爬取一次，爬取的内容为上周四至当前时间所发布的政策类的文件。

在爬取到政策文本之后，将政策文本上传至云服务器的项目库中，每隔一段时间可以将项目库中的政策文本批量的导入至Mongodb数据库中，作为原始数据语料库，也即，根据爬取结果构建政策文本数据库。可选的，还可以将本次爬取到的新增的网址存储至云服务器的链接库中，链接库中存储有历史爬取到的网址列表。

步骤102，针对政策文本数据库中的每个政策文本进行主题类型分类，确定每个政策文本的主题类型。

在进行主题类型分类时，利用待分类的政策文本的关键词向量与各个主题类型的关键词向量的相似程度来分类。

因此，在分类之前，需要预先获取每个主题类型的关键词向量，包括如下步骤：

步骤11，获取被标注有主题类型的政策文本样本。

政策文本样本与政策文本都包含一个政策的部分或所有文本的信息。政策文本样本被人工标注有主题类型的标签。主题类型可以分为多级，例如，第一级主题类型为农业、商业、工业、服务业，等等，第二级主题类型，则是针对第一级主题类型中的每个主题类型进行细分的主题类型，例如，对于农业，分为种植业、畜牧业等等领域的主题类型，相似地，还可以进一步人工的设置第三级、第四级……的主题类型。相应的，对于每个政策文本样本，可以被人工标注有多个级别的主题类型，需要说明的是，不需要标注每个级别的主题类型，依照级别由高到低，可以仅标注较高几个级别的主题类型。

步骤12，针对每个政策文本样本，在进行分词处理之后，利用TF-IDF 矩阵计算每个分词的重要度，抽取重要度排序在前N个的分词，得到N 个关键词。

分词处理可以利用现有开源的分词工具，例如jieba分词、SnowNLP 工具、THULAC工具，等等，可以将文本信息拆分为以字或词为单位的多个分词。

在进行分词处理之后，基于TF-IDF计算得到每个分词的重要度。 TF-IDF(termfrequency–inverse document frequency，词频-逆向文件频率) 是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。 TF-IDF用于评估一个字词对于一个语料库中的一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

具体的，TF的计算公式为其中，n_i,j是该词t_i在文件 d_j中的出现次数，而分母则是该词在文件d_j中所有字词的出现次数之和。 IDF的计算公式为：其中，|D|是语料库中的文件总数，|{j:t_i∈d_j}|：包含词语t_i的文件数目(即n_i,j≠0的文件数目)。TF-IDF 的值为TF与IDF的乘积，根据TF-IDF值的高低筛选出排序在前N个分词为关键词，N的数值为预先设置的。

步骤13，利用词向量模型确定每个关键词的多维词向量。

词向量模型用于确定词的向量，用向量来表示词，以使将人类的自然语言转变为机器可以识别的语言。可选的，词向量模型具体可以采用 word2vec模型，输入为包含整篇政策文本的所有分词的txt文档，并需要设置必须的参数，包括需要用多少维度的向量来表示每个分词，例如，可以设置维度为256，则表示采用256维的向量表示每个分词，输出为每个分词的预设维度的向量，在得到每个分词的向量之后，确定出每个关键词的多维词向量。

步骤14，统计每个主题类型的政策文本样本的关键词向量。

在根据步骤11～13获取每个主题类型的政策文本样本的关键词、并进一步获取到每个关键词的多维词向量之后，得到每个主题类型的政策文本样本的关键词向量的列表。

每个主题类型的关键词集合中包括对应主题类型下的多个关键词。相应的，每个主题类型的政策文本样本的关键词向量的列表包括对应主题类型下的多个关键词向量。

在进行主题类型分类时，包括如下步骤：

步骤21，针对待分类的政策文本进行分词处理，且分词处理采用的方法为对政策文本样本进行分词处理采用的方法相同，进而，利用TF-IDF 矩阵计算每个分词的重要度，抽取重要度排序在前N个的分词，得到待分类的政策文本的N个关键词。

步骤22，利用词向量模型确定待分类的政策文本的每个关键词的多维词向量。针对待分类的政策样本采用的词向量模型与针对政策文本样本采用的词向量模型相同，可选的，可以都采用word2vec模型，具体做法在此不再赘述。

步骤23，计算待分类的政策文本的每个关键词的词向量与每个主题类型的每个关键词向量的向量余弦相似度，如果相似度高于预设阈值，将对应主题类型的分数加1分；在计算结束之后，确定得分最高的主题类型，将待分类的政策文本标注上对应的主题类型的标签。

例如，获取政策文本A的关键词包括B₁～B_N，获取主题类型C1的关键词集合包括多个关键词D₁～D_M，利用向量余弦相似度的公式分别计算关键词B₁～B_N之一与关键词D₁～D_M之一的向量余弦相似度，其中，每个关键词利用词向量模型计算对应的词向量，词向量模型可以采用 Word2Vector模型、LDA(Latent Dirichlet Allocation)文档生成模型等。将所有的向量余弦相似度相加，得到政策文本A与主题类型C的相似度总和Y1，相似地，分别计算出政策文本A与主题类型C2、C3、C4……的相似度总和Y2、Y3、Y4……，将相似度总和最高的主题类型选作政策文本A的主题类型。

步骤103，将确定主题类型的政策文本存储至检索数据库中，并更新检索数据库的标签列表。

检索数据库的标签列表包括每个政策文本的主题类型。可选的，检索数据库的标签列表可以包括多级的主题类型，还可以每个政策文本的关键词列表。

步骤104，基于时效热度展示标签列表中的部分标签。

展示的标签中至少包括一个级别的主题类型。此外，还可以包括基于时效热度确定的在所有政策文本的关键词中检索时效热度较高的部分关键词。标签较多会导致展示不便，因此，可以利用时效热度来对标签列表中的标签进行排序，以根据各个标签的时效热度值提高时效热度值较高的标签的展示顺序。各个标签的时效热度值可以根据如下公式计算：

其中，Heat(t)表示时刻t对应的时效热度值，t是当前时刻的小时单位的数值，λ为预设的恒定参数值，Heat_i为对应的小时该标签被检索的次数。

步骤105，获取用户在展示的标签中所选择的标签组合。

例如，可以通过用户操作鼠标点击选择“招商”、“广东”、“农业”的标签，来接收到用户所选择的标签组合。

步骤106，针对被选择的每个标签开启一个进程，每个进程基于完全匹配算法和非完全匹配算法统计所有政策文本匹配到对应标签的评估值。

上述的完全匹配的检索方法是指，直接以每个标签作为一个词，进行检索，统计数据库中的每个政策文本中完整的出现每个标签词的频数(次数)，也即，完全、完整的匹配到一个词汇的次数。例如，用户如果选择的“招商”、“广东”、“农业”的标签组合，在政策文本A中基于完全匹配进行检索的方法是指，在政策文本A中分别检索“招商”、“广东”、“农业”各个词汇所出现的次数。

上述的非完全匹配的检索方法是指，将标签(一个词)视为多个检索字，针对每个政策文本，统计一个标签词汇中每两个相邻的检索字在政策文本中按序间隔的出现所间隔的的字符数，相加之后得到字符间隔数总和。

例如，针对标签“招商”，在政策文本A中基于非完全匹配进行检索的方法是指，在政策文本A中先检索“招”字，在出现“招”字之后，向后继续检索“商”字，并对间隔字符数进行计数，在检索到“商”字之后，存储记录间隔字符数，然后继续向后检索“招”字，依此类推，直至对政策文本A全文检索完毕。举例而言，在政策文本A中的一句话为“当地商场为招揽商户入驻”，则“招”字和“商”字之间间隔字符数为1。在对全文检索完毕之后，将所有存储记录的间隔字符数相加，得到总和。根据完全匹配得到的标签出现频数，以及非完全匹配得到的字符间隔数总和，按照如下公式进行计算，得到每个政策文本针对该标签的评估值：

w₁r+w₂s

其中，w₁为完全匹配方式的权重值，r为该标签的出现频数；w₂为非完全匹配方式的权重值，s为字符间隔数总和。

可选的，由于已存储在检索数据库中的政策文本和标签是不会被修改的，为了减少检索时间，每次检索之后，在计算出一个政策文本针对一个标签的评估值之后，可以将该政策文本针对该标签的评估值存储起来，以便后续的每次检索读取使用。

步骤107，针对每个政策文本，统计所有进程统计得到的所有标签的评估值之和，得到每个政策文件的综合评估值，根据综合评估值降序的排列展示针对标签组合的检索结果。

可选的，本实施例中的数据库可以采用图数据库来存储政策文本，具体的，政策文本的图数据库采用<实体节点、属性、关系>的三元关系来描述政策文本之间的关系，例如，在本实施例中，图数据库中实体节点是为每个政策文本预先分配的唯一ID，属性为政策文本的内容以及关键词，此外，还可以存储关系，关系用于描述不同政策文本之间的关系，不同政策之间在不同方面存在着联系，例如，政策A和政策B都是针对同一城市的，或者政策A和政策B时间是同期或接续的，或者，政策A是政策 B的指导政策，等等。对于上述联系，可以用正则表达式在每个政策文本中进行匹配/过滤。相应地，在根据爬取结果构建政策文本数据库之后，该方法还可以包括如下步骤：

步骤31，针对每个政策文本，利用预设正则表达式抽取政策文本的指定维度的信息；

步骤32，确定指定维度的信息有预设联系的多个政策文本；

步骤33，根据预设联系建立多个政策文本中两两政策文本之间的关系，其中，关系的属性名称用于描述预设联系。

正则表达式(Regular Expression，简写为regex、regexp或RE)，又称规则表达式，是计算机科学的一个概念。正则表达式是包括字符串和特殊字符操作的一种逻辑公式，通过事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”(正则表达式)，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言都支持利用正则表达式进行字符串操作，如检索(字符的匹配)、获取字符串。

进而，除了采用步骤101～104得到的关键词、主题类型作为标签，还可以预先针对每个政策文件抽取出关系，作为标签，存储至数据库中。具体的，在步骤105之前，通过正则表达式在原始语料库中抽取不同政策文本之间的指定关系。

指定维度的信息可以是政策的发布/实施时间、立项的地理位置等信息。在政策文本中对时间、地理位置等关系进行抽取时，可以通过预设的针对时间、地理位置进行提取的正则表达式抽取每个政策文本中描述的时间信息和地理位置的信息，例如，如果在政策文本中匹配到正则表达式“政策？在A市展开？”(？表示任意一个或多个字符)，则表示政策文本所描述的政策是在A市开展的，相似的，可以通过人工设置针对时间、地理位置的不同描述方式的多个正则表达式在政策文本中抽取政策的不同时间节点 (如开展时间、发布时间等等)和开展的地理位置，进而利用抽取出的信息确定每个政策文本所描述的政策与其它政策文本所描述的政策在时间、地理位置等方面上的联系，例如，如果政策文本X和政策文本Y所描述的政策的城市名称相同，则确定政策文本X与政策文本Y之间具有关系，为这种关系赋予预设的属性名称为“在相同城市开展”。

相似地，在政策文件中抽取针对指导关系方面的关系时，利用预设的正则表达式在政策文本中进行字符匹配，例如，利用“A政策的指导政策为B政策”、或“B政策为A政策的指导政策”等正则表达式来表示具有指导关系的两个政策A和B，在政策文本中利用正则表达式进行字符匹配，如果存在符合正则表达式的语句，则抽取语句中的两个政策的名称A和B，确定政策A和政策B之间具有指导关系，关系的属性名称为“A政策的指导政策为B政策”。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种针对政策文本的检索装置，该装置用于实现上述实施例1及其优选实施方式，对于本实施例中未详述的术语或实现方式，可参见实施例1中的相关说明，已经进行过说明的不再赘述。

如以下所使用的术语“模块”，是可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可以被构想的。

图2是根据本发明实施例的政策文本的检索装置的示意图，如图2所示，该装置包括：爬取模块10，确定模块20，更新模块30，展示模块40，获取模块50，匹配模块60和统计模块70。

其中，爬取模块用于利用多个爬虫工具爬取多个网站中的政策文本，根据爬取结果构建政策文本数据库，其中，多个爬虫工具为针对不同网站预先配置的爬虫工具；确定模块用于针对政策文本数据库中的每个政策文本进行主题类型分类，确定每个政策文本的主题类型；更新模块用于将确定主题类型的政策文本存储至检索数据库中，并更新检索数据库的标签列表，其中，检索数据库的标签列表包括每个政策文本的主题类型；展示模块用于基于时效热度展示标签列表中的部分标签；获取模块用于获取用户在展示的部分标签中所选择的标签组合；匹配模块用于针对被选择的每个标签开启一个进程，每个进程基于完全匹配算法和非完全匹配算法统计所有政策文本匹配到对应标签的评估值；统计模块用于针对每个政策文本，统计所有进程统计得到的所有标签的评估值之和，得到每个政策文件的综合评估值，根据综合评估值降序的排列展示针对标签组合的检索结果。

可选的，标签列表还包括每个政策文本的关键词，获取模块还用于在针对政策文本数据库中的每个政策文本进行主题类型分类之前，获取被预先标注有主题类型的政策文本样本；该装置还包括：分词模块，用于针对每个政策文本样本，执行分词处理；计算模块，用于利用TF-IDF矩阵计算每个分词的重要度；抽取模块，用于抽取重要度排序在前N个的分词，得到每个政策文本样本的N个关键词。

可选的，确定模块还用于在抽取重要度排序在前N个的分词，得到每个政策文本样本的N个关键词之后，利用词向量模型确定每个关键词的多维词向量；统计模块还用于统计每个主题类型包括的政策文本样本的所有关键词向量；分词模块还用于针对待分类的政策文本进行分词处理；确定模块还用于利用词向量模型确定待分类的政策文本的每个关键词的多维词向量；计算模块还用于计算待分类的政策文本的每个关键词的词向量与每个主题类型的每个关键词向量的向量余弦相似度；统计模块还用于统计向量余弦相似度高于预设阈值的次数，确定次数最高的主题类型为待分类的政策文本对应的主题类型。

可选的，匹配模块包括：统计单元用于针对每个政策文本，以待匹配标签作为一个词进行全文匹配，统计对应政策文本中出现待匹配标签的频数；匹配单元用于针对每个政策文本，在政策文本中匹配待匹配标签中每两个相邻的检索字按序出现所间隔的字符数之和，得到字符间隔数总和；确定单元用于根据频数和字符间隔数总和，得到对应政策文本针对待匹配标签的评估值。

可选的，确定单元根据频数和字符间隔数总和，得到对应政策文本针对待匹配标签的评估值，通过如下公式计算：w₁r+w₂s其中，w₁为完全匹配算法的权重值，r为待匹配标签的频数；w₂为非完全匹配算法的权重值， s为字符间隔数总和。

可选的，检索数据库为图数据库，图数据库中的实体节点为每个政策文本的唯一标识，图数据库中每个实体节点的属性至少包括每个政策文本的内容和关键词，图数据库中的关系用于表示不同政策文本之间的关系。

可选的，抽取模块还用于在根据爬取结果构建政策文本数据库之后，针对每个政策文本，利用预设正则表达式抽取政策文本的指定维度的信息；确定模块还用于确定指定维度的信息有预设联系的多个政策文本；该装置还包括建立模块，用于根据预设联系建立多个政策文本中两两政策文本之间的关系，其中，关系的属性名称用于描述预设联系。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。以电子装置为移动终端为例，图3是本发明实施例的一种移动终端的硬件结构框图。如图3所示，移动终端可以包括一个或多个(图3中仅示出一个) 处理器302(处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器304，可选地，上述移动终端还可以包括用于通信功能的传输设备306以及输入输出设备308。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。

存储器304可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的图像的识别方法对应的计算机程序，处理器302 通过运行存储在存储器304内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器304可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器304可进一步包括相对于处理器302远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置306包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置306可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对政策文本的检索方法，其特征在于，所述方法包括：

利用多个爬虫工具爬取多个网站中的政策文本，根据爬取结果构建政策文本数据库，其中，所述多个爬虫工具为针对不同网站预先配置的爬虫工具；

针对所述政策文本数据库中的每个政策文本进行主题类型分类，确定每个政策文本的主题类型；

将确定主题类型的政策文本存储至检索数据库中，并更新所述检索数据库的标签列表，其中，所述检索数据库的标签列表包括每个政策文本的主题类型；

基于时效热度展示所述标签列表中的部分标签；

获取用户在展示的所述部分标签中所选择的标签组合；

针对被选择的每个标签开启一个进程，每个所述进程基于完全匹配算法和非完全匹配算法统计所有政策文本匹配到对应标签的评估值；

所述针对被选择的每个标签开启一个进程，每个所述进程基于完全匹配算法和非完全匹配算法统计所有政策文本匹配到对应标签的评估值，包括：

针对每个所述政策文本，以待匹配标签作为一个词进行全文匹配，统计对应政策文本中出现所述待匹配标签的频数；

针对每个所述政策文本，在政策文本中匹配所述待匹配标签中每两个相邻的检索字按序出现所间隔的字符数之和，得到字符间隔数总和；

根据所述频数和所述字符间隔数总和，得到对应政策文本针对所述待匹配标签的所述评估值；

所述根据所述频数和所述字符间隔数总和，得到对应政策文本针对所述待匹配标签的所述评估值，通过如下公式计算：

其中，w₁为所述完全匹配算法的权重值，r为所述待匹配标签的频数；w₂为所述非完全匹配算法的权重值，s为所述字符间隔数总和；

针对每个政策文本，统计所有进程统计得到的所有标签的评估值之和，得到每个政策文件的综合评估值，根据所述综合评估值降序的排列展示针对所述标签组合的检索结果。

2.根据权利要求1所述的方法，其特征在于，所述标签列表还包括每个政策文本的关键词，在针对所述政策文本数据库中的每个政策文本进行主题类型分类之前，所述方法还包括：

获取被预先标注有主题类型的政策文本样本；

针对每个政策文本样本，执行分词处理；

利用TF-IDF矩阵计算每个分词的重要度；

抽取所述重要度排序在前N个的分词，得到每个政策文本样本的N个关键词。

3.根据权利要求2所述的方法，其特征在于，

在抽取重要度排序在前N个的分词，得到每个所述政策文本样本的N个关键词之后，所述方法还包括：利用词向量模型确定每个所述关键词的多维词向量；统计每个主题类型包括的政策文本样本的所有关键词向量；

所述针对所述政策文本数据库中的每个政策文本进行主题类型分类，包括：针对待分类的政策文本进行分词处理；利用词向量模型确定待分类的政策文本的每个关键词的多维词向量；计算待分类的政策文本的每个关键词的词向量与每个主题类型的每个关键词向量的向量余弦相似度；统计所述向量余弦相似度高于预设阈值的次数，确定次数最高的主题类型为所述待分类的政策文本对应的主题类型。

4.根据权利要求1所述的方法，其特征在于，所述检索数据库为图数据库，所述图数据库中的实体节点为每个所述政策文本的唯一标识，所述图数据库中每个所述实体节点的属性至少包括每个所述政策文本的内容和关键词，所述图数据库中的关系用于表示不同政策文本之间的关系。

5.根据权利要求4所述的方法，其特征在于，在根据爬取结果构建政策文本数据库之后，所述方法还包括：

针对每个所述政策文本，利用预设正则表达式抽取所述政策文本的指定维度的信息；

确定所述指定维度的信息有预设联系的多个政策文本；

根据所述预设联系建立所述多个政策文本中两两政策文本之间的关系，其中，所述关系的属性名称用于描述所述预设联系。

6.一种针对政策文本的检索装置，其特征在于，所述装置包括：

爬取模块，用于利用多个爬虫工具爬取多个网站中的政策文本，根据爬取结果构建政策文本数据库，其中，所述多个爬虫工具为针对不同网站预先配置的爬虫工具；

确定模块，用于针对所述政策文本数据库中的每个政策文本进行主题类型分类，确定每个政策文本的主题类型；

更新模块，用于将确定主题类型的政策文本存储至检索数据库中，并更新所述检索数据库的标签列表，其中，所述检索数据库的标签列表包括每个政策文本的主题类型；

展示模块，用于基于时效热度展示所述标签列表中的部分标签；

获取模块，用于获取用户在展示的所述部分标签中所选择的标签组合；

匹配模块，用于针对被选择的每个标签开启一个进程，每个所述进程基于完全匹配算法和非完全匹配算法统计所有政策文本匹配到对应标签的评估值；

所述匹配模块，还用于针对每个所述政策文本，以待匹配标签作为一个词进行全文匹配，统计对应政策文本中出现所述待匹配标签的频数；

统计模块，用于针对每个政策文本，统计所有进程统计得到的所有标签的评估值之和，得到每个政策文件的综合评估值，根据所述综合评估值降序的排列展示针对所述标签组合的检索结果。

7.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至5任一项中所述的方法。

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至5任一项中所述的方法。