CN115840799A

CN115840799A - 一种基于深度学习的知识产权综合管理系统

Info

Publication number: CN115840799A
Application number: CN202310160309.6A
Authority: CN
Inventors: 曹红燕
Original assignee: Nantong Special Hunting Network Technology Co ltd
Current assignee: Nantong Special Hunting Network Technology Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-03-24
Anticipated expiration: 2043-02-24
Also published as: CN115840799B

Abstract

本发明涉及人工智能技术领域，具体涉及一种基于深度学习的知识产权综合管理系统。该系统中文本信息采集处理模块用于获取汉字文本；二级词组获取模块用于基于二级词组的第一必要性和增益保留部分二级词组至初始字典；最优词组获取模块用于基于三级词组的第二必要性和增益保留部分三级词组至初始字典；直至得到最优词组；初始字典构建模块用于保留除最优词组外的部分词组和最优词组至初始字典中；压缩编码模块用于编码得到压缩文本；系统文本排序模块用于将文本信息输入训练好神经网络输出差异度，按照差异度从小到大的顺序对系统文本排列。本发明通过对文本数据进行压缩，并通过深度学习训练网络对系统文本排序，实现了快速精准搜索的目的。

Description

一种基于深度学习的知识产权综合管理系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于深度学习的知识产权综合管理系统。

背景技术

随着互联网应用的普及和大数据时代的到来，每天都会有大量的数据增加，需要在浩瀚的数据中检索到需要的信息，搜索引擎成为访问搜索数据不可或缺的助手。

目前基于网络的计算机信息检索系统，包括前台信息输入系统和后台信息检索系统，当需要检索时，可以输入图片、语言和文字三种检索信息，克服了传统的检索系统的检索方式单一的问题，检索共享子系统实现了检索的共享，实现了远程的传输，但该方法是将所有可能的结果均呈现给用户，由用户自己选择其中需要的检索项，降低了搜索效率，增加了用户负担。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于深度学习的知识产权综合管理系统，该系统包括以下模块：

文本信息采集处理模块，用于获取用户输入的文本信息，剔除所述文本信息中汉字以外的信息得到汉字文本；

二级词组获取模块，用于根据所述汉字文本中各个汉字的第一出现频率对汉字文本进行筛选，得到前缀汉字；对所述前缀汉字增加后缀汉字组成二级词组，基于所述二级词组的第二出现频率计算前缀汉字增加后缀汉字的第一必要性；对于任意前缀汉字，前缀汉字的出现次数和对应的二级词组的所占字节的比值，作为二级词组的增益；保留增益大于等于预设二级增益阈值的二级词组至初始字典；

最优词组获取模块，用于保留所述第一必要性大于等于预设必要性阈值的二级词组作为前缀词组；对所述前缀词组增加后缀汉字组成三级词组，基于所述三级词组的第三出现频率计算三级词组的第二必要性；计算各所述三级词组的增益，保留增益大于等于预设三级增益阈值的三级词组至初始字典；迭代多次，直至得到最优级数和最优词组；

初始字典构建模块，用于对除最优词组外的所有词组进行筛选，保留筛选后得到的词组和最优词组至初始字典中；

压缩编码模块，用于基于所述初始字典，对文本信息进行编码，得到压缩文本；

系统文本排序模块，用于利用所述压缩文本训练神经网络，将所述文本信息输入神经网络输出文本信息与系统文本的差异度，按照差异度从小到大的顺序对系统文本排列。

优选的，所述根据所述汉字文本中各个汉字的第一出现频率对汉字文本进行筛选，得到前缀汉字，包括：

保留第一出现频率大于等于预设频率阈值的汉字作为前缀汉字。

优选的，所述基于所述二级词组的第二出现频率计算前缀汉字增加后缀汉字的第一必要性，包括：

获取所述二级词组的种类数量和总数量，计算在二级词组总数量中各二级词组的第二出现频率；

所述第一必要性的计算公式为：

其中，B为所述第一必要性；m表示所述二级词组的种类数量；b_i表示第i类二级词组的数量；/>

表示二级词组的数量的均值；p₂(i)表示第i个类型二级词组的第二出现频率；e为自然常数。

优选的，所述基于所述三级词组的第三出现频率计算三级词组的第二必要性，包括：

获取所述三级词组的种类数量和总数量，计算在三级词组总数量中各三级词组的第三出现频率；

所述第二必要性的计算公式为：

其中，F为所述第二必要性；M为所述三级词组的种类数量，p₃(i)为第i个类型三级词组的第三出现频率，/>

表示同种类最多三级词组的数量，D表示三级词组的总数量。

优选的，所述计算各所述三级词组的增益，包括：

获取二级词组的出现次数和对应的三级词组的所占字节的比值作为三级词组的增益。

优选的，所述用于对除最优词组外的所有词组进行筛选，保留筛选后得到的词组和最优词组至初始字典中，包括：

计算除最优词组外的所有词组的词组出现频率，保留词组出现频率大于等于预设第三阈值的词组至初始字典中，并将所述最优词组保留至初始字典中。

优选的，所述基于所述初始字典，对文本信息进行编码，得到压缩文本，还包括：当初始字典存满时，将运用最少的词组进行替换，实现初始字典的动态更新。

本发明实施例至少具有如下有益效果：

本发明实施例利用人工智能技术，该系统包括文本信息采集处理模块、二级词组获取模块、最优词组获取模块、初始字典构建模块、压缩编码模块和系统文本排序模块。通过文本汉字的分布情况获取最优的初始字典与最优的字典中字符数长度，通过建立初始字典解决了传统LZW算法中码值浪费造成压缩率低的问题，达到了对文本信息高效压缩的目的，该目的可以使得文本数据在无损的基础上更小，方便后续数据传输的高效性。

通过计算得到最优的字典中字符数长度，对文本信息进行编码时减少了匹配率低、使用次数少的字符串的编码，达到了精简编码与维持高频词汇使用的目的，该目的不仅使得压缩率保持在一个较高的水平中，同时减缓了字典填满的时间，同时采用动态更新字典防止码值的浪费，在保证快速查找字符词组的同时增大压缩率。本发明通过对各种文本数据进行压缩，并通过深度学习进行训练，输出用户最有可能需要的结果，实现快速、精准的搜索目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于深度学习的知识产权综合管理系统的模块结构示意图。

实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于深度学习的知识产权综合管理系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明实施例提供了一种基于深度学习的知识产权综合管理系统的具体实施方法，该方法适用于文本搜索场景。该场景下用户输入文本信息，以检索想要得到的数据信息。为了检索时搜索效率低的问题，本发明通过对各种文本数据进行压缩，并通过深度学习进行训练，输出用户最有可能需要的结果，实现快速、精准的搜索目的。

下面结合附图具体的说明本发明所提供的一种基于深度学习的知识产权综合管理系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于深度学习的知识产权综合管理系统的模块结构示意图，该系统包括以下模块：

文本信息采集处理模块10，用于获取用户输入的文本信息，剔除文本信息中汉字以外的信息得到汉字文本。

首先，获取用户输入的文本信息，也即获取用户输入的关键词。

传统压缩算法如串表压缩算法(LZW算法)对文本信息进行压缩处理时通常是对单字节进行处理的，但中文文本有着异于其他类型数据的特点，中文文本存在语义信息，传统LZW算法的压缩过程会人为的割裂中文文本编码中的语义信息，从而降低算法的压缩比，同时汉字是个大字符集合，如果将所有的汉字均加入算法的基本码集合必然会造成字典码值的浪费，所以对字典的短位码区尽可能充分利用，也即可以对基本码集进行选择与压缩，以提高算法的压缩率。

利用中文数据中的语义信息对中文文本数据压缩，故在对文本信息进行处理之前，先对汉字之外的信息进行剔除，也即先对用户输入的文本信息中的符号、掺杂的部分数字和英文字符等会影响语义信息的进行剔除，故在对文本信息进行处理时，记录字符的位置信息并采用常规的LZW压缩算法进行单独压缩，对于文本数据中剩下的汉字进行补位合并，得到一张完整的仅包含汉字的汉字文本。

二级词组获取模块20，用于根据汉字文本中各个汉字的第一出现频率对汉字文本进行筛选，得到前缀汉字；对前缀汉字增加后缀汉字组成二级词组，基于二级词组的第二出现频率计算前缀汉字增加后缀汉字的第一必要性；对于任意前缀汉字，前缀汉字的出现次数和对应的二级词组的所占字节的比值，作为二级词组的增益；保留增益大于等于预设二级增益阈值的二级词组至初始字典。

汉字是个大字符集，若将所有的汉字都加入初始字典必然会造成字典码值的浪费，部分单字的利用率较低，同时汉字文本存在语义信息，若采用传统LZW将汉字拆分为单字进行初始码集建立初始字典，会导致编码率大大降低，故通过获取最优的初始字典对汉字文本进行LZW编码，同时对字典进行动态更新，保持较高的压缩比。

想要实现通过用户输入的关键词实现快速、精准的搜索目的，需要先得到压缩率较高的文本数据以便于快速训练分类模型，具体过程为：首先，传统LZW算法的运行方式为：对于一段文本信息如：“TO BE OR NOT TO BE OR TO BE OR NOT”，可知该段文本信息的字节为24，其初始码集的建立，也即初始字典的建立，由于该文本信息为英文文本，故初始字典建立简单，即：

，每一个英文字符对应一个数字编码，传统LZW编码方式为：以字母T为前缀举例，下一字母为后缀如O，若前缀与后缀的组合没有在初始字典中出现，则更新字典并将前缀后缀的组合加入初始字典中并进行编码，即/>

，由此继续编码，随着编码的进行，字典也将越来越大，同时会包含越来越多的长字符串，由此来对数据进行压缩，可以得到初始文本有24个字节，通过该编码方法压缩后变为16字节。

但汉字不同于英文字母，汉字数量很多，以传统方法建立初始字典会使得大量的码集浪费，同时以上述24字节文本为例，文本中多次出现TO BE OR，而传统编码方式会先得到TO的编码，再得到TOB的编码，以此类推最终得到TOBEOR的编码，此时我们发现得到TOBEOR的编码时之前已经错过了很多个TOBEOR的字符串，对于此段文本信息而言，在进行编码是等不到出现TOBEOR的字符串时编码已经结束了，此段编码到RNO时编码即即将结束，此时的压缩比为

,若基础码集中初始即存在TOBEOR，此时编码后的字节数为9，则此时的压缩比为/>

,此时的压缩率大大提高，故初始字典的确定可以大大影响压缩率。

确定初始字典，对于汉字文本而言，其不同文本中所涉及到的汉字种类各不相同，若将所有汉字均拆分为单汉字编码作为基础初始字典会造成大量的字典码值浪费，故初始字典的建立根据文本信息自适应建立。

首先构建汉字频率直方图。获取汉字的第一出现频率。

该第n个类型汉字的第一出现频率P的计算公式为：

,其中，S_n为第n个类型汉字的出现次数；N为文本信息中所有汉字的数量。

第一出现频率越大，说明对应的汉字保留至初始字典的必要性越高。

进一步的，根据汉字文本中各个汉字的第一出现频率对汉字文本进行筛选，得到前缀汉字。具体的：保留第一出现频率大于等于预设频率阈值的汉字作为前缀汉字，在本发明实施例中预设频率阈值为

,其中，x的取值为10，N为文本信息中所有汉字的数量，在其他实施例中实施者可根据实际情况调整该取值。/>

对筛选后得到的前缀汉字增加后缀汉字组成二级词组，基于二级词组的第二出现频率，计算前缀汉字增加后缀汉字的第一必要性。

首先获取二级词组的种类数量和总数量，计算在二级词组总数量中各二级词组的第二出现频率。

该第一必要性B的计算公式为：

,其中，m表示二级词组的种类数量；b_i表示第i类二级词组的数量；/>

第一必要性越大，代表将该二级词组作为初始字典的必要性越大，该词组作为初始字典对文本信息的压缩增益越高。

当第一必要性大于等于预设必要性阈值时，对二次词组进行增加后缀。在本发明实施例中预设必要性阈值为0.7，在其他实施例中实施者可根据实际情况调整该取值。

计算二级词组的增益，对于任意前缀汉字，增加一个后缀汉成一个词组而言，前缀汉字的出现次数和对应的二级词组的所占字节的比值作为二级词组的增益。

该二级词组的增益f的计算公式：

,其中，/>

表示第m个类型前缀汉字的出现次数；/>

表示二级的所占字节，也即原本的字节数。

该二级词组的增益越大，说明该词组在文本中出现的频率越大，即该词组对文本压缩的增益越大。

保留增益大于等于预设二级增益阈值的二级词组至初始字典；在本发明实施例中预设二级增益阈值为

，其中，x的取值为10，N为文本信息中所有汉字的数量，在其他实施例中实施者可根据实际情况调整该取值。该判断与单汉字组合为词组的阈值相同。

最优词组获取模块30，用于保留第一必要性大于等于预设必要性阈值的二级词组作为前缀词组；对前缀词组增加后缀汉字组成三级词组，基于三级词组的第三出现频率计算三级词组的第二必要性；计算各三级词组的增益，保留增益大于等于预设三级增益阈值的三级词组至初始字典；迭代多次，直至得到最优级数和最优词组。

该汉字增加后缀形成二级词组的增益越大，说明该词组为高频词组，故可以在此基础上继续增加后缀，形成三级词组。

首先获取各三级词组的种类数量和总数量，计算在三级词组总数量中各三级词组的第三出现频率，进而计算三级词组的第二必要性：

第二必要性F的计算公式为：

，其中，M为三级词组的种类数量；p₃(i)表示第i个类型三级词组的第三出现频率；/>

为同种类最多三级词组的数量；D为三级词组的总数量。

三级词组的第二必要性越大越大，说明二级词组形成三级词组的增益越大，表示形成三级词组时三级词组种类单一或三级词组重复率高。

当三级词组的第二必要性大于等于预设必要性阈值时，继续进行增加后缀处理。在本发明实施例中预设必要性阈值为0.7，在其他实施例中实施者可根据实际情况调整该取值。

当三级词组的增益小于预设必要性阈值时，再将长字符串作为初始字典的增益会相对较低，且获取的初始字典代价较大，故此时不再增加字符串长度，也即不再增加词组级数，需要说明的是每增加一个后缀字，则对应的词组级别加一。

进一步的，计算三级词组的增益f1：获取三级词组在初始字典所对应的字符串，也即三级词组的所占字节的比值，二级词组的出现次数和其对应的三级词组的所占字节的比值，作为三级词组的增益。当三级词组的增益大于等于预设三级增益阈值且该三级词组的数量大于等于预设数量阈值时，将该三级词组纳入初始字典中。在本发明实施例中预设三级增益阈值为0.25，在其他实施例中实施者可根据实际情况调整该取值；预设数量阈值为5，在其他实施例中实施者可根据实际情况调整该取值。

迭代多次，直至得到最优级数，并得到多个最优词组。具体的：当在词组后面继续增加后缀汉字得到的词组所对应的必要性小于预设必要性阈值时，认为达到了最优级数，获取当前级数下对应的词组作为最优词组。需要说明的是，迭代过程中各级别词组的必要性和增益的计算方法与三级词组的必要性和增益的计算方法相同。

初始字典构建模块40，用于对除最优词组外的所有词组进行筛选，保留筛选后得到的词组和最优词组至初始字典中。

在得到最优词组之后，对除最优词组外的所有词组进行筛选保留，保留筛选后得到的词组至初始字典中。具体的：计算除最优词组外的所有词组的词组出现频率，该词组出现频率大于等于预设第三阈值时，保留词组出现频率大于等级预设第三阈值的词组至初始字典中。在本发明实施例中预设第三阈值为5，在其他实施例中实施者可根据实际情况调整该取值。

进一步的，并将得到的最优词组保留至初始字典中。

需要说明的是，当最优词组为“中国人”时，若文本信息中出现5个“中国”和6个“中国人”，则认为词组“中国”的词组出现频率为5，而无需加上“中国人”词组中的“中国”的数量。

压缩编码模块50，用于基于初始字典，对文本信息进行编码，得到压缩文本。

对文本信息进行编码，根据上述模块的预处理操作，我们获取了部分初始字典，按照传统LZW编码方式建立对应关系，即一个初始字典词组对应一个数字，此时还存在大量低频单汉字没有对应的初始字典，故在进行编码时对文本信息进行读取，若读取到的当前汉字存在于初始字典当中，则记录初始字典对应的编码值，此时与传统LZW算法相同，以当前汉字或词组为前缀，下一汉字或词组为后缀，若前缀与后缀的组合没有在初始字典中出现，则更新初始字典并将前缀后缀的组合加入初始字典中并进行编码；若读取到的汉字不存在初始字典中，则对当前汉字创建编码，得到该汉字对应的编码值，此时该汉字在字典中已经有了对应的编码值，故继续进行编码操作。

根据初始获取的初始字典，我们已经获取到了最优的词组长度，若继续在最优最长长度的编码基础上再增加词组长度进行编码会大大造成码值的浪费，故当出现最优最长长度的词组为前缀时，我们将该词组作为终止词组，不再为其增加后缀使其生成新的长词组的编码值。此时以最优最长长度词组的下一个汉字或词组为前缀继续编码，直至编码结束。

此时的编码率一直维持在较高的水平，减少低频字符串的编码，同时延缓了字典存满的时间，当字典存满时，对字典进行动态更新，将运用最少的字符串系统进行替换，也即对运用最少的词组的编码进行替换，实现初始字典的动态更新，如“很友”的编码为13，但后续文本中没有再次出现，故该编码为无效编码，将其替换也不会造成数据异常，故当字典存满时，将无效编码进行替换，确保更新掉使用次数最少的索引，始终将使用次数多的匹配字符串保存在字典中，达到较高的压缩比。也即当初始字典存满时，将运用最少的词组进行替换，实现初始字典的动态更新，对应的对初始字典的编码也进行更新。

即实现了基于初始字典对文本信息进行编码，得到压缩文本。将压缩后的文件进行传输，存储至存储系统中。

系统文本排序模块60，用于利用压缩文本训练神经网络，将文本信息输入神经网络输出文本信息与系统文本的差异度，按照差异度从小到大的顺序对系统文本排列。

利用压缩文本对神经网络进行训练，传统检索系统是根据用户输入的关键词或者文本信息与系统内的文本信息进行匹配，然后将所有可能的结果全部呈现给用户，此时存在较多用户不需要的文本。

故将压缩后的压缩文本对神经网络进行训练，需要说明的是压缩文本为数字串，正常读取时是需要解压的，故对神经网络的训练也即对数字串进行特征提取实现网络训练的。将文本信息输入神经网络得到文本信息的标签数据与系统文本的差异度。需要说明的是，文本信息输入神经网络的时候需要转化为数字码值，用户输入的文本信息也即用户输入的关键字。即模拟用户检索数据，输入标准的文本信息，获取文本信息与系统文本的差异，输出差异度，按照差异度从小到大的顺序对系统文本排列，将差异度小的系统文本排列至最前，方便用户最快时间获取最需要的数据。需要说明的是，该系统文本即为用户输入文本信息后搜索得到的系统中的文本，用户可从多个系统文本中选取最需要的文本。

综上所述，本发明实施例利用人工智能技术，该系统包括文本信息采集处理模块、二级词组获取模块、最优词组获取模块、初始字典构建模块、压缩编码模块和系统文本排序模块。文本信息采集处理模块，获取用户输入的文本信息，剔除文本信息中汉字以外的信息得到汉字文本；二级词组获取模块，根据汉字文本中各个汉字的出现频率对汉字文本进行筛选，得到前缀汉字；对前缀汉字增加后缀汉字组成二级词组，基于二级词组的出现频率计算前缀汉字增加后缀汉字的第一必要性；对于任意前缀汉字，前缀汉字的出现次数和对应的二级词组的所占字节的比值，作为二级词组的增益；保留增益大于等于预设二级增益阈值的二级词组至初始字典；最优词组获取模块，保留第一必要性大于等于预设必要性阈值的二级词组作为前缀词组；对前缀词组增加后缀汉字组成三级词组，基于三级词组的出现频率计算三级词组的第二必要性；计算各三级词组的增益，保留增益大于等于预设三级增益阈值的三级词组至初始字典；迭代多次，直至得到最优级数和最优词组；初始字典构建模块，对除最优词组外的所有词组进行筛选，保留筛选后得到的词组和最优词组至初始字典中；压缩编码模块，基于初始字典，对文本信息进行编码，得到压缩文本；系统文本排序模块，利用压缩文本训练神经网络，将文本信息输入神经网络输出文本信息与系统文本的差异度，按照差异度从小到大的顺序对系统文本排列。本发明通过对各种文本数据进行压缩，并通过深度学习进行训练，按照用户最有可能需要的结果对搜索到的系统文本进行排序。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。