CN117787249B

CN117787249B - 一种用于材料与化工行业科技情报的数据处理方法

Info

Publication number: CN117787249B
Application number: CN202410199914.9A
Authority: CN
Inventors: 龙云凤; 孟鸿; 任志宽
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2024-02-23
Filing date: 2024-02-23
Publication date: 2024-05-28
Anticipated expiration: 2044-02-23
Also published as: CN117787249A

Abstract

一种用于材料与化工行业科技情报的数据处理方法，属于科技情报的数据处理技术领域。为解决文本数据中目标实词与非目标实词中的不平衡的问题，本发明采集材料与化工行业科技情报，得到材料与化工行业科技情报信息数据，提取材料与化工行业科技情报信息数据中的实词向量，构建实词向量矩阵计算实词向量矩阵中实词长度，构建实词长度矩阵；利用实词的长度对撰写错误的实词进行判断，对实词向量矩阵中撰写错误的实词进行修正，对修正的实词向量矩阵中的每个实词进行编码，设定实词数量阈值，对修正的实词的编码矩阵进行实词数量判断，然后进行不平衡数据处理，完成一种用于材料与化工行业科技情报的数据处理。本发明提高材料与化工科技情报的质量。

Description

一种用于材料与化工行业科技情报的数据处理方法

技术领域

本发明属于科技情报的数据处理技术领域，具体涉及一种用于材料与化工行业科技情报的数据处理方法。

背景技术

材料与化工行业是一个技术密集型的行业，需要围绕科学研究和科研管理过程中的决策需求，提升科技情报和科技信息的服务水平,科技创新对于企业的竞争优势和发展至关重要。在这个行业中，大量的科技文献、专利和技术报告等非结构化数据包含了大量的科技信息和技术知识，可以为企业的科技创新提供宝贵的参考和支持。材料与化工行业的企业需要不断地进行技术创新和科技进步，以提高产品质量、降低成本、提高生产效率和实现可持续发展。科技情报分析可以为企业提供最新的科技信息和技术知识，帮助企业发现新的研发方向、技术路线和解决方案，提高企业的技术创新能力。材料与化工行业是一个复杂的产业链，涉及到许多不同的领域和方面。科技情报分析可以帮助企业了解整个材料与化工产业链的技术发展趋势和创新方向，促进不同企业之间的合作和协同创新，推动整个行业的发展和进步。科技情报分析可以为企业提供市场分析、竞争情报和商业决策支持，帮助企业制定科技创新战略和商业发展规划。通过分析市场需求和竞争对手的情况，企业可以更好地了解材料与化工市场趋势和行业动态，提高企业的市场竞争力和商业成功率。科技情报分析可以帮助企业了解最新的技术趋势和发展方向，提高企业的技术竞争力。通过分析技术发展趋势和前沿技术，企业可以更好地把握技术创新的机会和方向，提高企业的技术创新能力和技术水平。

大量的科技文献、专利和技术报告等非结构化数据包含了大量的科技信息和技术知识，可以为企业的科技创新提供宝贵的参考和支持。然而，这些非结构化数据往往存在着数据量不平衡、样本分布不均等问题，这给科技情报分析和挖掘带来了很大的挑战。数据量不平衡指不同类别的样本数量差异较大，这会导致模型对于数量较少的类别的预测能力较差，从而影响科技情报的分析和挖掘。样本分布不均指数据样本在不同领域和方面的分布不均，这可能会导致分析结果的偏差性，从而影响科技情报的准确性和可靠性。尤其是材料与化工行业相关情报中，存在文本拼写错误，这些错误会影响目标实词的识别和数量统计。还有材料与化工行业相关情报中，存在目标实词与非目标实词数量不均衡的问题，通常，目标实词数量较少，非目标实词数量较大，例如，从一篇文章识别公司的名称时，公司的名称相对较少，而非公司名称的文字相对较多。较多的非目标实词影响对目标实词的识别结果。

现有技术采用数据重采样的方法，用于解决数据不平衡的问题，然而，研究过程忽略了文本上下文之间的关联关系，导致数据重采样过程存在一定盲目性，导致分析结果有效性差。同时，数据文本撰写错误等情况会显著影响数据平衡性，因此，在开展数据不平衡问题研究时，需要考虑数据文本撰写错误等情况的影响。

专利号为201410260379.X、发明名称为“一种基于文本分类和图像深度挖掘的科技情报获取与推送方法”的发明专利，根据用户的定制，获取用户关注的科技领域的关键词，利用Python语言编写网络爬虫，通过HTTP协议获取网页中与用户关注的科技领域的关键词相关的论文、新闻、专利。然而，上述发明没有考虑文本数据中目标实词与非目标实词中的不平衡，对目标实词分析结果的影响；同时，也忽略了文本撰写错误对情报分析结果的影响。

发明内容

本发明要解决的问题为文本数据中目标实词与非目标实词中的不平衡的问题，提出一种用于材料与化工行业科技情报的数据处理方法。

为实现上述目的，本发明通过以下技术方案实现：

一种用于材料与化工行业科技情报的数据处理方法，包括如下步骤：

S1、采集材料与化工行业科技情报，得到材料与化工行业科技情报信息数据，提取材料与化工行业科技情报信息数据中的实词向量gs，构建实词向量矩阵，，其中，B为实词总数量；

S2、基于步骤S1构建的实词向量矩阵，计算实词向量矩阵GS中实词长度/>，构建实词长度矩阵/>；

S3、利用实词的长度对撰写错误的实词进行判断，然后对实词向量矩阵中撰写错误的实词进行修正，得到修正的实词向量矩阵；

S4、对步骤S3得到的修正的实词向量矩阵中的每个实词进行编码，设定目标实词编码为1，非目标实词编码为0，构建修正的实词的编码矩阵/>，其中/>为修正的实词的编码矩阵中的第B个元素，修正的实词的位置矩阵/>，其中/>为修正的实词的位置矩阵中的第B个元素，设定实词数量阈值，对修正的实词的编码矩阵进行实词数量判断，当修正的实词的编码矩阵中实词数量大于实词数量阈值时，进行下一步，当修正的实词的编码矩阵中实词数量小于等于实词数量阈值时，完成一种用于材料与化工行业科技情报的数据处理；

S5、对步骤S3得到的修正的实词向量矩阵，基于步骤S4构建的修正的实词的编码矩阵、修正的实词的位置矩阵进行不平衡数据处理，完成一种用于材料与化工行业科技情报的数据处理。

进一步的，步骤S2中计算实词矩阵GS中实词长度的方法包括如下步骤：

S2.1、将实词矩阵输入至计算机中；

S2.2、将实词按照字符进行分割；

S2.3、将分割后的字符进行长度统计，得到实词长度计算结果。

进一步的，步骤S3的具体实现方法包括如下步骤：

S3.1、设定目标实词GK的长度为P，设定弹性区间长度为p，且p<P，遍历实词长度矩阵中的实词长度，提取实词长度在区间的实词，并构建基于实词长度弹性区间的实词向量矩阵/>，/>，其中，/>为基于实词长度弹性区间的实词向量矩阵中的第B个元素；

S3.2、针对目标实词GK，遍历基于实词长度弹性区间的实词向量矩阵中所有实词向量，计算基于实词长度弹性区间的实词向量矩阵的实词重复率/>，计算表达式为：

；

其中，为基于实词长度弹性区间的实词向量矩阵/>中的第i个实词向量，/>为交集；

S3.3、设定实词重复率阈值，计算表达式为：

；

S3.4、当基于实词长度弹性区间的实词向量矩阵中，/>时，表明目标实词GK与/>为同一实词，进行下一步；/>时，表明目标实词GK与/>不是同一实词，继续比较GK与实词向量矩阵/>中的第i+1个实词向量/>，直至满足/>，然后进行下一步；

S3.5、针对目标实词GK，遍历实词向量矩阵GS中所有实词向量，计算实词向量矩阵GS的实词重复率，计算表达式为：

；

其中，为实词向量矩阵GS中的第i个实词向量；

然后判断的值是否为100%，判断为是不执行任何操作，判断为否则用目标实词GK替换实词向量矩阵GS中的/>，完成对错误文本数据的修正，得到修正的实词向量矩阵，其中修正的实词向量矩阵中实词向量的个数为B。

进一步的，步骤S4中设定实词数量阈值为，比较/>中实词总数量B与Br的大小，当/>时，判断为不存在数据不平衡问题；当/>时，判断为存在数据不平衡问题。

进一步的，步骤S5的具体实现方法包括如下步骤：

S5.1、基于步骤S4得到的修正的实词的编码矩阵，提取第1个0元素/>对应的距离最近的1元素/>，从修正的实词的位置矩阵/>中，分别提取/>和/>对应的元素/>和，并计算第1个0元素到最近的1元素的距离/>，计算表达式为：

;

其中，为第1个0元素对应的距离最近的1元素对应的位置矩阵中的元素，/>为第1个0元素对应的位置矩阵中的元素；

S5.2、遍历全部中的元素，提取/>中的全部0元素到最近的1元素的距离，得到距离矩阵/>，d为距离矩阵C中全部0元素的数量；

S5.3、遍历全部中的元素，提取/>中的全部1元素，并记录1元素的数量为en；

S5.4、考虑中的不同0元素与1元素的关系存在差异，构建权重矩阵F，通过F调整中的全部0元素到最近1元素的距离，/>，/>为权重矩阵F中的第i个元素；

S5.5、基于权重矩阵F构建修正距离矩阵G，计算表达式为：

；

其中，为修正距离矩阵G中的第d个元素；

S5.6、基于步骤S5.4构建的权重矩阵F，设定权重元素阈值，遍历权重矩阵F中全部元素，当/>时提取/>为第i个冻结元素/>，记录/>对应的元素的位置为冻结元素的位置，并建立冻结元素的位置矩阵/>，记录/>中冻结元素的数量为/>，然后，构建由冻结元素组成的冻结矩阵/>，/>；

当时，记录/>对应元素的位置，建立非冻结元素位置矩阵/>，记录/>中元素数量为/>，不进行冻结操作；

S5.7、将步骤S5.5构建的修正距离矩阵G中的全部元素按照从大到小的顺序排列，得到修正距离矩阵的优化距离矩阵；

然后统计修正距离矩阵的优化距离矩阵K中，对应的非重复元素及非重复元素对应的数量，并构建非重复元素矩阵，dn为非重复元素矩阵中非重复元素的总数量；

由每个非重复元素对应的数量组成的非重复元素数量矩阵；

S5.8、基于步骤S5.7得到的非重复元素矩阵和非重复元素数量矩阵，采用高斯分布建立非重复元素及非重复元素数量的概率密度函数，得到计算表达式为：

；

其中，和/>分别为第m个非重复元素及第m个非重复元素对应的数量，/>为均值，/>为标准差；

的计算表达式为：

；

的计算表达式为：

；

S5.9、构建累积分布函数，得到计算表达式为：

；

其中，为/>的阶乘，/>为系数，/>取值为0，1，2，…，/>；

S5.10、利用步骤S5.8构建的概率密度函数和步骤S5.9构建的累积分布函数，计算得到95%保证率的非重复元素数量平均值M，计算表达式为：

；

S5.11、设置非重复元素数量平均值M为非重复元素对应的数量的阈值，比较非重复元素数量矩阵中元素与非重复元素对应的数量的阈值的关系，当时，表明数据冗余对全部实词识别存在干扰，将/>对应的/>删除；当/>时，将/>对应的/>保留，得到调整后的非重复元素矩阵/>，调整后的非重复元素矩阵对应的数量矩阵/>，其中dd为调整后的非重复元素的数量；

S5.12、基于步骤S5.11得到的，以及步骤S5.6得到的冻结矩阵/>，构建完整矩阵/>，/>为并集；

S5.13、基于步骤S5.12得到的完整矩阵，从距离矩阵C中找到与N中对应的元素，并删除C中与N中不对应的元素，得到调整后的距离矩阵/>；

S5.14、基于调整后的距离矩阵，通过保留对应位置元素、删除非对应位置元素的方式调整修正的实词的编码矩阵/>，得到数据平衡后的修正的实词的编码矩阵/>；

S5.15、将步骤S3得到的修正的实词向量矩阵提取与数据平衡后的修正的实词的编码矩阵/>对应的元素，得到数据平衡后的实词向量矩阵/>。

本发明的有益效果：

本发明所述的一种用于材料与化工行业科技情报的数据处理方法，提出一种判定目标实词撰写错误的方法，并提出实词重复率阈值，可结合目标实词长度，分情况对目标实词撰写错误情况进行分析，并将错误实词进行修改，降低了文本撰写错误率，提高材料与化工科技情报的质量。

本发明所述的一种用于材料与化工行业科技情报的数据处理方法，构建了目标实词与非目标实词间的权重关系，并将权重关系用于辅助处理目标实词与非目标实词数据量不平衡的问题，可提高目标实词识别准确率。

附图说明

图1为本发明所述的一种用于材料与化工行业科技情报的数据处理方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明，即所描述的具体实施方式仅仅是本发明一部分实施方式，而不是全部的具体实施方式。通常在此处附图中描述和展示的本发明具体实施方式的组件可以以各种不同的配置来布置和设计，本发明还可以具有其他实施方式。

因此，以下对在附图中提供的本发明的具体实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定具体实施方式。基于本发明的具体实施方式，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

为能进一步了解本发明的发明内容、特点及功效，兹例举以下具体实施方式，并配合附图1详细说明如下：

具体实施方式一：

S2.1、将实词矩阵输入至计算机中；

S2.2、将实词按照字符进行分割；

S2.3、将分割后的字符进行长度统计，得到实词长度计算结果；

进一步的，步骤S3的具体实现方法包括如下步骤：

；

S3.3、设定实词重复率阈值，计算表达式为：

；

其中，为实词向量矩阵GS中的第i个实词向量；

然后判断的值是否为100%，判断为是不执行任何操作，判断为否则用目标实词GK替换实词向量矩阵GS中的/>，完成对错误文本数据的修正，得到修正的实词向量矩阵，其中修正的实词向量矩阵中实词向量的个数为B；

S4、对步骤S3得到的修正的实词向量矩阵中的每个实词进行编码，设定目标实词编码为1，非目标实词编码为0，构建修正的实词的编码矩阵/>，其中/>为修正的实词的编码矩阵中的第B个元素，修正的实词的位置矩阵，其中/>为修正的实词的位置矩阵中的第B个元素，设定实词数量阈值，对修正的实词的编码矩阵进行实词数量判断，当修正的实词的编码矩阵中实词数量大于实词数量阈值时，进行下一步，当修正的实词的编码矩阵中实词数量小于等于实词数量阈值时，完成一种用于材料与化工行业科技情报的数据处理；

进一步的，步骤S4中设定实词数量阈值为，比较/>中实词总数量B与Br的大小，当/>时，判断为不存在数据不平衡问题；当/>时，判断为存在数据不平衡问题；

S5、对步骤S3得到的修正的实词向量矩阵，基于步骤S4构建的修正的实词的编码矩阵、修正的实词的位置矩阵进行不平衡数据处理，完成一种用于材料与化工行业科技情报的数据处理；

进一步的，步骤S5的具体实现方法包括如下步骤：

；

S5.5、基于权重矩阵F构建修正距离矩阵G，计算表达式为：

；

其中，为修正距离矩阵G中的第d个元素；

由每个非重复元素对应的数量组成的非重复元素数量矩阵；

；

的计算表达式为：

；

的计算表达式为：

；

S5.9、构建累积分布函数，得到计算表达式为：

；

其中，为/>的阶乘，/>为系数，/>取值为0，1，2，…，/>；

；

本发明的关键点和欲保护点为：

1、一种错误文本数据修正方法；

2、一种不平衡数据处理方法。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然在上文中已经参考具体实施方式对本申请进行了描述，然而在不脱离本申请的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本申请所披露的具体实施方式中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本申请并不局限于文中公开的特定具体实施方式，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种用于材料与化工行业科技情报的数据处理方法，其特征在于，包括如下步骤：

S4、对步骤S3得到的修正的实词向量矩阵中的每个实词进行编码，设定目标实词编码为1，非目标实词编码为0，构建修正的实词的编码矩阵/>，其中/>为修正的实词的编码矩阵中的第B个元素，修正的实词的位置矩阵/>，其中为修正的实词的位置矩阵中的第B个元素，设定实词数量阈值，对修正的实词的编码矩阵进行实词数量判断，当修正的实词的编码矩阵中实词数量大于实词数量阈值时，进行下一步，当修正的实词的编码矩阵中实词数量小于等于实词数量阈值时，完成一种用于材料与化工行业科技情报的数据处理；

2.根据权利要求1所述的一种用于材料与化工行业科技情报的数据处理方法，其特征在于，步骤S2中计算实词矩阵GS中实词长度的方法包括如下步骤：

S2.1、将实词矩阵输入至计算机中；

S2.2、将实词按照字符进行分割；

3.根据权利要求1或2所述的一种用于材料与化工行业科技情报的数据处理方法，其特征在于，步骤S3的具体实现方法包括如下步骤：

；

S3.3、设定实词重复率阈值，计算表达式为：

；

S3.4、当基于实词长度弹性区间的实词向量矩阵中，/>时，表明目标实词GK与为同一实词，进行下一步；/>时，表明目标实词GK与/>不是同一实词，继续比较GK与实词向量矩阵/>中的第i+1个实词向量/>，直至满足/>，然后进行下一步；

；

其中，为实词向量矩阵GS中的第i个实词向量；

然后判断的值是否为100%，判断为是不执行任何操作，判断为否则用目标实词GK替换实词向量矩阵GS中的/>，完成对错误文本数据的修正，得到修正的实词向量矩阵/>，其中修正的实词向量矩阵中实词向量的个数为B。

4.根据权利要求3所述的一种用于材料与化工行业科技情报的数据处理方法，其特征在于，步骤S4中设定实词数量阈值为，比较/>中实词总数量B与Br的大小，当/>时，判断为不存在数据不平衡问题；当/>时，判断为存在数据不平衡问题。

5.根据权利要求4所述的一种用于材料与化工行业科技情报的数据处理方法，其特征在于，步骤S5的具体实现方法包括如下步骤：

S5.1、基于步骤S4得到的修正的实词的编码矩阵，提取第1个0元素/>对应的距离最近的1元素/>，从修正的实词的位置矩阵/>中，分别提取/>和/>对应的元素/>和/>，并计算第1个0元素到最近的1元素的距离/>，计算表达式为：

；

S5.4、考虑中的不同0元素与1元素的关系存在差异，构建权重矩阵F，通过F调整/>中的全部0元素到最近1元素的距离，/>，/>为权重矩阵F中的第i个元素；

S5.5、基于权重矩阵F构建修正距离矩阵G，计算表达式为：

；

其中，为修正距离矩阵G中的第d个元素；

由每个非重复元素对应的数量组成的非重复元素数量矩阵；

；

的计算表达式为：

；

的计算表达式为：

；

S5.9、构建累积分布函数，得到计算表达式为：

；

其中，为/>的阶乘，/>为系数，/>取值为0，1，2，…，/>；

；

S5.11、设置非重复元素数量平均值M为非重复元素对应的数量的阈值，比较非重复元素数量矩阵中元素与非重复元素对应的数量的阈值的关系，当时，表明数据冗余对全部实词识别存在干扰，将/>对应的/>删除；当/>时，将/>对应的/>保留，得到调整后的非重复元素矩阵/>，调整后的非重复元素矩阵对应的数量矩阵，其中dd为调整后的非重复元素的数量；

S5.12、基于步骤S5.11得到的，以及步骤S5.6得到的冻结矩阵/>，构建完整矩阵，/>为并集；