CN118013955A

CN118013955A - 一种基于关联算法的标准信息更新方法

Info

Publication number: CN118013955A
Application number: CN202410412193.5A
Authority: CN
Inventors: 王霞; 王静雅; 于钢; 孙宇宁; 赵奇
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2024-04-08
Filing date: 2024-04-08
Publication date: 2024-05-10
Anticipated expiration: 2044-04-08
Also published as: CN118013955B

Abstract

本发明公开了一种基于关联算法的标准信息更新方法，该方法对当前标准信息的文档进行分词，并筛选出所述标准信息的关键词，筛选出与所述标准信息有关联关系的基础标准集；基于关联算法，获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集；当所述基础标准集中的一项或多项基础标准发生变化时，获得第二频繁关键词集；检查两个频繁关键词集是否一致，若不一致，则根据当前的基础标准集对当前标准信息进行更新操作。该方法具有高效性、准确性和高自动化程度等优点，可以显著提升标准信息管理的效率和准确性。

Description

一种基于关联算法的标准信息更新方法

技术领域

本发明涉及标准信息技术领域，特别涉及一种基于关联算法的标准信息更新方法。

背景技术

目前针对标准信息的更新，常用的方法一种是人为定期检查和更新标准信息，确保其与最新的技术、法规和行业发展保持一致；这种方法由于费时费力，无法适应那些变化较快的领域，如信息技术、医疗技术等；另一种是用户反馈驱动更新，通过用户反馈和意见收集，了解标准信息在实际应用中的问题和需求，然后进行相应的更新和改进，这种方法主观性大，用户反馈可能受到个人经验、知识水平和偏好的影响；其样本偏差，如果反馈主要来自特定用户群体，可能无法全面反映所有用户的需求和问题。

利用自动化工具和算法，对标准信息进行实时监控和更新，可以大大提高更新效率，减少人工干预，然而现有的触发式更新方法，无法准确给出基础标准的更新对当前标准信息的影响，当某项基础标准出现更新时，还是需要人工核对与之关联的标准信息是否需要更新，目前还没有理想的对标准信息进行自动判断和自动更新的方法。

本发明针对现有技术存在的问题，提出一种基于关联算法的标准信息更新方法。

发明内容

本发明的目的在于提供一种基于关联算法的标准信息更新方法，基于关键词筛选匹配出与当前标准信息相关联的基础标准，并根据关联算法判断当前标准信息是否需要更新，实现对标准信息更新的自动化判断。

为了实现本发明的上述目的，本发明采用以下技术方案：

一种基于关联算法的标准信息更新方法，所述方法包括以下步骤：

步骤S1，标准信息预处理，对所述标准信息的文档进行分词，并筛选出所述标准信息的关键词。

进一步的，所述步骤S1中，筛选出所述标准信息的关键词具体方法为：

去除标准信息文档的分词中的停用词后，基于融合算法计算每个分词在文档中的融合值。

所述融合值的计算公式：，其中，/>为词频因子，/>为分词长度因子，/>为分词位置因子，/>为分词的跨度因子；/>为词性因子，当所述分词为名词或动名词时，/>取0.85，当所述分词为形容词、动词或副词时，/>取0.15，分词词性为其他时，/>取0。

词频因子，其中，/>为分词/>在文档中出现的频率。

分词长度因子，其中，/>表示分词/>的长度，/>代表所有分词的最大长度。

分词位置因子和分词的跨度因子/>的计算为：

式中，为总分词数量，/>为分词/>在文档中首次出现时已经在先出现的分词数量，/>为分词/>在文档中最后出现时还没有出现的分词数量。

对所有分词的融合值进行由大到小排序，取前5~10个值对应的分词，即为所述标准信息的关键词。

步骤S2，根据各基础标准对所述关键词的覆盖度，筛选出与所述标准信息有关联关系的基础标准集。

进一步的，所述步骤S2中，所述各基础标准对所述关键词的覆盖度的计算方法为：

对所述各基础标准分别进行分词处理，查找所述关键词出现在某个基础标准分词中的个数，若所述关键词有M个，这些关键词出现在某个基础标准分词中的个数为N，则所述关键词的覆盖度。

当覆盖度时，认为该基础标准与所述标准信息之间有关联关系。

进一步的，所述步骤S1和步骤S2中，对所述标准信息和所述各基础标准进行分词时，采用相同的分词工具，所述分词工具为HanLP或THULAC。

步骤S3，基于关联算法，获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集。

进一步的，所述步骤S3中，基于关联算法，获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集具体包括如下步骤：

步骤S301，根据所述关键词与所述基础标准集，通过Apriori算法将关键词与基础标准集的关联关系映射到布尔矩阵。

进一步的，记所述布尔矩阵为第一布尔矩阵，其中，所述第一布尔矩阵的行表示关键词，列表示基础标准集，而每个元素的值表示对应的基础标准集是否包含对应关键词，若包含对应关键词，则元素值为“1”，否则为“0”。

所述布尔矩阵对应的权重向量，其中，m为第一布尔矩阵的行数，初始权重值/>。

进一步的，所述步骤S301中，在建立布尔矩阵后，若所述矩阵中存在相同的行，则向上合并相同的行，合并后将对应权重向量的值进行叠加。

步骤S302，将权重向量和矩阵的每一列相乘，得到每一关键词的支持度并与最小支持数进行比较，删除不满足最小支持数的关键词对应的列，得到第二布尔矩阵。

进一步的，所述最小支持数为最小支持度与基础标准集中基础标准个数的乘积值向上取整，所述最小支持度取0.3。

步骤S303，继续对所述第二矩阵进行和列的化简得到第三布尔矩阵。

进一步的，先对所述第二布尔矩阵进行横向化简，此时若基础标准对应的行仅包含1个关键词，即该行仅有 1 个元素值为“1”，其余全为“0”，则删除该行。

重新计算每一列的支持数，删除不满足最小支持数的列。

矩阵列的变化会影响到行，需要再次删除 n≤1 的行，直到所有的列都满足所述最小支持数，并且所有行的 n 值都不小于 2 为止，得到第三布尔矩阵，其中，n为布尔矩阵每一行所包含的“1”的个数。

步骤S304，根据所述第三布尔矩阵得到第四布尔矩阵。

进一步的，计算所述第三布尔矩阵中，每一列的支持数，删除不满足最小支持数的列获得所述第四布尔矩阵。

步骤S305，重复对布尔矩阵行和列的简化运算，直到矩阵无法再继续简化，得到第一频繁关键词集。

步骤S4, 当所述基础标准集中的一项或多项基础标准发生变化时，重复步骤S2，获得第二频繁关键词集。

步骤S5，检查所述第二频繁关键词集与所述第一频繁关键词集是否一致，若不一致，则根据当前的基础标准集对所述标准信息进行更新操作。

本发明与现有技术相比，其有益效果是：

本发明的关联算法基于关键词比对，可以快速识别出当前标准信息与基础标准之间的关联关系，基于第一频繁关键词集和第二频繁关键词集能够准确地确定标准信息是否受到某个基础标准更新的影响，大大减少了人工审查和分析的工作量，提高了更新过程的效率。该方法可以适应不同的标准和行业领域，因为它依赖于数据的关联关系而非特定的规则或模型。这意味着它可以轻松地应用于各种场景，而无需进行大量的定制或调整。

附图说明

图1为本发明实施例的一种基于关联算法的标准信息更新方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例公开一种基于关联算法的标准信息更新方法，所述方法包括以下步骤：

所述步骤S1中，筛选出所述标准信息的关键词具体方法为：

去除标准信息文档的分词中的停用词后，基于融合算法计算每个分词在文档中的融合值；由于中文的文档缺乏词边界，在抽取关键词之前先对文本进行一些处理是必要的，分词中往往包含一些与关键词无关的项，如虚词、无意义的字序列片段或者一些符号最主要是要对文本进行分词和停用词过滤处理。

词频因子是指词语在文件中出现的频率，往往关键词在文中出现的次数会比较多，即词数与词语的重要程度具有一定的正向关联性，然而不管词语是否重要，它在长文档中可能会比在短文档中有更高的词数，TF 是对词数的归一化词频因子，其中，/>为分词/>在文档中出现的频率；需要指出的是，如果一个词是关键词，那么它往往在文本中会被频繁提及到，词语在文本中出现频率越大，就越有可能是关键词，但是这种可能性也不会随词频增大而无限增大，而是渐渐趋于稳定。

分词位置因子和分词的跨度因子/>的计算为：

需要说明的是，对所有分词的融合值进行由大到小排序，取前5~10个值对应的分词，即为所述标准信息的关键词。

所述步骤S2中，所述各基础标准对所述关键词的覆盖度的计算方法为：

所述步骤S1和步骤S2中，对所述标准信息和所述各基础标准进行分词时，采用相同的分词工具，所述分词工具为HanLP或THULAC。

步骤S3，基于关联算法，获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集。需要说明的是，一个标准信息可能对应几个基础标准与之关联，这取决于该标准信息的复杂性和它所涉及的领域，例如：一个关于食品安全的总体标准可能涉及多个基础标准。例如，它可能关联到食品生产过程中的卫生标准、食品添加剂的使用标准、食品包装材料的安全标准、食品储存和运输的标准等，这些基础标准共同构成了食品安全标准的基础和支撑；又如：汽车制造行业的一个总体标准可能涉及多个基础标准，关联到汽车的安全标准、排放标准、燃油效率标准、车辆性能标准、材料使用标准等，这些基础标准确保了汽车制造过程中的各个方面都符合行业规定和质量要求。

需要说明的是，所述步骤S3中，基于关联算法，获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集具体包括如下步骤：

记所述布尔矩阵为第一布尔矩阵，其中，所述第一布尔矩阵的行表示关键词，列表示基础标准集，而每个元素的值表示对应的基础标准集是否包含对应关键词，若包含对应关键词，则元素值为“1”，否则为“0”。

所述步骤S301中，在建立布尔矩阵后，若所述矩阵中存在相同的行，则向上合并相同的行，合并后将对应权重向量的值进行叠加。

以实例来具体说明算法的步骤，假设某标准信息的关键词经过步骤S1-S2共有6个，分别为：A、B、C、D、E、F，与其匹配的基础标准共有7件，每件基础标准覆盖的关键词分别为：ABCD、ABC、BDEF、BCDE、ACDF、ABC、ABF，则通过Apriori算法将关键词与基础标准集的关联关系映射到第一布尔矩阵, n为布尔矩阵每一行所包含的“1”的个数:

时引入初始权重向量，将矩阵中存在相同的行，则向上合并相同的行，合并后将对应权重向量的值进行叠加，则权重向量叠加后/>，第一布尔矩阵此时改记为M1。

所述最小支持数为最小支持度与基础标准集中基础标准个数的乘积值向上取整，所述最小支持度取0.3，则本例中，最小支持数为2.1，向上取整为3。由支持度的计算得，W×E=2，小于最小支持数3，不满足最小支持度，因此直接剪枝，也就是在矩阵中将该列删除，得到第二布尔矩阵M2。

步骤S303，继续对所述第二布尔矩阵进行和列的化简得到第三布尔矩阵。

先对所述第二布尔矩阵进行横向化简，此时若基础标准对应的行仅包含1个关键词，即该行仅有 1 个元素值为“1”，其余全为“0”，则删除该行。

重新计算每一列的支持数，删除不满足最小支持数的列。

基于所述第二布尔矩阵，来由该矩阵任意两列进行逻辑“与”运算，此时与M3相匹配的权重向量并没有变化，，重新计算每一列的支持数，直到所有的列都满足所述最小支持数，并且所有行的 n 值都不小于 2 为止，得到第三布尔矩阵M3：

。

步骤S304，根据所述第三布尔矩阵得到第四布尔矩阵。

计算所述第三布尔矩阵中，每一列的支持数，删除不满足最小支持数的列获得所述第四布尔矩阵：

。

M4中的第三行，n小于3，因此删除；删除后对应的权重向量为；此时，矩阵只剩余两个完全相同的行，进行合并后，权重向量为/>，最终由该最简矩阵进行逻辑“与”运算生成最简矩阵：/>。

根据上述矩阵，确定所述第一频繁关键词集为。

需要说明的是，当所述基础标准集中的一项或多项基础标准发生变化时，分词集会随之发生变化，导致频繁关键词集的运算结果会发生变化，如果第二频繁关键词集与所述第一频繁关键词集一致，则表明修改后的某个基础标准和与之关联的第一频繁关键词集对应的标准信息之间没有产生需要更新修改标准信息的影响。

步骤S5，检查所述第二频繁关键词集与所述第一频繁关键词集是否一致，若不一致，则根据当前的基础标准集对所述标准信息进行更新操作；该更新操作可能涉及标准信息参照修改后的基础标准的全面修改，在修改完毕后，还可以依据本实施例S1~S3的步骤，再次获得关键词集，并进行监控。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关联算法的标准信息更新方法，其特征在于，所述方法包括以下步骤：

步骤S1，标准信息预处理，对所述标准信息的文档进行分词，并筛选出所述标准信息的关键词；

步骤S2，根据各基础标准对所述关键词的覆盖度，筛选出与所述标准信息有关联关系的基础标准集；

步骤S3，基于关联算法，获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集；

步骤S4，当所述基础标准集中的一项或多项基础标准发生变化时，重复步骤S2，获得第二频繁关键词集；

2.根据权利要求1所述的基于关联算法的标准信息更新方法，其特征在于，所述步骤S1中，筛选出所述标准信息的关键词具体方法为：

去除标准信息文档的分词中的停用词后，基于融合算法计算每个分词在文档中的融合值；

所述融合值的计算公式：，其中，/>为词频因子，为分词长度因子，/>为分词位置因子，/>为分词的跨度因子；/>为词性因子，当所述分词为名词或动名词时，/>取0.85，当所述分词为形容词、动词或副词时，/>取0.15，分词词性为其他时，/>取0；

词频因子，其中，/>为分词/>在文档中出现的频率；

分词长度因子，其中，/>表示分词/>的长度， />代表所有分词的最大长度；

分词位置因子和分词的跨度因子/>的计算为：

式中，为总分词数量，/>为分词/>在文档中首次出现时已经在先出现的分词数量，/>为分词/>在文档中最后出现时还没有出现的分词数量；

3.根据权利要求1所述的基于关联算法的标准信息更新方法，其特征在于，所述步骤S2中，所述各基础标准对所述关键词的覆盖度的计算方法为：

对所述各基础标准分别进行分词处理，查找所述关键词出现在某个基础标准分词中的个数，若所述关键词有M个，这些关键词出现在某个基础标准分词中的个数为N，则所述关键词的覆盖度；

4.根据权利要求1所述的基于关联算法的标准信息更新方法，其特征在于，所述步骤S3中，基于关联算法，获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集具体包括如下步骤：

步骤S301，根据所述关键词与所述基础标准集，通过Apriori算法将关键词与基础标准集的关联关系映射到布尔矩阵；

记所述布尔矩阵为第一布尔矩阵，其中，所述第一布尔矩阵的行表示关键词，列表示基础标准集，而每个元素的值表示对应的基础标准集是否包含对应关键词，若包含对应关键词，则元素值为“1”，否则为“0”；

所述布尔矩阵对应的权重向量，其中，m为第一布尔矩阵的行数，初始权重值/>；

步骤S302，将权重向量和矩阵的每一列相乘，得到每一关键词的支持度并与最小支持数进行比较，删除不满足最小支持数的关键词对应的列，得到第二布尔矩阵；

所述最小支持数为最小支持度与基础标准集中基础标准个数的乘积值向上取整，所述最小支持度取0.3；

步骤S303，继续对所述第二布尔矩阵进行和列的化简得到第三布尔矩阵；

先对所述第二布尔矩阵进行横向化简，此时若基础标准对应的行仅包含1个关键词，即该行仅有 1 个元素值为“1”，其余全为“0”，则删除该行；

重新计算每一列的支持数，删除不满足最小支持数的列；

矩阵列的变化会影响到行，需要再次删除 n≤1 的行，直到所有的列都满足所述最小支持数，并且所有行的 n 值都不小于 2 为止，得到第三布尔矩阵，其中，n为布尔矩阵每一行所包含的“1”的个数；

步骤S304，根据所述第三布尔矩阵得到第四布尔矩阵；

计算所述第三布尔矩阵中，每一列的支持数，删除不满足最小支持数的列获得所述第四布尔矩阵；

5.根据权利要求4所述的，基于关联算法的标准信息更新方法，其特征在于，所述步骤S301中，在建立布尔矩阵后，若所述矩阵中存在相同的行，则向上合并相同的行，合并后将对应权重向量的值进行叠加。

6.根据权利要求3所述，基于关联算法的标准信息更新方法，其特征在于所述步骤S1和步骤S2中，对所述标准信息和所述各基础标准进行分词时，采用相同的分词工具，所述分词工具为HanLP或THULAC。