CN116628628B

CN116628628B - 基于检索信息的用户信息素养分析方法、系统及存储介质

Info

Publication number: CN116628628B
Application number: CN202310407000.2A
Authority: CN
Inventors: 张云雷; 张艺博; 王晓菊; 李冬艳
Original assignee: North China Institute of Science and Technology
Current assignee: North China Institute of Science and Technology
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2024-01-30
Anticipated expiration: 2043-04-17
Also published as: CN116628628A

Abstract

本发明涉及大数据分析教育技术领域，解决了用户信息素养分析结果准确性较低的技术问题，尤其涉及一种基于检索信息的用户信息素养分析方法、系统及存储介质，包括：将预设测试周期划分为n个时间片段，并获取目标用户分别在n个时间片段内由所有检索信息组成的检索行为时间序列数据集；对每个检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取关键词；对检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集。本发明以用户日常信息搜寻过程中所涉及的检索信息为重要的分析依据，并结合相应的知识图谱对信息搜寻过程中形成的信息认知图谱进行分析，提高了分析结果的准确度。

Description

基于检索信息的用户信息素养分析方法、系统及存储介质

技术领域

本发明涉及大数据分析教育技术领域，尤其涉及一种基于检索信息的用户信息素养分析方法、系统及存储介质。

背景技术

随着网络技术的发展，数据资料呈现爆炸式增长，致使人们每天接触到的信息量非常庞大，因此如何在纷繁复杂的信息世界里准确找到所需要的信息就要求信息用户有相对较高的信息素养。

目前，评测信息用户信息素养高低的方法主要是通过一些周期性的情景测试来进行诊断分析，虽然在能够在一定程度上帮助用户对自身信息素养的发展有更加客观和深层次认知与评价，但是，用户信息素养的高低更多的表现为在日常生活中能够认识到何时需要信息，并根据认知需求检索、评估和有效地利用信息的综合能力，而不是应试能力，因此上述利用周期性的情景测试来分析用户信息素养水平的方法，从而易于致使用户信息素养的分析结果不够准确。

发明内容

针对现有技术的不足，本发明提供了一种基于检索信息的用户信息素养分析方法、系统及存储介质，解决了用户信息素养分析结果准确性较低的技术问题，达到了以用户日常信息搜寻过程中所涉及的检索信息为重要的分析依据，并结合知识库中相应的知识图谱对信息搜寻过程中形成的信息认知图谱进行分析以提高用户信息素养分析结果准确度的目的。

为解决上述技术问题，本发明提供了如下技术方案：一种基于检索信息的用户信息素养分析方法，包括以下步骤：

S1、将预设测试周期划分为n个时间片段，并获取目标用户分别在n个所述时间片段内由所有检索信息组成的检索行为时间序列数据集；

S2、对每个所述检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词；

S3、对所述检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集；

S4、根据所述目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱；

S5、根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱；

S6、根据所述信息认知图谱对用户的信息素养进行分析，得到用户信息素养分析结果。

进一步地，在步骤S2中，提取用于表征对应的检索文本语义特征的关键词的具体过程包括以下步骤：

S21、获取所述检索行为时间序列数据集中待分词的检索文本数据；

S22、采用隐马尔可夫算法对所述检索文本数据进行分词处理得到由多个词段组成的词语集；

S23、从所述词语集中提取用于表征对应的检索文本语义特征的关键词。

进一步地，在步骤S3中，对所述检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集的具体过程包括以下步骤：

S31、根据所述目标用户的基本信息确定用户的认知需求；

S32、根据所述认知需求构建存储有相关课程的所有知识点的知识库；

S33、计算所述关键词与知识库中的知识点之间的语义相似度，如果所述语义相似度小于预设相似度阈值，则剔除该关键词所对应的检索文本数据，否则，保留该关键词所对应的检索文本数据。

进一步地，在步骤S4中，构建所述子图谱的具体过程包括以下步骤：

S41、根据词语关联度将所述目标信息数据集中所有检索文本数据归类分组，得到检索信息簇；

S42、根据所述检索信息簇内每个词语集中关键词与非关键词之间的连接关系进行连接，得的信息认知片段；

S43、根据关联词语将属于同一个所述检索信息簇内的信息认知片段连接以获得子图谱。

进一步地，在步骤S6中，根据所述信息认知图谱对用户的信息素养进行分析，得到用户信息素养分析结果的具体过程包括以下步骤：

S61、根据所述信息认知图谱中实体的时间属性，计算相邻检索信息之间的间隔时长；

S62、根据所述信息认知图谱中出现频次最高的实体，获取知识库中相应的根据标准知识数据构建的知识图谱；

S63、根据所述相邻检索信息之间的间隔时长以及所述信息认知图谱与知识图谱的相似度推算信息素养能力值。

进一步地，所述信息素养能力值的计算公式如下所示：

上式中，C_learn表示信息认知图谱与知识图谱的相似度，表示x信息检索的平均速度，ρ表示信息认知图谱中包含的检索文本数据的数量，Δt_σ表示第σ对相邻检索信息之间的间隔时长。

进一步地，所述检索行为时间序列数据集包括用户在时间片段内的多个检索行为以及每个检索行为的时间点，并将多个检索行为按照时间顺序进行排序。

本发明还提供一种技术方案：一种用于实现上述基于检索信息的用户信息素养分析方法的系统，包括：

数据获取模块，所述数据获取模块用于将预设测试周期划分为n个时间片段，并获取目标用户分别在n个所述时间片段内由所有检索信息组成的检索行为时间序列数据集；

关键词提取模块，所述关键词提取模块用于对每个所述检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词；

数据筛选模块，所述数据筛选模块用于对所述检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集；

子图谱构建模块，所述子图谱构建模块用于根据所述目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱；

信息认知图谱生成模块，所述信息认知图谱生成模块用于根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱；

分析模块，所述分析模块用于根据所述信息认知图谱对用户的信息素养进行分析，得到用户信息素养分析结果。

本发明还提供一种存储介质，其上存储有计算机程序，该所述计算机程序被处理器执行时实现上述的基于检索信息的用户信息素养分析方法。

借由上述技术方案，本发明提供了一种基于检索信息的用户信息素养分析方法、系统及存储介质，至少具备以下有益效果：

1、本发明通过以目标用户日常信息搜寻过程中所涉及的真实检索信息为重要的分析依据，并根据检索信息之间的关联度构建信息认知图谱，同时获取与检索信息出现频次最高的关键词相对应的标准知识图谱，在信息认知图谱、信息检索效率和对应的标准知识图谱三层语义的基础上对目标用户的信息素养进行分析，大大提高了目标用户信息素养分析的准确度。

2、本发明通过将信息素养分析评测周期划分为若干时间片段，采用隐马尔可夫模型对每个时间片段内的检索信息进行分词并调用维特比算法提取关键词，提高了检索文本数据分词效率和准确性，再根据各个时间片段内关键词的关联度获得信息认知图谱，从而增强了整个系统的稳定性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明提供的用户信息素养分析方法的流程图；

图2为本发明提供的用户信息素养分析方法中得到目标信息数据集的流程图；

图3为本发明提供的用户信息素养分析方法中构建子图谱的流程图；

图4为本发明提供的用户信息素养分析方法中信息认知片段示意图；

图5为本发明提供的用户信息素养分析系统的原理框图。

图中：10、数据获取模块；20、关键词提取模块；30、数据筛选模块；40、子图谱构建模块；50、信息认知图谱生成模块；60、分析模块。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

场景概述

信息素养是融合知识、意识、能力、态度与价值观的综合素养，为此信息素养的高低在一定程度上决定了用户个人素质的高低，而个人素质决定着未来的国家竞争力，因此关注高校学生的信息素养水平已刻不容缓。

目前，现有技术往往是通过一些周期性的情景测试来分析学生的信息素养水平，但是，上述信息素养分析方法存在评价内容有限，并且缺乏对信息搜寻过程数据的采集与分析，从而导致信息素养分析结果的准确度较低，为此，本申请提出以学生日常信息搜寻过程中所涉及的检索信息为重要的分析依据，并结合知识库中相应的知识图谱对信息搜寻过程中形成的信息认知图谱进行评测以获得用户信息素养分析结果，最终实现了检索信息数据驱动的信息素养精准分析评价，以便为教师制定提升学生信息素养的发展计划提供参考依据。

需要说明的是，上述关于教师对学生信息素养的分析评测仅仅是本申请实施例提供的信息素养分析方法的一种示例性应用场景，在本申请实施例中并不限定信息素养分析方法的具体应用场景，例如，还可以应用在企业对新员工信息素养水平的分析评测中。

实施例

请参照图1-图4，示出了本实施例的一种具体实施方式，本实施例通过以目标用户日常信息搜寻过程中所涉及的检索信息为重要的分析依据，并结合知识库中相应的知识图谱对信息搜寻过程中形成的信息认知图谱对目标用户的信息素养能力进行分析评测，提高了信息素养分析结果的准确度。

如图1所示，一种基于检索信息的用户信息素养分析方法，包括以下步骤：

S1、将预设测试周期划分为n个时间片段，并获取目标用户分别在n个时间片段内由所有检索信息组成的检索行为时间序列数据集。

实现学生信息素养精准分析的重要依据是与学生日常信息搜寻相关的过程性数据，也就是说，采集的相关真实过程性数据越多则信息素养分析结果越精准，但数据量越大会致使整个分析过程越慢且系统稳定性越差，因而需要将预设测试周期T划分为n个时间片段。例如，将预设测试周期设置为28天并划分为4个时间片段，以周为基础时间单位对学生信息搜寻过程数据进行采集。

本实施例中，通过采用WebAPI方式采集智能手机、平板电脑和台式电脑等不同系统在每个时间片段内上网时涉及的所有检索信息组成的检索行为时间序列数据集X，此处涉及的检索行为时间序列数据集X包括用户在时间片段内的多个检索行为以及每个检索行为的时间点，并将多个检索行为按照时间顺序进行排序，则检索行为时间序列数据集X的表达式如下所示：

X＝(x₁，x₂，…，x_n)

上式中，x_n表示在第n个时间点的检索行为对应的检索信息。

S2、对每个检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词。

本实施例中，提取用于表征对应的检索文本语义特征的关键词的具体过程包括以下步骤：

S21、获取检索行为时间序列数据集中待分词的检索文本数据。

S22、采用隐马尔可夫算法对检索文本数据进行分词处理得到由多个词段组成的词语集。

隐马尔可夫算法的思想是用隐马尔可夫链来描述一个完整句子的词性变化，每种词性对应一种状态，状态的转移概率代表词性之间的搭配关系；假设检索文本数据Y是由词语串组成，W＝w₁，w₂，…，w_c，(c≥1)，词语w_i(1≤i≤m)的词性标注为t_i，即句子Y相应的词性标注符号序列可表达为T＝t₁，t₂，…，t_m，那么在对检索文本数据进行分词过程中，只要列出所有可能的切分，用词语出现的概率与词性的连接概率，计算每种切分概率总和P(W，T)，将最大概率值对应的词语集作为最优分词方案。

其中，P(W，T)可由隐马尔可夫模型近似的表示为等式，即：

上式中，表示在整个标注语料中在词性t_i的条件下，词语w_i出现的概率；表示在前一个词语的词性是t_i-1的情况下，当前词的词性是t_i的概率。

例如：对于检索文本数据Y“预防死锁的方法有哪些”，根据上述隐马尔可夫模型分词思想，经计算可知由“预防、死锁、的、方法、有、哪些”组成的词语集的概率总和最大，即为最优分词方案。

S23、从词语集中提取用于表征对应的检索文本语义特征的关键词。

利用隐马尔可夫模型的维特比算法依次计算词语集中每个分词的隐藏状态的概率值，最后选取词语集中隐藏状态概率值最大的数值所对应的分词作为用于表征对应的检索文本语义特征的关键词。例如：检索文本数据Y“预防死锁的方法有哪些”的关键词为“预防、死锁”。

S3、对检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集。

如图2所示，本实施例中，对检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集的具体过程包括以下步骤：

S31、根据目标用户的基本信息确定用户的认知需求。

其中，目标用户的基本信息包括但不限于姓名、学号、专业、班级、课程名称等信息。通过目标用户的基本信息可确定用户最近所要学习的知识，从而能够确定用户的认知需求，这将为后续分析信息素养提供有力证据。

S32、根据认知需求构建存储有相关课程的所有知识点的知识库。

S33、计算关键词与知识库中的知识点之间的语义相似度，如果语义相似度小于预设相似度阈值，则剔除该关键词所对应的检索文本数据，否则，保留该关键词所对应的检索文本数据。

重复执行步骤S33直至将检索行为时间序列数据集中的检索文本数据全部遍历完为止，最终得到筛选后的目标信息数据集。

其中，语义相似度是对任意两个词语之间相似性的定量表示，由于一个词语可能存在多种语义，所以两个词语之间的相似度取决于它们的共性和个性，具体表达式如下：

上式中，分子表示描述关键词w_i和知识点词语B共性所需要的信息量；分母表示完整地描述关键词w_i和知识点词语B所需要的信息量。

S4、根据目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱。

如图3所示，本实施例中，构建子图谱的具体过程包括以下步骤：

S41、根据词语关联度将目标信息数据集中所有检索文本数据归类分组，得到检索信息簇。其中，此处所涉及的词语关联度的计算公式如下所示：

上式中，w_ε表示目标信息数据集中的关键词，w_ε+j表示w_ε对应的相邻检索文本数据的关键词，表示w_ε+j的词向量，/>表示w_ε的词向量，β表示目标信息数据集中所有检索文本数据的关键词矩阵，j的范围是[-1，1]。

S42、根据检索信息簇内每个词语集中关键词与非关键词之间的连接关系进行连接，得的信息认知片段。

通过连接关系将从每个检索文本数据中提取的关键词与非关键词依次连接构成的网状图，便是所要构建的信息认知片段，并且可以被形式化的表示为：Y＝(E，R，A)，其中，E为实体集合，R为关系集合，A为属性名集合。

下面将结合图4所示出的信息认知片段示意图为例进行说明，根据步骤S22可知，检索文本数据Y“预防死锁的方法有哪些”的最优分词方案为“预防、死锁、的、方法、有、哪些”，且根据步骤S23可知其关键词为“预防、死锁”，因而可以被形式化的表示为：Y＝(死锁，预防方法，分解)，其中，“检索时间”和“用户名”为属性值。

S43、根据关联词语将属于同一个检索信息簇内的信息认知片段连接以获得子图谱。

位于同一个检索信息簇内的信息认知片段具有较高的关联度，为此可将它们连接至一起形成一个更加完整的子图谱，例如，所有跟“死锁”相关的检索信息可以连接至一起，组合形成一个关于“死锁”信息的子图谱。

S5、根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱。

学生信息搜集是随着认知需求而不断进行的一个过程，需要划分为若干个时间片段采集过程性证据数据，后续再进行组合分析，以便提高信息素养分析的效率以及精度，增强了实用性。

S6、根据信息认知图谱对用户的信息素养进行分析，得到用户信息素养分析结果。

本实施例中，根据信息认知图谱对用户的信息素养进行分析以获得对应分析结果的具体过程包括以下步骤：

S61、根据信息认知图谱中实体的时间属性，计算相邻检索信息之间的间隔时长。

根据步骤S1中所采集的目标用户分别在每个时间片段内由不同系统所有检索信息组成的检索行为时间序列数据集X＝(x₁，x₂，…，x_n)可知，每条检索信息的检索时间点，为此，相邻两条目标检索文本数据的时间点作差，即可得到相邻检索信息之间的间隔时长Δt。

S62、根据信息认知图谱中出现频次最高的实体，获取知识库中相应的根据标准知识数据构建的知识图谱。

S63、根据相邻检索信息之间的间隔时长以及信息认知图谱与知识图谱的相似度推算信息素养能力值。

首先从知识图谱中分割出与信息认知图谱相关的局部图谱，再将局部图谱与信息认知图谱进行对比以获得它们的相似度；然后，根据相邻检索信息之间的间隔时长以及信息认知图谱与知识图谱的相似度调用公式进行推算信息素养能力值IL，其中，信息素养能力值IL的计算公式如下所示：

S64、将信息素养能力值转换为等级数据并作为信息素养分析结果输出。

通过阈值法将信息素养等级划分为优、良、中、差四个等级，可根据信息素养能力值所属阈值范围确定该目标用户的信息素养水平，并将其作为分析结果输出，最终实现对目标用户信息素养的分析评测。

通过本实施例，通过以目标用户日常信息搜寻过程中所涉及的真实检索信息为重要的分析依据，采用隐马尔可夫算法模型对检索信息文本进行分词并提取用于表征语义的关键词，再根据关键词的语义相似度进行归类分组并结合词语之间的连接关系构建信息认知图谱，同时根据检索信息出现频次最高的关键词获取相对应的标准知识图谱，在信息认知图谱、信息检索效率和对应的标准知识图谱三层语义的基础上对目标用户的信息素养进行分析，大大提高了目标用户信息素养分析的准确度。

请参照图5，本实施例还提供一种用于实现上述基于检索信息的用户信息素养分析方法的系统，包括：

数据获取模块10，用于将预设测试周期划分为n个时间片段，并获取目标用户分别在n个时间片段内由各个系统所有检索信息组成的检索行为时间序列数据集；

关键词提取模块20，用于对每个检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并从中提取用于表征对应的检索文本数据语义特征的关键词；

数据筛选模块30，用于对检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集；

子图谱构建模块40，用于根据目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱；

信息认知图谱生成模块50，用于根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱；

分析模块60，用于根据信息认知图谱对用户的信息素养进行分析，得到用户信息素养分析结果。

通过本实施例，本发明通过将信息素养分析评测周期划分为若干时间片段，采用隐马尔可夫模型对每个时间片段内的检索信息进行分词并调用维特比算法提取关键词，提高了检索文本数据分词效率和准确性，再根据各个时间片段内关键词的关联度获得信息认知图谱，从而增强了整个系统的稳定性，具有较高的社会价值和应用前景。

需要说明的是，应理解上述系统中各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路(ApplicationSp ecific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如，中央处理器(Central ProcessingUnit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于检索信息的用户信息素养分析方法。存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

以上实施方式对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于检索信息的用户信息素养分析方法，其特征在于，包括以下步骤：

在步骤S3中，对所述检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集的具体过程包括以下步骤：

S31、根据所述目标用户的基本信息确定用户的认知需求；

S33、计算所述关键词与知识库中的知识点之间的语义相似度，如果所述语义相似度小于预设相似度阈值，则剔除该关键词所对应的检索文本数据，否则，保留该关键词所对应的检索文本数据；

在步骤S4中，构建所述子图谱的具体过程包括以下步骤：

S43、根据关联词语将属于同一个所述检索信息簇内的信息认知片段连接以获得子图谱；

S6、根据所述信息认知图谱对用户的信息素养进行分析，得到用户信息素养分析结果；

在步骤S6中，根据所述信息认知图谱对用户的信息素养进行分析，得到用户信息素养分析结果的具体过程包括以下步骤：

2.根据权利要求1所述的用户信息素养分析方法，其特征在于，所述信息素养能力值的计算公式如下所示：

3.根据权利要求1所述的用户信息素养分析方法，其特征在于，在步骤S2中，提取用于表征对应的检索文本语义特征的关键词的具体过程包括以下步骤：

4.根据权利要求1所述的用户信息素养分析方法，其特征在于，所述检索行为时间序列数据集包括用户在时间片段内的多个检索行为以及每个检索行为的时间点，并将多个检索行为按照时间顺序进行排序。

5.一种用于实现上述权利要求1-4任一项所述的基于检索信息的用户信息素养分析方法的系统，其特征在于，包括：

数据获取模块(10)，所述数据获取模块(10)用于将预设测试周期划分为n个时间片段，并获取目标用户分别在n个所述时间片段内由所有检索信息组成的检索行为时间序列数据集；

关键词提取模块(20)，所述关键词提取模块(20)用于对每个所述检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词；

数据筛选模块(30)，所述数据筛选模块(30)用于对所述检索行为时间序列数据集中的检索文本数据进行筛选，得到筛选后的目标信息数据集；

子图谱构建模块(40)，所述子图谱构建模块(40)用于根据所述目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱；

信息认知图谱生成模块(50)，所述信息认知图谱生成模块(50)用于根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱；

分析模块(60)，所述分析模块(60)用于根据所述信息认知图谱对用户的信息素养进行分析，得到用户信息素养分析结果。

6.一种存储介质，其上存储有计算机程序，其特征在于，该所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于检索信息的用户信息素养分析方法。