CN116628628B - 基于检索信息的用户信息素养分析方法、系统及存储介质 - Google Patents

基于检索信息的用户信息素养分析方法、系统及存储介质 Download PDF

Info

Publication number
CN116628628B
CN116628628B CN202310407000.2A CN202310407000A CN116628628B CN 116628628 B CN116628628 B CN 116628628B CN 202310407000 A CN202310407000 A CN 202310407000A CN 116628628 B CN116628628 B CN 116628628B
Authority
CN
China
Prior art keywords
information
retrieval
search
user
literacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310407000.2A
Other languages
English (en)
Other versions
CN116628628A (zh
Inventor
张云雷
张艺博
王晓菊
李冬艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Institute of Science and Technology
Original Assignee
North China Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Institute of Science and Technology filed Critical North China Institute of Science and Technology
Priority to CN202310407000.2A priority Critical patent/CN116628628B/zh
Publication of CN116628628A publication Critical patent/CN116628628A/zh
Application granted granted Critical
Publication of CN116628628B publication Critical patent/CN116628628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/26Discovering frequent patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据分析教育技术领域,解决了用户信息素养分析结果准确性较低的技术问题,尤其涉及一种基于检索信息的用户信息素养分析方法、系统及存储介质,包括:将预设测试周期划分为n个时间片段,并获取目标用户分别在n个时间片段内由所有检索信息组成的检索行为时间序列数据集;对每个检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取关键词;对检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集。本发明以用户日常信息搜寻过程中所涉及的检索信息为重要的分析依据,并结合相应的知识图谱对信息搜寻过程中形成的信息认知图谱进行分析,提高了分析结果的准确度。

Description

基于检索信息的用户信息素养分析方法、系统及存储介质
技术领域
本发明涉及大数据分析教育技术领域,尤其涉及一种基于检索信息的用户信息素养分析方法、系统及存储介质。
背景技术
随着网络技术的发展,数据资料呈现爆炸式增长,致使人们每天接触到的信息量非常庞大,因此如何在纷繁复杂的信息世界里准确找到所需要的信息就要求信息用户有相对较高的信息素养。
目前,评测信息用户信息素养高低的方法主要是通过一些周期性的情景测试来进行诊断分析,虽然在能够在一定程度上帮助用户对自身信息素养的发展有更加客观和深层次认知与评价,但是,用户信息素养的高低更多的表现为在日常生活中能够认识到何时需要信息,并根据认知需求检索、评估和有效地利用信息的综合能力,而不是应试能力,因此上述利用周期性的情景测试来分析用户信息素养水平的方法,从而易于致使用户信息素养的分析结果不够准确。
发明内容
针对现有技术的不足,本发明提供了一种基于检索信息的用户信息素养分析方法、系统及存储介质,解决了用户信息素养分析结果准确性较低的技术问题,达到了以用户日常信息搜寻过程中所涉及的检索信息为重要的分析依据,并结合知识库中相应的知识图谱对信息搜寻过程中形成的信息认知图谱进行分析以提高用户信息素养分析结果准确度的目的。
为解决上述技术问题,本发明提供了如下技术方案:一种基于检索信息的用户信息素养分析方法,包括以下步骤:
S1、将预设测试周期划分为n个时间片段,并获取目标用户分别在n个所述时间片段内由所有检索信息组成的检索行为时间序列数据集;
S2、对每个所述检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词;
S3、对所述检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集;
S4、根据所述目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱;
S5、根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱;
S6、根据所述信息认知图谱对用户的信息素养进行分析,得到用户信息素养分析结果。
进一步地,在步骤S2中,提取用于表征对应的检索文本语义特征的关键词的具体过程包括以下步骤:
S21、获取所述检索行为时间序列数据集中待分词的检索文本数据;
S22、采用隐马尔可夫算法对所述检索文本数据进行分词处理得到由多个词段组成的词语集;
S23、从所述词语集中提取用于表征对应的检索文本语义特征的关键词。
进一步地,在步骤S3中,对所述检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集的具体过程包括以下步骤:
S31、根据所述目标用户的基本信息确定用户的认知需求;
S32、根据所述认知需求构建存储有相关课程的所有知识点的知识库;
S33、计算所述关键词与知识库中的知识点之间的语义相似度,如果所述语义相似度小于预设相似度阈值,则剔除该关键词所对应的检索文本数据,否则,保留该关键词所对应的检索文本数据。
进一步地,在步骤S4中,构建所述子图谱的具体过程包括以下步骤:
S41、根据词语关联度将所述目标信息数据集中所有检索文本数据归类分组,得到检索信息簇;
S42、根据所述检索信息簇内每个词语集中关键词与非关键词之间的连接关系进行连接,得的信息认知片段;
S43、根据关联词语将属于同一个所述检索信息簇内的信息认知片段连接以获得子图谱。
进一步地,在步骤S6中,根据所述信息认知图谱对用户的信息素养进行分析,得到用户信息素养分析结果的具体过程包括以下步骤:
S61、根据所述信息认知图谱中实体的时间属性,计算相邻检索信息之间的间隔时长;
S62、根据所述信息认知图谱中出现频次最高的实体,获取知识库中相应的根据标准知识数据构建的知识图谱;
S63、根据所述相邻检索信息之间的间隔时长以及所述信息认知图谱与知识图谱的相似度推算信息素养能力值。
进一步地,所述信息素养能力值的计算公式如下所示:
上式中,Clearn表示信息认知图谱与知识图谱的相似度,表示x信息检索的平均速度,ρ表示信息认知图谱中包含的检索文本数据的数量,Δtσ表示第σ对相邻检索信息之间的间隔时长。
进一步地,所述检索行为时间序列数据集包括用户在时间片段内的多个检索行为以及每个检索行为的时间点,并将多个检索行为按照时间顺序进行排序。
本发明还提供一种技术方案:一种用于实现上述基于检索信息的用户信息素养分析方法的系统,包括:
数据获取模块,所述数据获取模块用于将预设测试周期划分为n个时间片段,并获取目标用户分别在n个所述时间片段内由所有检索信息组成的检索行为时间序列数据集;
关键词提取模块,所述关键词提取模块用于对每个所述检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词;
数据筛选模块,所述数据筛选模块用于对所述检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集;
子图谱构建模块,所述子图谱构建模块用于根据所述目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱;
信息认知图谱生成模块,所述信息认知图谱生成模块用于根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱;
分析模块,所述分析模块用于根据所述信息认知图谱对用户的信息素养进行分析,得到用户信息素养分析结果。
本发明还提供一种存储介质,其上存储有计算机程序,该所述计算机程序被处理器执行时实现上述的基于检索信息的用户信息素养分析方法。
借由上述技术方案,本发明提供了一种基于检索信息的用户信息素养分析方法、系统及存储介质,至少具备以下有益效果:
1、本发明通过以目标用户日常信息搜寻过程中所涉及的真实检索信息为重要的分析依据,并根据检索信息之间的关联度构建信息认知图谱,同时获取与检索信息出现频次最高的关键词相对应的标准知识图谱,在信息认知图谱、信息检索效率和对应的标准知识图谱三层语义的基础上对目标用户的信息素养进行分析,大大提高了目标用户信息素养分析的准确度。
2、本发明通过将信息素养分析评测周期划分为若干时间片段,采用隐马尔可夫模型对每个时间片段内的检索信息进行分词并调用维特比算法提取关键词,提高了检索文本数据分词效率和准确性,再根据各个时间片段内关键词的关联度获得信息认知图谱,从而增强了整个系统的稳定性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明提供的用户信息素养分析方法的流程图;
图2为本发明提供的用户信息素养分析方法中得到目标信息数据集的流程图;
图3为本发明提供的用户信息素养分析方法中构建子图谱的流程图;
图4为本发明提供的用户信息素养分析方法中信息认知片段示意图;
图5为本发明提供的用户信息素养分析系统的原理框图。
图中:10、数据获取模块;20、关键词提取模块;30、数据筛选模块;40、子图谱构建模块;50、信息认知图谱生成模块;60、分析模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
场景概述
信息素养是融合知识、意识、能力、态度与价值观的综合素养,为此信息素养的高低在一定程度上决定了用户个人素质的高低,而个人素质决定着未来的国家竞争力,因此关注高校学生的信息素养水平已刻不容缓。
目前,现有技术往往是通过一些周期性的情景测试来分析学生的信息素养水平,但是,上述信息素养分析方法存在评价内容有限,并且缺乏对信息搜寻过程数据的采集与分析,从而导致信息素养分析结果的准确度较低,为此,本申请提出以学生日常信息搜寻过程中所涉及的检索信息为重要的分析依据,并结合知识库中相应的知识图谱对信息搜寻过程中形成的信息认知图谱进行评测以获得用户信息素养分析结果,最终实现了检索信息数据驱动的信息素养精准分析评价,以便为教师制定提升学生信息素养的发展计划提供参考依据。
需要说明的是,上述关于教师对学生信息素养的分析评测仅仅是本申请实施例提供的信息素养分析方法的一种示例性应用场景,在本申请实施例中并不限定信息素养分析方法的具体应用场景,例如,还可以应用在企业对新员工信息素养水平的分析评测中。
实施例
请参照图1-图4,示出了本实施例的一种具体实施方式,本实施例通过以目标用户日常信息搜寻过程中所涉及的检索信息为重要的分析依据,并结合知识库中相应的知识图谱对信息搜寻过程中形成的信息认知图谱对目标用户的信息素养能力进行分析评测,提高了信息素养分析结果的准确度。
如图1所示,一种基于检索信息的用户信息素养分析方法,包括以下步骤:
S1、将预设测试周期划分为n个时间片段,并获取目标用户分别在n个时间片段内由所有检索信息组成的检索行为时间序列数据集。
实现学生信息素养精准分析的重要依据是与学生日常信息搜寻相关的过程性数据,也就是说,采集的相关真实过程性数据越多则信息素养分析结果越精准,但数据量越大会致使整个分析过程越慢且系统稳定性越差,因而需要将预设测试周期T划分为n个时间片段。例如,将预设测试周期设置为28天并划分为4个时间片段,以周为基础时间单位对学生信息搜寻过程数据进行采集。
本实施例中,通过采用WebAPI方式采集智能手机、平板电脑和台式电脑等不同系统在每个时间片段内上网时涉及的所有检索信息组成的检索行为时间序列数据集X,此处涉及的检索行为时间序列数据集X包括用户在时间片段内的多个检索行为以及每个检索行为的时间点,并将多个检索行为按照时间顺序进行排序,则检索行为时间序列数据集X的表达式如下所示:
X=(x1,x2,…,xn)
上式中,xn表示在第n个时间点的检索行为对应的检索信息。
S2、对每个检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词。
本实施例中,提取用于表征对应的检索文本语义特征的关键词的具体过程包括以下步骤:
S21、获取检索行为时间序列数据集中待分词的检索文本数据。
S22、采用隐马尔可夫算法对检索文本数据进行分词处理得到由多个词段组成的词语集。
隐马尔可夫算法的思想是用隐马尔可夫链来描述一个完整句子的词性变化,每种词性对应一种状态,状态的转移概率代表词性之间的搭配关系;假设检索文本数据Y是由词语串组成,W=w1,w2,…,wc,(c≥1),词语wi(1≤i≤m)的词性标注为ti,即句子Y相应的词性标注符号序列可表达为T=t1,t2,…,tm,那么在对检索文本数据进行分词过程中,只要列出所有可能的切分,用词语出现的概率与词性的连接概率,计算每种切分概率总和P(W,T),将最大概率值对应的词语集作为最优分词方案。
其中,P(W,T)可由隐马尔可夫模型近似的表示为等式,即:
上式中,表示在整个标注语料中在词性ti的条件下,词语wi出现的概率;表示在前一个词语的词性是ti-1的情况下,当前词的词性是ti的概率。
例如:对于检索文本数据Y“预防死锁的方法有哪些”,根据上述隐马尔可夫模型分词思想,经计算可知由“预防、死锁、的、方法、有、哪些”组成的词语集的概率总和最大,即为最优分词方案。
S23、从词语集中提取用于表征对应的检索文本语义特征的关键词。
利用隐马尔可夫模型的维特比算法依次计算词语集中每个分词的隐藏状态的概率值,最后选取词语集中隐藏状态概率值最大的数值所对应的分词作为用于表征对应的检索文本语义特征的关键词。例如:检索文本数据Y“预防死锁的方法有哪些”的关键词为“预防、死锁”。
S3、对检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集。
如图2所示,本实施例中,对检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集的具体过程包括以下步骤:
S31、根据目标用户的基本信息确定用户的认知需求。
其中,目标用户的基本信息包括但不限于姓名、学号、专业、班级、课程名称等信息。通过目标用户的基本信息可确定用户最近所要学习的知识,从而能够确定用户的认知需求,这将为后续分析信息素养提供有力证据。
S32、根据认知需求构建存储有相关课程的所有知识点的知识库。
S33、计算关键词与知识库中的知识点之间的语义相似度,如果语义相似度小于预设相似度阈值,则剔除该关键词所对应的检索文本数据,否则,保留该关键词所对应的检索文本数据。
重复执行步骤S33直至将检索行为时间序列数据集中的检索文本数据全部遍历完为止,最终得到筛选后的目标信息数据集。
其中,语义相似度是对任意两个词语之间相似性的定量表示,由于一个词语可能存在多种语义,所以两个词语之间的相似度取决于它们的共性和个性,具体表达式如下:
上式中,分子表示描述关键词wi和知识点词语B共性所需要的信息量;分母表示完整地描述关键词wi和知识点词语B所需要的信息量。
S4、根据目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱。
如图3所示,本实施例中,构建子图谱的具体过程包括以下步骤:
S41、根据词语关联度将目标信息数据集中所有检索文本数据归类分组,得到检索信息簇。其中,此处所涉及的词语关联度的计算公式如下所示:
上式中,wε表示目标信息数据集中的关键词,wε+j表示wε对应的相邻检索文本数据的关键词,表示wε+j的词向量,/>表示wε的词向量,β表示目标信息数据集中所有检索文本数据的关键词矩阵,j的范围是[-1,1]。
S42、根据检索信息簇内每个词语集中关键词与非关键词之间的连接关系进行连接,得的信息认知片段。
通过连接关系将从每个检索文本数据中提取的关键词与非关键词依次连接构成的网状图,便是所要构建的信息认知片段,并且可以被形式化的表示为:Y=(E,R,A),其中,E为实体集合,R为关系集合,A为属性名集合。
下面将结合图4所示出的信息认知片段示意图为例进行说明,根据步骤S22可知,检索文本数据Y“预防死锁的方法有哪些”的最优分词方案为“预防、死锁、的、方法、有、哪些”,且根据步骤S23可知其关键词为“预防、死锁”,因而可以被形式化的表示为:Y=(死锁,预防方法,分解),其中,“检索时间”和“用户名”为属性值。
S43、根据关联词语将属于同一个检索信息簇内的信息认知片段连接以获得子图谱。
位于同一个检索信息簇内的信息认知片段具有较高的关联度,为此可将它们连接至一起形成一个更加完整的子图谱,例如,所有跟“死锁”相关的检索信息可以连接至一起,组合形成一个关于“死锁”信息的子图谱。
S5、根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱。
学生信息搜集是随着认知需求而不断进行的一个过程,需要划分为若干个时间片段采集过程性证据数据,后续再进行组合分析,以便提高信息素养分析的效率以及精度,增强了实用性。
S6、根据信息认知图谱对用户的信息素养进行分析,得到用户信息素养分析结果。
本实施例中,根据信息认知图谱对用户的信息素养进行分析以获得对应分析结果的具体过程包括以下步骤:
S61、根据信息认知图谱中实体的时间属性,计算相邻检索信息之间的间隔时长。
根据步骤S1中所采集的目标用户分别在每个时间片段内由不同系统所有检索信息组成的检索行为时间序列数据集X=(x1,x2,…,xn)可知,每条检索信息的检索时间点,为此,相邻两条目标检索文本数据的时间点作差,即可得到相邻检索信息之间的间隔时长Δt。
S62、根据信息认知图谱中出现频次最高的实体,获取知识库中相应的根据标准知识数据构建的知识图谱。
S63、根据相邻检索信息之间的间隔时长以及信息认知图谱与知识图谱的相似度推算信息素养能力值。
首先从知识图谱中分割出与信息认知图谱相关的局部图谱,再将局部图谱与信息认知图谱进行对比以获得它们的相似度;然后,根据相邻检索信息之间的间隔时长以及信息认知图谱与知识图谱的相似度调用公式进行推算信息素养能力值IL,其中,信息素养能力值IL的计算公式如下所示:
上式中,Clearn表示信息认知图谱与知识图谱的相似度,表示x信息检索的平均速度,ρ表示信息认知图谱中包含的检索文本数据的数量,Δtσ表示第σ对相邻检索信息之间的间隔时长。
S64、将信息素养能力值转换为等级数据并作为信息素养分析结果输出。
通过阈值法将信息素养等级划分为优、良、中、差四个等级,可根据信息素养能力值所属阈值范围确定该目标用户的信息素养水平,并将其作为分析结果输出,最终实现对目标用户信息素养的分析评测。
通过本实施例,通过以目标用户日常信息搜寻过程中所涉及的真实检索信息为重要的分析依据,采用隐马尔可夫算法模型对检索信息文本进行分词并提取用于表征语义的关键词,再根据关键词的语义相似度进行归类分组并结合词语之间的连接关系构建信息认知图谱,同时根据检索信息出现频次最高的关键词获取相对应的标准知识图谱,在信息认知图谱、信息检索效率和对应的标准知识图谱三层语义的基础上对目标用户的信息素养进行分析,大大提高了目标用户信息素养分析的准确度。
请参照图5,本实施例还提供一种用于实现上述基于检索信息的用户信息素养分析方法的系统,包括:
数据获取模块10,用于将预设测试周期划分为n个时间片段,并获取目标用户分别在n个时间片段内由各个系统所有检索信息组成的检索行为时间序列数据集;
关键词提取模块20,用于对每个检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并从中提取用于表征对应的检索文本数据语义特征的关键词;
数据筛选模块30,用于对检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集;
子图谱构建模块40,用于根据目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱;
信息认知图谱生成模块50,用于根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱;
分析模块60,用于根据信息认知图谱对用户的信息素养进行分析,得到用户信息素养分析结果。
通过本实施例,本发明通过将信息素养分析评测周期划分为若干时间片段,采用隐马尔可夫模型对每个时间片段内的检索信息进行分词并调用维特比算法提取关键词,提高了检索文本数据分词效率和准确性,再根据各个时间片段内关键词的关联度获得信息认知图谱,从而增强了整个系统的稳定性,具有较高的社会价值和应用前景。
需要说明的是,应理解上述系统中各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路(ApplicationSp ecific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如,中央处理器(Central ProcessingUnit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于检索信息的用户信息素养分析方法。存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
以上实施方式对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于检索信息的用户信息素养分析方法,其特征在于,包括以下步骤:
S1、将预设测试周期划分为n个时间片段,并获取目标用户分别在n个所述时间片段内由所有检索信息组成的检索行为时间序列数据集;
S2、对每个所述检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词;
S3、对所述检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集;
在步骤S3中,对所述检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集的具体过程包括以下步骤:
S31、根据所述目标用户的基本信息确定用户的认知需求;
S32、根据所述认知需求构建存储有相关课程的所有知识点的知识库;
S33、计算所述关键词与知识库中的知识点之间的语义相似度,如果所述语义相似度小于预设相似度阈值,则剔除该关键词所对应的检索文本数据,否则,保留该关键词所对应的检索文本数据;
S4、根据所述目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱;
在步骤S4中,构建所述子图谱的具体过程包括以下步骤:
S41、根据词语关联度将所述目标信息数据集中所有检索文本数据归类分组,得到检索信息簇;
S42、根据所述检索信息簇内每个词语集中关键词与非关键词之间的连接关系进行连接,得的信息认知片段;
S43、根据关联词语将属于同一个所述检索信息簇内的信息认知片段连接以获得子图谱;
S5、根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱;
S6、根据所述信息认知图谱对用户的信息素养进行分析,得到用户信息素养分析结果;
在步骤S6中,根据所述信息认知图谱对用户的信息素养进行分析,得到用户信息素养分析结果的具体过程包括以下步骤:
S61、根据所述信息认知图谱中实体的时间属性,计算相邻检索信息之间的间隔时长;
S62、根据所述信息认知图谱中出现频次最高的实体,获取知识库中相应的根据标准知识数据构建的知识图谱;
S63、根据所述相邻检索信息之间的间隔时长以及所述信息认知图谱与知识图谱的相似度推算信息素养能力值。
2.根据权利要求1所述的用户信息素养分析方法,其特征在于,所述信息素养能力值的计算公式如下所示:
上式中,Clearn表示信息认知图谱与知识图谱的相似度,表示x信息检索的平均速度,ρ表示信息认知图谱中包含的检索文本数据的数量,Δtσ表示第σ对相邻检索信息之间的间隔时长。
3.根据权利要求1所述的用户信息素养分析方法,其特征在于,在步骤S2中,提取用于表征对应的检索文本语义特征的关键词的具体过程包括以下步骤:
S21、获取所述检索行为时间序列数据集中待分词的检索文本数据;
S22、采用隐马尔可夫算法对所述检索文本数据进行分词处理得到由多个词段组成的词语集;
S23、从所述词语集中提取用于表征对应的检索文本语义特征的关键词。
4.根据权利要求1所述的用户信息素养分析方法,其特征在于,所述检索行为时间序列数据集包括用户在时间片段内的多个检索行为以及每个检索行为的时间点,并将多个检索行为按照时间顺序进行排序。
5.一种用于实现上述权利要求1-4任一项所述的基于检索信息的用户信息素养分析方法的系统,其特征在于,包括:
数据获取模块(10),所述数据获取模块(10)用于将预设测试周期划分为n个时间片段,并获取目标用户分别在n个所述时间片段内由所有检索信息组成的检索行为时间序列数据集;
关键词提取模块(20),所述关键词提取模块(20)用于对每个所述检索行为时间序列数据集中的所有检索文本数据依次进行分词处理并提取用于表征对应的检索文本语义特征的关键词;
数据筛选模块(30),所述数据筛选模块(30)用于对所述检索行为时间序列数据集中的检索文本数据进行筛选,得到筛选后的目标信息数据集;
子图谱构建模块(40),所述子图谱构建模块(40)用于根据所述目标信息数据集中所有检索文本数据对应的关键词与非关键词之间的关系构建若干个子图谱;
信息认知图谱生成模块(50),所述信息认知图谱生成模块(50)用于根据关联词语将n个时间片段内的子图谱进行整合得到预设测试周期T内的信息认知图谱;
分析模块(60),所述分析模块(60)用于根据所述信息认知图谱对用户的信息素养进行分析,得到用户信息素养分析结果。
6.一种存储介质,其上存储有计算机程序,其特征在于,该所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于检索信息的用户信息素养分析方法。
CN202310407000.2A 2023-04-17 2023-04-17 基于检索信息的用户信息素养分析方法、系统及存储介质 Active CN116628628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310407000.2A CN116628628B (zh) 2023-04-17 2023-04-17 基于检索信息的用户信息素养分析方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310407000.2A CN116628628B (zh) 2023-04-17 2023-04-17 基于检索信息的用户信息素养分析方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN116628628A CN116628628A (zh) 2023-08-22
CN116628628B true CN116628628B (zh) 2024-01-30

Family

ID=87608942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310407000.2A Active CN116628628B (zh) 2023-04-17 2023-04-17 基于检索信息的用户信息素养分析方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116628628B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508453A (zh) * 2018-09-28 2019-03-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨媒体情报目标要素关联分析系统及其关联分析方法
CN111191046A (zh) * 2019-12-31 2020-05-22 北京明略软件系统有限公司 一种实现信息搜索的方法、装置、计算机存储介质及终端
CN112417002A (zh) * 2020-11-19 2021-02-26 华中师范大学 应用于教育信息化的信息素养数据挖掘方法及系统
US11036801B1 (en) * 2018-09-25 2021-06-15 A9.Com, Inc. Indexing and presenting content using latent interests
CN113344723A (zh) * 2021-06-11 2021-09-03 北京十一贝科技有限公司 用户保险认知演进路径预测方法、装置和计算机设备
DE202022101131U1 (de) * 2022-03-01 2022-03-09 Danish Ather Intelligentes Verwaltungssystem für technisches Online-Lernen und Fortbildung auf der Grundlage von Informationskompetenz
CN115687572A (zh) * 2022-10-31 2023-02-03 北京中电普华信息技术有限公司 一种数据信息的检索方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221983B (zh) * 2020-01-15 2023-08-04 北京百度网讯科技有限公司 时序知识图谱生成方法、装置、设备和介质
US20230100501A1 (en) * 2021-09-28 2023-03-30 International Business Machines Corporation Dynamically generated knowledge graphs

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11036801B1 (en) * 2018-09-25 2021-06-15 A9.Com, Inc. Indexing and presenting content using latent interests
CN109508453A (zh) * 2018-09-28 2019-03-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨媒体情报目标要素关联分析系统及其关联分析方法
CN111191046A (zh) * 2019-12-31 2020-05-22 北京明略软件系统有限公司 一种实现信息搜索的方法、装置、计算机存储介质及终端
CN112417002A (zh) * 2020-11-19 2021-02-26 华中师范大学 应用于教育信息化的信息素养数据挖掘方法及系统
CN113344723A (zh) * 2021-06-11 2021-09-03 北京十一贝科技有限公司 用户保险认知演进路径预测方法、装置和计算机设备
DE202022101131U1 (de) * 2022-03-01 2022-03-09 Danish Ather Intelligentes Verwaltungssystem für technisches Online-Lernen und Fortbildung auf der Grundlage von Informationskompetenz
CN115687572A (zh) * 2022-10-31 2023-02-03 北京中电普华信息技术有限公司 一种数据信息的检索方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A proposed customer relationship framework based on information retrieval for effective Firms’ competitiveness;Abdulwahab Ali Almazroi等;《Expert Systems with Applications》;1-14 *
地理信息检索关键技术研究综述;王志宝等;《计算机工程与科学》;533-543 *

Also Published As

Publication number Publication date
CN116628628A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN111581949B (zh) 学者人名的消歧方法、装置、存储介质及终端
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN110968654A (zh) 文本数据的地址类目确定方法、设备以及系统
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN114003721A (zh) 矛盾纠纷事件类型分类模型的构建方法、装置及应用
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN109257383A (zh) 一种bgp异常检测方法及系统
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN116628628B (zh) 基于检索信息的用户信息素养分析方法、系统及存储介质
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN112215006B (zh) 机构命名实体归一化方法和系统
JP2003228571A (ja) 文字列の出現頻度の計数方法およびその方法を利用可能な装置
Mojiri et al. Event detection in Twitter using multi timing chained windows
Balbi et al. Clustering of documents from a two-way viewpoint
CN117251605B (zh) 基于深度学习的多源数据查询方法及系统
CN114330562B (zh) 小样本细化分类及多分类模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant