CN110909533B - 资源主题判定方法和系统 - Google Patents

资源主题判定方法和系统 Download PDF

Info

Publication number
CN110909533B
CN110909533B CN201911135591.2A CN201911135591A CN110909533B CN 110909533 B CN110909533 B CN 110909533B CN 201911135591 A CN201911135591 A CN 201911135591A CN 110909533 B CN110909533 B CN 110909533B
Authority
CN
China
Prior art keywords
resource
topic
knowledge point
importance
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911135591.2A
Other languages
English (en)
Other versions
CN110909533A (zh
Inventor
张新华
王朝选
颜懿
赵赓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lancoo Technology Co ltd
Original Assignee
Zhejiang Lancoo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lancoo Technology Co ltd filed Critical Zhejiang Lancoo Technology Co ltd
Priority to CN201911135591.2A priority Critical patent/CN110909533B/zh
Publication of CN110909533A publication Critical patent/CN110909533A/zh
Application granted granted Critical
Publication of CN110909533B publication Critical patent/CN110909533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及教学领域,公开了一种资源主题判定方法和系统。该方法包括:预先分析包含各种主题资源的语料库中的各知识点与各主题的关联度,构建资源主题知识域;基于该资源主题知识域,确定目标资源中的各知识点涉及的所有主题为备选主题,并获取该目标资源中的各知识点与每个备选主题的关联度;计算该目标资源中的各知识点的重要性;根据该各知识点与每个备选主题的关联度和该各知识点的重要性,计算该目标资源与该每个备选主题的匹配度,判定该匹配度最大的备选主题为该目标资源的主题。本申请的实施方式能够快速地确定资源主题,且所确定的主题客观、准确,符合智能化教学应用的需求。

Description

资源主题判定方法和系统
技术领域
本申请涉及教学领域,特别涉及资源主题判定技术。
背景技术
在各类智能化教学应用中,对于某个或某些知识点的相关资源的精准推荐是基础和关键的环节,例如教材编辑中的课文推荐、课件制作中的课前和课后的学习文章推荐、自动组卷中的阅读材料推荐等等。
例如,需要对包含若干个知识点的相关阅读资源进行推荐,但对于海量的无序教学资源,涉及其中一个或多个知识点的资源不计其数,计算机无法实现快速、准确地推荐出相关性高的资源。因此,通常需要对资源的主题、关键内容等进行智能判定和提取来实现相关资源的快速检索和精准推荐。但是,目前的资源主题判定没有结合教学中的学科知识点以及教学资源的特点进行分析,并且涉及的资源主题不够全面,导致最终资源主题的判定及关键词的提取准确性低、实用性差,不符合智能化教学应用的需求。
发明内容
本申请的目的在于提供一种资源主题判定方法和系统,能够快速地确定资源主题,且所确定的主题客观、准确,符合智能化教学应用的需求。
本申请公开了一种资源主题判定方法,包括:
预先分析包含各种主题资源的语料库中的各知识点与各主题的关联度,构建资源主题知识域;
基于所述资源主题知识域,确定目标资源中的各知识点涉及的所有主题为备选主题,并获取所述目标资源中的各知识点与每个备选主题的关联度;
计算所述目标资源中的各知识点的重要性;
根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源与所述每个备选主题的匹配度,判定所述匹配度最大的备选主题为该目标资源的主题。
在一个优选例中,所述根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源与所述每个备选主题的匹配度,进一步包括:
根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源中的所述各知识点相对于所述每个备选主题的重要性;
根据所述各知识点相对于所述每个备选主题的重要性计算所述目标资源与所述每个备选主题的匹配度;
所述判定所述匹配度最大的备选主题为该目标资源的主题之后,还包括:
获取所判定的主题下重要性排序靠前的若干知识点作为该目标资源的关键词。
在一个优选例中,所述计算所述目标资源中的各知识点的重要性,进一步包括:
根据每个知识点所属类型和在所述目标资源中出现的位置、词频、跨度,计算所述目标资源中的各知识点的重要性。
在一个优选例中,所述根据每个知识点所属类型和在所述目标资源中出现的位置、词频、跨度,计算所述目标资源中的各知识点的重要性,进一步包括:
确定每个知识点所属类型的权重值和在所述目标资源中出现的位置的权重值、词频的权重值、跨度的权重值;
根据公式Wkf=Akf×Bkf×Ckf×Dkf计算所述目标资源中的各知识点的重要性,其中Wkf为所述目标资源中的知识点kf的重要性;Akf为知识点kf所属类型的权重值,Bkf为知识点kf在所述目标资源中出现的位置的权重值,Ckf为知识点kf在目标资源中出现的词频的权重值,Dkf为知识点kf在所述目标资源中出现的跨度的权重值。
在一个优选例中,所述根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源中的所述各知识点相对于所述每个备选主题的重要性,进一步包括:
根据公式Ghkf=Wkf×Rhkf计算所述目标资源中的所述各知识点相对于所述每个备选主题的重要性,其中Wkf为该目标资源中的知识点kf的重要性,Rhkf为知识点kf与备选主题h的关联度,Ghkf为知识点kf相对于备选主题h的重要性;
所述根据所述各知识点相对于所述每个备选主题的重要性计算所述目标资源与所述每个备选主题的匹配度,进一步包括:
根据公式计算所述目标资源与所述每个备选主题的匹配度Yh,其中m为所述目标资源中知识点的数量。
在一个优选例中,所述预先分析包含各种主题资源的语料库中的各知识点与各主题的关联度,构建资源主题知识域,进一步包括:
构建包含各种主题资源的语料库;
确定所述语料库中的各资源中的所有知识点,得到所述语料库中的各知识点,并对所述语料库中的各知识点进行位置标注、词频标注、词性标注、命名实体识别、指代消解操作;
根据所述语料库中包含的各知识点所属类型和在所属资源中出现的位置、词频、跨度计算所述各资源中的各知识点的重要性;
根据所述各资源中的各知识点的重要性,计算所述各资源中的各知识点对于每个主题的重要性;
根据所述各知识点对于每个主题的重要性计算所述各资源中的各知识点与每个主题的关联度,构建所述资源主题知识域。
在一个优选例中,所述根据所述语料库中的各知识点所属类型和在所属资源中出现的位置、词频、跨度计算所述各资源中的各知识点的重要性,进一步包括:
根据公式Wji=Aji×Bji×Cji×Dji计算所述各资源中的各知识点的重要性,其中Wji为资源j中的知识点i的重要性,Aji为该知识点i在资源j中所属类型的权重值,Bji为该知识点i在资源j中出现的位置的权重值,Cji为该知识点i在资源j中出现的词频的权重值,Dji为该知识点i在资源j中出现的跨度的权重值;
所述根据所述各资源中的各知识点的重要性,计算所述各资源中的各知识点对于每个主题的重要性,进一步包括:
根据公式计算所述各资源中的各知识点对于每个主题的重要性,其中n为主题s下资源的个数;/>为知识点i在主题s下第a篇资源中的知识点重要性,Wsi为知识点i在主题s中的重要性;
所述根据所述各知识点对于每个资源主题的重要性计算所述各资源中的各知识点与每个资源主题的关联度,进一步包括:
根据公式计算所述各资源中的各知识点与每个主题的关联度,其中m为主题s下所有的知识点个数,Wsu为主题s下的第u个知识点的重要性,p为所述各资源涉及的主题总数,q为包含知识点i的主题数量,Gsi为知识点i与主题s的关联度。
本申请还公开了一种资源主题判定系统,包括:
构建模块,用于预先分析包含各种主题资源的语料库中的各知识点与各主题的关联度,构建资源主题知识域;
确定模块,用于确定目标资源中的各知识点涉及的所有主题为备选主题,并获取所述目标资源中的各知识点与每个备选主题的关联度;
计算模块,用于计算所述目标资源中的各知识点的重要性,及根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源与所述每个备选主题的匹配度,判定所述匹配度最大的备选主题为该目标资源的主题。
本申请还公开了一种资源主题判定系统包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请实施方式中,与现有技术相比至少包括以下区别和效果:
提取语料库中各资源的知识点并分析得到各知识点与各主题的关联度,构建资源主题知识域,基于该资源主题知识域确定目标资源的各备选主题,并从资源主题知识域直接、快速地获取目标资源所包含的知识点与每个备选主题的关联度,并根据目标资源中的各知识点与每个备选主题的关联度和各知识点对于目标资源的重要性来计算目标资源与每个备选主题的匹配度,从而将匹配度最大的备选主题确定为目标资源的主题。结合教学中的学科知识点与教学资源主题的关系进行分析,最终确定的目标资源的主题更加客观、准确。
进一步地,通过目标资源中的各知识点的类型和出现的位置、词频、跨度,综合多个多维度计算出目标资源中各知识点对于目标资源的重要性,客观地反映了目标资源与其包含的知识点的重要性关系,使得基于该重要性关系计算得到的目标资源与每个备选主题的匹配度更加客观、准确,进一步地使最终所确定的目标资源的主题更加客观、准确。
进一步地,在提取语料库中各资源的知识点或在提取目标资源的知识点时,对资源进行预处理,包括“对资源进行分句、分词处理,将分词后的字词与预先构建的知识点库中的知识点进行匹配,以快速提取资源中包含的所有知识点”的初级处理和“对知识点进行词性标注、命名实体识别、指代消解等操作,得到能够彰显资源主题的类型的知识点”。在提取了资源中所有知识点的基础之上,还剔除了噪声知识点,在保证准确度的情况下,减少了后续目标资源主题判定过程的计算量。
进一步地,在资源主题知识域构建过程中,首先根据学科教学要求对学科资源主题进行分类,收集包含各主题的资源构建语料库,使得语料库中包括的资源主题全面,满足学科教学要求;然后通过对资源预处理分析得到训练语料中各资源中的各知识点的类型和出现的位置、词频、跨度,综合多个多维度计算出各资源中各知识点对于其的重要性,客观地反映了各资源与其包含的知识点的重要性关系;基于此,再将同一主题下的所有资源归为一类分析每一主题下的各资源中涉及的知识点,并统计每一主题下的各资源下的所有知识点对该主题的重要性,来确定每一主题下的各资源下的所有知识点与其关联度,以构建资源主题知识域,使得所构建的资源主题知识域比较客观、准确地体现了各知识点与各主题的关系,为判定资源主题提供了可靠的数据依据;同时,可以通过不断增加资源来更新资源主题知识域,使得该资源主题知识域更加客观、可靠,实用性强,符合智能化教学应用的需求。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请第一实施方式的资源主题判定方法流程示意图;
图2是根据本申请第一实施方式的一个实施例的构建资源主题知识域方法流程示意图;
图3是根据本申请第二实施方式的资源主题判定系统结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
部分概念的说明:
主题:又称资源主题,指资源内容讲述的主体和核心。例如历史大方向,包括亚洲史、中国史、人类史、动物史、经济史、宗教史等小方向,而各小方向又涉及多个主题,例如:中国史包括中国近代史、明清史、春秋战国史等多个主题。
知识点:是构成资源的基本单元,对一个物体或一个事件的描述具有一定的贡献,故本申请中的知识点是指具有实际意义的名词性知识点,包括名词性单词、词组和短语。例如:对于文本“Old countries that have,through many centuries,trained upnumerous skilled craftsmen and technicians are better placed to producewealth than countries whose workers are largely unskilled.”中的知识点有“country、skilled craftsmen、technician、produce wealth、worker”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种资源主题判定方法,其流程如图1所示,该方法包括以下步骤:
在步骤101中,预先分析包含各种主题资源的语料库中的各知识点与各主题的关联度,构建资源主题知识域。
可选地,如图2所示,该步骤101进一步包括以下步骤201~205:
在步骤201中,构建包含各种主题资源的语料库。之后进入步骤202,确定该语料库中的各资源中的所有知识点,得到该语料库中的各知识点,并对该语料库中的各知识点进行位置标注、词频标注、词性标注、命名实体识别、指代消解操作。之后进入步骤203,根据该语料库中包含的各知识点所属类型和在所属资源中出现的位置、词频、跨度计算该各资源中的各知识点的重要性。之后进入步骤204,根据该各资源中的各知识点的重要性,计算该各资源中的各知识点对于每个主题的重要性。之后进入步骤205,根据该各知识点对于每个主题的重要性计算该各资源中的各知识点与每个主题的关联度,构建该资源主题知识域。
在一个实施例中,该步骤201可以进一步实现为:根据学科学习要求,对学科资源主题进行分类,通过网络爬取、人工收集等多种方式收集各主题训练语料,从而构建资源主题语料库,该资源主题语料库包含各种主题资源。但不限于此实施例,其他可以实现构建资源主题语料库目的实现方式都在本申请的保护范围内。
在一个实施例中,该步骤202可以进一步实现为:根据该包含各种主题资源的语料库,对该语料库中的各资源文本进行分句、分词处理,将分割后的字词与预先构建的知识点库中的知识点进行匹配,从而获取各资源中包含的各知识点;并且对各知识点在文章中的位置、词频进行分析与统计;进一步地,基于“成熟的斯坦福开源的自然语言分析包”对各知识点进行“词性标注”、“命名实体识别”、“指代消解”操作,从而获取名词性知识点(包括词汇、词组、短语),该类型知识点具有实际意义,凸显了文章的主题。在该实施例中,可获取语料库中各资源中的所有知识点,并且剔除了噪声知识点,使得各资源主题知识域构建更合理、准确,同时减少了大量不必要的计算量。
需要说明的是:该知识点库可以但不限于是基于教学大纲中学科学习要求构建的,包含教学大纲中要求的所有知识点。
该各资源中的各知识点的重要性可以理解为各知识点对所属资源内容的代表程度。在一个实施例中,该步骤203进一步实现为以下步骤:根据公式Wji=Aji×Bji×Cji×Dji计算该各资源中的各知识点的重要性,其中Wji为资源j中的知识点i的重要性,Aji为该知识点i在资源j中所属类型的权重值,Bji为该知识点i在资源j中出现的位置的权重值,Cji为该知识点i在资源j中出现的词频的权重值,Dji为该知识点i在资源j中出现的跨度的权重值。在其他实施例中,也可以基于公式Wkf=Aji×Bji×Cji×Dji简单变化后的公式进行计算该目标资源中的各知识点的重要性,例如但不限于在等式右边加一个常数,或者将乘法替换为加法等。
具体的,该Aji、Bji、Cji或Dji所取权重值可以根据知识点i的属性特征、知识点i与所属资源的重要性关系进行确定。在一个实施例中,若知识点i的类型为名词性短语或词组,则Aji=E1,若知识点i的类型为名词性单词,则Aji=E2,且E1>E2>0;例如但不限于,E1为1.5和E2为1等。在另一个实施例中,若该知识点i位置存在于标题,相对于正文更能凸显主题,则Bji=F1,若存在于正文,则Bji=F2,且F1>F2>0;例如但不限于,F1为3和F2为1。在另一个实施例中,该知识点i在该资源j中出现的跨度的权重值Cji越大,说明该知识点贯穿全文,对资源主题具有良好的体现。在另一个实施例中,/>该知识点i在资源j中出现的词频的权重值Dji越大,对资源的重要性越大,越能反映文章主题信息。
可选地,该语料库中的各知识点与各主题的关联度,可以由知识点在当前主题资源与其它主题资源中出现的情况决定。在一个实施例中,该步骤204进一步实现为以下步骤:根据公式计算该语料库中各资源中的各知识点对于每个主题的重要性,其中n为主题s下资源的个数;/>为知识点i在主题s下第a篇资源中的知识点重要性,Wsi为知识点i在主题s中的重要性。
在一个实施例中,该步骤205进一步包括以下步骤a和b:
在步骤a中,根据公式计算该语料库中各资源中的各知识点与每个主题的关联度,其中m为主题s下所有的知识点个数,Wsu为主题s下的第u个知识点的重要性,p为该各资源涉及的主题总数,q为包含知识点i的主题数量,Gsi为知识点i与主题s的关联度;之后进入步骤b,根据该各资源中的各知识点与每个主题的关联度构建该资源主题知识域。
例如,表1为该资源主题知识域的属性信息表的一个示例。需要说明的是,该表1中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。
表1
之后,进入步骤102,基于该资源主题知识域,确定目标资源中的各知识点涉及的所有主题为备选主题,并获取该目标资源中的各知识点与每个备选主题的关联度。
例如,表2为该目标资源的备选主题清单的属性信息表的一个示例,其中,备选主题清单主要包括:每个备选主题标识及每个备选主题与目标资源所包含的各知识点的关联度。需要说明的是,该表2中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。
表2
备选主题清单 包含该目标资源中的知识点
备选主题1 {[知识点k1,关联度R1k1],[知识点k2,关联度R1k2],......}
...... ......
备选主题h {[知识点k1,关联度Rhk1],[知识点k2,关联度Rhk2],.........}
之后,进入步骤103,计算该目标资源中的各知识点的重要性。
可选地,该步骤103也可以在该步骤102之前执行。
可选地,该步骤103之前还包括以下步骤:
获取目标资源中所有知识点(例如包括k1,k2,…,kf),以及各知识点的所属类型(例如名词短语或名词性单词)、出现位置(例如标题位置或正文位置)、出现次数等信息并分别进行标注。
可选地,该步骤103进一步包括以下步骤:
根据每个知识点所属类型和在该目标资源中出现的位置、词频、跨度,计算该目标资源中的各知识点的重要性。
该根据每个知识点所属类型和在该目标资源中出现的位置、词频、跨度,计算该目标资源中的各知识点的重要性的实现方法有多种。在一个实施例中,其可以进一步实现为:先确定每个知识点所属类型的权重值和在该目标资源中出现的位置的权重值、词频的权重值、跨度的权重值;之后根据公式Wkf=Akf×Bkf×Ckf×Dkf计算该目标资源中的各知识点的重要性,其中Wkf为该目标资源中的知识点kf的重要性,Akf为知识点kf所属类型的权重值,Bkf为知识点kf在该目标资源中出现的位置的权重值,Ckf为知识点kf在目标资源中出现的词频的权重值,Dkf为知识点kf在该目标资源中出现的跨度的权重值。在其他实施例中,也可以基于公式Wkf=Akf×Bkf×Ckf×Dkf简单变化后的公式进行计算该目标资源中的各知识点的重要性,例如但不限于在等式右边加一个常数,将乘法替换为加法等。
之后,进入步骤104,根据该各知识点与每个备选主题的关联度和该各知识点的重要性,计算该目标资源与该每个备选主题的匹配度,判定该匹配度最大的备选主题为该目标资源的主题。
可选地,该步骤104进一步包括以下步骤A、B和C:
在步骤A中,根据该各知识点与每个备选主题的关联度和该各知识点的重要性,计算该目标资源中的该各知识点相对于该每个备选主题的重要性;之后进入步骤B,根据该各知识点相对于该每个备选主题的重要性计算该目标资源与该每个备选主题的匹配度;之后进入步骤C,判定该匹配度最大的备选主题为该目标资源的主题。
可选地,该步骤A进一步包括以下步骤:
根据公式Ghkf=Wkf×Rhkf计算该目标资源中的该各知识点相对于该每个备选主题的重要性,其中Wkf为该目标资源中的知识点kf的重要性,Rhkf为知识点kf与备选主题h的关联度,Ghkf为知识点kf相对于备选主题h的重要性。
可选地,该步骤B进一步包括以下步骤:
根据公式计算该目标资源与该每个备选主题的匹配度Yh,其中m为该目标资源中知识点的数量。
可选地,该步骤C之后还包括以下步骤:
获取所判定的主题下重要性排序靠前的若干知识点作为该目标资源的关键词。
为了能够更好地理解本申请的技术方案,下面结合两个具体的例子来进行说明,这两个例子(示例1、2)中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。
示例1:根据本申请的实施方式,管理学科海量无序资源。对学科海量无序资源的处理过程具体包括以下步骤①、②、③和④:
①对各目标资源中的名词性知识点进行标识;
②对各目标资源中标识的知识点进行重要性计算;
③基于资源主题知识域,获取各目标资源中各知识点与各主题的关联度;
④根据各目标资源中包含的所有名词知识点、及其重要性和各目标资源中各知识点与各主题的关联度,分析出各目标资源的主题,即资源讲述的主体和核心内容。
该示例1实现了海量无序资源的分类存储,有利于资源存储管理。
示例2:根据本申请的实施方式,针对提供的一个或多个知识点精准推荐相关主题资源。推荐过程包括以下步骤①、②和③:
①根据资源主题知识域,获取该一个或多个知识点关联度最强的资源主题,从而减小资源搜索范围;
②根据各资源的关键词及其关键词重要性,快速获取该一个或多个知识点相关性较高的一批资源;
③将该一批资源推荐至应用系统的人机交互界面供用户选择,或者通过计算得到关联度最高的资源确定所需资源。
该示例2不仅节省了知识点相关性资源推荐的搜索时间,而且推荐的资源相关性高,满足各大智能教学应用系统的需求,且实用性强。
进一步地,以下是关于示例2的一个具体例子,该例子包括以下步骤ⅰ、ⅱ、ⅲ和ⅳ:
ⅰ.确定所需目标资源的两个知识点{Global warming,Sea level};
ⅱ.根据该两个知识点,从资源主题知识域,获取该两个知识点涉及的备选主题及各备选主题与其的关联度如下:
{Global warming:[主题1(environment),关联度(0.08362)],[主题2(pollution),关联度(0.06514)],[主题3(weather),关联度(0.04627)],…}
{Sea level:[主题1(environment),关联度(0.06719)],[主题2(marineecology),关联度(0.05333)],[主题3(geography),关联度(0.04776)],…}
ⅲ.根据该两个知识点及各备选主题的关联度的大小确定所需获取资源的主题:关联度最大的为环境主题,关联度系数为0.075225。其中该两个知识点与所涉及的备选主题的关联度均值最大的为所需资源的主题。
ⅳ.根据所需目标资源的主题和该主题下各资源的关键词,按照各资源与该两个知识点的相关性由强到弱进行推荐,如下表3。其中,表3中相关性系数为各待推荐资源中所包含的该两个知识点对其重要性均值。
表3
本申请的第二实施方式涉及一种资源主题判定系统,其结构如图3所示,该资源主题判定系统包括构建模块、确定模块和计算模块。
具体的,该构建模块,用于预先分析包含各种主题资源的语料库中的各知识点与各主题的关联度,构建资源主题知识域。
可选地,该构建模块还用于构建包含各种主题资源的语料库,确定该语料库中的各资源中的所有知识点,得到该语料库中的各知识点,并对该语料库中的各知识点进行位置标注、词频标注、词性标注、命名实体识别、指代消解操作,根据该语料库中包含的各知识点所属类型和在所属资源中出现的位置、词频、跨度计算该各资源中的各知识点的重要性,根据该各资源中的各知识点的重要性,计算该各资源中的各知识点对于每个主题的重要性,以及根据该各知识点对于每个主题的重要性计算该各资源中的各知识点与每个主题的关联度,构建该资源主题知识域。如上表1所示为该资源主题知识域的属性信息表的一个示例。
在一个实施例中,该构建模块还用于根据公式Wji=Aji×Bji×Cji×Dji计算该各资源中的各知识点的重要性,其中Wji为资源j中的知识点i的重要性,Aji为该知识点i在资源j中所属类型的权重值,Bji为该知识点i在资源j中出现的位置的权重值,Cji为该知识点i在资源j中出现的词频的权重值,Dji为该知识点i在资源j中出现的跨度的权重值。在其他实施例中,该构建模块还可以根据公式Wkf=Aji×Bji×Cji×Dji简单变化后的公式进行计算该目标资源中的各知识点的重要性,例如但不限于在等式右边加一个常数,或者将乘法替换为加法等。
可选地,该构建模块还用于根据知识点i的属性特征、知识点i与所属资源的重要性关系进行确定该Aji、Bji、Cji或Dji所取权重值。在一个实施例中,该构建模块预先配置有:若知识点i的类型为名词性短语或词组,则Aji=E1,若知识点i的类型为名词性单词,则Aji=E2,且E1>E2>0;例如但不限于,E1为1.5和E2为1等。在另一个实施例中,该构建模块预先配置有:若该知识点i位置存在于标题,相对于正文更能凸显主题,则Bji=F1,若存在于正文,则Bji=F2,且F1>F2>0;例如但不限于,F1为3和F2为1。在另一个实施例中,该构建模块预先配置有:该知识点i在该资源j中出现的跨度的权重值Cji越大,说明该知识点贯穿全文,对资源主题具有良好的体现。在另一个实施例中,该构建模块预先配置有:/> 该知识点i在资源j中出现的词频的权重值Dji越大,对资源的重要性越大,越能反映文章主题信息。
可选地,该构建模块还用于根据公式计算该各资源中的各知识点对于每个主题的重要性,其中n为主题s下资源的个数;/>为知识点i在主题s下第a篇资源中的知识点重要性,Wsi为知识点i在主题s中的重要性。
可选地,该构建模块还用于根据公式计算该各资源中的各知识点与每个主题的关联度,其中m为主题s下所有的知识点个数,Wsu为主题s下的第u个知识点的重要性,p为该各资源涉及的主题总数,q为包含知识点i的主题数量,Gsi为知识点i与主题s的关联度。
该确定模块,用于确定目标资源中的各知识点涉及的所有主题为备选主题,并获取该目标资源中的各知识点与每个备选主题的关联度。如上表2所示为该目标资源的备选主题清单属性信息表的一个示例。
该计算模块,用于计算该目标资源中的各知识点的重要性,及根据该各知识点与每个备选主题的关联度和该各知识点的重要性,计算该目标资源与该每个备选主题的匹配度,判定该匹配度最大的备选主题为该目标资源的主题。
可选地,该计算模块还用于根据该各知识点与每个备选主题的关联度和该各知识点的重要性,计算该目标资源中的该各知识点相对于该每个备选主题的重要性,根据该各知识点相对于该每个备选主题的重要性计算该目标资源与该每个备选主题的匹配度;
可选地,该计算模块还用于获取所判定的主题下重要性排序靠前的若干知识点作为该目标资源的关键词。
可选地,该计算模块还用于根据每个知识点所属类型和在该目标资源中出现的位置、词频、跨度,计算该目标资源中的各知识点的重要性。
在一个实施例中,该计算模块还用于确定每个知识点所属类型的权重值和在该目标资源中出现的位置的权重值、词频的权重值、跨度的权重值,以及根据公式Wkf=Akf×Bkf×Ckf×Dkf计算该目标资源中的各知识点的重要性,其中Wkf为该目标资源中的知识点kf的重要性;Akf为知识点kf所属类型的权重值,Bkf为知识点kf在该目标资源中出现的位置的权重值,Ckf为知识点kf在目标资源中出现的词频的权重值,Dkf为知识点kf在该目标资源中出现的跨度的权重值。在其他实施例中,也可以基于公式Wkf=Akf×Bkf×Ckf×Dkf简单变化后的公式进行计算该目标资源中的各知识点的重要性,例如但不限于在等式右边加一个常数,将乘法替换为加法等。
可选地,该计算模块还用于根据公式Ghkf=Wkf×Rhkf计算该目标资源中的该各知识点相对于该每个备选主题的重要性,其中Wkf为该目标资源中的知识点kf的重要性,Rhkf为知识点kf与备选主题h的关联度,Ghkf为知识点kf相对于备选主题h的重要性。
可选地,该计算模块还用于根据公式计算该目标资源与该每个备选主题的匹配度Yh,其中m为该目标资源中知识点的数量。
需要说明的是,本实施方式的计算模块的部分或全部功能可以单独实现,也可以通过调用构建模块涉及的与之相同功能的程序实现。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述资源主题判定系统的实施方式中所示的各模块的实现功能可参照前述资源主题判定方法的相关描述而理解。上述资源主题判定系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述资源主题判定系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本申请实施方式还提供一种资源主题判定系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称“DSP”)、专用集成电路(Application Specific IntegratedCircuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。

Claims (9)

1.一种资源主题判定方法,其特征在于,包括:
预先分析包含各种主题资源的语料库中的各知识点与各主题的关联度,构建资源主题知识域,其中,构建包含各种主题资源的语料库;确定所述语料库中的各资源中的所有知识点,得到所述语料库中的各知识点,并对所述语料库中的各知识点进行位置标注、词频标注、词性标注、命名实体识别、指代消解操作;根据所述语料库中包含的各知识点所属类型和在所属资源中出现的位置、词频、跨度计算所述各资源中的各知识点的重要性;根据所述各资源中的各知识点的重要性,计算所述各资源中的各知识点对于每个主题的重要性;根据所述各知识点对于每个主题的重要性计算所述各资源中的各知识点与每个主题的关联度,构建所述资源主题知识域;
基于所述资源主题知识域,确定目标资源中的各知识点涉及的所有主题为备选主题,并获取所述目标资源中的各知识点与每个备选主题的关联度;
计算所述目标资源中的各知识点的重要性;
根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源与所述每个备选主题的匹配度,判定所述匹配度最大的备选主题为该目标资源的主题。
2.如权利要求1所述的资源主题判定方法,其特征在于,所述根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源与所述每个备选主题的匹配度,进一步包括:
根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源中的所述各知识点相对于所述每个备选主题的重要性;
根据所述各知识点相对于所述每个备选主题的重要性计算所述目标资源与所述每个备选主题的匹配度;
所述判定所述匹配度最大的备选主题为该目标资源的主题之后,还包括:
获取所判定的主题下重要性排序靠前的若干知识点作为该目标资源的关键词。
3.如权利要求1所述的资源主题判定方法,其特征在于,所述计算所述目标资源中的各知识点的重要性,进一步包括:
根据每个知识点所属类型和在所述目标资源中出现的位置、词频、跨度,计算所述目标资源中的各知识点的重要性。
4.如权利要求3所述的资源主题判定方法,其特征在于,所述根据每个知识点所属类型和在所述目标资源中出现的位置、词频、跨度,计算所述目标资源中的各知识点的重要性,进一步包括:
确定每个知识点所属类型的权重值和在所述目标资源中出现的位置的权重值、词频的权重值、跨度的权重值;
根据公式Wkf=Akf×Bkf×Ckf×Dkf计算所述目标资源中的各知识点的重要性,其中Wkf为所述目标资源中的知识点kf的重要性;Akf为知识点kf所属类型的权重值,Bkf为知识点kf在所述目标资源中出现的位置的权重值,Ckf为知识点kf在目标资源中出现的词频的权重值,Dkf为知识点kf在所述目标资源中出现的跨度的权重值。
5.如权利要求2所述的资源主题判定方法,其特征在于,所述根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源中的所述各知识点相对于所述每个备选主题的重要性,进一步包括:
根据公式Ghkf=Wkf×Rhkf计算所述目标资源中的所述各知识点相对于所述每个备选主题的重要性,其中Wkf为该目标资源中的知识点kf的重要性,Rhkf为知识点kf与备选主题h的关联度,Ghkf为知识点kf相对于备选主题h的重要性;
所述根据所述各知识点相对于所述每个备选主题的重要性计算所述目标资源与所述每个备选主题的匹配度,进一步包括:
根据公式计算所述目标资源与所述每个备选主题的匹配度Yh,其中m为所述目标资源中知识点的数量。
6.如权利要求1-4任意一项所述的资源主题判定方法,其特征在于,所述根据所述语料库中包含的各知识点所属类型和在所属资源中出现的位置、词频、跨度计算所述各资源中的各知识点的重要性,进一步包括:
根据公式Wji=Aji×Bji×Cji×Dji计算所述各资源中的各知识点的重要性,其中Wji为资源j中的知识点i的重要性,Aji为知识点i在资源j中所属类型的权重值,Bji为知识点i在资源j中出现的位置的权重值,Cji为知识点i在资源j中出现的词频的权重值,Dji为该知识点i在资源j中出现的跨度的权重值;
所述根据所述各资源中的各知识点的重要性,计算所述各资源中的各知识点对于每个主题的重要性,进一步包括:
根据公式计算所述各资源中的各知识点对于每个主题的重要性,其中n为主题s下资源的个数;/>为知识点i在主题s下第a篇资源中的知识点重要性,Wsi为知识点i在主题s中的重要性;
所述根据所述各知识点对于每个主题的重要性计算所述各资源中的各知识点与每个主题的关联度,进一步包括:
根据公式计算所述各资源中的各知识点与每个主题的关联度,其中m为主题s下所有的知识点个数,Wsu为主题s下的第u个知识点的重要性,p为所述各资源涉及的主题总数,q为包含知识点i的主题数量,Gsi为知识点i与主题s的关联度。
7.一种资源主题判定系统,其特征在于,包括:
构建模块,用于预先分析包含各种主题资源的语料库中的各知识点与各主题的关联度,构建资源主题知识域,其中,构建包含各种主题资源的语料库;确定所述语料库中的各资源中的所有知识点,得到所述语料库中的各知识点,并对所述语料库中的各知识点进行位置标注、词频标注、词性标注、命名实体识别、指代消解操作;根据所述语料库中包含的各知识点所属类型和在所属资源中出现的位置、词频、跨度计算所述各资源中的各知识点的重要性;根据所述各资源中的各知识点的重要性,计算所述各资源中的各知识点对于每个主题的重要性;根据所述各知识点对于每个主题的重要性计算所述各资源中的各知识点与每个主题的关联度,构建所述资源主题知识域;
确定模块,用于确定目标资源中的各知识点涉及的所有主题为备选主题,并获取所述目标资源中的各知识点与每个备选主题的关联度;
计算模块,用于计算所述目标资源中的各知识点的重要性,及根据所述各知识点与每个备选主题的关联度和所述各知识点的重要性,计算所述目标资源与所述每个备选主题的匹配度,判定所述匹配度最大的备选主题为该目标资源的主题。
8.一种资源主题判定系统,其特征在于,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行所述计算机可执行指令时实现如权利要求1至6中任意一项所述的方法中的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至6中任意一项所述的方法中的步骤。
CN201911135591.2A 2019-11-19 2019-11-19 资源主题判定方法和系统 Active CN110909533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911135591.2A CN110909533B (zh) 2019-11-19 2019-11-19 资源主题判定方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911135591.2A CN110909533B (zh) 2019-11-19 2019-11-19 资源主题判定方法和系统

Publications (2)

Publication Number Publication Date
CN110909533A CN110909533A (zh) 2020-03-24
CN110909533B true CN110909533B (zh) 2023-07-18

Family

ID=69818007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911135591.2A Active CN110909533B (zh) 2019-11-19 2019-11-19 资源主题判定方法和系统

Country Status (1)

Country Link
CN (1) CN110909533B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562918A (zh) * 2017-09-12 2018-01-09 北京点易通科技有限公司 一种数学题知识点发现与批量标签获取方法
CN109002499A (zh) * 2018-06-29 2018-12-14 浙江蓝鸽科技有限公司 学科相关性知识点库构建方法及其系统
CN109086434A (zh) * 2018-08-13 2018-12-25 华中师范大学 一种基于主题图的知识聚合方法及系统
CN110162591A (zh) * 2019-05-22 2019-08-23 南京邮电大学 一种面向数字教育资源的实体对齐方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562918A (zh) * 2017-09-12 2018-01-09 北京点易通科技有限公司 一种数学题知识点发现与批量标签获取方法
CN109002499A (zh) * 2018-06-29 2018-12-14 浙江蓝鸽科技有限公司 学科相关性知识点库构建方法及其系统
CN109086434A (zh) * 2018-08-13 2018-12-25 华中师范大学 一种基于主题图的知识聚合方法及系统
CN110162591A (zh) * 2019-05-22 2019-08-23 南京邮电大学 一种面向数字教育资源的实体对齐方法及系统

Also Published As

Publication number Publication date
CN110909533A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN106156204B (zh) 文本标签的提取方法和装置
CN105989040B (zh) 智能问答的方法、装置及系统
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
US20070136280A1 (en) Factoid-based searching
CN102902806A (zh) 一种利用搜索引擎进行查询扩展的方法及系统
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
US20220180317A1 (en) Linguistic analysis of seed documents and peer groups
CN110659352B (zh) 试题考点识别方法及其系统
CN112559684A (zh) 一种关键词提取及信息检索方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN113722478A (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN115757819A (zh) 裁判文书中引用法条信息获取方法及装置
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110909533B (zh) 资源主题判定方法和系统
CN111858860A (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
Lai et al. An unsupervised approach to discover media frames
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant