CN110222334B - 一种主题相关性确定方法、装置、存储介质及终端设备 - Google Patents
一种主题相关性确定方法、装置、存储介质及终端设备 Download PDFInfo
- Publication number
- CN110222334B CN110222334B CN201910422974.1A CN201910422974A CN110222334B CN 110222334 B CN110222334 B CN 110222334B CN 201910422974 A CN201910422974 A CN 201910422974A CN 110222334 B CN110222334 B CN 110222334B
- Authority
- CN
- China
- Prior art keywords
- entity
- keywords
- composition
- keyword
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种主题相关性确定方法、装置、存储介质及终端设备。本发明在进行英语作文的内容与主题相关性确定时,可首先提取作文题目对应的题目关键词和作文内容对应的内容关键词,其次可分别对所提取的题目关键词和内容关键词进行分类,以得到对应的实体关键词和修饰关键词,然后基于预设英语词汇语义网Wordnet分别计算实体关键词之间的第一相似度和修饰关键词之间的第二相似度,从而可根据第一相似度和第二相似度确定内容与题目之间的相关性,以在实现相关性的自动确定的基础上,提高相关性确定的准确率,同时因不需要建立作文库,还可极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种主题相关性确定方法、装置、计算机可读存储介质及终端设备。
背景技术
目前市面上的作文自动批改系统,例如ETS的E-rater、批改网和粉笔申论批改等,在自动识别内容与主题相关性的问题上,均主要是采用给定关键字匹配或基于庞大的主题做文库进行相似度比较,进而判别作文内容与主题或题干的贴合度。其中,采用给定关键字匹配的方式进行相关性确定在识别模式上过于简单,使得内容与主题相关性识别准确度较低,容易成为骗分攻击漏洞;而基于庞大的主题做文库进行相似度比较的方式则需要建立主题作文库,且需要进行人工标注,实施难度较大。
发明内容
本发明实施例提供了一种主题相关性确定方法、装置、计算机可读存储介质及终端设备,能够在实现主题相关性自动确定的基础上,提高相关性确定的准确率,且不需要建立作文库,极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。
本发明实施例第一方面,提供了一种主题相关性确定方法,包括:
分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;
对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;
基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;
根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。
本发明实施例第二方面,提供了一种主题相关性确定装置,包括:
关键词提取模块,用于分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;
关键词分类模块,用于对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;
相似度计算模块,用于基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;
相关性确定模块,用于根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。
本发明实施例第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如前述第一方面所述主题相关性确定方法的步骤。
本发明实施例第四方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;
对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;
基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;
根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,在进行英语作文批改的内容与主题相关性确定时,可首先分别提取作文题目中的题目关键词和作文内容中的内容关键词,其次可分别对所提取的题目关键词和内容关键词进行分类,以得到对应的实体关键词和修饰关键词,然后基于预设英语词汇语义网Wordnet分别计算实体关键词之间的第一相似度和修饰关键词之间的第二相似度,从而可根据第一相似度和第二相似度确定内容与题目之间的相关性,以在实现相关性的自动确定的基础上,提高相关性确定的准确率,同时因不需要建立作文库,还可极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种主题相关性确定方法的一个实施例流程图;
图2为本发明实施例中一种主题相关性确定方法在一个应用场景下确定第一相似度的流程示意图;
图3为本发明实施例中一种主题相关性确定方法在一个应用场景下确定第二相似度的流程示意图;
图4为本发明实施例中一种主题相关性确定方法在一个应用场景的流程示意图;
图5为本发明实施例中一种主题相关性确定装置的一个实施例结构图;
图6为本发明一实施例提供的一种终端设备的示意图。
具体实施方式
本发明实施例提供了一种主题相关性确定方法、装置、计算机可读存储介质及终端设备,用于在实现主题相关性自动确定的基础上,提高相关性确定的准确率,且不需要建立作文库,极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种主题相关性确定方法,所述主题相关性确定方法包括:
步骤S101、分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;
本发明实施例的执行主体为终端设备,所述终端设备包括但不限于:服务器、计算机、智能手机以及平板电脑等设备。具体地,当需要确定英语作文中内容与主题之间的相关性时,可将该英语作文导入所述终端设备,所述终端设备则可按照英语作文的格式将所述英语作文划分为作文题目和作文内容两个部分,并分别对这两部分进行关键词提取,以提取出作文题目对应的题目关键词和作文内容对应的内容关键词,如可通过词频-逆文档频率TF_IDF矩阵来进行关键词提取。
在此,通过TF_IDF矩阵来进行关键词提取仅作示意性解释,不应理解为对本发明实施例的限制,本发明实施例中,当然也可以采用其他关键词提取方法来进行关键词的提取。
步骤S102、对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;
本发明实施例中,在提取出作文题目对应的题目关键词和作文内容对应的内容关键词之后,则可根据自然语言处理中的词性标注(即NLP pos-tagging处理)来分别对题目关键词和内容关键词进行关键词分类,以得到作文题目对应的第一实体关键词和第一修饰关键词,并得到作文内容对应的第二实体关键词和第二修饰关键词,其中,所述第一实体关键词和所述第二实体关键词可以为名词或者动词等实体词,而所述第一修饰关键词和所述第二修饰关键词则可以为形容词或者副词等修饰词。
步骤S103、基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;
可以理解的是,在得到作文题目对应的第一实体关键词和第一修饰关键词,以及得到作文内容对应的第二实体关键词和第二修饰关键词后,则可基于预设英语词汇语义网Wordnet来计算作文内容与作文题目中实体关键词之间的第一相似度以及修饰关键词之间的第二相似度,即计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度。
在此,所述预设英语词汇语义网Wordnet是一个面向语义的英语词典,由同义词的集合(synnets)组成并组织成一个网络,如名词、动词、形容词、副词各自被组织成一个同义词的网络,其中,在名词或者动词组成的网络中每个节点对应于一个同义词集,边表示上位词/下位词关系(即表示上级概念与从属概念,如dog的上位词是canine)。
进一步地,如图2所示,本发明实施例中,所述基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,可以包括:
步骤S201、分别将所述第一实体关键词和所述第二实体关键词映射至预设英语词汇语义网Wordnet中,以根据所述Wordnet确定各所述第一实体关键词对应的第一上位实体词和各所述第二实体关键词对应的第二上位实体词;
步骤S202、计算各所述第二上位实体词与各所述第一上位实体词之间的距离;
步骤S203、根据所述距离确定各所述第二实体关键词与各所述第一实体关键词之间的第一相似度。
对于上述步骤S201至步骤S203,可以理解的是,在提取出作文题目对应的第一实体关键词和作文内容对应的第二实体关键词后,为提高内容相关性判断的概率,对于具有上位词的名词、动词等实体关键词,可以先将所述第一实体关键词和所述第二实体关键词映射至预设英语词汇语义网Wordnet中,以在所述Wordnet中通过上下节点的关系确定出各第一实体关键词对应的第一上位实体词和各第二实体关键词对应的第二上位实体词,然后可通过计算各第二上位实体词与各第一上位实体词之间的距离来确定各第二实体关键词与各第一实体关键词之间的第一相似度,如可将第二上位实体词和第一上位实体词之间的距离确定为对应的第二实体关键词与第一实体关键词之间的第一相似度。
例如,在一个具体应用场景中,当计算得到第二实体关键词S对应的第二上位实体词S’与第一实体关键词R1对应的第一上位实体词R1’之间的距离为1、第二实体关键词S对应的第二上位实体词S’与第一实体关键词R2对应的第一上位实体词R2’之间的距离为0.43以及第二实体关键词S对应的第二上位实体词S’与第一实体关键词R3对应的第一上位实体词R3’之间的距离为0.49时,则可确定第二实体关键词S与第一实体关键词R1之间的第一相似度为1、第二实体关键词S与第一实体关键词R2之间的第一相似度为0.43以及第二实体关键词S与第一实体关键词R3之间的第一相似度为0.49。其他第二实体关键词与各第一实体关键词之间的第一相似度,也可依照此方式进行确定。
具体地,本发明实施例中,所述计算各所述第二上位实体词与各所述第一上位实体词之间的距离,可以包括:
根据下述公式计算各所述第二上位实体词与各所述第一上位实体词之间的距离:
其中,Distanceij为第i个第二上位实体词与第j个第一上位实体词之间的距离,Xi为第i个第二上位实体词,Yi为第j个第一上位实体词,hop(Xi,Yi)为Wordnet中Xi和Yi之间的跳数。
进一步地,如图3所示,本发明实施例中,所述基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度,可以包括:
步骤S301、分别将所述第一修饰关键词和所述第二修饰关键词映射至所述Wordnet中,以根据所述Wordnet获取各所述第一修饰关键词对应的第一相似词列表和各所述第二修饰关键词对应的第二相似词列表;
步骤S302、分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数;
步骤S303、根据所述Jaccard系数确定各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度。
对于上述步骤S301至步骤S303,可以理解的是,对于不具有上位词的形容词、副词等修饰关键词,则在将所述第一修饰关键词和所述第二修饰关键词映射至预设英语词汇语义网Wordnet之后,可根据所述Wordnet获取所述第一修饰关键词对应的第一相似词列表和所述第二修饰关键词对应的第二相似词列表,然后可根据所述第一相似词列表构建第一词集合和所述第二相似词列表构建第二词集合,并可通过计算各第二词集合与各第一词集合之间的Jaccard系数来确定所述第二修饰关键词与各第一修饰关键词之间的第二相似度,如可将第二词集合和第一词集合之间的Jaccard系数确定为对应的第二修饰关键词与第一修饰关键词之间的第二相似度。
例如,在一个具体应用场景中,当计算得到第二修饰关键词A对应的第二词集合A’与第一修饰关键词B1对应的第一词集合B1’之间的Jaccard系数为0.3、第二修饰关键词A对应的第二词集合A’与第一修饰关键词B2对应的第一词集合B2’之间的Jaccard系数为0.27以及第二修饰关键词A对应的第二词集合A’与第一修饰关键词B3对应的第一词集合B3’之间的Jaccard系数为0.51时,则可确定第二修饰关键词A与第一修饰关键词B1之间的第二相似度为0.3、第二修饰关键词A与第一修饰关键词B2之间的第二相似度为0.27以及第二修饰关键词A与第一修饰关键词B3之间的第二相似度为0.51。其他第二修饰关键词与各第一修饰关键词之间的第一相似度,也可依照此方式进行确定。
具体地,本发明实施例中,所述分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数,可以包括:
根据下述公式计算所述Jaccard系数:
Jaccardrt=|FSimilarWordr∩SSimilarWordt|/|FSimilarWordr∪SSimilarwordt|
其中,Jaccardrt为第r个第二相似词列表与第t个第一相似词列表之间的Jaccard系数,FSimilarWordr为第r个第二相似词列表所对应的第二词集合,SSimilarWordt为第t个第一相似词列表所对应的第一词集合。
例如,在一个具体应用场景中,当确定第二修饰关键词A所对应的第二词集合为(A1、A2、A3、A4、B1、B2、B3、B4、C1、C2),而第一修饰关键词B1所对应的第一词集合为(A1、A3、B2、B3、C1、C2、C3、D1、D2、D3、D4)时,则可以得到第二修饰关键词A对应的第二相似词列表与第一修饰关键词B1对应的第一相似词列表之间的Jaccard系数可以为|A1,A3,B2,B3,C1,C2|/|A1,A2,A3,A4,B1,B2,B3,B4,C1,C2,C3,D1,D2,D3,D4|=0.4。
步骤S104、根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。
可以理解的是,在得到作文内容对应的各第二实体关键词与作文题目对应的各第一实体关键词之间的第一相似度以及得到作文内容对应的各第二修饰关键词与作文题目对应的各第一修饰关键词之间的第二相似度后,则可根据各第一相似度和各第二相似度确定所述英语作文中的作文内容与作文题目之间的相关性。具体地,如图4所示,本发明实施例中,所述根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性,可以包括:
步骤S401、根据所述第一相似度,确定各所述第二实体关键词与所述作文题目之间的第一贴合度;
步骤S402、根据所述第二相似度,确定各所述第二修饰关键词与所述作文题目之间的第二贴合度;
步骤S403、根据所述第一贴合度和所述第二贴合度,计算所述作文内容与所述作文题目之间的第三贴合度,并根据所述第三贴合度确定所述作文内容与所述作文题目之间的相关性。
其中,步骤S403中的根据所述第一贴合度和所述第二贴合度,计算所述作文内容与所述作文题目之间的第三贴合度,可以包括:
根据下述公式计算所述第三贴合度:
其中,MacthPointsum为所述第三贴合度,Weight1n为第n个第一贴合度对应的预设权重值,MacthPoint1n为第n个第一贴合度,Weight2m为第m个第二贴合度对应的预设权重值,MacthPoint2m为第m个第二贴合度,N为第一贴合度的总数量,M为第二贴合度的总数量。
对于上述步骤S401至步骤S403,可以理解的是,在得到作文内容对应的各第二实体关键词与作文题目对应的各第一实体关键词之间的第一相似度之后,可根据所述第一相似度确定各第二实体关键词与作文题目之间的第一贴合度,如可将各第二实体关键词与各第一实体关键词之间的最大第一相似度确定为对应的第二实体关键词与作文题目之间的第一贴合度,例如,在得到第二实体关键词W与第一实体关键词Q1、Q2、Q3以及Q4之间的第一相似度分别为0.27、0.1、0.05、0.3后,可将最大第一相似度0.3确定为第二实体关键词W与作文题目之间的第一贴合度。
类似地,在得到作文内容对应的各第二修饰关键词与作文题目对应的各第一修饰关键词之间的第二相似度之后,可根据所述第二相似度确定各第二修饰关键词与作文题目之间的第二贴合度,如可将各第二修饰关键词与各第一修饰关键词对应的最大第二相似度确定为对应的第二修饰关键词与作文题目之间的第二贴合度,例如,在得到第二修饰关键词T与第一修饰关键词P1、P2之间的第二相似度为0.2和0.05后,可将最大第二相似度0.2确定为第二修饰关键词T与作文题目之间的第二贴合度。
本发明实施例中,可根据实体关键词、修饰关键词的重要程度预先为各第二实体关键词和各第二修饰关键词设置对应的第一预设权重值和第二预设权重值,然后可根据各第二实体关键词的第一贴合度和对应的第一预设权重值以及各第二修饰关键词的第二贴合度和对应的第二预设权重值,计算作文内容与作文题目之间的最终贴合度,即上述所述的第三贴合度,从而可根据最终贴合度确定作文内容与作文题目之间的相关性。其中,第三贴合度越高则表示作文内容与作文题目之间的相关性越大,而第三贴合度越低则表示作文内容与作文题目之间的相关性越小。
本发明实施例中,在进行英语作文批改的内容与主题相关性确定时,可首先分别提取作文题目中的题目关键词和作文内容中的内容关键词,其次可分别对所提取的题目关键词和内容关键词进行分类,以得到对应的实体关键词和修饰关键词,然后基于预设英语词汇语义网Wordnet分别计算实体关键词之间的第一相似度和修饰关键词之间的第二相似度,从而可根据第一相似度和第二相似度确定内容与题目之间的相关性,以在实现相关性的自动确定的基础上,提高相关性确定的准确率,同时因不需要建立作文库,还可极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种主题相关性确定方法,下面将对一种主题相关性确定装置进行详细描述。
如图5所示,本发明实施例提供了一种主题相关性确定装置,所述主题相关性确定装置包括:
关键词提取模块501,用于分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;
关键词分类模块502,用于对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;
相似度计算模块503,用于基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;
相关性确定模块504,用于根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。
进一步地,所述相似度计算模块503,可以包括:
上位实体词确定单元,用于分别将所述第一实体关键词和所述第二实体关键词映射至预设英语词汇语义网Wordnet中,以根据所述Wordnet确定各所述第一实体关键词对应的第一上位实体词和各所述第二实体关键词对应的第二上位实体词;
距离计算单元,用于计算各所述第二上位实体词与各所述第一上位实体词之间的距离;
第一相似度确定单元,用于根据所述距离确定各所述第二实体关键词与各所述第一实体关键词之间的第一相似度。
优选地,所述距离计算单元,具体用于根据下述公式计算各所述第二上位实体词与各所述第一上位实体词之间的距离:
其中,Distanceij为第i个第二上位实体词与第j个第一上位实体词之间的距离,Xi为第i个第二上位实体词,Yi为第j个第一上位实体词,hop(Xi,Yi)为Wordnet中Xi和Yi之间的跳数。
可选地,所述相似度计算模块503,还可以包括:
相似词列表获取单元,用于分别将所述第一修饰关键词和所述第二修饰关键词映射至所述Wordnet中,以根据所述Wordnet获取各所述第一修饰关键词对应的第一相似词列表和各所述第二修饰关键词对应的第二相似词列表;
Jaccard系数计算单元,用于分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数;
第二相似度确定单元,用于根据所述Jaccard系数确定各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度。
进一步地,所述Jaccard系数计算单元,具体用于根据下述公式计算所述Jaccard系数:
Jaccardrt=|FSimilarWordr∩SSimilarWordt|/|FSimilarWordr∪SSimilarwordt|
其中,Jaccardrt为第r个第二相似词列表与第t个第一相似词列表之间的Jaccard系数,FSimilarWordr为第r个第二相似词列表所对应的第二词集合,SSimilarWordt为第t个第一相似词列表所对应的第一词集合。
优选地,所述相关性确定模块504,可以包括:
第一贴合度确定单元,用于根据所述第一相似度,确定各所述第二实体关键词与所述作文题目之间的第一贴合度;
第二贴合度确定单元,用于根据所述第二相似度,确定各所述第二修饰关键词与所述作文题目之间的第二贴合度;
相关性确定单元,用于根据所述第一贴合度和所述第二贴合度,计算所述作文内容与所述作文题目之间的第三贴合度,并根据所述第三贴合度确定所述作文内容与所述作文题目之间的相关性。
可选地,所述相关性确定单元,具体用于根据下述公式计算所述第三贴合度:
其中,MacthPointsum为所述第三贴合度,Weight1n为第n个第一贴合度对应的预设权重值,MacthPoint1n为第n个第一贴合度,Weight2m为第m个第二贴合度对应的预设权重值,MacthPoint2m为第m个第二贴合度,N为第一贴合度的总数量,M为第二贴合度的总数量。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机可读指令62,例如主题相关性确定程序。所述处理器60执行所述计算机可读指令62时实现上述各个主题相关性确定方法实施例中的步骤,例如图1所示的步骤S101至步骤S104。或者,所述处理器60执行所述计算机可读指令62时实现上述各装置实施例中各模块/单元的功能,例如图5所示的模块501至模块504的功能。
示例性的,所述计算机可读指令62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令62在所述终端设备6中的执行过程。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种主题相关性确定方法,其特征在于,包括:
分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;
对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;
基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;
根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性;
所述基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,包括:
分别将所述第一实体关键词和所述第二实体关键词映射至预设英语词汇语义网Wordnet中,以根据所述Wordnet确定各所述第一实体关键词对应的第一上位实体词和各所述第二实体关键词对应的第二上位实体词;
分别计算各所述第二上位实体词与各所述第一上位实体词之间的距离;根据下述公式计算各所述第二上位实体词与各所述第一上位实体词之间的距离:其中,Distanceij为第i个第二上位实体词与第j个第一上位实体词之间的距离,Xi为第i个第二上位实体词,Yj为第j个第一上位实体词,hop(Xi,Yj)为Wordnet中Xi和Yj之间的跳数;
根据所述距离确定各所述第二实体关键词与各所述第一实体关键词之间的第一相似度。
2.根据权利要求1所述的主题相关性确定方法,其特征在于,所述基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度,包括:
分别将所述第一修饰关键词和所述第二修饰关键词映射至所述Wordnet中,以根据所述Wordnet获取各所述第一修饰关键词对应的第一相似词列表和各所述第二修饰关键词对应的第二相似词列表;
分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数;
根据所述Jaccard系数确定各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度。
3.根据权利要求2所述的主题相关性确定方法,其特征在于,所述分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数,包括:
根据下述公式计算所述Jaccard系数:
Jaccardrt=|FSimilarWordr∩SSimilarWordt||/||FSimilarWordr∪SSimilarwordt|
其中,Jaccardrt为第r个第二相似词列表与第t个第一相似词列表之间的Jaccard系数,FSimilarWordr为第r个第二相似词列表所对应的第二词集合,SSimilarWordt为第t个第一相似词列表所对应的第一词集合。
4.根据权利要求1至3中任一项所述的主题相关性确定方法,其特征在于,所述根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性,包括:
根据所述第一相似度,确定各所述第二实体关键词与所述作文题目之间的第一贴合度;
根据所述第二相似度,确定各所述第二修饰关键词与所述作文题目之间的第二贴合度;
根据所述第一贴合度和所述第二贴合度,计算所述作文内容与所述作文题目之间的第三贴合度,并根据所述第三贴合度确定所述作文内容与所述作文题目之间的相关性。
6.一种主题相关性确定装置,其特征在于,包括:
关键词提取模块,用于分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;
关键词分类模块,用于对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;
相似度计算模块,用于基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;
相关性确定模块,用于根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性;
所述相似度计算模块,包括
上位实体词确定单元,用于分别将所述第一实体关键词和所述第二实体关键词映射至预设英语词汇语义网Wordnet中,以根据所述Wordnet确定各所述第一实体关键词对应的第一上位实体词和各所述第二实体关键词对应的第二上位实体词;
距离计算单元,用于计算各所述第二上位实体词与各所述第一上位实体词之间的距离;所述距离计算单元,具体用于根据下述公式计算各所述第二上位实体词与各所述第一上位实体词之间的距离:其中,Distanceij为第i个第二上位实体词与第j个第一上位实体词之间的距离,Xi为第i个第二上位实体词,Yj为第i个第一上位实体词,hop(Xi,Yj)为Wordnet中Xi和Yj之间的跳数;
第一相似度确定单元,用于根据所述距离确定各所述第二实体关键词与各所述第一实体关键词之间的第一相似度。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述主题相关性确定方法的步骤。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;
对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;
基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;
根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性;
所述基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,包括:
分别将所述第一实体关键词和所述第二实体关键词映射至预设英语词汇语义网Wordnet中,以根据所述Wordnet确定各所述第一实体关键词对应的第一上位实体词和各所述第二实体关键词对应的第二上位实体词;
分别计算各所述第二上位实体词与各所述第一上位实体词之间的距离;根据下述公式计算各所述第二上位实体词与各所述第一上位实体词之间的距离:其中,Distanceij为第i个第二上位实体词与第j个第一上位实体词之间的距离,Xi为第i个第二上位实体词,Yj为第i个第一上位实体词,hop(Xi,Yj)为Wordnet中Xi和Yj之间的跳数;
根据所述距离确定各所述第二实体关键词与各所述第一实体关键词之间的第一相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910422974.1A CN110222334B (zh) | 2019-05-21 | 2019-05-21 | 一种主题相关性确定方法、装置、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910422974.1A CN110222334B (zh) | 2019-05-21 | 2019-05-21 | 一种主题相关性确定方法、装置、存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222334A CN110222334A (zh) | 2019-09-10 |
CN110222334B true CN110222334B (zh) | 2023-04-18 |
Family
ID=67821560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910422974.1A Active CN110222334B (zh) | 2019-05-21 | 2019-05-21 | 一种主题相关性确定方法、装置、存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222334B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358890A1 (en) * | 2013-06-04 | 2014-12-04 | Sap Ag | Question answering framework |
CN107844493A (zh) * | 2016-09-19 | 2018-03-27 | 上海泓智信息科技有限公司 | 一种文件关联方法及系统 |
CN109508460A (zh) * | 2018-12-04 | 2019-03-22 | 广东外语外贸大学 | 基于主题聚类的无监督作文跑题检测方法及系统 |
-
2019
- 2019-05-21 CN CN201910422974.1A patent/CN110222334B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358890A1 (en) * | 2013-06-04 | 2014-12-04 | Sap Ag | Question answering framework |
CN107844493A (zh) * | 2016-09-19 | 2018-03-27 | 上海泓智信息科技有限公司 | 一种文件关联方法及系统 |
CN109508460A (zh) * | 2018-12-04 | 2019-03-22 | 广东外语外贸大学 | 基于主题聚类的无监督作文跑题检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
Exploring Technical Phrase Frames from Research Paper Titles;Yuzana Win et al.;《2015 29th International Conference on Advanced Information Networking and Applications Workshops》;20150324;第558-563页 * |
基于CART算法的网络新闻关键词抽取模型研究;蓝传锜 等;《西北民族大学学报(自然科学版)》;20170930;第38卷(第3期);第6-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222334A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN107168954B (zh) | 文本关键词生成方法及装置和电子设备及可读存储介质 | |
Montejo-Ráez et al. | Ranked wordnet graph for sentiment polarity classification in twitter | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
WO2019037258A1 (zh) | 信息推荐的装置、方法、系统及计算机可读存储介质 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN106462604B (zh) | 识别查询意图 | |
CN107992480B (zh) | 一种实现实体消歧的方法、装置及存储介质、程序产品 | |
CN109918660B (zh) | 一种基于TextRank的关键词提取方法和装置 | |
CN111831804B (zh) | 一种关键短语的提取方法、装置、终端设备及存储介质 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
CN110909122B (zh) | 一种信息处理方法及相关设备 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
CN111522886B (zh) | 一种信息推荐方法、终端及存储介质 | |
WO2023010427A1 (en) | Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
CN113326420A (zh) | 问题检索方法、装置、电子设备和介质 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN108763221B (zh) | 一种属性名表征方法及装置 | |
CN110222334B (zh) | 一种主题相关性确定方法、装置、存储介质及终端设备 | |
Dianati et al. | Words stemming based on structural and semantic similarity | |
US20130339003A1 (en) | Assisted Free Form Decision Definition Using Rules Vocabulary | |
CN115391551A (zh) | 事件检测方法及装置 | |
CN110175331B (zh) | 专业术语的识别方法、装置、电子设备及可读存储介质 | |
CN108932228B (zh) | 直播行业新闻与分区匹配方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |