CN110222174B - 一种基于词条作品热度构建分类分级词表的方法及系统 - Google Patents

一种基于词条作品热度构建分类分级词表的方法及系统 Download PDF

Info

Publication number
CN110222174B
CN110222174B CN201910420746.0A CN201910420746A CN110222174B CN 110222174 B CN110222174 B CN 110222174B CN 201910420746 A CN201910420746 A CN 201910420746A CN 110222174 B CN110222174 B CN 110222174B
Authority
CN
China
Prior art keywords
entry
word
work
classified
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910420746.0A
Other languages
English (en)
Other versions
CN110222174A (zh
Inventor
赵慧周
王治敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN201910420746.0A priority Critical patent/CN110222174B/zh
Publication of CN110222174A publication Critical patent/CN110222174A/zh
Application granted granted Critical
Publication of CN110222174B publication Critical patent/CN110222174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于词条作品热度构建分类分级词表的方法及系统,通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;然后根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;并将同一词条所对应的各作品热度求和,得到相应词条的词条热度;最后根据每一词条对应的词条热度,对词集中词条进行排序并基于排序结果构建分类分级词表。本发明可解决对于作品字数不平衡语料库,现有分类分级词表构建方法对词条排序不合理的问题。

Description

一种基于词条作品热度构建分类分级词表的方法及系统
技术领域
本发明涉及分类分级词表技术领域,特别是指一种基于词条作品热度构建分类分级词表的方法及系统。
背景技术
分类分级词表是儿童分级阅读计量的基础资源,在儿童的成长中,从分类分级词表中的特定类型词条的自然属性那里获得的信息,是一份极为重要的精神营养。面向儿童阅读需求构建分类分级词表可以为儿童分级阅读计量提供基础资源。而在分类分级词表的构建过程中,词汇分级是文本分级的重要依据。
现有对分类词汇进行分级的方法主要是基于语料库提取常用词经常使用“频次”和“分布”。基于频次和分布计算词的使用度,编出按使用度高低排列的分级表,其分布主要考虑的是语料的“分类”与“语篇”的数量,此方法一般适用于常规基础词语的分类分级。
但对于一些字数不平衡的文学语料库,上述方法并不适用;例如对于儿童文学语料,其中的儿童文学服务于各年龄层次的儿童,不同作品间存在很大的字数差异性。如果按照使用“频次”和“分布”对儿童文学语料中提取的分类词条进行分级排序,就容易出现对于同一词条,根据篇幅较小的作品计算的使用度会偏小,而根据篇幅较大的作品计算的使用度又会偏大;如此一来,势必造成基于此类分级方式所构建的分类分级词表不合理的问题。
发明内容
本发明要解决的技术问题是提供一种基于词条作品热度构建分类分级词表的方法及系统,针对作品字数不平衡语料库,提供一种基于词条作品热度对词条进行排序的方案,并在此基础上构建更为合理的分类分级词表,进而为儿童分级阅读计量提供基础资源。
为解决上述技术问题,本发明的实施例提供一种基于词条作品热度构建分类分级词表的方法,其包括:
按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;
根据所述分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算所述分类词集中每一词条在每一作品中的作品热度;
将同一词条所对应的各作品热度求和,得到相应词条的词条热度;
根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。
进一步地,该文学语料库是多篇字数不同的作品构成的字数不平衡语料库。
进一步地,所述分类词集中每一词条的作品热度通过下列公式计算得出:
Figure BDA0002065934360000021
其中,fi,j为词条i在作品j中的作品热度,FCi,j为词条i在作品j中的频次,FZj为作品j的总字数,k为自定义的常量。
可选地,k的取值为10000。
可选地,所述对所述分类词集中所有词条进行排序,具体为:
对所述分类词集中所有词条按照各词条对应的词条热度的降序进行排序。
相应地,为解决上述技术问题,本发明的实施例还提供一种基于词条作品热度构建分类分级词表的系统,其包括:
分类词集构建模块,用于按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;
作品热度计算模块,用于根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;
词条热度计算模块,用于将同一词条所对应的各作品热度求和,得到相应词条的词条热度;
分类分级词表构建模块,用于根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。
进一步地,该文学语料库是多篇字数不同的作品构成的字数不平衡语料库。
进一步地,所述作品热度计算模块具体用于:
通过下列公式计算所述分类词集中每一词条的作品热度:
Figure BDA0002065934360000031
其中,fi,j为词条i在作品j中的作品热度,FCi,j为词条i在作品j中的频次,FZj为作品j的总字数,k为自定义的常量。
可选地,k的取值为10000。
可选地,所述分类分级词表构建模块在对所述分类词集中所有词条进行排序时,是按照各词条对应的词条热度的降序,对分类词集中所有词条进行排序。
本发明的上述技术方案的有益效果如下:
本发明的方案通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;将同一词条所对应的各作品热度求和,得到相应词条的词条热度;根据每一词条对应的词条热度,对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。很好地解决了文学语料库中作品字数不平衡的问题;以词条对应的各作品热度之和作为词条热度,对分类词条中的所有词条进行排序,从而构建出排序更合理的分类分级表,进而为儿童分级阅读计量提供了基础资源。
附图说明
图1为本发明第一实施例提供的基于词条作品热度构建分类分级词表的方法的流程示意图;
图2为本发明第二实施例提供的基于词条作品热度构建分类分级词表的系统的框图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的构建分类分词表的方法不能解决文学语料库作品字数不平衡的问题,提供一种基于词条作品热度构建分类分级词表的方法及系统,下面以具体实施例的方式阐述本发明的原理。
第一实施例
请参阅图1,本实施例提供一种基于词条作品热度构建分类分级词表的方法,其包括:
S101,按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;
需要说明的是,文学语料库是指由文学作品组成的语料库;而本实施例此处的文学语料库特指字数不平衡文学作品语料库;在其中短篇、中篇、长篇作品共存,各文学作品的总字数差异较大。
分类词集是一种词语列表,该词语列表是某种分类词语的集合(例如:动物词语),该集合中的每个词语是本方法需要进行词语热度计量的对象,该分类词集是本方法的输入。
S102,根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;
需要说明的是,此处是通过下列公式计算得出每一词条的作品热度:
Figure BDA0002065934360000041
其中,fi,j为词条i在作品j中的作品热度,FCi,j为词条i在作品j中的频次,FZj为作品j的总字数,k为自定义的常量;本实施例中,k的取值为10000。频次是指某词语在某部作品中出现的总频次。
S103,将同一词条所对应的各作品热度求和,得到相应词条的词条热度;
S104,根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。
需要说明的是,本实施例在对分类词集中所有词条进行排序时,是按照各词条对应的词条热度的降序进行排序。
表一以动物类词语为例展示了以本实施例的方法排序后的动物类的排列前30的词以及各词的热度值;在此实验中,常数k=10000。
表一
Figure BDA0002065934360000042
Figure BDA0002065934360000051
第二实施例
相应地,本实施例提供一种基于词条作品热度构建分类分级词表的系统200,其包括:
分类词集构建模块201,按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;
作品热度计算模块202,根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;
词条热度计算模块203,将同一词条所对应的各作品热度求和,得到相应词条的词条热度;
分类分级词表构建模块204,用于根据每一词条对应的词条热度,对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。
本实施中的基于词条作品热度构建分类分级词表的系统与上述基于词条作品热度构建分类分级词表的方法相对应;其中,该基于词条作品热度构建分类分级词表的系统的各模块所实现的功能与上述第一实施例中的方法的各流程步骤一一对应,故在此不再赘述。
本发明的方案通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,逐词计算分类词集中每一词条在每一作品中的作品热度;将同一词条所对应的各作品热度求和,得到相应词条的词条热度;根据每一词条对应的词条热度,对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。很好地解决了文学语料库中作品字数不平衡的问题;以词条对应的各作品热度之和作为词条热度,对分类词条中的所有词条进行排序,从而构建出排序更合理的分类分级表,进而为儿童分级阅读计量提供了基础资源。
此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于词条作品热度构建分类分级词表的方法,其特征在于,包括:
按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;其中,所述文学语料库是由多篇字数不同的作品构成的字数不平衡语料库;
根据所述分类词集中各词条在每一作品中出现的频次和各作品的总字数,通过下列公式,逐词计算所述分类词集中每一词条在每一作品中的作品热度:
Figure FDA0002527831670000011
其中,fi,j为词条i在作品j中的作品热度,FCi,j为词条i在作品j中的频次,FZj为作品j的总字数,k为自定义的常量;
将同一词条所对应的各作品热度求和,得到相应词条的词条热度;
根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。
2.如权利要求1所述的基于词条作品热度构建分类分级词表的方法,其特征在于,k的取值为10000。
3.如权利要求1所述的基于词条作品热度构建分类分级词表的方法,其特征在于,所述对所述分类词集中所有词条进行排序,具体为:
对所述分类词集中所有词条按照各词条对应的词条热度的降序进行排序。
4.一种基于词条作品热度构建分类分级词表的系统,其特征在于,包括:
分类词集构建模块,用于按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;其中,所述文学语料库是由多篇字数不同的作品构成的字数不平衡语料库;
作品热度计算模块,用于根据分类词集中各词条在每一作品中出现的频次和各作品的总字数,通过下列公式,逐词计算分类词集中每一词条在每一作品中的作品热度:
Figure FDA0002527831670000012
其中,fi,j为词条i在作品j中的作品热度,FCi,j为词条i在作品j中的频次,FZj为作品j的总字数,k为自定义的常量;
词条热度计算模块,用于将同一词条所对应的各作品热度求和,得到相应词条的词条热度;
分类分级词表构建模块,用于根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。
5.如权利要求4所述的基于词条作品热度构建分类分级词表的系统,其特征在于,k的取值为10000。
6.如权利要求4所述的基于词条作品热度构建分类分级词表的系统,其特征在于,所述分类分级词表构建模块在对所述分类词集中所有词条进行排序时,是按照各词条对应的词条热度的降序,对分类词集中所有词条进行排序。
CN201910420746.0A 2019-05-20 2019-05-20 一种基于词条作品热度构建分类分级词表的方法及系统 Active CN110222174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910420746.0A CN110222174B (zh) 2019-05-20 2019-05-20 一种基于词条作品热度构建分类分级词表的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910420746.0A CN110222174B (zh) 2019-05-20 2019-05-20 一种基于词条作品热度构建分类分级词表的方法及系统

Publications (2)

Publication Number Publication Date
CN110222174A CN110222174A (zh) 2019-09-10
CN110222174B true CN110222174B (zh) 2020-08-11

Family

ID=67821460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910420746.0A Active CN110222174B (zh) 2019-05-20 2019-05-20 一种基于词条作品热度构建分类分级词表的方法及系统

Country Status (1)

Country Link
CN (1) CN110222174B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845901A (en) * 1995-11-13 1998-12-08 Gradco (Japan) Ltd. Parallel moving tray sorter
CN101067808B (zh) * 2007-05-24 2010-12-15 上海大学 文本关键词的提取方法
CN109101477B (zh) * 2018-06-04 2023-01-31 东南大学 一种企业领域分类及企业关键词筛选方法

Also Published As

Publication number Publication date
CN110222174A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN106611052B (zh) 文本标签的确定方法及装置
CN105893533A (zh) 一种文本匹配方法及装置
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN108171267B (zh) 用户群划分方法及装置、消息推送方法及装置
CN112732915A (zh) 情感分类方法、装置、电子设备及存储介质
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN110489449B (zh) 一种图表推荐方法、装置和电子设备
CN112380859A (zh) 舆情信息的推荐方法、装置、电子设备及计算机存储介质
Stevenson et al. Exploiting domain information for word sense disambiguation of medical documents
CN105069103A (zh) App搜索引擎利用用户评论的方法及系统
CN106815265B (zh) 裁判文书的搜索方法及装置
CN109165382A (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN103106262A (zh) 文档分类、支持向量机模型生成的方法和装置
CN104462554A (zh) 问答页面相关问题推荐方法和装置
CN108427756A (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
CN110263817B (zh) 一种基于用户账号的风险等级划分方法及装置
CN110929169A (zh) 基于改进Canopy聚类协同过滤算法的职位推荐方法
CN105488206A (zh) 一种基于众包的安卓应用演化推荐方法
Fontanelli et al. Beyond Zipf’s law: the Lavalette rank function and its properties
CN112948429B (zh) 一种数据报送方法、装置和设备
CN105787004A (zh) 一种文本分类方法及装置
CN110837559B (zh) 语句样本集的生成方法、电子装置及存储介质
CN110222174B (zh) 一种基于词条作品热度构建分类分级词表的方法及系统
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN108520012B (zh) 基于机器学习的移动互联网用户评论挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant