CN107977362A - 一种用于中文文本定级以及计算中文文本难度评分的方法 - Google Patents
一种用于中文文本定级以及计算中文文本难度评分的方法 Download PDFInfo
- Publication number
- CN107977362A CN107977362A CN201711309105.5A CN201711309105A CN107977362A CN 107977362 A CN107977362 A CN 107977362A CN 201711309105 A CN201711309105 A CN 201711309105A CN 107977362 A CN107977362 A CN 107977362A
- Authority
- CN
- China
- Prior art keywords
- text
- mrow
- model
- chinese text
- difficulty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000007689 inspection Methods 0.000 claims abstract description 8
- 239000000463 material Substances 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000011160 research Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种用于中文文本定级以及计算中文文本难度评分的方法,进行首先文本获取及等级标注,获取具有分类标签的作为训练集的文章,然后进行特征提取,获取每篇文章所对应的全部语言学特征的特征值;再之,进行模型的建立与检验,得出预测准确率达到预期的模型,最后采用得到的模型预测文本难度。本发明适用于各种需要评价文本易读性的场景之中,采用的支持向量回归算法模型通过提高特征的维度空间来达到更好的评分效果,优于传统的线性模型。
Description
技术领域
本发明涉及模型预测的技术领域,尤其涉及到一种用于中文文本定级以及计算中文文本难度评分的方法。
背景技术
随着网络技术的发展,互联网上每天都会产生如文本、图像、视频等海量的非结构化数据。对其中的文本数据,可以采用现代自然语言处理的技术加以处理,挖掘出隐含在文本中更有价值的信息。在很长一段时间里,自然语言处理的主流技术都是基于规则的,从各种句法分析到语义分析,而后有了互联网的发展,伴随着大量语料的产生,才让统计自然语言处理逐渐兴起。文本易读性研究就是其中的一个研究点。在语言学习过程中,教师们需要在大量教材中,选择出难度适中的文本供学生阅读。因此,如果有一款能快速将大篇幅的文本内容转化为一个度量文本易读性数值的工具,便可以为这些教育工作者提供很大的帮助。同时,这种文本难度评分方法也可以推广到大众传播的分析、政府及公共机构的公文、各类文献的易读性分析上。由于各种自然语言都具有相对特殊的语法规则,对于某些语言的文本难度研究方法并不能直接泛化到其他语言上,需要研究者在相应的语言学知识的指导下完成该语言的文本难度的研究。
现行的一种较为客观的文本难度测量方法是利用易读性公式预测。其中,对于英语的易读性公式研究是为最全面的。这些公式本质上都是对词汇难度和句法难度的测定,利用线性回归等方法得到各个变量的系数,经过线性组合得到公式。经历时间的推移,一门语言所用到的词汇也会有所发展,到后期易读性公式研究工作也会包含,词表更新、系数调整,从而得到新的易读性公式。近年来,也有研究者尝试利用构建语言模型的方法,用已经标注好易读性等级的文本作为训练材料,通过统计方法为各个等级的文本建立一元概率语言模型。通过将测试文本与各难度等级的语言模型进行比对,从而确定测试文本的等级。在这些方法中,Lexile框架应该算是在应用上最为广泛的。它在用户友好度、实用性方面做了比较多工作。它的设计者希望它可以给出一个精确的阅读理解能力的度量,让不同难度的文章能较准确地匹配到不同理解能力的读者。它们在特征处理方面,对先前Dale-Chall公式所用的方法上做出了改进,虽然选取的特征相类似但处理方法却有所不同。比如其他方法中常用的词语频率这个特征,Lexile则对平均的词频取了对数来作比较;再如平均句长这个特征也被取了对数来处理。而Lexile统计的词语频率也是在一个更大的五百万词规模的语料库中所得到的结果。这项研究成果至今都相当具有参考价值。
这些传统的易读性公式可以在某些特定的使用场景中发挥较好的效果。但如果将其推广到更通用的场景下时,会有所选特征不够全面、使用的线性模型效果不理想等问题。更为重要的是,针对拼音文字所选择的特征并不能很好的反应中文文本的难度特性。由于目前国内还没有出现能针对中文文本难度情况来进行评分的工具,国内的许多文本难度评分工作如教材评级等任务,依然采用了最原始的手工分级来完成。而对现有的,主题繁多、文体各异的中文文本,进行人工的难度评级是一件工作量巨大的事情,非常耗时。而且人工进行分级的结果往往非常主观,在复验时很难达成统一意见。
发明内容
本发明的目的在于克服现有技术的不足,提供一种适用于各种需要评价文本易读性的场景之中、评分效率高、评分准确度高的用于文本定级以及计算文本难度评分的方法。
为实现上述目的,本发明所提供的技术方案为:包括以下步骤:
S1、文本获取及等级标注,获取具有分类标签的作为训练集的文章;
S2、特征提取,获取每篇文章所对应的全部语言学特征的特征值;
S3、模型的建立与检验,得出预测准确率达到预期的模型;
S4、采用步骤S3得到的模型预测文本难度。
进一步地,步骤S1文本获取及等级标注具体包括以下步骤:
S11、选择合适的教材构建专用的中文教材文本语料库;
对于特定场景的文本难度评价,选择相同类型的语料库作为训练文本,而不简单地使用常见的通用语料库;如评价教材难度时使用已有的教材作为训练文本,评价政府公文的文本可读性时应用公文文本作训练文本;根据使用场景来构建的小规模专用语料库在训练时会使模型更适应于特定场景。
S12、对语料库文本进行初步筛选,剔除数据质量不高的文章;
S13、基于语料信息整合专家意见给出等级标注;
通过参照欧洲共同语言参考标准和国家汉办颁布的关于汉语教学的课程大纲两套语言框架体系,将中文文本难度等级划分为三等六级;经过初步筛选后,由语言学专家对所有文章参照以上的划分标准进行人工标注。
进一步地,步骤S2特征提取具体包括以下步骤:
S21、中文分词及词性标注:
首先根据内存词典,构建句子的有向无环图;对未被收录的词,采用HMM模型的Viterbi算法作分词处理;寻找有向无环图的最大概率路径,输出分词结果;并利用规则库进行词性标注;
S22、异常值处理:
通过数据分布等统计学方法发现离群点,对离群点进行剔除,对缺失值进行删除;消除这些异常值对模型效果的影响;
S23、数值化特征:
将词语与字词划分等级标准进行比对,对文章每一个字词进行等级标注;
S24、统计性特征:
统计文章的字词难度等级及词性标注情况,得到各字词等级的分布情况和词性分布情况,同时统计文章中句子数量、文本总字数、文本总词数。
进一步地,步骤S3模型的建立与检验具体步骤如下:
S31、通过支持向量回归算法构建SVR模型;
S32、将模型运算结果的值线性映射到等距离的区间上,根据运算结果划定评分区间所对应的等级,得到参考等级;
S33、采用十折交叉检验方法计算模型准确率,具体过程为:
把数据集平均分为十个部分,第一折利用数据集1作为测试集、其余的数据集2~10作为训练集,计算准确率;第二折利用数据集2作为测试集、其余的数据集1、3~10作为训练集,计算准确率;以此类推,分别算出十折的准确率,求其平均准确率;
若模型准确率达到预期,则训练出的模型用于预测一篇新输入的中文文本的文本难度。
进一步地,步骤S31通过支持向量回归算法构建SVR模型具体步骤如下:
基于特征训练集所在的样本空间,找到一个距离最大的划分超平面对应的回归模型,如式:
f(x)=wTx+b,;
对于样本(x,y),传统回归模型通常直接基于模型输出f(x)与真实输出y之间的差别来计算损失,当且仅当f(x)与y完全相同时,损失才为零;与此不同,本方案支持向量回归首先假设能容忍f(x)与y之间最多有∈的偏差,即仅当f(x)与y之间的差别绝对值大于∈时才计算损失;
求最优划分超平面即求出约束参数w和b,使得距离f(x)最大,即
s.t.yi(wTxi+b)≥1,i=1,2,...,m.
通过求解凸二次规划问题,求出SVR问题的解,SVR的解形如式:
其中m表示支持向量数,αi和为拉格朗日乘子法的系数。
与现有技术相比,本方案原理和优点如下:
本方案进行首先文本获取及等级标注,获取具有分类标签的作为训练集的文章,然后进行特征提取,获取每篇文章所对应的全部语言学特征的特征值;再之,进行模型的建立与检验,得出预测准确率达到预期的模型,最后采用得到的模型预测文本难度。
本方案适用于各种需要评价文本易读性的场景之中,采用的支持向量回归算法模型通过提高特征的维度空间来达到更好的评分效果,优于传统的线性模型。
附图说明
图1为本发明一种用于中文文本定级以及计算中文文本难度评分的方法的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
参见附图1所示,本实施例所述的一种用于中文文本定级以及计算中文文本难度评分的方法,包括以下步骤:
S1、文本获取及等级标注,获取具有分类标签的作为训练集的文章,具体步骤如下:
S11、选择合适的教材构建专用的中文教材文本语料库;
S12、对语料库文本进行初步筛选,剔除数据质量不高的文章;
S13、基于语料信息整合专家意见给出等级标注;
通过参照欧洲共同语言参考标准和国家汉办颁布的关于汉语教学的课程大纲两套语言框架体系,将中文文本难度等级划分为三等六级;经过初步筛选后,由语言学专家对所有文章参照以上的划分标准进行人工标注。
S2、特征提取,获取每篇文章所对应的全部语言学特征的特征值,具体步骤如下:
S21、中文分词及词性标注:
首先根据内存词典,构建句子的有向无环图;对未被收录的词,采用HMM模型的Viterbi算法作分词处理;寻找有向无环图的最大概率路径,输出分词结果;并利用规则库进行词性标注;
S22、异常值处理:
通过数据分布等统计学方法发现离群点,对离群点进行剔除,对缺失值进行删除;消除这些异常值对模型效果的影响;
S23、数值化特征:
将词语与字词划分等级标准进行比对,对文章每一个字词进行等级标注;
S24、统计性特征:
统计文章的字词难度等级及词性标注情况,得到各字词等级的分布情况和词性分布情况,同时统计文章中句子数量、文本总字数、文本总词数。
S3、模型的建立与检验,得出预测准确率达到预期的模型,具体步骤如下:
S31、通过支持向量回归算法构建SVR模型,过程为:
基于特征训练集所在的样本空间,找到一个距离最大的划分超平面对应的回归模型,如式:
f(x)=wTx+b,
求最优划分超平面即求出约束参数w和b,使得距离f(x)最大,即
s.t.yi(wTxi+b)≥1,i=1,2,...,m.
通过求解凸二次规划问题,求出SVR问题的解,SVR的解形如式:
其中m表示支持向量数,αi和为拉格朗日乘子法的系数;
S32、将模型运算结果的值线性映射到等距离的区间上,根据运算结果划定评分区间所对应的等级,得到参考等级;
S33、采用十折交叉检验方法计算模型准确率,若模型准确率达到预期,则训练出的模型用于预测一篇新输入的中文文本的文本难度。
S4、采用步骤S3得到的模型预测文本难度。
本实施例首先进行文本获取及等级标注,获取具有分类标签的作为训练集的文章,然后进行特征提取,获取每篇文章所对应的全部语言学特征的特征值;再之,进行模型的建立与检验,得出预测准确率达到预期的模型,最后采用得到的模型预测文本难度。
本方案适用于各种需要评价文本易读性的场景之中,采用的支持向量回归算法模型通过提高特征的维度空间来达到更好的评分效果,优于传统的线性模型。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (5)
1.一种用于中文文本定级以及计算中文文本难度评分的方法,其特征在于:包括以下步骤:
S1、文本获取及等级标注,获取具有分类标签的作为训练集的文章;
S2、特征提取,获取每篇文章所对应的全部语言学特征的特征值;
S3、模型的建立与检验,得出预测准确率达到预期的模型;
S4、采用步骤S3得到的模型预测文本难度。
2.根据权利要求1所述的一种用于中文文本定级以及计算中文文本难度评分的方法,其特征在于:所述步骤S1文本获取及等级标注具体包括以下步骤:
S11、选择合适的教材构建专用的中文教材文本语料库;
S12、对语料库文本进行初步筛选,剔除数据质量不高的文章;
S13、基于语料信息整合专家意见给出等级标注。
3.根据权利要求1所述的一种用于中文文本定级以及计算中文文本难度评分的方法,其特征在于:所述步骤S2特征提取具体包括以下步骤:
S21、中文分词及词性标注:
首先根据内存词典,构建句子的有向无环图;对未被收录的词,采用HMM模型的Viterbi算法作分词处理;寻找有向无环图的最大概率路径,输出分词结果;并利用规则库进行词性标注;
S22、异常值处理:
通过数据分布等统计学方法发现离群点,对离群点进行剔除;对缺失值进行删除;
S23、数值化特征:
将词语与字词划分等级标准进行比对,对文章每一个字词进行等级标注;
S24、统计性特征:
统计文章的字词难度等级及词性标注情况,得到各字词等级的分布情况和词性分布情况,同时统计文章中句子数量、文本总字数、文本总词数。
4.根据权利要求1所述的一种用于中文文本定级以及计算中文文本难度评分的方法,其特征在于:所述步骤S3模型的建立与检验具体步骤如下:
S31、通过支持向量回归算法构建SVR模型;
S32、将模型运算结果的值线性映射到等距离的区间上,根据运算结果划定评分区间所对应的等级,得到参考等级;
S33、采用十折交叉检验方法计算模型准确率,若模型准确率达到预期,则训练出的模型用于预测一篇新输入的中文文本的文本难度。
5.根据权利要求4所述的一种用于中文文本定级以及计算中文文本难度评分的方法,其特征在于:所述步骤S31通过支持向量回归算法构建SVR模型的具体步骤为:
基于特征训练集所在的样本空间,找到一个距离最大的划分超平面对应的回归模型,如式:
f(x)=wTx+b,
求最优划分超平面即求出约束参数w和b,使得距离f(x)最大,即
<mrow>
<munder>
<mi>max</mi>
<mrow>
<mi>w</mi>
<mo>,</mo>
<mi>b</mi>
</mrow>
</munder>
<mfrac>
<mn>2</mn>
<mrow>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<mo>|</mo>
</mrow>
</mfrac>
</mrow>
s.t.yi(wTxi+b)≥1,i=1,2,...,m.
通过求解凸二次规划问题,求出SVR问题的解,SVR的解形如式:
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>&alpha;</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<msubsup>
<mi>x</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<mi>x</mi>
<mo>+</mo>
<mi>b</mi>
<mo>.</mo>
</mrow>
其中m表示支持向量数,αi和为拉格朗日乘子法的系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711309105.5A CN107977362B (zh) | 2017-12-11 | 2017-12-11 | 一种用于中文文本定级以及计算中文文本难度评分的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711309105.5A CN107977362B (zh) | 2017-12-11 | 2017-12-11 | 一种用于中文文本定级以及计算中文文本难度评分的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107977362A true CN107977362A (zh) | 2018-05-01 |
CN107977362B CN107977362B (zh) | 2021-05-04 |
Family
ID=62009915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711309105.5A Active CN107977362B (zh) | 2017-12-11 | 2017-12-11 | 一种用于中文文本定级以及计算中文文本难度评分的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107977362B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002430A (zh) * | 2018-07-10 | 2018-12-14 | 西安影视数据评估中心有限公司 | 影视剧本统筹分页方法 |
CN109740435A (zh) * | 2018-11-30 | 2019-05-10 | 四川译讯信息科技有限公司 | 一种图片类文件复杂度判定方法及平台 |
CN109933668A (zh) * | 2019-03-19 | 2019-06-25 | 北京师范大学 | 简体汉语文本可读性的分级评估建模方法 |
CN110472236A (zh) * | 2019-07-23 | 2019-11-19 | 浙江大学城市学院 | 一种基于注意力机制的双向gru文本可读性评估方法 |
CN110889570A (zh) * | 2018-09-10 | 2020-03-17 | 周刚 | 一种英语文本难度指数的计算方法 |
CN110895787A (zh) * | 2018-09-10 | 2020-03-20 | 周刚 | 一种用于英文语料难度与学生能力分析动态匹配的方法 |
CN111078874A (zh) * | 2019-11-29 | 2020-04-28 | 华中师范大学 | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
CN111090985A (zh) * | 2019-11-28 | 2020-05-01 | 华中师范大学 | 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法 |
CN113408295A (zh) * | 2021-06-22 | 2021-09-17 | 深圳证券信息有限公司 | 文本可读性评价方法、计算机设备及计算机存储介质 |
CN113761898A (zh) * | 2021-08-30 | 2021-12-07 | 杭州菲助科技有限公司 | 将英文视频或文本难度对标至国内1-9年级的方法和系统 |
WO2023137917A1 (zh) * | 2022-01-21 | 2023-07-27 | 平安科技(深圳)有限公司 | 基于分类模型的文本难度分类方法、装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090197225A1 (en) * | 2008-01-31 | 2009-08-06 | Kathleen Marie Sheehan | Reading level assessment method, system, and computer program product for high-stakes testing applications |
CN101814066A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 文本阅读难度判断设备及其方法 |
CN103207854A (zh) * | 2012-01-11 | 2013-07-17 | 宋曜廷 | 中文文本可读性计量系统及其方法 |
JP5322047B2 (ja) * | 2007-06-27 | 2013-10-23 | 国立大学法人長岡技術科学大学 | 文章の読み易さ評価システム |
US20140012569A1 (en) * | 2012-07-03 | 2014-01-09 | National Taiwan Normal University | System and Method Using Data Reduction Approach and Nonlinear Algorithm to Construct Chinese Readability Model |
US20140342320A1 (en) * | 2013-02-15 | 2014-11-20 | Voxy, Inc. | Language learning systems and methods |
CN105068993A (zh) * | 2015-07-31 | 2015-11-18 | 成都思戴科科技有限公司 | 一种评估文本难度的方法 |
CN106227756A (zh) * | 2016-07-14 | 2016-12-14 | 苏州大学 | 一种基于情感分类的股票指数预测方法及系统 |
CN106951406A (zh) * | 2017-03-13 | 2017-07-14 | 广西大学 | 一种基于文本语言变量的汉语阅读能力的分级方法 |
-
2017
- 2017-12-11 CN CN201711309105.5A patent/CN107977362B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5322047B2 (ja) * | 2007-06-27 | 2013-10-23 | 国立大学法人長岡技術科学大学 | 文章の読み易さ評価システム |
US20090197225A1 (en) * | 2008-01-31 | 2009-08-06 | Kathleen Marie Sheehan | Reading level assessment method, system, and computer program product for high-stakes testing applications |
CN101814066A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 文本阅读难度判断设备及其方法 |
CN103207854A (zh) * | 2012-01-11 | 2013-07-17 | 宋曜廷 | 中文文本可读性计量系统及其方法 |
US20140012569A1 (en) * | 2012-07-03 | 2014-01-09 | National Taiwan Normal University | System and Method Using Data Reduction Approach and Nonlinear Algorithm to Construct Chinese Readability Model |
US20140342320A1 (en) * | 2013-02-15 | 2014-11-20 | Voxy, Inc. | Language learning systems and methods |
CN105068993A (zh) * | 2015-07-31 | 2015-11-18 | 成都思戴科科技有限公司 | 一种评估文本难度的方法 |
CN106227756A (zh) * | 2016-07-14 | 2016-12-14 | 苏州大学 | 一种基于情感分类的股票指数预测方法及系统 |
CN106951406A (zh) * | 2017-03-13 | 2017-07-14 | 广西大学 | 一种基于文本语言变量的汉语阅读能力的分级方法 |
Non-Patent Citations (3)
Title |
---|
LAU TAK PANG: "Chinese Readability Analysis and its Applications on the Internet", 《A THESIS SUBMITTED IN PARTIAL FULFILMENT OF THE REQUIREMENTS FOR THE DEGREE OF MASTER OF PHILOSOPHY IN COMPUTER SCIENCE AND ENGINEERING》 * |
ZIBIN ZHENG等: "User-Specific Rating Prediction for Mobile", 《2016 IEEE INTERNATIONAL CONFERENCE ON WEB SERVICES》 * |
赵明等: "基于word2vec 和LSTM 的饮食健康文本分类研究", 《农业机械学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002430B (zh) * | 2018-07-10 | 2022-11-04 | 西安影视数据评估中心有限公司 | 影视剧本统筹分页方法 |
CN109002430A (zh) * | 2018-07-10 | 2018-12-14 | 西安影视数据评估中心有限公司 | 影视剧本统筹分页方法 |
CN110889570A (zh) * | 2018-09-10 | 2020-03-17 | 周刚 | 一种英语文本难度指数的计算方法 |
CN110895787A (zh) * | 2018-09-10 | 2020-03-20 | 周刚 | 一种用于英文语料难度与学生能力分析动态匹配的方法 |
CN110889570B (zh) * | 2018-09-10 | 2023-04-25 | 周刚 | 一种英语文本难度指数的计算方法 |
CN109740435A (zh) * | 2018-11-30 | 2019-05-10 | 四川译讯信息科技有限公司 | 一种图片类文件复杂度判定方法及平台 |
CN109933668A (zh) * | 2019-03-19 | 2019-06-25 | 北京师范大学 | 简体汉语文本可读性的分级评估建模方法 |
CN110472236A (zh) * | 2019-07-23 | 2019-11-19 | 浙江大学城市学院 | 一种基于注意力机制的双向gru文本可读性评估方法 |
CN111090985B (zh) * | 2019-11-28 | 2023-04-28 | 华中师范大学 | 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法 |
CN111090985A (zh) * | 2019-11-28 | 2020-05-01 | 华中师范大学 | 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法 |
CN111078874B (zh) * | 2019-11-29 | 2023-04-07 | 华中师范大学 | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
CN111078874A (zh) * | 2019-11-29 | 2020-04-28 | 华中师范大学 | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
CN113408295B (zh) * | 2021-06-22 | 2023-02-28 | 深圳证券信息有限公司 | 文本可读性评价方法、计算机设备及计算机存储介质 |
CN113408295A (zh) * | 2021-06-22 | 2021-09-17 | 深圳证券信息有限公司 | 文本可读性评价方法、计算机设备及计算机存储介质 |
CN113761898A (zh) * | 2021-08-30 | 2021-12-07 | 杭州菲助科技有限公司 | 将英文视频或文本难度对标至国内1-9年级的方法和系统 |
WO2023137917A1 (zh) * | 2022-01-21 | 2023-07-27 | 平安科技(深圳)有限公司 | 基于分类模型的文本难度分类方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107977362B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977362A (zh) | 一种用于中文文本定级以及计算中文文本难度评分的方法 | |
Sóskuthy | Evaluating generalised additive mixed modelling strategies for dynamic speech analysis | |
CN111914532B (zh) | 一种中文作文评分方法 | |
CN109933668B (zh) | 简体汉语文本可读性的分级评估建模方法 | |
CN109299380B (zh) | 在线教育平台中基于多维特征的习题个性化推荐方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN110427609B (zh) | 一种写人作文篇章结构合理性自动评测方法 | |
CN110533974A (zh) | 一种智能组卷方法、系统和计算机可读存储介质 | |
CN104915448A (zh) | 一种基于层次卷积网络的实体与段落链接方法 | |
CN110413988A (zh) | 文本信息匹配度量的方法、装置、服务器及存储介质 | |
CN104820724B (zh) | 文本类教育资源知识点预测模型获得方法及模型应用方法 | |
CN105843801A (zh) | 多译本平行语料库的构建系统 | |
CN103473217B (zh) | 从文本中抽取关键词的方法和装置 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN105630768A (zh) | 一种基于层叠条件随机场的产品名识别方法及装置 | |
CN103870000A (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
CN110705312B (zh) | 一种基于语义分析快速开发工业机理模型的开发系统 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN103970806A (zh) | 一种建立歌词感情分类模型的方法及装置 | |
CN110147552B (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
CN108073571A (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
TW201403354A (zh) | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 | |
CN106649250A (zh) | 一种情感新词的识别方法及装置 | |
CN105868187A (zh) | 多译本平行语料库的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |