CN112101005B - 一种快速表达力测试题目生成和动态调整方法 - Google Patents

一种快速表达力测试题目生成和动态调整方法 Download PDF

Info

Publication number
CN112101005B
CN112101005B CN202010254155.3A CN202010254155A CN112101005B CN 112101005 B CN112101005 B CN 112101005B CN 202010254155 A CN202010254155 A CN 202010254155A CN 112101005 B CN112101005 B CN 112101005B
Authority
CN
China
Prior art keywords
word
words
topic
language
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010254155.3A
Other languages
English (en)
Other versions
CN112101005A (zh
Inventor
马徐骏
刘嘉
詹晨
孟磊
王浩宇
褚东宇
汤大业
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Haoxuan Education Technology Co.,Ltd.
Original Assignee
Shanghai Mien Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mien Network Technology Co ltd filed Critical Shanghai Mien Network Technology Co ltd
Priority to CN202010254155.3A priority Critical patent/CN112101005B/zh
Publication of CN112101005A publication Critical patent/CN112101005A/zh
Application granted granted Critical
Publication of CN112101005B publication Critical patent/CN112101005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及机器学习技术领域,尤其为一种快速表达力测试题目生成和动态调整方法,目前快速表达力测试的题目仍由人工命题,该方法效率较低,准备一次测试题目往往需要耗费较大的人力和时间成本,且题目的词库无法动态调整,题目的区分度不能随着测试数据的积累而提高。针对这些不足,本发明提供了一种快速表达力测试的语言评测题目生成方法,使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,可以较大程度地节省人力与时间成本,且可使用机器学习技术对生成题目的词库进行动态调整,使题目在使用过程中随测试数据的积累更具有区分度。

Description

一种快速表达力测试题目生成和动态调整方法
技术领域
本发明涉及机器学习技术领域,尤其是一种快速表达力测试题目生成和动态调整方法。
背景技术
快速表达力测试是一种新型口语测试模式,相较于传统汉语言测试,快速表达力测试有应用面广、测试快捷、评测客观的优点。但目前快速表达力测试的题目仍由人工命题,该方法效率较低,准备一次测试题目往往需要耗费较大的人力和时间成本。
发明内容
本发明的一个目的是通过提出一种快速表达力测试题目生成和动态调整方法,以解决上述背景技术中提出的当前快速表达力测试的题目完全由人工命题,效率较低,并且带有较大的出题者主观因素的缺陷。
本发明采用的技术方案如下:使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,且可使用机器学习技术对生成题目的词库进行动态调整;该方法的步骤如下:
S1:找到可供参考的语言材料,使用人工录入方法录入已有语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T;
S10:在题目T生成之后,经人工筛选投放到题库,当题目使用次数达到预期值时,对该题每个答题者的答案,使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2,统计所有答题者的词库H1中所有词语得到H,对H中每个词语W,计算答案中包含W的回答者占所有回答者的比例HR1,若HR1>0.8则认为词语W区分度较低,若W存在于原主旨词集合TZZ,则降低词语W所在组的分数权重,若HR1<0.3则认为词语W较为生僻,若W存在于原主旨词集合TZZ,同样需要降低W所在组的分数权重。若HR1在0.5和0.85之间,则认为词语W有较好的区分度且不生僻,若W不在原主旨词集合TZZ,则将W及其同义词加入,并赋予该组词语初始分数权重,按同样方法对细节词集合TXJ进行调整。
作为本发明的一种优选技术方案:所述S1中使用人工录入方法录入已有语言材料还可替换为采用爬虫技术获取资料,爬虫技术获取资料的原始网站,可选用各类百科网站等知识性强的网站。
作为本发明的一种优选技术方案:所述S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
作为本发明的一种优选技术方案:所述S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
作为本发明的一种优选技术方案:所述S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
作为本发明的一种优选技术方案:还可由人工对生成的题目正文TZW进行调整。
作为本发明的一种优选技术方案:所述S2还可由开源分词工具或商用接口完成。
作为本发明的一种优选技术方案:所述S4中的主旨句可以由人工重新选取。
作为本发明的一种优选技术方案:所述S5中E默认为语言材料长度的1/20或由人工按需重新指定,集合R2可以由人工介入,新增删除或修改。
作为本发明的一种优选技术方案:所述S10中的步骤可多次进行。
本发明的有益效果是:
1、本发明使用了机器学习和自然语言处理技术。
2、本发明生成的题目词库可以随着测试数据的积累进行动态调整词库。结合这两个主要特点,本发明可以减少快速表达力测试出题过程中的人工劳动,降低人工劳动的难度,在很大程度上提高了出题效率,且可以动态调整词库和词语的分数权重,让题目在使用过程中随着测试数据的积累更具有区分度。
附图说明
图1为本发明的步骤示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
参照图1,本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法,使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,且可使用机器学习技术对生成题目的词库进行动态调整;该方法的步骤如下:
S1:找到可供参考的语言材料,使用人工录入方法录入已有语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T;
S10:在题目T生成之后,经人工筛选投放到题库,当题目使用次数达到预期值时,对该题每个答题者的答案,使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2,统计所有答题者的词库H1中所有词语得到H,对H中每个词语W,计算答案中包含W的回答者占所有回答者的比例HR1,若HR1>0.8则认为词语W区分度较低,若W存在于原主旨词集合TZZ,则降低词语W所在组的分数权重,若HR1<0.3则认为词语W较为生僻,若W存在于原主旨词集合TZZ,同样需要降低W所在组的分数权重。若HR1在0.5和0.85之间,则认为词语W有较好的区分度且不生僻,若W不在原主旨词集合TZZ,则将W及其同义词加入,并赋予该组词语初始分数权重,按同样方法对细节词集合TXJ进行调整。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E默认为语言材料长度的1/20。
本实施例中:S10中的步骤可多次进行。
实施例2:
本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法,使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,且可使用机器学习技术对生成题目的词库进行动态调整;该方法的步骤如下:
S1:采用爬虫技术获取资料,爬虫技术获取资料的原始网站,可选用各类百科网站等知识性强的网站,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T;
S10:在题目T生成之后,经人工筛选投放到题库,当题目使用次数达到预期值时,对该题每个答题者的答案,使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2,统计所有答题者的词库H1中所有词语得到H,对H中每个词语W,计算答案中包含W的回答者占所有回答者的比例HR1,若HR1>0.8则认为词语W区分度较低,若W存在于原主旨词集合TZZ,则降低词语W所在组的分数权重,若HR1<0.3则认为词语W较为生僻,若W存在于原主旨词集合TZZ,同样需要降低W所在组的分数权重。若HR1在0.5和0.85之间,则认为词语W有较好的区分度且不生僻,若W不在原主旨词集合TZZ,则将W及其同义词加入,并赋予该组词语初始分数权重,按同样方法对细节词集合TXJ进行调整。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E默认为语言材料长度的1/20。
所述S10中的步骤可多次进行。
实施例3:
本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法,使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,且可使用机器学习技术对生成题目的词库进行动态调整;该方法的步骤如下:
S1:找到可供参考的语言材料,使用人工录入方法录入已有语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T;
S10:在题目T生成之后,经人工筛选投放到题库,当题目使用次数达到预期值时,对该题每个答题者的答案,使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2,统计所有答题者的词库H1中所有词语得到H,对H中每个词语W,计算答案中包含W的回答者占所有回答者的比例HR1,若HR1>0.8则认为词语W区分度较低,若W存在于原主旨词集合TZZ,则降低词语W所在组的分数权重,若HR1<0.3则认为词语W较为生僻,若W存在于原主旨词集合TZZ,同样需要降低W所在组的分数权重。若HR1在0.5和0.85之间,则认为词语W有较好的区分度且不生僻,若W不在原主旨词集合TZZ,则将W及其同义词加入,并赋予该组词语初始分数权重,按同样方法对细节词集合TXJ进行调整。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1中由人工对生成的题目正文TZW进行调整。
本实施例中:S5中E默认为语言材料长度的1/20。
本实施例中:S10中的步骤可多次进行。
实施例4:
本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法,使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,且可使用机器学习技术对生成题目的词库进行动态调整;该方法的步骤如下:
S1:找到可供参考的语言材料,使用人工录入方法录入已有语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T;
S10:在题目T生成之后,经人工筛选投放到题库,当题目使用次数达到预期值时,对该题每个答题者的答案,使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2,统计所有答题者的词库H1中所有词语得到H,对H中每个词语W,计算答案中包含W的回答者占所有回答者的比例HR1,若HR1>0.8则认为词语W区分度较低,若W存在于原主旨词集合TZZ,则降低词语W所在组的分数权重,若HR1<0.3则认为词语W较为生僻,若W存在于原主旨词集合TZZ,同样需要降低W所在组的分数权重。若HR1在0.5和0.85之间,则认为词语W有较好的区分度且不生僻,若W不在原主旨词集合TZZ,则将W及其同义词加入,并赋予该组词语初始分数权重,按同样方法对细节词集合TXJ进行调整。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E默认为语言材料长度的1/20。
本实施例中:S10中的步骤可多次进行。
实施例5:
本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法,使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,且可使用机器学习技术对生成题目的词库进行动态调整;该方法的步骤如下:
S1:找到可供参考的语言材料,使用人工录入方法录入已有语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T;
S10:在题目T生成之后,经人工筛选投放到题库,当题目使用次数达到预期值时,对该题每个答题者的答案,使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2,统计所有答题者的词库H1中所有词语得到H,对H中每个词语W,计算答案中包含W的回答者占所有回答者的比例HR1,若HR1>0.8则认为词语W区分度较低,若W存在于原主旨词集合TZZ,则降低词语W所在组的分数权重,若HR1<0.3则认为词语W较为生僻,若W存在于原主旨词集合TZZ,同样需要降低W所在组的分数权重。若HR1在0.5和0.85之间,则认为词语W有较好的区分度且不生僻,若W不在原主旨词集合TZZ,则将W及其同义词加入,并赋予该组词语初始分数权重,按同样方法对细节词集合TXJ进行调整。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E默认为语言材料长度的1/20。
本实施例中:S10中的步骤可多次进行。
实施例6:
本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法,使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,且可使用机器学习技术对生成题目的词库进行动态调整;该方法的步骤如下:
S1:找到可供参考的语言材料,使用人工录入方法录入已有语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T;
S10:在题目T生成之后,经人工筛选投放到题库,当题目使用次数达到预期值时,对该题每个答题者的答案,使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2,统计所有答题者的词库H1中所有词语得到H,对H中每个词语W,计算答案中包含W的回答者占所有回答者的比例HR1,若HR1>0.8则认为词语W区分度较低,若W存在于原主旨词集合TZZ,则降低词语W所在组的分数权重,若HR1<0.3则认为词语W较为生僻,若W存在于原主旨词集合TZZ,同样需要降低W所在组的分数权重。若HR1在0.5和0.85之间,则认为词语W有较好的区分度且不生僻,若W不在原主旨词集合TZZ,则将W及其同义词加入,并赋予该组词语初始分数权重,按同样方法对细节词集合TXJ进行调整。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E由人工按需指定,集合R2可以由人工介入,新增删除或修改。
本实施例中:S10中的步骤可多次进行。
需要补充的是,上述各个实施例中使用Textrank算法对语言材料进行自动摘要处理,该步操作可选用LexRank算法以取得更快的速度。
作为公开,本发明中涉及到的取同义词过程使用开源的同义词词库synonyms进行,也可选用其他可用方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种快速表达力测试题目生成和动态调整方法,其特征在于:使用机器学习和自然语言处理技术,基于计算机软件生成快速表达力测试的题目,且可使用机器学习技术对生成题目的词库进行动态调整;该方法的步骤如下:
S1:找到可供参考的语言材料,使用人工录入方法录入已有语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T;
S10:在题目T生成之后,经人工筛选投放到题库,当题目使用次数达到预期值时,对该题每个答题者的答案,使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2,统计所有答题者的词库H1中所有词语得到H,对H中每个词语W,计算答案中包含W的回答者占所有回答者的比例HR1,若HR1>0.8则认为词语W区分度较低,若W存在于原主旨词集合TZZ,则降低词语W所在组的分数权重,若HR1<0.3则认为词语W较为生僻,若W存在于原主旨词集合TZZ,同样需要降低W所在组的分数权重,若HR1在0.5和0.85之间,则认为词语W有较好的区分度且不生僻,若W不在原主旨词集合TZZ,则将W及其同义词加入,并赋予该组词语初始分数权重,按同样方法对细节词集合TXJ进行调整。
2.根据权利要求1所述的快速表达力测试题目生成和动态调整方法,其特征在于:所述S1中使用人工录入方法录入已有语言材料还可替换为采用爬虫技术获取资料。
3.根据权利要求1所述的快速表达力测试题目生成和动态调整方法,其特征在于:所述S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
4.根据权利要求1所述的快速表达力测试题目生成和动态调整方法,其特征在于:所述S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
5.根据权利要求1所述的快速表达力测试题目生成和动态调整方法,其特征在于:所述S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
6.根据权利要求5所述的快速表达力测试题目生成和动态调整方法,其特征在于:还可由人工对生成的题目正文TZW进行调整。
7.根据权利要求1所述的快速表达力测试题目生成和动态调整方法,其特征在于:所述S2还可由开源分词工具或商用接口完成。
8.根据权利要求1所述的快速表达力测试题目生成和动态调整方法,其特征在于:所述S4中的主旨句可以由人工重新选取。
9.根据权利要求1所述的快速表达力测试题目生成和动态调整方法,其特征在于:所述S5中E默认为语言材料长度的1/20或由人工按需重新指定,集合R2可以由人工介入,新增删除或修改。
10.根据权利要求1所述的快速表达力测试题目生成和动态调整方法,其特征在于:所述S10中的步骤可多次进行。
CN202010254155.3A 2020-04-02 2020-04-02 一种快速表达力测试题目生成和动态调整方法 Active CN112101005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010254155.3A CN112101005B (zh) 2020-04-02 2020-04-02 一种快速表达力测试题目生成和动态调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010254155.3A CN112101005B (zh) 2020-04-02 2020-04-02 一种快速表达力测试题目生成和动态调整方法

Publications (2)

Publication Number Publication Date
CN112101005A CN112101005A (zh) 2020-12-18
CN112101005B true CN112101005B (zh) 2022-08-30

Family

ID=73749492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010254155.3A Active CN112101005B (zh) 2020-04-02 2020-04-02 一种快速表达力测试题目生成和动态调整方法

Country Status (1)

Country Link
CN (1) CN112101005B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906895B (zh) * 2021-02-09 2022-12-06 柳州智视科技有限公司 一种题目对象仿造的方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377245A (zh) * 2012-04-27 2013-10-30 腾讯科技(深圳)有限公司 一种自动问答方法及装置
CN104346389A (zh) * 2013-08-01 2015-02-11 安徽科大讯飞信息科技股份有限公司 口语考试半开放题型的评分方法及系统
CN106021288A (zh) * 2016-04-27 2016-10-12 南京慕测信息科技有限公司 一种基于自然语言分析的随堂测试答案快速自动分类方法
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
CN106610932A (zh) * 2015-10-27 2017-05-03 中兴通讯股份有限公司 一种语料处理方法和装置及语料分析方法和装置
CN106940788A (zh) * 2017-03-07 2017-07-11 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN109299865A (zh) * 2018-09-06 2019-02-01 西南大学 基于语义分析的心理测评系统及方法、信息数据处理终端
CN109767366A (zh) * 2019-01-08 2019-05-17 汪胜利 一种实时扫描分析单词记忆效果的计算机雷达系统
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN110334202A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 基于新闻应用软件的用户兴趣标签构建方法及相关设备
CN110737768A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及系统
CN110929043A (zh) * 2019-11-28 2020-03-27 北京智齿博创科技有限公司 业务问题提取方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377245A (zh) * 2012-04-27 2013-10-30 腾讯科技(深圳)有限公司 一种自动问答方法及装置
CN104346389A (zh) * 2013-08-01 2015-02-11 安徽科大讯飞信息科技股份有限公司 口语考试半开放题型的评分方法及系统
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
CN106610932A (zh) * 2015-10-27 2017-05-03 中兴通讯股份有限公司 一种语料处理方法和装置及语料分析方法和装置
CN106021288A (zh) * 2016-04-27 2016-10-12 南京慕测信息科技有限公司 一种基于自然语言分析的随堂测试答案快速自动分类方法
CN106940788A (zh) * 2017-03-07 2017-07-11 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN109299865A (zh) * 2018-09-06 2019-02-01 西南大学 基于语义分析的心理测评系统及方法、信息数据处理终端
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及系统
CN109767366A (zh) * 2019-01-08 2019-05-17 汪胜利 一种实时扫描分析单词记忆效果的计算机雷达系统
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN110334202A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 基于新闻应用软件的用户兴趣标签构建方法及相关设备
CN110737768A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110929043A (zh) * 2019-11-28 2020-03-27 北京智齿博创科技有限公司 业务问题提取方法及装置

Also Published As

Publication number Publication date
CN112101005A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN109710947B (zh) 电力专业词库生成方法及装置
WO2008098507A1 (fr) Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
CN106066867B (zh) 一种提取摘要的方法及装置
CN109101551B (zh) 一种问答知识库的构建方法及装置
JP3918374B2 (ja) 文書検索装置および方法
CN112101017B (zh) 一种为快速表达力测试生成题目的方法
Efat et al. Automated Bangla text summarization by sentence scoring and ranking
US20200151220A1 (en) Interactive representation of content for relevance detection and review
CN112101005B (zh) 一种快速表达力测试题目生成和动态调整方法
Lynn et al. Swiftrank: an unsupervised statistical approach of keyword and salient sentence extraction for individual documents
Verberne et al. Query term suggestion in academic search
US20220121712A1 (en) Interactive representation of content for relevance detection and review
US20240061874A1 (en) A text summarization performance evaluation method sensitive to text categorization and a summarization system using the said method
Gupta A survey of text summarizers for Indian Languages and comparison of their performance
Whyman et al. Evaluation metrics for a translation memory system
Asaga et al. ONOMATOPEDIA: onomatopoeia online example dictionary system extracted from data on the web
Müürisep et al. ESTSUM-Estonian newspaper texts summarizer
Megala et al. Feature extraction based legal document summarization
Georgantopoulos MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム
CN109948128B (zh) 一种辅助编辑系统
CN113553859A (zh) 一种基于深度语义分析的英语写作评价系统
Yu et al. Automatic text summarization based on lexical chains and structural features
JP3385913B2 (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2002297635A (ja) 要約文作成システム及びその方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230601

Address after: 200135 room 118, building 20, No. 1-42, Lane 83, Hongxiang North Road, Lingang New Area, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: Shanghai Haoxuan Education Technology Co.,Ltd.

Address before: Room n275, 66 Miaojing Road, Minhang District, Shanghai, 201100

Patentee before: Shanghai mien Network Technology Co.,Ltd.