CN112101017B - 一种为快速表达力测试生成题目的方法 - Google Patents

一种为快速表达力测试生成题目的方法 Download PDF

Info

Publication number
CN112101017B
CN112101017B CN202010254294.6A CN202010254294A CN112101017B CN 112101017 B CN112101017 B CN 112101017B CN 202010254294 A CN202010254294 A CN 202010254294A CN 112101017 B CN112101017 B CN 112101017B
Authority
CN
China
Prior art keywords
words
word
language
list
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010254294.6A
Other languages
English (en)
Other versions
CN112101017A (zh
Inventor
马徐骏
刘嘉
詹晨
孟磊
王浩宇
褚东宇
汤大业
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Haoxuan Education Technology Co.,Ltd.
Original Assignee
Shanghai Mien Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mien Network Technology Co ltd filed Critical Shanghai Mien Network Technology Co ltd
Priority to CN202010254294.6A priority Critical patent/CN112101017B/zh
Publication of CN112101017A publication Critical patent/CN112101017A/zh
Application granted granted Critical
Publication of CN112101017B publication Critical patent/CN112101017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及机器学习技术领域,尤其为一种为快速表达力测试生成题目的方法,目前表达能力测试人工命题效率低下,存在人为因素偏差,且准备一次测试题目往往需要耗费较大的人力和时间成本。针对这一问题,本发明提出了一种在表达能力测试中可以使用的快速题目生成技术,结合时下流行的网络爬虫技术与表达力评测语言材料的基本特征,利用自然语言处理技术,快速提取文本有效信息,有效地帮助专家生成正式使用的表达力评测题目。

Description

一种为快速表达力测试生成题目的方法
技术领域
本发明涉及机器学习技术领域,尤其是一种为快速表达力测试生成题目的方法。
背景技术
快速表达力测试是一种新型口语测试模式,相较于传统汉语言测试,快速表达力测试有应用面广、测试快捷、评测客观的优点。但目前快速表达力测试的题目仍由人工命题,该方法效率较低,准备一次测试题目往往需要耗费较大的人力和时间成本。
发明内容
本发明的一个目的是通过提出一种为快速表达力测试生成题目的方法,以解决上述背景技术中提出的当前快速表达力测试的题目完全由人工命题,效率较低,并且带有较大的出题者主观因素的缺陷。
本发明采用的技术方案如下:使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
作为本发明的一种优选技术方案:所述S1中还可以手动录入语言材料资源。
作为本发明的一种优选技术方案:所述S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
作为本发明的一种优选技术方案:所述S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
作为本发明的一种优选技术方案:所述S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
作为本发明的一种优选技术方案:还可由人工对生成的题目正文TZW进行调整。
作为本发明的一种优选技术方案:所述S2还可由开源分词工具或商用接口完成。
作为本发明的一种优选技术方案:所述S4中的主旨句可以由人工重新选取。
作为本发明的一种优选技术方案:所述S5中E默认为语言材料长度的1/20或由人工按需重新指定,集合R2可以由人工介入,新增删除或修改。
本发明的有益效果是:
1、本发明使用了网络爬虫技术,从网络资源中爬取语言材料,这使得语言材料来源具有多样性,避免了出题专家主观因素的影响。
2、本发明使用了自然语言处理技术,从语言材料中获取了大量的关键词,这给出题专家提供了足够的词库提示。结合这两个主要特点,本发明可以减少快速表达力测试出题过程中的人工劳动,降低人工劳动的难度,在很大程度上提高了出题效率。
附图说明
图1为本发明的步骤示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
参照图1,本发明优选实施例提供了一种为快速表达力测试生成题目的方法,使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;具体的,上述过程所涉及到的过滤和分类操作,目的是过滤掉内容不适合作为测试题目的语言材料。
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性较强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E默认为语言材料长度的1/20。
实施例2:
本发明优选实施例提供了一种为快速表达力测试生成题目的方法,使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
本实施例中:S1中爬虫技术获取资料由手动录入语言材料资源。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E默认为语言材料长度的1/20。
实施例3:
本发明优选实施例提供了一种为快速表达力测试生成题目的方法,使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性较强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1中由人工对生成的题目正文TZW进行调整。
本实施例中:S5中E默认为语言材料长度的1/20。
实施例4:
本发明优选实施例提供了一种为快速表达力测试生成题目的方法,使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,由开源分词工具或商用接口完成词频统计和词性提取工作;具体的,可采用开源的jieba等分词工具,当然也可选用其他商用分词接口,本实施例中优选使用jieba等开源工具分词的过程中可以加载自定义的词库,提高分词准确性。
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性较强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E默认为语言材料长度的1/20。
实施例5:
本发明优选实施例提供了一种为快速表达力测试生成题目的方法,使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,主旨句由人工重新选取得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性较强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E默认为语言材料长度的1/20。
实施例6:
本发明优选实施例提供了一种为快速表达力测试生成题目的方法,使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类以实现分词的目的,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性较强的网站。
本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。
本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。
本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。
本实施例中:S5中E由人工按需指定,集合R2可以由人工介入,新增删除或修改。
需要补充的是,上述各个实施例中使用Textrank算法对语言材料进行自动摘要处理,该步操作可选用LexRank算法以取得更快的速度。
作为公开,本发明中涉及到的取同义词过程使用开源的同义词词库synonyms进行,也可选用其他可用方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种为快速表达力测试生成题目的方法,其特征在于:使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类,并存储在数据仓库中,过滤和分类操作方式需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃,分词结果组成列表F,列表F包含语言材料切分后的词语和每个词语对应的词性,得到的语言材料按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的Text Rank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
2.根据权利要求1所述的为快速表达力测试生成题目的方法,其特征在于:所述S1中还可以手动录入语言材料资源。
3.根据权利要求1所述的为快速表达力测试生成题目的方法,其特征在于:由人工对生成的题目正文TZW进行调整。
4.根据权利要求1所述的为快速表达力测试生成题目的方法,其特征在于:所述S2由开源分词工具或商用接口完成。
5.根据权利要求1所述的为快速表达力测试生成题目的方法,其特征在于:所述S4中的主旨句由人工重新选取。
6.根据权利要求1所述的为快速表达力测试生成题目的方法,其特征在于:所述S5中E默认为语言材料长度的1/20或由人工按需重新指定,集合R2由人工介入,新增删除或修改。
CN202010254294.6A 2020-04-02 2020-04-02 一种为快速表达力测试生成题目的方法 Active CN112101017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010254294.6A CN112101017B (zh) 2020-04-02 2020-04-02 一种为快速表达力测试生成题目的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010254294.6A CN112101017B (zh) 2020-04-02 2020-04-02 一种为快速表达力测试生成题目的方法

Publications (2)

Publication Number Publication Date
CN112101017A CN112101017A (zh) 2020-12-18
CN112101017B true CN112101017B (zh) 2022-09-06

Family

ID=73749709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010254294.6A Active CN112101017B (zh) 2020-04-02 2020-04-02 一种为快速表达力测试生成题目的方法

Country Status (1)

Country Link
CN (1) CN112101017B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906895B (zh) * 2021-02-09 2022-12-06 柳州智视科技有限公司 一种题目对象仿造的方法
CN112800182A (zh) * 2021-02-10 2021-05-14 联想(北京)有限公司 试题生成方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346389A (zh) * 2013-08-01 2015-02-11 安徽科大讯飞信息科技股份有限公司 口语考试半开放题型的评分方法及系统
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
WO2017142127A1 (ko) * 2016-02-19 2017-08-24 김병인 단어/숙어 시험 문제 출제 방법, 서버 및 컴퓨터 프로그램
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN110362688A (zh) * 2019-06-14 2019-10-22 北京百度网讯科技有限公司 试题标注方法、装置、设备及计算机可读存储介质
CN110688836A (zh) * 2019-09-30 2020-01-14 湖南大学 基于监督学习的领域词典自动化构建方法
CN110796911A (zh) * 2018-08-01 2020-02-14 世学(深圳)科技有限公司 一种自动产生测试题目的语言学习系统及其语言学习方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346389A (zh) * 2013-08-01 2015-02-11 安徽科大讯飞信息科技股份有限公司 口语考试半开放题型的评分方法及系统
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
WO2017142127A1 (ko) * 2016-02-19 2017-08-24 김병인 단어/숙어 시험 문제 출제 방법, 서버 및 컴퓨터 프로그램
CN110796911A (zh) * 2018-08-01 2020-02-14 世学(深圳)科技有限公司 一种自动产生测试题目的语言学习系统及其语言学习方法
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN110362688A (zh) * 2019-06-14 2019-10-22 北京百度网讯科技有限公司 试题标注方法、装置、设备及计算机可读存储介质
CN110688836A (zh) * 2019-09-30 2020-01-14 湖南大学 基于监督学习的领域词典自动化构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于词句重要性的中文专利关键词自动抽取研究;王志宏等;《情报理论与实践》;20180608;第41卷(第9期);全文 *
抽取式自动文本生成算法;艾丽斯等;《华东师范大学学报(自然科学版)》;20180725(第4期);全文 *

Also Published As

Publication number Publication date
CN112101017A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN109710947B (zh) 电力专业词库生成方法及装置
US10437867B2 (en) Scenario generating apparatus and computer program therefor
US10248715B2 (en) Media content recommendation method and apparatus
US10095685B2 (en) Phrase pair collecting apparatus and computer program therefor
CN112101017B (zh) 一种为快速表达力测试生成题目的方法
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN101609459A (zh) 一种情感特征词提取系统
US10430717B2 (en) Complex predicate template collecting apparatus and computer program therefor
CN111191022A (zh) 商品短标题生成方法及装置
CN108073565A (zh) 词语规范化的方法和设备及机器翻译方法和设备
Lynn et al. Swiftrank: an unsupervised statistical approach of keyword and salient sentence extraction for individual documents
CN115460459A (zh) 基于ai的视频生成方法、装置和电子设备
CN104615705B (zh) 网页质量检测方法及装置
CN110889292A (zh) 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
CN112101005B (zh) 一种快速表达力测试题目生成和动态调整方法
WO2013143362A1 (zh) 一种为文本添加超级链接的方法,装置以及计算机存储介质
Asaga et al. ONOMATOPEDIA: onomatopoeia online example dictionary system extracted from data on the web
Pai Text summarizer using abstractive and extractive method
CN114328865A (zh) 一种改进的TextRank多特征融合教育资源关键词提取方法
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム
CN104102739B (zh) 一种扩充实体库的方法及装置
CN109948128B (zh) 一种辅助编辑系统
He et al. CCNU at TAC 2008: Proceeding on Using Semantic Method for Automated Summarization Yield.
Bhandare et al. Automatic era: presentation slides from academic paper
JP2002297635A (ja) 要約文作成システム及びその方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230601

Address after: 200135 room 118, building 20, No. 1-42, Lane 83, Hongxiang North Road, Lingang New Area, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: Shanghai Haoxuan Education Technology Co.,Ltd.

Address before: Room n275, 66 Miaojing Road, Minhang District, Shanghai, 201100

Patentee before: Shanghai mien Network Technology Co.,Ltd.