CN108197137A

CN108197137A - 文本的处理方法、装置、存储介质、处理器和终端

Info

Publication number: CN108197137A
Application number: CN201711160976.5A
Authority: CN
Inventors: 尹志超
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shirui Electronics Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shirui Electronics Co Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2018-06-22

Abstract

本发明公开了一种文本的处理方法、装置、存储介质、处理器和终端。该方法包括：从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，目标文本包括：与原始文本匹配的备选题目；根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目。本发明解决了相关技术中通过人工方式凭借实际教学经验为学生布置课后练习的方式操作过程复杂且缺乏针对性的技术问题。

Description

文本的处理方法、装置、存储介质、处理器和终端

技术领域

本发明涉及计算机领域，具体而言，涉及一种文本的处理方法、装置、存储介质、处理器和终端。

背景技术

目前，在教育机构中，授课教师在每节课为学生讲授具体知识之后，会在临近下课时段为学生布置相关的课后练习。在授课教材的每一小节通常会设置与本小节内容相对应的较为简单的习题，以帮助学生巩固对课堂所学知识的理解。另外，在每一章节的全部内容教授完毕后，授课教材还在附带与本章授课内容相对应的较为复杂的综合类习题，以帮助学生进一步加深对课堂所学知识的理解。

相关技术中所提供的为学生布置课后练习的方式通常是授课教师根据自身的教学经验从每一小节和/或每一章节的配套练习中选取题目或者直接随机从课后练习中抽选题目，然后再布置给学生。

然而，上述通过人工方式凭借实际教学经验为学生布置课后练习的方式存在如下弊端：

鉴于在相同年级教授相同科目的各位授课教师的学历、教学年限等多个方面的综合素质互有不同(例如：二年级A班和B班的语文授课教师是本市教学经验丰富的特级教师，二年级C班和D班的语文授课教师是全国名牌大学刚毕业三年的新晋教师)，由此易造成各位授课教师在教学经验和教学理念上存在差异，故而难以发挥相同科目所有老师的长处。

(现在课后练习题都是老师自己根据自己的经验出給学生的，若是能总和所有老师教学关键字，总和选择课后习题，就能发挥所有老师的长处)，体检更好从题库中选择更针对性的练习题给学生巩固学习。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明至少部分实施例提供了一种文本的处理方法、装置、存储介质、处理器和终端，以至少解决相关技术中通过人工方式凭借实际教学经验为学生布置课后练习的方式操作过程复杂且缺乏针对性的技术问题。

根据本发明其中一实施例，提供了一种文本的处理方法，包括：

从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，目标文本包括：与原始文本匹配的备选题目；根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目。

可选地，从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合包括：将原始文本设置为分词对象并对原始文本进行分词处理，获取第一词语集合；将目标文本设置为分词对象并对目标文本中与备选题目关联的索引信息或描述信息进行分词处理，获取第二词语集合。

可选地，根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目包括：将第一词语集合与第二词语集合合并为第三词语集合；获取第三词语集合中的每个词语在原始文件中的出现频次，得到第一词频向量，以及获取第三词语集合中的每个词语在目标文本中的出现频次，得到第二词频向量；计算第一词频向量与第二词频向量的相似度，从目标文本中提取待使用的题目。

可选地，计算第一词频向量与第二词频向量的相似度，从目标文本中提取待使用的题目包括：采用余弦公式计算第一词频向量与第二词频向量之间的余弦相似度，其中，第一词频向量与第二词频向量之间的夹角越小，余弦相似度越高；按照余弦相似度的取值由高到低的顺序从目标文本中提取待使用的题目。

根据本发明其中一实施例，还提供了一种文本的处理装置，包括：

获取模块，用于从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，目标文本包括：与原始文本匹配的备选题目；处理模块，用于根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目。

可选地，获取模块包括：第一获取单元，用于将原始文本设置为分词对象并对原始文本进行分词处理，获取第一词语集合；第二获取单元，用于将目标文本设置为分词对象并对目标文本中与备选题目关联的索引信息或描述信息进行分词处理，获取第二词语集合。

可选地，处理模块包括：合并单元，用于将第一词语集合与第二词语集合合并为第三词语集合；第三获取单元，用于获取第三词语集合中的每个词语在原始文件中的出现频次，得到第一词频向量，以及获取第三词语集合中的每个词语在目标文本中的出现频次，得到第二词频向量；处理单元，用于计算第一词频向量与第二词频向量的相似度，从目标文本中提取待使用的题目。

可选地，处理单元包括：计算子单元，用于采用余弦公式计算第一词频向量与第二词频向量之间的余弦相似度，其中，第一词频向量与第二词频向量之间的夹角越小，余弦相似度越高；提取子单元，用于按照余弦相似度的取值由高到低的顺序从目标文本中提取待使用的题目。

根据本发明其中一实施例，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述文本的处理方法。

根据本发明其中一实施例，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述文本的处理方法。

根据本发明其中一实施例，还提供了一种终端，包括：一个或多个处理器，存储器，显示装置以及一个或多个程序，其中，一个或多个程序被存储在存储器中，并且被配置为由一个或多个处理器执行，一个或多个程序用于执行上述文本的处理方法。

在本发明至少部分实施例中，采用从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，目标文本包括：与原始文本匹配的备选题目的方式，根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目，达到了根据从多个用户在各自对应的信息载体上输入的字符信息的总和获取到的词语集合以及从备选题目中获取到的词语集合进行相似度计算进而从目标文本中提取待使用的题目的目的，从而实现了更加有针对性地为学生布置课后练习、简化操作过程、提高操作效率的技术效果，进而解决了相关技术中通过人工方式凭借实际教学经验为学生布置课后练习的方式操作过程复杂且缺乏针对性的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明其中一实施例的文本的处理方法的流程图；

图2是根据本发明其中一实施例的文本的处理装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明其中一实施例，提供了一种文本的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明其中一实施例的文本的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S12，从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，目标文本包括：与原始文本匹配的备选题目；

步骤S14，根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目。

通过上述步骤，可以采用从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，目标文本包括：与原始文本匹配的备选题目的方式，根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目，达到了根据从多个用户在各自对应的信息载体上输入的字符信息的总和获取到的词语集合以及从备选题目中获取到的词语集合进行相似度计算进而从目标文本中提取待使用的题目的目的，从而实现了更加有针对性地为学生布置课后练习、简化操作过程、提高操作效率的技术效果，进而解决了相关技术中通过人工方式凭借实际教学经验为学生布置课后练习的方式操作过程复杂且缺乏针对性的技术问题。

在具体实施过程中，上述原始文本可以是教育机构(例如：学校)中相同学段(例如：二年级)、相同课程(例如：数学)、相同课本(例如：全国九年义务教育统一教学读本)的授课教师在信息载体(例如：交互式智能白板)上书写的授课板书，其中，该授课板书可以包括但不限于：中文词语、英文词语、数学符号、数字符号、拼音符号、特殊符号。上述目标文本可以是与教学内容配套的习题库。

可选地，在步骤S12中，从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合可以包括以下执行步骤：

步骤S121，将原始文本设置为分词对象并对原始文本进行分词处理，获取第一词语集合；

步骤S122，将目标文本设置为分词对象并对目标文本中与备选题目关联的索引信息或描述信息进行分词处理，获取第二词语集合。

在优选实施例中，可以采用IKAnalyzer对同一个教育机构(例如：学校)中相同学段(例如：二年级)、相同课程(例如：数学)、相同课本(例如：全国九年义务教育统一教学读本)的授课教师(包括：教学经验丰富的特级教师、新入行的新晋教师)在信息载体(例如：交互式智能白板)上书写的授课板书进行分词处理，获取第一词语集合。对于教学板书上的重点、难点内容而言，授课教师通常会采用特殊颜色(例如：红色)、特殊符号(例如：重点符号、加粗横线)等方式加以标注。

此外，还需要采用IKAnalyzer对与教学内容配套的习题库中相关习题进行分词处理，获取第二词语集合。具体地，在与教学内容配套的习题库中包含了授课教材各个章节全部内容对应的习题。假设授课教师在授课板书上书写数学课本第三章第2节的相关教学内容，那么上述备选题目则是习题库中与该教学内容相关的课后习题。因此，在获取第二词语集合时，可以针对这部分课后习题的考点信息(相当于上述索引信息)或题干信息(相当于上述描述信息)进行分词处理。

可选地，步骤S14，根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目可以包括以下执行步骤：

步骤S141，将第一词语集合与第二词语集合合并为第三词语集合；获取第三词语集合中的每个词语在原始文件中的出现频次，得到第一词频向量，以及获取第三词语集合中的每个词语在目标文本中的出现频次，得到第二词频向量；

步骤S142，计算第一词频向量与第二词频向量的相似度，从目标文本中提取待使用的题目。

在采用IKAnalyzer对同一个教育机构中相同学段、相同课程、相同课本的授课教师在信息载体上书写的授课板书进行分词处理之后，可以从得到的分词中提取多个关键词组成第一词语集合。在采用IKAnalyzer对与教学内容配套的习题库中相关习题进行分词处理之后，可以从得到的分词中提取多个关键词组成第二词语集合。然后，再将将第一词语集合与第二词语集合合并为第三词语集合，并计算第三词语集合中的每个词语在授课板书中的出现频次，得到第一词频向量，以及计算第三词语集合中的每个词语在相关习题中的出现频次，得到第二词频向量。最后，再计算这两个词频向量的相似度，进而从习题集中提取待使用的习题并将其分配给学生，以实现智能地选择练习题目。

可选地，在步骤S142中，计算第一词频向量与第二词频向量的相似度，从目标文本中提取待使用的题目可以包括以下执行步骤：

步骤S1421，采用余弦公式计算第一词频向量与第二词频向量之间的余弦相似度，其中，第一词频向量与第二词频向量之间的夹角越小，余弦相似度越高；

步骤S1422，按照余弦相似度的取值由高到低的顺序从目标文本中提取待使用的题目。

在优选实施例中，可以采用如下余弦公式计算第一词频向量与第二词频向量之间的余弦相似度：

其中，A表示第一词频向量，B表示第二词频向量。余弦值越接近1，便表明第一词频向量与第二词频向量之间的夹角越接近0度，即第一词频向量与第二词频向量之间的余弦相似度越高，当夹角等于0时，即第一词频向量与第二词频向量相等，由此成为“余弦相似性”。

假设一所学校有两个小学语文二年级教室，其分别为A班和B班，A班的语文教师为教学经验丰富的特级教师，B班的语文教师为刚入行的新晋教师。这两位语文教师在教学过程中均使用交互式智能白板。为此，可以抓取并识别这两位语文教师在授课过程中在交互式智能白板上书写的板书中提到的重要知识点以构成第一词语集合，然后再从配套习题集中抓取并识别考点或题干信息中的关键词以侯成第二词语集合。然后，再将将第一词语集合与第二词语集合合并为第三词语集合，并计算第三词语集合中的每个词语在授课板书中的出现频次，得到第一词频向量，以及计算第三词语集合中的每个词语在相关习题中的出现频次，得到第二词频向量。最后，再采用余弦公式来计算这两个词频向量的相似度，进而从习题集中提取待使用的习题并将其分配给学生。

具体地，假设授课教师在板书中提到的重要知识点句式为：词语1词语2词语3词语4，词语5词语3词语7；相关习题的考点句式为：词语1词语2词语3词语4词语8，词语5词语9词语7，那么计算余弦相似度的过程如下：

第一步，将重要知识点句式分词为：词语1/词语2/词语3/词语4，词语5/词语3/词语7；以及将相关习题的考点句式分词为：词语1/词语2/词语3/词语4/词语8，词语5/词语9/词语7，由此得到重要知识点句式的分词集合为{词语1，词语2，词语3，词语4，词语5，词语7}，相关习题的考点句式分词集合为{词语1，词语2，词语3，词语4，词语5，词语7，词语8，词语9}。

第二步，将上述两个分词集合进一步合并为如下集合：

{词语1，词语2，词语3，词语4，词语5，词语6，词语7，词语8，词语9}。

第三步，计算每个词语在重要知识点句式中出现的频次：

词语1(1次)，词语2(1次)，词语3(2次)，词语4(1次)，词语5(1次)，词语6(1次)，词语7(0次)，词语8(0次)，词语9(0次)。

计算每个词语在相关习题的考点句式中出现的频次：

词语1(1次)，词语2(1次)，词语3(1次)，词语4(0次)，词语5(1次)，词语6(1次)，词语7(1次)，词语8(1次)，词语9(1次)。

第四步，分别得到第一词频向量与第二词频向量：

第一词频向量：(1，1，2，1，1，1，0，0，0)；

第二词频向量：(1，1，1，0，1，1，1，1，1)。

第五步，采用上述余弦公式计算第一词频向量与第二词频向量之间的余弦相似度，得到上述第一词频向量与第二词频向量之间的夹角的余弦值为0.81，其非常接近于1，由此说明上述重要知识点句式与相关习题的考点句式是非常相似的。

具体地，可以将第一词频向量与第二词频向量设想成空间中的两条线段，都是从原点([0,0,...])出发，指向不同的方向。这两条线段之间会形成一个夹角，如果该夹角为0度，则说明第一词频向量与第二词频向量的方向相同、线段重合，进而表示第一词频向量与第二词频向量所代表的文本完全相等。如果该夹角为90度，则说明第一词频向量与第二词频向量形成直角，方向完全不相似。如果该夹角为180度，则说明第一词频向量与第二词频向量的方向正好相反。因此，可以通过夹角的大小来判断第一词频向量与第二词频向量之间的余弦相似程度。即夹角越小，表示第一词频向量与第二词频向量之间越相似，第二词频向量对应的习题更应该布置给学生作为课后练习，以帮助学生巩固课程学习内容。

根据本发明其中一实施例，还提供了一种文本的处理装置的实施例，图2是根据本发明其中一实施例的文本的处理装置的结构框图，如图2所示，该装置包括：获取模块10，用于从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，目标文本包括：与原始文本匹配的备选题目；处理模块20，用于根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目。

可选地，获取模块10包括：第一获取单元(图中未示出)，用于将原始文本设置为分词对象并对原始文本进行分词处理，获取第一词语集合；第二获取单元(图中未示出)，用于将目标文本设置为分词对象并对目标文本中与备选题目关联的索引信息或描述信息进行分词处理，获取第二词语集合。

可选地，处理模块20包括：合并单元(图中未示出)，用于将第一词语集合与第二词语集合合并为第三词语集合；第三获取单元(图中未示出)，用于获取第三词语集合中的每个词语在原始文件中的出现频次，得到第一词频向量，以及获取第三词语集合中的每个词语在目标文本中的出现频次，得到第二词频向量；处理单元(图中未示出)，用于计算第一词频向量与第二词频向量的相似度，从目标文本中提取待使用的题目。

可选地，处理单元(图中未示出)包括：计算子单元(图中未示出)，用于采用余弦公式计算第一词频向量与第二词频向量之间的余弦相似度，其中，第一词频向量与第二词频向量之间的夹角越小，余弦相似度越高；提取子单元(图中未示出)，用于按照余弦相似度的取值由高到低的顺序从目标文本中提取待使用的题目。

根据本发明其中一实施例，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述文本的处理方法。上述存储介质可以包括但不限于：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本发明其中一实施例，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述文本的处理方法。上述处理器可以包括但不限于：微处理器(MCU)或可编程逻辑器件(FPGA)等的处理装置。

根据本发明其中一实施例，还提供了一种终端，包括：一个或多个处理器，存储器，显示装置以及一个或多个程序，其中，一个或多个程序被存储在存储器中，并且被配置为由一个或多个处理器执行，一个或多个程序用于执行上述文本的处理方法。在一些实施例中，上述终端可以是智能手机(例如：Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，简称为MID)、PAD等终端设备。上述显示装置可以是触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与终端的用户界面进行交互。此外，上述终端还可以包括：输入/输出接口(I/O接口)、通用串行总线(USB)端口、网络接口、电源和/或相机。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本的处理方法，其特征在于，包括：

从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，所述原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，所述目标文本包括：与所述原始文本匹配的备选题目；

根据所述第一词语集合与第二词语集合的相似度从所述目标文本中提取待使用的题目。

2.根据权利要求1所述的方法，其特征在于，从所述原始文本中获取所述第一词语集合以及从所述目标文本中获取所述第二词语集合包括：

将所述原始文本设置为分词对象并对所述原始文本进行分词处理，获取所述第一词语集合；

将所述目标文本设置为分词对象并对所述目标文本中与所述备选题目关联的索引信息或描述信息进行分词处理，获取所述第二词语集合。

3.根据权利要求1所述的方法，其特征在于，根据所述第一词语集合与第二词语集合的相似度从所述目标文本中提取所述待使用的题目包括：

将所述第一词语集合与第二词语集合合并为第三词语集合；

获取所述第三词语集合中的每个词语在所述原始文件中的出现频次，得到第一词频向量，以及获取所述第三词语集合中的每个词语在所述目标文本中的出现频次，得到第二词频向量；

计算所述第一词频向量与所述第二词频向量的相似度，从所述目标文本中提取所述待使用的题目。

4.根据权利要求3所述的方法，其特征在于，计算所述第一词频向量与所述第二词频向量的相似度，从所述目标文本中提取所述待使用的题目包括：

采用余弦公式计算所述第一词频向量与所述第二词频向量之间的余弦相似度，其中，所述第一词频向量与所述第二词频向量之间的夹角越小，所述余弦相似度越高；

按照所述余弦相似度的取值由高到低的顺序从所述目标文本中提取所述待使用的题目。

5.一种文本的处理装置，其特征在于，包括：

获取模块，用于从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合，其中，所述原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和，所述目标文本包括：与所述原始文本匹配的备选题目；

处理模块，用于根据所述第一词语集合与第二词语集合的相似度从所述目标文本中提取待使用的题目。

6.根据权利要求5所述的装置，其特征在于，所述获取模块包括：

第一获取单元，用于将所述原始文本设置为分词对象并对所述原始文本进行分词处理，获取所述第一词语集合；

第二获取单元，用于将所述目标文本设置为分词对象并对所述目标文本中与所述备选题目关联的索引信息或描述信息进行分词处理，获取所述第二词语集合。

7.根据权利要求5所述的装置，其特征在于，所述处理模块包括：

合并单元，用于将所述第一词语集合与第二词语集合合并为第三词语集合；

第三获取单元，用于获取所述第三词语集合中的每个词语在所述原始文件中的出现频次，得到第一词频向量，以及获取所述第三词语集合中的每个词语在所述目标文本中的出现频次，得到第二词频向量；

处理单元，用于计算所述第一词频向量与所述第二词频向量的相似度，从所述目标文本中提取所述待使用的题目。

8.根据权利要求7所述的装置，其特征在于，所述处理单元包括：

计算子单元，用于采用余弦公式计算所述第一词频向量与所述第二词频向量之间的余弦相似度，其中，所述第一词频向量与所述第二词频向量之间的夹角越小，所述余弦相似度越高；

提取子单元，用于按照所述余弦相似度的取值由高到低的顺序从所述目标文本中提取所述待使用的题目。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的文本的处理方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的文本的处理方法。

11.一种终端，其特征在于，包括：一个或多个处理器，存储器，显示装置以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序用于执行权利要求1至4中任意一项所述的文本的处理方法。