CN109241395B

CN109241395B - 一种基于关键词解析的试题网络排重检索办法

Info

Publication number: CN109241395B
Application number: CN201810679402.7A
Authority: CN
Inventors: 许楚平
Original assignee: Guangzhou Nanfang Human Resources Evaluation Center Co ltd
Current assignee: Wangcai Technology Guangzhou Group Co ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2021-08-03
Anticipated expiration: 2038-06-27
Also published as: CN109241395A

Abstract

本发明公开了一种基于关键词解析的试题网络排重检索办法，具体包括以下步骤：文本字数判断、文本智能分词、提取关键词、截取文本、生成关键词列表、网络排重、原题与排重结果进行相似度分析，排重结果自定义排序展示步骤完成试题网络排重检索，本发明通过关键词提取后再进行网络排重，有效保护了原创试题，降低试题的泄露风险，并且通过排重结果的相似度分析，为用户提供更加高效的试题排重方法。

Description

一种基于关键词解析的试题网络排重检索办法

技术领域

本发明属于试题排重技术领域，更具体地说，尤其涉及一种基于关键词解析的试题网络排重检索办法。

背景技术

随着考试业务的不断扩大发展，试题是题库系统中的重要资源，特别是原创试题，是独一无二的资源，需重点保护。在实际使用过程中，所有试题都必须经过网络排重，才能确定试题的唯一性。现有方式是直接拿原题在百度或Google中进行网络排重，但是在这个过程中，一定程度上相当于把可能的原创试题暴露到互联网中，造成原创试题的泄露。

因此，我们需要提出一种有效保护了原创试题，降低试题的泄露风险的基于关键词解析的试题网络排重检索办法。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于关键词解析的试题网络排重检索办法。

为实现上述目的，本发明提供如下技术方案：

一种基于关键词解析的试题网络排重检索办法，具体包括以下步骤：

S1、文本字数判断：将需要排重的文本进行字数统计，并进行判断，以文本字数超过500字为依据将文本分为两类；

S2、文本智能分词：当步骤S1中的文本字数被判断为不超过500字时，采用IK-Analyzer对文本进行智能分词，并统计词频；

S3、提取关键词：将完成步骤S2的文本中的分词进行分析，提取主要关键词；

S4、截取文本：当步骤S1中的文本字数被判断为超过500字时，随机截取10段38字的文本；

S5、生成关键词列表：将完成步骤S3的关键词或完成步骤S4截取的文本提取关键词，生成关键词列表；

S6、网络排重：通过词频和自定义考试业务关键词，对分词结果进行自动分析，生成关键词信息，并默认提取最主要的15个关键词进行网络排重；

S7、原题与排重结果进行相似度分析：把原题和排重结果进行相似度分析，计算出相似度数值；

S8、排重结果自定义排序展示：用户可选择相似度排序或网络原始排序，进行结果展示。

优选的，所述步骤S1中提到的文本分为两类，一类为超过500字的文本，另一类为不超过500字的文本。

优选的，所述步骤S2中提到的IK-Analyzer，所述IK-Analyzer是一个开源的，基于Java语言开发的轻量级的中文分词工具包。

优选的，所述S3以及S5中提到的关键词为出题人设置的主要知识点关键词，在题库系统中，每一道试题都有所属的测评要素。

优选的，所述S4中提到的截取10段38字的文本，38个字是网络排重支持的最长长度，在排重时，也可以选择30至38区间的字数进行截取，且此文本字数长度不超过试题总长度的20％。

优选的，所述S5中提到的生成关键词列表，测评要素关键词结合智能分词关键词，如果智能分词关键词中存在于测评要素关键词，则优先提取，并按词频排序，词频高的排在前面，其余的智能分词关键词同样按词频紧随着排在后面。

优选的，所述S6中提到的默认提取最主要的15个关键词进行网络排重，其中15个关键词为关键词表中默认排序前15个关键词，用户也可根据需要选取其他关键词进行搜索。

优选的，所述S7中提到的把原题和排重结果进行相似度分析，该功能在本地服务器运行，本地服务器拿到网络排重结果后，将试题原题和网络结果进行文本相似度分析，利用开源算法计算出相似度，提供相似度排序，把相似度高的结果靠前排列，显示前20条结果，迅速定位分析。

优选的，所述S3中对试题关键词的搜索排重后，得到一个排重结果，此结果如未发现有文本相似度超过60％的结果，则采用截取的文本的方式进行网络第二次排重，对相似度超过60％的结果则合并到第一次排重的结果中。

本发明的技术效果和优点：本发明提供的一种基于关键词解析的试题网络排重检索办法，本发明通过关键词提取后再进行网络排重，有效保护了原创试题，降低试题的泄露风险，并且通过排重结果的相似度分析，为用户提供更加高效的试题排重方法。

附图说明

图1为本发明一种基于关键词解析的试题网络排重检索办法的方法操作流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

S1、文本字数判断：将需要排重的文本进行字数统计，并进行判断，以文本字数超过500字为依据将文本分为两类，一类为超过500字的文本，另一类为不超过500字的文本；

S2、文本智能分词：当步骤S1中的文本字数被判断为不超过500字时，采用IK-Analyzer对文本进行智能分词，并统计词频，所述IK-Analyzer是一个开源的，基于Java语言开发的轻量级的中文分词工具包；

S3、提取关键词：将完成步骤S2的文本中的分词进行分析，提取主要关键词，所述关键词为出题人设置的主要知识点关键词，在题库系统中，每一道试题都有所属的测评要素；

S4、截取文本：当步骤S1中的文本字数被判断为超过500字时，随机截取10段38字的文本，38个字是网络排重支持的最长长度，在排重时，也可以选择30至38区间(38个字为最长长度，可以选择38个字以下的其他合适的长度，如25、27、28数据)的字数进行截取，且此文本字数长度不超过试题总长度的20％，不超过试题总长度的20％便于保护原试题；

S5、生成关键词列表：将完成步骤S3的关键词或完成步骤S4截取的文本提取关键词，生成关键词列表，测评要素关键词结合智能分词关键词，如果智能分词关键词中存在于测评要素关键词，则优先提取，并按词频排序，词频高的排在前面，其余的智能分词关键词同样按词频紧随着排在后面；

S6、网络排重：通过词频和自定义考试业务关键词，对分词结果进行自动分析，生成关键词信息，并默认提取最主要的15个关键词进行网络排重；其中15个关键词为关键词表中默认排序前15个关键词，用户也可根据需要选取其他关键词进行搜索；

S7、原题与排重结果进行相似度分析：把原题和排重结果进行相似度分析，计算出相似度数值，该功能在本地服务器运行，本地服务器拿到网络排重结果后，将试题原题和网络结果进行文本相似度分析，利用开源算法计算出相似度，提供相似度排序，把相似度高的结果靠前排列，显示前20条结果(可满足排重需要，相似度靠后的结果不再显示、干扰用户，让用户一目了然)，迅速定位分析；

S8、排重结果自定义排序展示：用户可选择相似度排序或网络原始排序，进行结果展示；所述S3中对试题关键词的搜索排重后，得到一个排重结果，此结果如未发现有文本相似度超过60％(60％为一般经验数据，还可以设定为其他数据，如50％、55％或50％-65％区间内的任一数据)的结果，则采用截取的文本的方式进行网络第二次排重，对相似度超过60％的结果则合并到第一次排重的结果中，形成最终的排重结果。

综上所述：本发明提供的一种基于关键词解析的试题网络排重检索办法，本发明通过关键词提取后再进行网络排重，有效保护了原创试题，降低试题的泄露风险，并且通过排重结果的相似度分析，为用户提供更加高效的试题排重方法。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键词解析的试题网络排重检索办法，其特征在于：具体包括以下步骤：

2.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法，其特征在于：所述步骤S1中提到的文本分为两类，一类为超过500字的文本，另一类为不超过500字的文本。

3.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法，其特征在于：所述步骤S2中提到的IK-Analyzer，所述IK-Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。

4.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法，其特征在于：所述S3以及S5中提到的关键词为出题人设置的主要知识点关键词，在题库系统中，每一道试题都有所属的测评要素。

5.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法，其特征在于：所述S4中提到的截取10段38字的文本，38个字是网络排重支持的最长长度，在排重时，也可以选择30至38区间的字数进行截取，且此文本字数长度不超过试题总长度的20%。

6.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法，其特征在于：所述S5中提到的生成关键词列表，测评要素关键词结合智能分词关键词，如果智能分词关键词中存在于测评要素关键词，则优先提取，并按词频排序，词频高的排在前面，其余的智能分词关键词同样按词频紧随着排在后面。

7.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法，其特征在于：所述S6中提到的默认提取最主要的15个关键词进行网络排重，其中15个关键词为关键词表中默认排序前15个关键词，用户也可根据需要选取其他关键词进行搜索。

8.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法，其特征在于：所述S7中提到的把原题和排重结果进行相似度分析，本地服务器拿到网络排重结果后，将试题原题和网络结果进行文本相似度分析，利用开源算法计算出相似度，提供相似度排序，把相似度高的结果靠前排列，显示前20条结果，迅速定位分析。

9.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法，其特征在于：所述S3中对试题关键词的搜索排重后，得到一个排重结果，此结果如未发现有文本相似度超过60%的结果，则采用截取的文本的方式进行网络第二次排重，对相似度超过60%的结果合并到第一次排重的结果中。