CN109241395B - 一种基于关键词解析的试题网络排重检索办法 - Google Patents

一种基于关键词解析的试题网络排重检索办法 Download PDF

Info

Publication number
CN109241395B
CN109241395B CN201810679402.7A CN201810679402A CN109241395B CN 109241395 B CN109241395 B CN 109241395B CN 201810679402 A CN201810679402 A CN 201810679402A CN 109241395 B CN109241395 B CN 109241395B
Authority
CN
China
Prior art keywords
keywords
text
network
analysis
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810679402.7A
Other languages
English (en)
Other versions
CN109241395A (zh
Inventor
许楚平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangcai Technology Guangzhou Group Co ltd
Original Assignee
Guangzhou Nanfang Human Resources Evaluation Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Nanfang Human Resources Evaluation Center Co ltd filed Critical Guangzhou Nanfang Human Resources Evaluation Center Co ltd
Priority to CN201810679402.7A priority Critical patent/CN109241395B/zh
Publication of CN109241395A publication Critical patent/CN109241395A/zh
Application granted granted Critical
Publication of CN109241395B publication Critical patent/CN109241395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词解析的试题网络排重检索办法,具体包括以下步骤:文本字数判断、文本智能分词、提取关键词、截取文本、生成关键词列表、网络排重、原题与排重结果进行相似度分析,排重结果自定义排序展示步骤完成试题网络排重检索,本发明通过关键词提取后再进行网络排重,有效保护了原创试题,降低试题的泄露风险,并且通过排重结果的相似度分析,为用户提供更加高效的试题排重方法。

Description

一种基于关键词解析的试题网络排重检索办法
技术领域
本发明属于试题排重技术领域,更具体地说,尤其涉及一种基于关键词解析的试题网络排重检索办法。
背景技术
随着考试业务的不断扩大发展,试题是题库系统中的重要资源,特别是原创试题,是独一无二的资源,需重点保护。在实际使用过程中,所有试题都必须经过网络排重,才能确定试题的唯一性。现有方式是直接拿原题在百度或Google中进行网络排重,但是在这个过程中,一定程度上相当于把可能的原创试题暴露到互联网中,造成原创试题的泄露。
因此,我们需要提出一种有效保护了原创试题,降低试题的泄露风险的基于关键词解析的试题网络排重检索办法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于关键词解析的试题网络排重检索办法。
为实现上述目的,本发明提供如下技术方案:
一种基于关键词解析的试题网络排重检索办法,具体包括以下步骤:
S1、文本字数判断:将需要排重的文本进行字数统计,并进行判断,以文本字数超过500字为依据将文本分为两类;
S2、文本智能分词:当步骤S1中的文本字数被判断为不超过500字时,采用IK-Analyzer对文本进行智能分词,并统计词频;
S3、提取关键词:将完成步骤S2的文本中的分词进行分析,提取主要关键词;
S4、截取文本:当步骤S1中的文本字数被判断为超过500字时,随机截取10段38字的文本;
S5、生成关键词列表:将完成步骤S3的关键词或完成步骤S4截取的文本提取关键词,生成关键词列表;
S6、网络排重:通过词频和自定义考试业务关键词,对分词结果进行自动分析,生成关键词信息,并默认提取最主要的15个关键词进行网络排重;
S7、原题与排重结果进行相似度分析:把原题和排重结果进行相似度分析,计算出相似度数值;
S8、排重结果自定义排序展示:用户可选择相似度排序或网络原始排序,进行结果展示。
优选的,所述步骤S1中提到的文本分为两类,一类为超过500字的文本,另一类为不超过500字的文本。
优选的,所述步骤S2中提到的IK-Analyzer,所述IK-Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。
优选的,所述S3以及S5中提到的关键词为出题人设置的主要知识点关键词,在题库系统中,每一道试题都有所属的测评要素。
优选的,所述S4中提到的截取10段38字的文本,38个字是网络排重支持的最长长度,在排重时,也可以选择30至38区间的字数进行截取,且此文本字数长度不超过试题总长度的20%。
优选的,所述S5中提到的生成关键词列表,测评要素关键词结合智能分词关键词,如果智能分词关键词中存在于测评要素关键词,则优先提取,并按词频排序,词频高的排在前面,其余的智能分词关键词同样按词频紧随着排在后面。
优选的,所述S6中提到的默认提取最主要的15个关键词进行网络排重,其中15个关键词为关键词表中默认排序前15个关键词,用户也可根据需要选取其他关键词进行搜索。
优选的,所述S7中提到的把原题和排重结果进行相似度分析,该功能在本地服务器运行,本地服务器拿到网络排重结果后,将试题原题和网络结果进行文本相似度分析,利用开源算法计算出相似度,提供相似度排序,把相似度高的结果靠前排列,显示前20条结果,迅速定位分析。
优选的,所述S3中对试题关键词的搜索排重后,得到一个排重结果,此结果如未发现有文本相似度超过60%的结果,则采用截取的文本的方式进行网络第二次排重,对相似度超过60%的结果则合并到第一次排重的结果中。
本发明的技术效果和优点:本发明提供的一种基于关键词解析的试题网络排重检索办法,本发明通过关键词提取后再进行网络排重,有效保护了原创试题,降低试题的泄露风险,并且通过排重结果的相似度分析,为用户提供更加高效的试题排重方法。
附图说明
图1为本发明一种基于关键词解析的试题网络排重检索办法的方法操作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种基于关键词解析的试题网络排重检索办法,具体包括以下步骤:
S1、文本字数判断:将需要排重的文本进行字数统计,并进行判断,以文本字数超过500字为依据将文本分为两类,一类为超过500字的文本,另一类为不超过500字的文本;
S2、文本智能分词:当步骤S1中的文本字数被判断为不超过500字时,采用IK-Analyzer对文本进行智能分词,并统计词频,所述IK-Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包;
S3、提取关键词:将完成步骤S2的文本中的分词进行分析,提取主要关键词,所述关键词为出题人设置的主要知识点关键词,在题库系统中,每一道试题都有所属的测评要素;
S4、截取文本:当步骤S1中的文本字数被判断为超过500字时,随机截取10段38字的文本,38个字是网络排重支持的最长长度,在排重时,也可以选择30至38区间(38个字为最长长度,可以选择38个字以下的其他合适的长度,如25、27、28数据)的字数进行截取,且此文本字数长度不超过试题总长度的20%,不超过试题总长度的20%便于保护原试题;
S5、生成关键词列表:将完成步骤S3的关键词或完成步骤S4截取的文本提取关键词,生成关键词列表,测评要素关键词结合智能分词关键词,如果智能分词关键词中存在于测评要素关键词,则优先提取,并按词频排序,词频高的排在前面,其余的智能分词关键词同样按词频紧随着排在后面;
S6、网络排重:通过词频和自定义考试业务关键词,对分词结果进行自动分析,生成关键词信息,并默认提取最主要的15个关键词进行网络排重;其中15个关键词为关键词表中默认排序前15个关键词,用户也可根据需要选取其他关键词进行搜索;
S7、原题与排重结果进行相似度分析:把原题和排重结果进行相似度分析,计算出相似度数值,该功能在本地服务器运行,本地服务器拿到网络排重结果后,将试题原题和网络结果进行文本相似度分析,利用开源算法计算出相似度,提供相似度排序,把相似度高的结果靠前排列,显示前20条结果(可满足排重需要,相似度靠后的结果不再显示、干扰用户,让用户一目了然),迅速定位分析;
S8、排重结果自定义排序展示:用户可选择相似度排序或网络原始排序,进行结果展示;所述S3中对试题关键词的搜索排重后,得到一个排重结果,此结果如未发现有文本相似度超过60%(60%为一般经验数据,还可以设定为其他数据,如50%、55%或50%-65%区间内的任一数据)的结果,则采用截取的文本的方式进行网络第二次排重,对相似度超过60%的结果则合并到第一次排重的结果中,形成最终的排重结果。
综上所述:本发明提供的一种基于关键词解析的试题网络排重检索办法,本发明通过关键词提取后再进行网络排重,有效保护了原创试题,降低试题的泄露风险,并且通过排重结果的相似度分析,为用户提供更加高效的试题排重方法。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于关键词解析的试题网络排重检索办法,其特征在于:具体包括以下步骤:
S1、文本字数判断:将需要排重的文本进行字数统计,并进行判断,以文本字数超过500字为依据将文本分为两类;
S2、文本智能分词:当步骤S1中的文本字数被判断为不超过500字时,采用IK-Analyzer对文本进行智能分词,并统计词频;
S3、提取关键词:将完成步骤S2的文本中的分词进行分析,提取主要关键词;
S4、截取文本:当步骤S1中的文本字数被判断为超过500字时,随机截取10段38字的文本;
S5、生成关键词列表:将完成步骤S3的关键词或完成步骤S4截取的文本提取关键词,生成关键词列表;
S6、网络排重:通过词频和自定义考试业务关键词,对分词结果进行自动分析,生成关键词信息,并默认提取最主要的15个关键词进行网络排重;
S7、原题与排重结果进行相似度分析:把原题和排重结果进行相似度分析,计算出相似度数值;
S8、排重结果自定义排序展示:用户可选择相似度排序或网络原始排序,进行结果展示。
2.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述步骤S1中提到的文本分为两类,一类为超过500字的文本,另一类为不超过500字的文本。
3.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述步骤S2中提到的IK-Analyzer,所述IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
4.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S3以及S5中提到的关键词为出题人设置的主要知识点关键词,在题库系统中,每一道试题都有所属的测评要素。
5.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S4中提到的截取10段38字的文本,38个字是网络排重支持的最长长度,在排重时,也可以选择30至38区间的字数进行截取,且此文本字数长度不超过试题总长度的20%。
6.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S5中提到的生成关键词列表,测评要素关键词结合智能分词关键词,如果智能分词关键词中存在于测评要素关键词,则优先提取,并按词频排序,词频高的排在前面,其余的智能分词关键词同样按词频紧随着排在后面。
7.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S6中提到的默认提取最主要的15个关键词进行网络排重,其中15个关键词为关键词表中默认排序前15个关键词,用户也可根据需要选取其他关键词进行搜索。
8.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S7中提到的把原题和排重结果进行相似度分析,本地服务器拿到网络排重结果后,将试题原题和网络结果进行文本相似度分析,利用开源算法计算出相似度,提供相似度排序,把相似度高的结果靠前排列,显示前20条结果,迅速定位分析。
9.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S3中对试题关键词的搜索排重后,得到一个排重结果,此结果如未发现有文本相似度超过60%的结果,则采用截取的文本的方式进行网络第二次排重,对相似度超过60%的结果合并到第一次排重的结果中。
CN201810679402.7A 2018-06-27 2018-06-27 一种基于关键词解析的试题网络排重检索办法 Active CN109241395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810679402.7A CN109241395B (zh) 2018-06-27 2018-06-27 一种基于关键词解析的试题网络排重检索办法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810679402.7A CN109241395B (zh) 2018-06-27 2018-06-27 一种基于关键词解析的试题网络排重检索办法

Publications (2)

Publication Number Publication Date
CN109241395A CN109241395A (zh) 2019-01-18
CN109241395B true CN109241395B (zh) 2021-08-03

Family

ID=65072099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810679402.7A Active CN109241395B (zh) 2018-06-27 2018-06-27 一种基于关键词解析的试题网络排重检索办法

Country Status (1)

Country Link
CN (1) CN109241395B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011174B (zh) * 2020-12-07 2023-08-11 红塔烟草(集团)有限责任公司 一种基于文本分析的围标串标识别方法
CN113836563A (zh) * 2021-09-29 2021-12-24 北京中教高科信息技术有限公司 一种加密考试技术或者离线加密考试系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657923A (zh) * 2015-01-15 2015-05-27 广东小天才科技有限公司 一种试题查重判重方法和装置
CN105824798A (zh) * 2016-03-03 2016-08-03 云南电网有限责任公司教育培训评价中心 基于试题关键字相似性的试题库中的试题去重方法
CN107909520A (zh) * 2017-11-02 2018-04-13 浙江工商大学 基于试题相关性的出卷方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2354967A1 (en) * 2010-01-29 2011-08-10 British Telecommunications public limited company Semantic textual analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657923A (zh) * 2015-01-15 2015-05-27 广东小天才科技有限公司 一种试题查重判重方法和装置
CN105824798A (zh) * 2016-03-03 2016-08-03 云南电网有限责任公司教育培训评价中心 基于试题关键字相似性的试题库中的试题去重方法
CN107909520A (zh) * 2017-11-02 2018-04-13 浙江工商大学 基于试题相关性的出卷方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于关键词匹配技术的相似试题检测方法研究;程维刚等;《北华航天工业学院学报》;20150630;第25卷(第3期);全文 *
自动组卷中试题去重技术研究;王宇颖等;《哈尔滨工业大学学报》;20090131;第41卷(第1期);全文 *

Also Published As

Publication number Publication date
CN109241395A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN106557558B (zh) 一种数据分析方法及装置
CN104077407B (zh) 一种智能数据搜索系统及方法
KR101565759B1 (ko) 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
KR20090000691A (ko) 컨텍스트 광고 정보를 노출하는 광고 방법 및 시스템
CN104537341A (zh) 人脸图片信息获取方法和装置
CN103838754A (zh) 信息搜索装置及方法
CN109241395B (zh) 一种基于关键词解析的试题网络排重检索办法
JP2014006757A (ja) コンテンツ配信装置
KR20150059208A (ko) 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
JP6972935B2 (ja) 関連スコア算出システム、方法およびプログラム
US8024341B1 (en) Query expansion
US20160132809A1 (en) Identifying and amalgamating conditional actions in business processes
KR20160066216A (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
JP2016153998A (ja) サービスの評価装置及びサービスの評価方法
CN111091883A (zh) 一种医疗文本处理方法、装置、存储介质及设备
Lee et al. The geographic flow of music
JP6868576B2 (ja) 事象提示システムおよび事象提示装置
JP2000331020A (ja) 情報参照方法,情報参照装置および情報参照プログラムを格納した記憶媒体
JP6509590B2 (ja) 商品に対するユーザの感情分析装置及びプログラム
KR102170535B1 (ko) 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN104778247B (zh) 一种基于给定数据资源的信息检索方法及装置
CN115048483A (zh) 信息管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 510000 No. 87, building 28, Airong street, jinshangu garden, No. 81, Dongyi Road, Donghuan street, Panyu District, Guangzhou City, Guangdong Province

Patentee after: Wangcai Technology (Guangzhou) Group Co.,Ltd.

Country or region after: China

Address before: 510000 No. 87, building 28, Airong street, jinshangu garden, No. 81, Dongyi Road, Donghuan street, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU NANFANG HUMAN RESOURCES EVALUATION CENTER Co.,Ltd.

Country or region before: China