CN107463537A - 一种对文本信息进行结构化处理的方法 - Google Patents

一种对文本信息进行结构化处理的方法 Download PDF

Info

Publication number
CN107463537A
CN107463537A CN201610391024.3A CN201610391024A CN107463537A CN 107463537 A CN107463537 A CN 107463537A CN 201610391024 A CN201610391024 A CN 201610391024A CN 107463537 A CN107463537 A CN 107463537A
Authority
CN
China
Prior art keywords
option
content
text message
regular expressions
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610391024.3A
Other languages
English (en)
Inventor
谌良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xintang Sichuang Educational Technology Co Ltd
Original Assignee
Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xintang Sichuang Educational Technology Co Ltd filed Critical Beijing Xintang Sichuang Educational Technology Co Ltd
Priority to CN201610391024.3A priority Critical patent/CN107463537A/zh
Publication of CN107463537A publication Critical patent/CN107463537A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种对文本信息进行结构化处理的方法,包括如下步骤:1)获得所述文本信息的内容;2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式;3)采用所述正则表达式匹配模式对所述文本信息的所述内容进行结构化处理,获得结构化的文本信息。通过灵活运用正则表达式,可以将单选题、多选题、多选多(信息匹配题)、完型填空(选择型填空)等试题文本结构化,进而实现快速录题和智能排版,极大程度上缩短了批量试题导入时间,真正意义上实现了批量、高速化试题导入,避免大量了繁琐的人工操作。

Description

一种对文本信息进行结构化处理的方法
所属技术领域
本发明涉及信息提取领域,尤其涉及一种利用正则表达式进行文本结构化、实现快速录入和智能排版的文本信息提取方法。
背景技术
随着计算机、互联网技术的进步,计算机辅助教学得到了飞速发展,计算机辅助教学的一个很重要的方面就是电子试题库,电子试题库内存储有大量的电子试题。而在学校、企业内部有大量的基于文本或图片等形式的试卷存在,如何将大量的试卷信息进行识别,是电子试题库建设中的一个关键步骤,也是计算机辅助教学中一个重要的研究课题。
文本格式的试卷信息进行识别的一大难点是试题文件的非结构化,无法执行数据文档的结构化录入,难以通过计算机进行自动录入。对于非结构化试题通常采用人工进行录入,即一道一道试题的录入,需要选择题目的类型,需要录入题干和多个选项等信息。人工录入试题存在录入速度慢、容易出错等问题,难以实现快速录入。
目前,批量导入试题的方案已有多种,如申请号为CN201010121907.5的中国专利申请公开了一种WORD格式试卷自动导入数据库系统的方法,该专利申请公开的导入过程包括:编辑WORD格式试卷,对试卷按照一定的规则进行标注;所述标注包括:在试卷中的题型号、大题号、小题号前使用分割符号进行标注;然后根据标注将WORD格式试卷分成多个新文档,每个新文档的内容为一道题,并对这些新文档重新命名并保存;根据试题之间的分割符号读出整个WORD试卷所有段数,然后循环扫描所有段,把读出的题型号、大题号、小题号、每道题对应的新文档分别解析到数据库中;在数据库中对不同的大题号和小题号加注辅助信息。
又如申请号为201410126266.0中国专利申请公开了一种电子试卷的导入方法,该专利申请公开的导入方法包括:S1.获取电子试卷的文本,并进行冗余处理;S2.区分出经冗余处理后的电子试卷的试卷头和试题部分;S3.当识别试卷头时,将识别到的首行字符串标示为标题,将其余信息标示为介绍信息,并将所述标题和介绍信息分别存入对象树的试卷类中;S4.当识别试题部分时,通过查找所述试题部分的文本的关键字段,将所述试题部分的文本划分为若干道试题;S5.通过查找所述若干道试题中的每一题的关键字段识别出每一题的题型、题干和选项信息,并将所述每一题的题型、题干和选项信息分别存入对象树的试题类中;S6.通过所述对象树展示所述电子试卷的预览信息,完成所述电子试卷的自动导入。
上述申请案均实现了批量录入试卷内容,比传统的手工录入有了很大进步。但是,现有的录入方法对录入试题的类型存在很大的限制,仍需进一步改进,例如完形填空题,现有技术并未给出如何录入的启示。
发明内容
本发明旨在提供一种对文本信息进行结构化处理的方法,以解决无法将文本文档实现结构化及快速录入的问题。
在本发明的实施例中,提供了一种对文本信息进行结构化处理的方法,包括:
1)获得所述文本信息的内容;
2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式;
3)采用所述正则表达式匹配模式对所述文本信息的所述内容进行结构化处理,获得结构化的文本信息。
进一步地,步骤2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式包括:通过手动选择调用相应的正则表达式匹配模式。
进一步地,通过手动选择调用相应的正则表达式匹配模式包括:根据所述文本信息的所述内容手动选择所述文本信息的所述内容的类型,根据所述类型调用相应的正则表达式匹配模式。
进一步地,手动选择所述文本信息的所述内容的类型包括:在操作界面上设置多个所述类型的按钮,用户点击“完形填空题”按钮时调用“完形填空题选项正则表达式匹配模式”,用户点击“单选题”、“多选题”,或“多选多题”时调用“通用选项正则表达式匹配模式”。
进一步地,所述类型包括完形填空题、单选题、多选题、或多选多题。
进一步地,步骤2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式包括:自动识别所述文本信息的所述内容,根据识别的结果调用相应的正则表达式匹配模式。
进一步地,自动识别所述文本信息的所述内容包括:自动识别出所述文本信息的所述内容的类型。
进一步地,自动识别出所述文本信息的所述内容的类型包括:识别出第一个选项标识符后检验所述第一个选项标识符之前的字符串是否符合数字型标识符的规则,如符合则识别出所述文本信息的所述内容的类型为完形填空题,如不符合则识别出所述文本信息的所述内容的类型为为普通题目。
进一步地,识别出所述文本信息的所述内容的类型为完形填空题时,调用完形填空题选项正则表达式匹配模式;识别出所述文本信息的所述内容的类型为普通题目时,调用通用选项正则表达式匹配模式。
进一步地,所述普通题目包括单选题、多选题、或多选多题。
进一步地,数字型标识符的规则包括:阿拉伯数字和空格、或阿拉伯数字和特定字符的组合,特定字符包括“.”、“,”、或“、”。
进一步地,数字前后有括号“()”或“[]”。
进一步地,步骤3)采用所述正则表达式匹配模式对所述文本信息的内容进行结构化处理,获得结构化的文本信息包括:对于完形填空题,先将题干和选项进行分离,再处理题干文本及将选项中的多个小题进行分离,最后将每一个小题的多个选项进行分离,从而完成试题文本结构化。
进一步地,将题干和选项进行分离包括:根据“完形填空题选项正则表达式匹配模式”识别出选项,将题干和选项进行分离。
进一步地,根据“完形填空题选项正则表达式匹配模式”识别出选项,将题干和选项进行分离包括:通过“完形填空题选项正则表达式匹配模式”,在试题文本的中部匹配到第一个数字型标识符,提取从所述完形填空题开头至所述第一个数字型标识符之前的部分,获得题干内容;接着又匹配到多个选项标识符及多个数字型标识符,提取从所述第一个数字型标识符至最后一个选项标识符之后的字符串,获得选项部分内容。
进一步地,处理题干文本包括:根据“填空划线正则表达式匹配模式”,对题干进行结构化处理。
进一步地,根据“填空划线正则表达式匹配模式”,对题干进行结构化处理包括:通过“填空划线正则表达式匹配模式”,在题干部分中,匹配到多个划线标识符和多个数字标识符,提取题干的全文,并对多个数字标识符表示的数字从1开始重新编号。
进一步地,对多个数字标识符表示的数字从1开始重新编号包括:根据统计的划线标识符的先后顺序从1开始替换数字标识符表示的数字。
进一步地,划线标识符包括:下划线“_”、空格、或“-”。
进一步地,将选项中的多个小题进行分离包括:通过“小题正则表达式匹配模式”,在选项部分中匹配到第一个数字型标识符,提取所述数字型标识符,并从1开始重新编号,接着又匹配到选项标识符及第二个数字型标识符,提取从所述第一个数字型标识符至所述第二个数字型标识符之前的字符,从而提取到第一个小题,以此类推,将每个小题都提取出来,从而完成多个小题的分离。
进一步地,将每一个小题的多个选项进行分离包括:通过“小题内选项正则表达式匹配模式”,在每个小题内匹配到多个选项标识符,提取相邻两个选项标识符之间的字符串及最后一个选项标识符之后的字符串,从而提取到选项内容。
进一步地,所述文本信息是word、txt、或html格式。
进一步地,为所述通用选项正则表达式匹配模式、所述完形填空题选项正则表达式匹配模式、和/或小题内选项正则表达式匹配模式添加防错机制。
本发明主要使用了正则表达式技术,正则表达式是一款比较强大的文本查找、匹配、替换技术,通过此技术,可以将单选题、多选题、多选多题(信息匹配题)、完形填空(选择型填空)等试题文本结构化,进而实现快速录题和智能排版,极大程度上缩短了批量试题导入时间,真正意义上实现了批量、高速化试题导入,避免大量了繁琐的人工操作。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a-1d分别是单选题、多选题、多选多题、完形填空题的题型示例;
图2是完形填空题的文本结构化处理流程图;
图3是单选题、多选题、多选多题的文本结构化处理流程图。
具体实施方式
下面将参考附图并结合实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,对于不同类型的试题,通过灵活使用多种不同的正则表达式匹配模式,从而将试题文档结构化,并提取里面的内容。
常见试题的类型有单选题、多选题、多选多题(信息匹配题)、和完形填空题等,不同类型的试题参见图1a-1d。对于每种类型的试题的结构化过程,将在下面详细阐述。
可以预先定义多个正则表达式匹配模式,例如,通用选项正则表达式匹配模式、完形填空题选项正则表达式匹配模式、填空划线正则表达式匹配模式、小题正则表达式匹配模式、小题内选项正则表达式匹配模式等等。
通用选项正则表达式匹配模式,它定义包括选项标识符+选项标识符+选项标识符+……,其中选项标识符一般为大写英文字母ABCDEF……和空格,或通过大写英文字母ABCDEF……与特定字符的结合,特定字符例如为“.”、“,”、或“、”等,大写英文字母ABCDEF……前后还可能有括号“()”或“[]”等,通过这些标识符,可以快速匹配到单选题、多选题、多选多题的选项开始位置。另外,除了标准的正则表达式匹配模式以外,还可以支持根据文字的格式、样式来匹配。
完形填空题选项正则表达式匹配模式与通用选项正则表达式匹配模式稍有不同,即完形填空题中第一个选项标识符前还具有数字型标识符,该数字型标识符一般为阿拉伯数字和空格、或阿拉伯数字和特定字符等形式,特定字符例如为“.”、“,”、或“、”等,阿拉伯数字前后还可能有括号“()”或“[]”等,通过数字型标识符,可以快速匹配到完形填空题的题号开始位置。
由于完形填空题选项正则表达式匹配模式与通用正则表达式匹配模式的不同,因此在处理完形填空题,或单选题、多选题、多选多题等普通题目时需要注意选择不同的选项匹配模式,这种选择可以是人工手动选择,也可以是自动进行识别。人工手动选择例如可以在操作界面上设置一个题目类型按钮,用户点击“完形填空题”时调用“完形填空题选项正则表达式匹配模式”,用户点击“单选题(或多选题,多选多题)”时调用“通用选项正则表达式匹配模式”。当然,也可以自动识别题目是完形填空题还是普通题目,从而自动调用相应的匹配模式。该自动识别包括识别出第一个选项标识符后检验该第一个选项标识符之前的字符串是否符合数字型标识符的规则,例如阿拉伯数字和空格、或阿拉伯数字和特定字符等形式的组合,特定字符例如为“.”、“,”、或“、”等,数字前后还可能有中文括号“()”或英文括号“()”或“[]”等,如识别出数字型标识符,则确定该题目为完形填空题,如未识别出数字型标识符,则确定该题目为普通题目,并调用相应的匹配模式。
常用的正则表达式匹配模式定义如下:
(1)通用选项正则表达式匹配模式
匹配原理:选项标识符+选项标识符+选项标识符+……
选项标识符:一般为ABCD等大写英文字母,后面紧跟有句点(或逗号、顿号、空格等),然后是文本,紧接着又是一个类似的选项标识符,选项部分重复3个及以上。
(2)完形填空题选项正则表达式匹配模式
匹配原理:数字型标识符1+选项标识符11+选项标识符12+选项标识符13+……+选项标识符1n+数字型标识符2+选项标识符21+选项标识符22+选项标识符23+……+选项标识符2n+……+数字型标识符m+选项标识符m1+选项标识符m2+选项标识符m3+……+选项标识符mn
数字型标识符1-数字型标识符m:一般为一到两位阿拉伯数字,样式为36、[36]或(36),数字前后可能会有括号“()”或“[]”,数字后可能跟有句点(或逗号、顿号,空格等)。
选项标识符11-选项标识符mn:一般为ABCD等大写英文字母,后面紧跟有句点(或逗号、顿号、空格等),然后是文本内容,紧接着又是一个类似的选项标识符,选项部分重复3个及以上。
(3)填空划线正则表达式匹配模式
匹配原理:划线标识符+数字标识符+划线标识符
其中划线标识符可以是划线“_”、空格、也可以是“-”等任意划线样式。
数字标识符一般为一到两位阿拉伯数字。
(4)小题正则表达式匹配模式
匹配原理:数字型标识符+选项标识符+选项标识符+选项标识符+……数字型标识符:一般为一到两位阿拉伯数字,样式为36、[36]或(36),数字前后可能会有括号()或“[]”,数字后可能跟有句点(或逗号、顿号,空格等)。
选项标识符:以大写字母A开头,后面紧跟有句点(或逗号、顿号、空格等),然后是文本内容,直到右侧遇到下一个数字型标识符或整个选项部分结束为止。
(5)小题内选项正则表达式匹配模式
匹配原理:选项标识符+选项内容
选项标识符:一般为ABCD等大写英文字母,样式为A、[A]或(A),后面可能紧跟有句点(或逗号、顿号、空格等)。
选项内容:多个字符,直到右侧遇到下一个选项标识符为止。
以下将结合具体的实施例,对不同类型题目的处理进行详细阐述。
实施例1:
1..完形填空题:中小学科的一种常见题型,多见于英语学科,小题数量通常为15个或20个,每个小题是1个单选题,通常为4个选项。
如图2所示,在实际需求中,要对原始试题文本进行结构化处理,需要把试题文本结构化成“题干+选项”两部分。题干,包括有15或20个带划线的空,例如“Pressure mountedon Britain on Monday ttake action on___36___smoking with new research showingsecond-hand smoke_____37____aboutone worker each week in the hospitalityindustry”。其中,带下划线的空的格式为“_数字_”,对于该“_数字_”,需要调用“填空划线正则表达式匹配模式”,从而识别出填空划线,获得处理后的题干。
并且,为实现试题录入的通用性,录入时该数字需要从1重新开始编号。为进行数字的重新编号,一种实现方式是调用“填空划线正则表达式匹配模式”识别填空划线的同时对划线的出现次数进行统计,并且在识别出的划线中,按照划线出现的先后顺序进行数字的替换,例如将第一和第二个出现的划线间的数字替换为“1”,将第三和第四个出现的划线间的数字替换为“2”,以此类推。当然,还有其它方式可以实现对数字从1开始重新编号,这属于本领域熟知的技术,在此不再进行赘述。
选项部分共15或20个小题,每个小题有4个选项。对于选项部分,需要先调用“小题正则表达式匹配模式”,将每个小题分离出来,如“36.A.passive B.natural C.extensiveD.whole”。然后再调用“小题内选项正则表达式匹配模式”,将每个小题中的ABCD选项进行分离,在此过程中,对小题前的数字同样需要进行从1开始重新编号。
也就是说,要先将题干和选项进行分离,再将选项中的15或20个小题进行分离,最后将每一个小题的4个选项进行分离,从而完成试题文本结构化。
其中原始试题文本可以是word格式、txt格式、html格式等任意文本格式。
当然,小题数目为15或20个并未对本发明的具体限定,本领域技术人员会知晓小题的数目可以为任意可能的值,例如10个或25个。每个小题具有4个选项也非具体限定,例如还可以为3个、5个或其它任意可能的值。
2..流程描述:
(1)根据“完形填空题选项正则表达式匹配模式”识别出选项,将题干和选项进行分离,这样原始试题文本被分离成题干+选项两个部分。
参见图1d和图2,通过“完形填空题选项正则表达式匹配模式”,在试题文本的中部,会匹配到数字型标识符“36.”以表明开始匹配到完形填空题的选项部分,提取从该完形填空题开始至数字型标识符“36.”之前的部分,从而提取到题干内容。
在后续的匹配过程中,又会匹配到选项标识符“A.”,“B.”,“C.”……、数字型标识符“37.”,选项标识符“A.”,“B.”,“C.”……,提取从第一个数字型标识符“36.”至最后一个数字型标识符“50.”之后的选项标识符“A.”,“B.”,“C.”……结束部分,从而提取到选项部分内容。
(2)处理题干文本
题干中有填空划线,划线上带有数字,根据实际需要,数字需要从1重新编号。根据“填空划线正则表达式匹配模式”,识别出填空划线,然后再将数字从1重新编号。
参见图1d和图2,通过“填空划线正则表达式匹配模式”,在题干部分中,会首先匹配到划线标识符“_”,在后续的匹配过程中,又会匹配到数字标识符“36”及第二个划线标识符“_”,以表明匹配到填空划线部分。提取题干的全文,并根据统计的划线标识符的顺序从1开始替换数字标识符,如将“36”替换为“1”,将“37”替换为“2”,以此类推,从而提取到包含重新编号的数字标识符的题干部分。
(3)处理选项文本
①分离小题
选项中,通常有15个或20个小题,根据“小题正则表达式匹配模式”,将每个小题分离出来。
参见图1d和图2,通过“小题正则表达式匹配模式”,在选项部分中,会首先匹配到第一个数字型标识符“36.”,提取该数字型标识符“36.”,并从1开始重新编号,即将“36.”替换为“1”。在后续的匹配过程中,又会匹配到选项标识符“A.”,“B.”,“C.”……,及第二个数字型标识符“37.”,提取从第一个数字型标识符“36.”至第二个数字型标识符“37.”之前的字符,从而提取到第一个小题,以此类推,将每个小题都提取出来,从而完成每个小题的分离。
②分离小题中的ABCD选项
每个小题内,一般有ABCD四个选项,根据“小题内选项正则表达式匹配模式”,将每个小题中的ABCD选项分离出来。
参见图1d和图2,通过“小题内选项正则表达式匹配模式”,在每个小题内,首先会匹配到选项标识符“A.”,在后续的匹配过程中,又会匹配到选项标识符“B.”,“C.”……,以表明匹配到小题内的选项。提取相邻两个选项标识符之间的字符串及最后一个选项标识符之后的字符串,从而提取到选项内容。以此类推,将每个小题的每个选项都提取出来,从而完成小题内选项的分离。
至此,整个试题文本完成了结构化,然后程序会很轻松地将结构化的文本填充到对应的位置中去,从而实现试题的快速录入。
整个过程中,用户只需要将原始试题文本粘贴到编辑框内,然后点击按钮,程序会执行“一键智能分离结构化”的工作,将结构化的文本填充到相应的位置中,从而节省大量繁琐的人工操作,实现试题的快速录入。
实施例2:
1.单选题:中小学科的一种题型,有多个选项,正确答案只有一个。
多选题:中小学科的一种题型,有多个选项,正确答案有一个或多个。
多选多题(信息匹配题):中小学科的一种题型,常见于英语学科,如7选5,5选4等。
参见图3,相对于完形填空题,单选题、多选题及多选多题的原始试题文本的结构化会简单一些,没有中间小题分离的步骤,其他过程与完形填空题基本一致,相应的正则表达式匹配模式也是通用的。需要说明的是,多选多题中也需要进行从1开始重新编号。
下面以单选题为例,阐述这类题型的结构化过程。
如图3所示,在实际需求中,要对单选题进行结构化处理,需要将其结构化成“题干+选项”两部分。题干部分,包括题目内容及填写选项的空格,选项部分具有4个选项。
对于单选题,需要调用“通用选项正则表达式匹配模式”,将题干和选项进行分离,并将选项中的ABCD选项进行分离。
其中原始试题文本可以是word格式、txt格式、html格式等任意文本格式。
当然,本领域技术人员会知晓每个小题具有4个选项非具体限定,其可为任意可能的值,例如还可以为3个、5个或其它任意可能的值。
2..流程描述:
(1)根据“通用选项正则表达式匹配模式”识别出选项,将题干和选项进行分离,这样原始试题文本被分离成题干+选项两个部分。
参见图1a和图3,通过“通用选项正则表达式匹配模式”,在试题文本的中部,会匹配到选项标识符“A.”以表明开始匹配到单选题的选项部分,提取从该单选题开始至选项标识符“A.”之前的部分,从而提取到题干内容。
在后续的匹配过程中,又会匹配到选项标识符“B.”,“C.”……,提取从选项标识符“A.”至最后一个选项标识符之后的结束部分,从而提取到选项部分内容。
(2)分离ABCD选项
每个单选题的选项部分一般有ABCD四个选项,调用“小题内选项正则表达式匹配模式”,将每个单选题中的ABCD选项分离出来。
参见图1a和图3,通过“小题内选项正则表达式匹配模式”,在每个单选题内,首先会匹配到选项标识符“A.”,在后续的匹配过程中,又会匹配到选项标识符“B.”,“C.”……,以表明匹配到单选题内的选项。提取相邻两个选项标识符之间的字符串,从而提取到选项内容。以此类推,将每个小题的每个选项都提取出来,从而完成小题内选项的分离。
至此,整个试题文本完成了结构化,然后程序会很轻松地将结构化的文本填充到对应的位置中去,从而实现试题的快速录入。
整个过程中,用户只需要将原始试题文本粘贴到编辑框内,然后点击按钮,程序会执行“一键智能分离结构化”的工作,将结构化的文本填充到相应的位置中,从而节省大量繁琐的人工操作,实现试题的快速录入。
对于多选题及多选多题的处理与单选题类似,在此不再赘述。需要注意的是,多选多题处理中需要进行从1开始重新编号。
上述过程中,用户还可自定义正则表达式,以便添加新的匹配规则,将试题类文档结构化。经过上述结构化处理后,试题类文档可快速结构化并录入到数据库中,并且试题类数据反复利用,用户可将存储到数据库中的试题文档修改部分内容,并重新组合。
另外,本发明发明人考虑到有较多原始试题文档以html格式存在的情形,对本发明加入了对html格式文本的支持,在识别题号和选项时,考虑到html标签中属于html格式的尖括号<>等的存在,例如<p><span>1.</span><span>A.</span>clean<span>B.</span>clear<span>C.</span>right<span>D.</span>real</p>,通过正则表达式匹配模式实现对html标签文本的支持,从而将html标签识别出来,获取其中有用的文本信息,最终完成试题的结构化,实现快速录入。
另外,通用的正则表达式匹配模式在特殊情形下容易出错,例如:
1.I’m hungry.C.ould you give me something_____?
A.eat B.to eat C.to eating D.ate
【答案】B
【解析】somethingto do属固定用法,所以答案为B。
由于题干中存在“C.”,就会被错误识别成了选项,变成了:
题干:I’m hungry.
选项C:ould you give me something_____
选项A:eat
选项B:to eat
选项C:to eating
选项D:ate
为克服该缺陷,提高试题结构化的准确率,发明人添加了防错机制,即在本发明的正则表达式选项匹配模式中,要求选项ABCD要保持连续性,必须满足先出现A.,接着出现B.,然后出现C.等的顺序,才视为选项,进而降低选项识别的出错率。
具体实施时,本发明实施例提供的试题文本的信息提取方法可以做成一个应用,应用中提供一个试题文本的编辑区域和一个录入按钮,当使用应用时,将试题文本复制到编辑区域,并且用户可根据需要进行修改,修改完成后,点击录入按钮,应用就会根据所述的方法将试题文本录入到题库中。
从以上的描述中可以看出,本发明上述的实施例实现了如下技术效果:可快速将试题类文档结构化,并提取各部分内容存入数据库中。从而便于试题类文档的后续的修改、试题产品的制作等,提高了试题的再利用率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种对文本信息进行结构化处理的方法,其特征在于,包括如下步骤:
1)获得所述文本信息的内容;
2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式;
3)采用所述正则表达式匹配模式对所述文本信息的所述内容进行结构化处理,获得结构化的文本信息。
2.根据权利要求1所述的方法,其中步骤2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式包括:通过手动选择调用相应的正则表达式匹配模式;其中通过手动选择调用相应的正则表达式匹配模式包括:根据所述文本信息的所述内容手动选择所述文本信息的所述内容的类型,根据所述类型调用相应的正则表达式匹配模式;其中手动选择所述文本信息的所述内容的类型包括:在操作界面上设置多个所述类型的按钮,用户点击“完形填空题”按钮时调用“完形填空题选项正则表达式匹配模式”,用户点击“单选题”、“多选题”,或“多选多题”时调用“通用选项正则表达式匹配模式”;其中所述类型包括完形填空题、单选题、多选题、或多选多题。
3.根据权利要求1所述的方法,其中步骤2)根据所述文本信息的所述内容调用相应的正则表达式匹配模式包括:自动识别所述文本信息的所述内容,根据识别的结果调用相应的正则表达式匹配模式;其中自动识别所述文本信息的所述内容包括:自动识别出所述文本信息的所述内容的类型;其中自动识别出所述文本信息的所述内容的类型包括:识别出第一个选项标识符后检验所述第一个选项标识符之前的字符串是否符合数字型标识符的规则,如符合则识别出所述文本信息的所述内容的类型为完形填空题,如不符合则识别出所述文本信息的所述内容的类型为普通题目;其中,识别出所述文本信息的所述内容的类型为完形填空题时,调用完形填空题选项正则表达式匹配模式;识别出所述文本信息的所述内容的类型为普通题目时,调用通用选项正则表达式匹配模式;其中,所述普通题目包括单选题、多选题、或多选多题。
4.根据权利要求3所述的方法,其中,所述数字型标识符的规则包括:阿拉伯数字和空格、或阿拉伯数字和特定字符的组合,特定字符包括“.”、“,”、或“、”;数字前后有括号“()”或“[]”。
5.根据权利要求1所述的方法,其中步骤3)采用所述正则表达式匹配模式对所述文本信息的内容进行结构化处理,获得结构化的文本信息,包括:对于完形填空题,先将题干和选项进行分离;再对所述题干的内容进行结构化处理,以及将所述选项中的多个小题进行分离;最后将每一个小题的多个选项进行分离,从而获得结构化的文本信息。
6.根据权利要求5所述的方法,其中所述将题干和选项进行分离包括:根据“完形填空题选项正则表达式匹配模式”识别出选项,将题干和选项进行分离;
其中,所述根据“完形填空题选项正则表达式匹配模式”识别出选项,将题干和选项进行分离包括:通过“完形填空题选项正则表达式匹配模式”,在文本信息中匹配到多个选项标识符及多个数字型标识符,提取从所述第一个数字型标识符至最后一个选项标识符之后的字符串,获得的内容为选项;提取从所述完形填空题的开头至所述第一个数字型标识符之前的部分,获得的内容为题干。
7.根据权利要求5所述的方法,其中所述对所述题干的内容进行结构化处理包括:根据“填空划线正则表达式匹配模式”,对题干进行结构化处理;
其中,所述根据“填空划线正则表达式匹配模式”,对题干进行结构化处理包括:通过“填空划线正则表达式匹配模式”,在所述题干内容中,匹配到多个划线标识符和多个数字标识符,获得题干的文本信息,并对多个所述数字标识符表示的数字从1开始重新编号;其中,对多个所述数字标识符表示的数字从1开始重新编号包括:根据所述划线标识符的先后顺序从1开始替换所述数字标识符表示的数字;其中,划线标识符包括:下划线“_”、空格、或“-”。
8.根据权利要求5所述的方法,其中所述将选项中的多个小题进行分离包括:通过“小题正则表达式匹配模式”,在选项内容中匹配到第一个数字型标识符,提取所述数字型标识符,并从1开始重新编号,接着又匹配到选项标识符及第二个数字型标识符,提取从所述第一个数字型标识符至所述第二个数字型标识符之前的字符,从而提取到第一个小题,以此类推,将每个小题都提取出来,从而完成多个小题的分离。
9.根据权利要求5所述的方法,其中所述将每一个小题的多个选项进行分离包括:通过“小题内选项正则表达式匹配模式”,在每个小题内匹配到多个选项标识符,提取相邻两个选项标识符之间的字符串及最后一个选项标识符之后的字符串,从而获得到选项的文本信息。
10.根据权利要求1-9任一项所述的方法,其中所述文本信息是word、txt、或html格式。
CN201610391024.3A 2016-06-03 2016-06-03 一种对文本信息进行结构化处理的方法 Pending CN107463537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610391024.3A CN107463537A (zh) 2016-06-03 2016-06-03 一种对文本信息进行结构化处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610391024.3A CN107463537A (zh) 2016-06-03 2016-06-03 一种对文本信息进行结构化处理的方法

Publications (1)

Publication Number Publication Date
CN107463537A true CN107463537A (zh) 2017-12-12

Family

ID=60544968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610391024.3A Pending CN107463537A (zh) 2016-06-03 2016-06-03 一种对文本信息进行结构化处理的方法

Country Status (1)

Country Link
CN (1) CN107463537A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628944A (zh) * 2018-03-28 2018-10-09 北京大米科技有限公司 在线作业录入方法、客户端、服务器、计算机设备及介质
WO2019200706A1 (zh) * 2018-04-18 2019-10-24 深圳市鹰硕技术有限公司 自动生成英语选择题答案选项的方法以及装置
CN110852044A (zh) * 2018-08-20 2020-02-28 上海颐为网络科技有限公司 一种基于结构化的文本编辑方法和系统
CN111369290A (zh) * 2020-03-05 2020-07-03 广州快决测信息科技有限公司 一种自动生成数据采集模块的方法和系统
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
WO2023078197A1 (zh) * 2021-11-02 2023-05-11 广州视源电子科技股份有限公司 课堂活动课件制作方法、装置、存储介质以及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN105488015A (zh) * 2016-01-22 2016-04-13 吴以凡 一种试题的结构化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN105488015A (zh) * 2016-01-22 2016-04-13 吴以凡 一种试题的结构化方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628944A (zh) * 2018-03-28 2018-10-09 北京大米科技有限公司 在线作业录入方法、客户端、服务器、计算机设备及介质
CN108628944B (zh) * 2018-03-28 2021-04-30 北京大米科技有限公司 在线作业录入方法、客户端、服务器、计算机设备及介质
WO2019200706A1 (zh) * 2018-04-18 2019-10-24 深圳市鹰硕技术有限公司 自动生成英语选择题答案选项的方法以及装置
CN110852044A (zh) * 2018-08-20 2020-02-28 上海颐为网络科技有限公司 一种基于结构化的文本编辑方法和系统
CN110852044B (zh) * 2018-08-20 2023-09-15 上海颐为网络科技有限公司 一种基于结构化的文本编辑方法和系统
CN111369290A (zh) * 2020-03-05 2020-07-03 广州快决测信息科技有限公司 一种自动生成数据采集模块的方法和系统
US12045251B2 (en) 2020-03-05 2024-07-23 Guangzhou Quick Decision Iinformation Technology Co., Ltd. Method and system for automatically generating data acquisition module
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN111737949B (zh) * 2020-07-22 2021-07-06 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
WO2023078197A1 (zh) * 2021-11-02 2023-05-11 广州视源电子科技股份有限公司 课堂活动课件制作方法、装置、存储介质以及电子设备

Similar Documents

Publication Publication Date Title
CN107463537A (zh) 一种对文本信息进行结构化处理的方法
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
US6721451B1 (en) Apparatus and method for reading a document image
CN103678684B (zh) 一种基于导航信息检索的中文分词方法
CN102016837B (zh) 中文型文字及文字偏旁的分类及检索的系统与方法
CN101694603B (zh) 基于Unicode的跨平台蒙古文显示及智能输入方法
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN103914443A (zh) 一种多语种文字的混排方法及装置
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN109683881B (zh) 一种代码格式调整方法及装置
CN108549694B (zh) 一种文本中时间信息的处理方法
CN112395851A (zh) 一种文本比对方法、装置、计算机设备及可读存储介质
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
JP7040227B2 (ja) 情報処理プログラム、情報処理方法、および情報処理装置
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
JPH0769921B2 (ja) 文書論理構造生成方法
CN111428479B (zh) 一种文本中预测标点的方法和装置
CN112017079A (zh) 专利文档的元件信息提取方法、处理装置以及存储介质
CN110362691B (zh) 一种句法树库构建系统
CN112017078A (zh) 专利文档的辅助撰写方法、处理装置以及存储介质
CN111079385A (zh) 一种科学公式格式转换的方法和装置
JP3724878B2 (ja) キーワード抽出ルール生成方法
CN112347765B (zh) 基于词典匹配的实体标注方法、模块及装置
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212