CN111539383A - 公式知识点识别方法及装置 - Google Patents
公式知识点识别方法及装置 Download PDFInfo
- Publication number
- CN111539383A CN111539383A CN202010443256.5A CN202010443256A CN111539383A CN 111539383 A CN111539383 A CN 111539383A CN 202010443256 A CN202010443256 A CN 202010443256A CN 111539383 A CN111539383 A CN 111539383A
- Authority
- CN
- China
- Prior art keywords
- formula
- standard
- identified
- formulas
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000010606 normalization Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 239000004816 latex Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011272 standard treatment Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及互联网教学领域,公开了一种公式知识点识别方法及装置,该公式知识点识别方法包括:获取教学资源中所有待识别公式的信息相应的字符串合集R,以及与所述教学资源内容匹配的标准公式知识点集合S;根据公式符号特征信息相似度,在所述标准公式知识点集合S中,为所述字符串集合R中每个待识别公式确定初步对应的所有标准公式;对所述每个待识别公式与所有的初步对应的标准公式进行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式。
Description
技术领域
本申请涉及互联网教学技术领域,特别涉及涉及理工类学科的公式知识 点教学领域。
背景技术
随着计算机技术的高速发展,计算机辅助教学在理工类学科中的应用越 来越广泛。与此同时,理工类学科中的知识信息表现形式包括文字、公式、 图像等多种形式,给理工类学科的智能教学带来了挑战。
目前,大部分教学资源中的公式数字化处理解决的还仅限于公式识别与 呈现问题,未能够对公式的知识属性进行有效地标识。这导致了教学资源的 知识信息不够全面,不能满足公式知识点的相关资源检索和推荐等应用需求。
发明内容
本申请的目的在于提供一种公式知识点识别方法及装置,能够明显减少 系统处理压力,公式知识点的识别速度更快,精确度更高,且对复杂公式具 有很好的识别能力,并支持多样化的表现形式,能够更好地满足理工类学科 的公式知识点教学的需要。
本申请公开了一种公式知识点识别方法,包含:
获取教学资源中所有待识别公式的信息相应的字符串合集R,以及与所 述教学资源内容匹配的标准公式知识点集合S;
根据公式符号特征信息相似度,在所述标准公式知识点集合S中,为所 述字符串集合R中每个待识别公式确定初步对应的所有标准公式;
对所述每个待识别公式与所有的初步对应的标准公式进行公式结构特 征信息匹配,以确定该待识别公式唯一对应的标准公式。
在一个优选例中,还包含:根据所述每个待识别公式唯一对应的标准公 式对该待识别公式进行标注。
在一个优选例中,所述对所述每个待识别公式与所有的初步对应的标准 公式进行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式, 包含以下子步骤:
根据预先设置的公式结构树生成规则,为每个待识别公式生成相应的公 式结构树;
根据每个待识别公式的公式结构树生成相应的公式结构字符串;
比较所述每个待识别公式与所有初步对应的标准公式的公式结构字符 串的结构运算有效符号以及对应的位置信息,如果只有一个初步对应的标准 公式与该待识别公式完全匹配,则确定该初步对应的标准公式为所述待识别 公式唯一对应的标准公式。
在一个优选例中,所述对所述每个待识别公式与所有的初步对应的标准 公式进行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式, 还包含以下子步骤:
如果有多个初步对应的标准公式与该待识别公式完全匹配,则先分别对 所述每个待识别公式与所有匹配的初步对应的标准公式的公式结构字符串中 的系数和/或常数运算进行归一化处理,再比较经归一化处理后的公式结构字 符串的结构运算有效符号以及对应的位置信息,以确定该待识别公式唯一对 应的标准公式。
在一个优选例中,在所述获取教学资源中所有待识别公式的信息相应的 字符串合集R,以及与所述教学资源内容匹配的标准公式知识点集合S前, 还包含:
预先选择教学中需要的标准公式,根据所述标准公式构建学科公式知识 点库,其中,所述学科公式知识点库中包含所述每个标准公式的名称、特征 信息,以及基础信息,其中,
所述特征信息是以下之一或其任意组合:所述标准公式的标准形式、非 标准形式、公式符号,以及公式结构;并且,
所述基础信息是以下之一或其任意组合:所述标准公式的学科,学习阶 段,水平级别,子学科、专题、主题,以及知识点类型。
在一个优选例中,所述获取教学资源中所有待识别公式的信息相应的字 符串合集R,以及与所述教学资源内容匹配的标准公式知识点集合S,包含以 下子步骤:
对所述教学资源的内容中所有待识别公式的信息进行提取并转换为相 应的字符串,以获取所述所有待识别公式的信息所对应的字符串集合R;以 及
根据所述教学资源的内容中的所有文本特征信息,在所述预先设置的学 科公式知识点库中确定与所述任一文本特征信息匹配的所有标准公式知识点 集合S。
在一个优选例中,所述根据公式符号特征信息相似度,在所述标准公式 知识点集合S中,为所述字符串集合R中每个待识别公式确定初步对应的所 有标准公式,包含以下子步骤:
对所述字符串集合R中的每个待识别公式,提取该待识别公式中的符号 特征信息,并确定所述标准公式知识点集合S中包含该待识别公式的至少一 个符号特征信息的所有标准公式;以及
计算该待识别公式与每个所述标准公式之间的公式符号特征信息相似 度,并确定公式符号特征信息相似度大于预设阈值的标准公式,以作为该待 识别公式初步对应的标准公式;其中,
所述公式符号特征信息相似度通过以下方式确定:公式符号特征信息相 似度=(待识别公式包含的符号特征信息总个数/标准公式中包含的符号特征 信息总个数)×100%。
在一个优选例中,所述根据所述每个待识别公式唯一对应的标准公式对 该待识别公式进行标注中,根据所述每个待识别公式唯一对应的标准公式的 属性信息,对待识别公式进行标注;其中,所述属性信息包括以下之一或其 任意组合:所述标准公式的公式知识点名称、标准形式、非标准形式、公式 符号、公式结构、学科、学习阶段、水平级别、子学科、主题、知识点类型。
本申请还公开了一种公式知识点识别装置包含:
获取单元,用于获取教学资源中所有待识别公式的信息相应的字符串合 集R,以及与所述教学资源内容匹配的标准公式知识点集合S;
初步筛选单元,用于根据公式符号特征信息相似度,在所述标准公式知 识点集合S中,为所述字符串集合R中每个待识别公式确定初步对应的所有 标准公式;
匹配单元,用于对所述每个待识别公式与所有的初步对应的标准公式进 行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式。
本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中 存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前 文描述的方法中的步骤。
需指出,本说明书的实施例中,基于文本特征信息、待识别公式的符号 特征信息、结构特征信息和公式整体特征,执行二级识别,能够有效提高识 别效率。在一级识别中,根据文本特征信息、符号特征信息进行初步过滤识 别,以有效降低待识别的候选公式数量,减轻精确识别,即,二级识别的压 力;在二级识别中,根据公式结构特征信息,采用递归方式将文本形式公式 编码解析为结构性的树形结构,通过无关符号归一化、标记特征匹配等处理, 实现对待识别公式的精确识别及准确标注。进一步的,这种方案不受限于公 式的复杂性、表现形式的多样性等因素,能够满足所有理工类学科的公式知 识点识别,适用性强。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如 果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得 说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技 术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开 的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这 些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在 技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子 中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技 术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组 合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E 的方案应当视为已经被记载。
附图说明
图1是根据本申请第一实施方式的公式知识点识别方法的流程示意图;
图2是根据本申请第二实施方式的公式知识点识别装置的结构示意图;
图3是根据本申请第一实施方式的公式知识点识别方法中的结构解析规 则示意图;
图4是根据本申请第一实施方式的公式知识点识别方法的公式结构树示 意图;
图5是根据本申请第一实施方式的公式知识点识别方法中的比较方法示 意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。 但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下 各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
术语:
属性信息,是指标准公式知识点名称、和/或特征信息,和/或基础信息
特征信息,是指以下之一或其任意组合:所述标准公式的标准形式、非 标准形式、公式符号,以及公式结构,特征信息还可以指公式文本特征信息、 符号特征信息或公式结构特征信息,等等。
基础信息,是指以下之一或其任意组合:所述标准公式的学科,学习阶 段,水平级别,子学科、专题、主题,以及知识点类型等等。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申 请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种公式知识点识别方法,其流程如图1所 示,该方法包括以下步骤:
需指出,在本实施例中,可预先选择教学中需要的标准公式,根据所述 标准公式构建学科公式知识点库。
优选地,所述学科公式知识点库中包含所述每个标准公式的名称、特征 信息,以及基础信息。
具体地,所述特征信息可以是,例如:标准公式的标准形式、非标准形 式、公式符号,以及公式结构等等。其中,所述标准形式可以是,例如:二 次函数、一元二次方程的求根公式、圆的周长等。其他特征信息可进一步参 见下表1。
具体地,基础信息可以是,例如,所述标准公式的学科,学习阶段,水 平级别,子学科、专题、主题,以及知识点类型等等。其中,以数学的学科 为例,学习阶段可以是,例如:高中版,初中版;水平级别可以是,例如: 高中必修,初中,小学4-6年级;子学科可以是,例如:数学与代数;专题 可以是,例如:函数,方程,图形与几何;主题可以是,例如:函数的性质,一元二次方程,图形测量;知识点类型可以是,例如:数学概念,数学理论。 基础信息可进一步参见下表1。
优选地,可通过下表1的方式构建学科公式知识点库:根据理工类各学 科的各类标准公式的公式知识点,对特征信息进行分析、提取、标注和存储, 并且,对基础信息进行标注与存储,根据每个标准公式相应的特征信息和基 础信息,构建学科公式知识点库。
表1:
步骤110-120:获取教学资源中所有待识别公式的信息相应的字符串合 集R,以及与所述教学资源内容匹配的标准公式知识点集合S。
步骤110:对教学资源的内容中所有待识别公式的信息进行提取并转换 为相应的字符串,以获取所述所有待识别公式的信息所对应的字符串集合R。
具体地,教学资源可指试卷、课件、教材等等。
具体地,待识别公式的信息可指公式编辑器、或MathType公式编辑、 或第三方的手写公式输入工具、或Windows自带的手写公式输入面板编辑的 各类公式)。
具体地,本步骤根据导入的教学资源,提取该教学资源的内容中包含的 所有待识别公式的信息,并将每个待识别公式的信息都转换为标准化LaTeX 字符串,形成字符串集合R。
优选地,提取并转换的的各待识别公式的信息可表示为 R{R1(r11,r12,...,r1a),R2(r21,r22,...,r2b),...,Ri(ri1,ri2,...,ric)},其中,i表示第i个公式,ric表 示第i个公式的第c个字符。
优选地,导入的教学资源可以是word版本,在word文档中所有采用Word公式编辑器、或MathType公式编辑、或第三方的手写公式输入工具、 或Windows自带的手写公式输入面板而成的各类公式表达式,称之为规范公 式,该类公式可转换为标准化LaTeX字符串和MathML脚本表示。本说明 书的实施例对规范公式进行识别和标记,而所有不规范的公式,则需要进行 规范处理后,再进行公式知识点的识别等处理。
步骤120:根据所述教学资源的内容中的所有文本特征信息,在预先设 置的学科公式知识点库中确定与所述任一文本特征信息匹配的所有标准公式 知识点集合S。
具体的,文本特征信息可以是指公式知识点库中的文本特征信息。
优选地,可先对所述教学资源中的所有文本信息进行分词,再分别将每 个分词与学科公式知识点库中每个标准公式的公式知识点相应的特征信息和 基础信息进行匹配,例如,可对特征信息中的标准信息、非标准信息,基础 信息中的专题、主题等的任意一项或任一组合进行匹配,将至少一个特征信 息或基础信息匹配成功的所有标准公式的集合作为与所述教学资源的内容匹 配的标准公式知识点集合S。
需指出,在下文中,可将标准公式知识点的基础信息以及公式知识点的 名称统称为属性信息。
这样做的好处在于,根据教学资源的内容涉及的文本特征信息,在学科 公式知识点库的所有标准公式中筛选出与本教学资源涉及的公式知识点最相 关的标准公式,避免了对大量不相关的标准公式的后续处理,减少了后续处 理的计算量,显著提高整体识别效率。
步骤130:根据公式符号特征信息相似度,在所述标准公式知识点集合 S中,为所述字符串集合R中每个待识别公式确定初步对应的所有标准公式。
具体地,对所述待识别公式的信息相应的字符串集合R中的每个待识别 公式,先确定所述标准公式知识点集合S中包含该待识别公式的至少一个符 号特征信息的所有标准公式,再计算该待识别公式与每个所述标准公式之间 的公式符号特征信息相似度,并将公式符号特征信息相似度大于预设阈值的 所有的标准公式作为该待识别公式初步对应的标准公式。
优选地,所述公式符号特征信息相似度通过以下方式确定:
公式符号特征信息相似度=(待识别公式包含的符号特征信息总个数/标 准公式中包含的符号特征信息总个数)×100%
该步骤可具体分为两个子步骤:步骤130a:对所述待识别公式的信息相 应的字符串集合R中的每个待识别公式,提取该待识别公式中的符号特征信 息,并确定所述标准公式知识点集合S中包含该待识别公式的至少一个符号 特征信息的所有标准公式;步骤130b:计算该待识别公式与步骤130a中确 定的每个所述标准公式之间的公式符号特征信息相似度,并确定公式符号特 征信息相似度大于预设阈值的标准公式,将这些标准公式作为该待识别公式 初步对应的标准公式,以进行后续的匹配。
例如,一个待识别公式包含的符号特征信息总个数为3,标准公式中包 含的符号特征信息总个数为4,预设阈值为70%,公式符号特征信息相似度为 75%,则该标准公式可确定为该待识别公式的初步对应的标准公式。
优选地,如果待识别公式初步对应的标准公式只有一个,则可直接将该 唯一对应的标准公式作为该待识别公式的识别结果,在这种情况下,可根据 该唯一对应的标准公式的属性信息对该待识别公式进行标识。如上所述,标 准公式的属性信息可以包含,例如:标准公式知识点名称、和/或特征信息, 和/或基础信息。
步骤140:对所述每个待识别公式与所有的初步对应的标准公式进行公 式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式。
优选地,本步骤包含以下子步骤:
步骤1402:根据预先设置的公式结构树生成规则,为每个待识别公式生 成相应的公式结构树。
优选地,公式结构树生成规则为:按照以下三个规则对每个待识别公式 进行递归解析,直至该待识别公式不可再分为止。
规则一:按“从左到右”的顺序,解析待识别公式中的各独立元素。
优选地,所述独立元素包括字母/数值类、运算符号类、结构运算类。
具体地,所述字母/数值类独立元素可以包括,例如:英文字母、希腊 字母和数值。
具体地,所述运算符号类独立元素可以包括,例如:常用运算符、特殊 意义的标识符等,如下所示:
具体地,所述结构运算类独立元素,可指具有上、下、左、右不同结构 类型的独立运算,例如:
规则二:根据待识别公式中的所述结构运算类独立元素,按各结构类型 既定的结构解析规则进行再次解析。
规则三:按照待识别公式中各个独立元素的类型所对应的表示规范,生 成该待识别公式相应的公式结构树。
优选地,在所述表示规范中,可以用“<>”表示结构运算类独立元素, 其它类型的独立元素用其本身表示,另外,用“*+符号”表示有效符号,有 效符号是指上述公式符号,即特征信息里的公式符号。
例如:公式ax2+bx+c的相应的公式结构树如图4所示。
步骤1404:根据每个待识别公式的公式结构树生成相应的公式结构字符 串。
优选地,对每个待识别公式,从该待识别公式相应的结构树的根节点开 始,按从上到下的层级结构,逐层遍历所有节点,根据从左到右的顺序组合 表示的原则以及上述各个独立元素的类型所对应的表示规范,生成该待判别 公式相应的公式结构字符串。
例如:公式ax2+bx+c的公式结构字符串为:(a)<[1](*x)(*2)()>(+) (b)(*x)(+)(c)
步骤1406a:比较所述每个待识别公式与所有初步对应的标准公式的公 式结构字符串的结构运算有效符号以及对应的位置信息,如果只有一个初步 对应的标准公式与该待识别公式完全匹配,则确定该初步对应的标准公式为 所述待识别公式唯一对应的标准公式;否则,执行步骤1406b。
优选地,例如,如图5所示。
在图5中,(1)中的有效符号可以X,(2)中有效符号可以是2。
优选地,在上述学科公式知识库中预先存储有每个标准公式相应的公式 结构字符串的结构运算有效符号以及对应的位置信息,可直接用于匹配。
步骤1406b:如果有多个初步对应的标准公式与该待识别公式完全匹配, 则先分别对所述每个待识别公式与在步骤1406a中确定的所有匹配的初步对 应的标准公式的公式结构字符串中的系数和/或常数运算进行归一化处理,再 比较经归一化处理后的公式结构字符串的结构运算有效符号以及对应的位置 信息,以确定该待识别公式唯一对应的标准公式。
具体地,本步骤是在满足上述公式结构字符串的结构运算有效符号以及 对应的位置信息的匹配条件的标准公式有多个的情况下,进一步进行匹配, 以确定唯一对应的标准公式。其中,首先分别对所述每个待识别公式与每个 对应的标准公式的公式结构字符串中的系数和/或常数运算进行归一化处理。 然后,再比较经归一化处理后的待识别公式与所有匹配的初步对应的标准公 式的公式结构字符串的结构运算有效符号以及对应的位置信息,将完全匹配 的标准公式作为该待识别公式唯一对应的标准公式。
优选地,所述归一化规则可以包含以下内容:
归一化规则一:将所述待识别公式以及对应的标准公式中的所有非有效 符号的运算符号类独立元素统一用一个字符组合标识,例如,可统一用“(A)” 表示;
归一化规则二:将所述待识别公式以及对应的标准公式中的所有非有效 符号的字母/数值类独立元素统一用另一个字符组合表示,例如,可统一用 “(B)”表示;
归一化规则三:对所述待识别公式以及对应的标准公式中的结构运算类 独立元素,若其中不含有效符号(表示数值运算),则统一用一个字符组合 表示,例如,可统一用“(B)”表示。
优选地,基于上述归一化规则,还可以进一步包含以下内容:
归一化规则四:对所述待识别公式以及对应的标准公式中预先指定的数 值运算进行归一化处理,即,通过一个字符组合,将一部分简单的数值运算 进一步简化,例如,在前三个规则处理后,若公式结构字符串出现“(B)(A)(B)”, 且“(A)”表示“+”、“—”、“×”、“÷”数值运算,则将“(B)(A)(B)” 类型统一用“(B)”表示。
例如:
公式ax2+bx+c的归一化处理如下:
归一化前:
(a)<[1](*x)(*2)()>(+)(b)(*x)(+)(c)
归一化后:
(B)<[1](*x)(*2)()>(A)(B)(*x)(A)(B)
又例如:
公式2x2+2x+32+2的归一化处理如下:
归一化前:
(2)<[1](*x)(*2)()>(+)(2)(*x)(+)<[1](3)(2)()>(+)(2)
归一化后:
(B)<[1](*x)(*2)()>(A)(B)(*x)(A)(B)
这样做的好处在于,能够避免由于待识别公式与标准公式的指系数不同, 或常数运算不同等表现形式上的差别,造成对公式结构字符串匹配结果的准 确性的影响,有效提高匹配成功率和准确率。
步骤150:根据所述每个待识别公式唯一对应的标准公式对该待识别公 式进行标注。
具体的,本步骤中,根据每个待识别公式唯一对应的标准公式的属性信 息,对待识别公式进行标注。优选地,所述属性信息可包括以下之一或其任 意组合:公式知识点名称、标准形式、非标准形式、公式符号、公式结构、 学科、学习阶段、水平级别、子学科、主题、知识点类型等信息。
本说明书的实施例中,基于文本特征信息、待识别公式的符号特征信息、 结构特征信息和公式整体特征,执行二级识别,能够有效提高识别效率。在 一级识别中,根据文本特征信息、符号特征信息进行初步过滤识别,以有效 降低待识别的候选公式数量,减轻精确识别,即,二级识别的压力;在二级 识别中,根据公式结构特征信息,采用递归方式将文本形式公式编码解析为 结构性的树形结构,通过无关符号归一化、标记特征匹配等处理,实现对待 识别公式的精确识别及准确标注。进一步的,这种方案不受限于公式的复杂 性、表现形式的多样性等因素,能够满足所有理工类学科的公式知识点识别, 适用性强。
本申请的第二实施方式涉及一种公式知识点识别装置,其结构如图2所 示,该公式知识点识别装置包括:获取单元、初步筛选单元,以及匹配单元, 具体的:
获取单元用于获取教学资源中所有待识别公式的信息相应的字符串合 集R,以及与所述教学资源内容匹配的标准公式知识点集合S;
初步筛选单元用于根据公式符号特征信息相似度,在所述标准公式知识 点集合S中,为所述字符串集合R中每个待识别公式确定初步对应的所有标 准公式;
匹配单元用于对所述每个待识别公式与所有的初步对应的标准公式进 行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中 的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于 第一实施方式。
需要说明的是,本领域技术人员应当理解,上述公式知识点识别装置的 实施方式中所示的各模块的实现功能可参照前述公式知识点识别方法的相关 描述而理解。上述公式知识点识别装置的实施方式中所示的各模块的功能可 通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电 路而实现。本申请实施例上述公式知识点识别装置如果以软件功能模块的形 式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存 储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有 技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存 储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人 计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部 或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申 请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施方式还提供一种计算机存储介质,其中存储有计算 机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实 施方式。
此外,本申请实施方式还提供一种公式知识点识别设备,其中包括用于 存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存 储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该 处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还 可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称 “DSP”)、专用集成电路(Appl ication Specific IntegratedCircuit,简 称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存 储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步 骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块 组合执行完成。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系 术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定 要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且, 术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从 而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品 或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限 定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在 另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为, 则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该 要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种 等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内 容中,以便在必要时可以作为修改的依据。此外应理解,在阅读了本申请的 上述公开内容之后,本领域技术人员可以对本申请作各种改动或修改,这些 等价形式同样落于本申请所要求保护的范围。
Claims (10)
1.一种公式知识点识别方法,其特征在于,包含:
获取教学资源中所有待识别公式的信息相应的字符串合集R,以及与所述教学资源内容匹配的标准公式知识点集合S;
根据公式符号特征信息相似度,在所述标准公式知识点集合S中,为所述字符串集合R中每个待识别公式确定初步对应的所有标准公式;
对所述每个待识别公式与所有的初步对应的标准公式进行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式。
2.如权利要求1所述的方法,其特征在于,还包含:根据所述每个待识别公式唯一对应的标准公式对该待识别公式进行标注。
3.如权利要求1所述的方法,其特征在于,所述对所述每个待识别公式与所有的初步对应的标准公式进行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式,包含以下子步骤:
根据预先设置的公式结构树生成规则,为每个待识别公式生成相应的公式结构树;
根据每个待识别公式的公式结构树生成相应的公式结构字符串;
比较所述每个待识别公式与所有初步对应的标准公式的公式结构字符串的结构运算有效符号以及对应的位置信息,如果只有一个初步对应的标准公式与该待识别公式完全匹配,则确定该初步对应的标准公式为所述待识别公式唯一对应的标准公式。
4.如权利要求3所述的方法,其特征在于,所述对所述每个待识别公式与所有的初步对应的标准公式进行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式,还包含以下子步骤:
如果有多个初步对应的标准公式与该待识别公式完全匹配,则先分别对所述每个待识别公式与所有匹配的初步对应的标准公式的公式结构字符串中的系数和/或常数运算进行归一化处理,再比较经归一化处理后的公式结构字符串的结构运算有效符号以及对应的位置信息,以确定该待识别公式唯一对应的标准公式。
5.如权利要求1所述的方法,其特征在于,在所述获取教学资源中所有待识别公式的信息相应的字符串合集R,以及与所述教学资源内容匹配的标准公式知识点集合S前,还包含:
预先选择教学中需要的标准公式,根据所述标准公式构建学科公式知识点库,其中,所述学科公式知识点库中包含所述每个标准公式的名称、特征信息,以及基础信息,其中,
所述特征信息是以下之一或其任意组合:所述标准公式的标准形式、非标准形式、公式符号,以及公式结构;并且,
所述基础信息是以下之一或其任意组合:所述标准公式的学科,学习阶段,水平级别,子学科、专题、主题,以及知识点类型。
6.如权利要求5所述的方法,其特征在于,所述获取教学资源中所有待识别公式的信息相应的字符串合集R,以及与所述教学资源内容匹配的标准公式知识点集合S,包含以下子步骤:
对所述教学资源的内容中所有待识别公式的信息进行提取并转换为相应的字符串,以获取所述所有待识别公式的信息所对应的字符串集合R;以及
根据所述教学资源的内容中的所有文本特征信息,在所述预先设置的学科公式知识点库中确定与所述任一文本特征信息匹配的所有标准公式知识点集合S。
7.如权利要求1所述的方法,其特征在于,所述根据公式符号特征信息相似度,在所述标准公式知识点集合S中,为所述字符串集合R中每个待识别公式确定初步对应的所有标准公式,包含以下子步骤:
对所述字符串集合R中的每个待识别公式,提取该待识别公式中的符号特征信息,并确定所述标准公式知识点集合S中包含该待识别公式的至少一个符号特征信息的所有标准公式;以及
计算该待识别公式与每个所述标准公式之间的公式符号特征信息相似度,并确定公式符号特征信息相似度大于预设阈值的标准公式,以作为该待识别公式初步对应的标准公式;其中,
所述公式符号特征信息相似度通过以下方式确定:公式符号特征信息相似度=(待识别公式包含的符号特征信息总个数/标准公式中包含的符号特征信息总个数)×100%。
8.如权利要求2所述的方法,其特征在于,所述根据所述每个待识别公式唯一对应的标准公式对该待识别公式进行标注中,根据所述每个待识别公式唯一对应的标准公式的属性信息,对待识别公式进行标注;其中,所述属性信息包括以下之一或其任意组合:所述标准公式的公式知识点名称、标准形式、非标准形式、公式符号、公式结构、学科、学习阶段、水平级别、子学科、主题、知识点类型。
9.一种公式知识点识别装置,其特征在于,包含:
获取单元,用于获取教学资源中所有待识别公式的信息相应的字符串合集R,以及与所述教学资源内容匹配的标准公式知识点集合S;
初步筛选单元,用于根据公式符号特征信息相似度,在所述标准公式知识点集合S中,为所述字符串集合R中每个待识别公式确定初步对应的所有标准公式;
匹配单元,用于对所述每个待识别公式与所有的初步对应的标准公式进行公式结构特征信息匹配,以确定该待识别公式唯一对应的标准公式。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至8中任意一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443256.5A CN111539383B (zh) | 2020-05-22 | 2020-05-22 | 公式知识点识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443256.5A CN111539383B (zh) | 2020-05-22 | 2020-05-22 | 公式知识点识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539383A true CN111539383A (zh) | 2020-08-14 |
CN111539383B CN111539383B (zh) | 2023-05-05 |
Family
ID=71976355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010443256.5A Active CN111539383B (zh) | 2020-05-22 | 2020-05-22 | 公式知识点识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539383B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931020A (zh) * | 2020-10-12 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 公式的标注方法、装置、设备及存储介质 |
CN114677767A (zh) * | 2022-02-11 | 2022-06-28 | 锐捷网络股份有限公司 | 公式生成方法、装置、计算设备及计算机存储介质 |
CN116483943A (zh) * | 2023-06-21 | 2023-07-25 | 山东网安安全技术有限公司 | 一种全文检索方法及其检索系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01302484A (ja) * | 1988-05-31 | 1989-12-06 | Canon Inc | 情報処理方法及び装置 |
JP2011065646A (ja) * | 2009-09-18 | 2011-03-31 | Fujitsu Ltd | 文字列認識装置及び文字列認識方法 |
CN102521411A (zh) * | 2011-12-28 | 2012-06-27 | 畅捷通信息技术股份有限公司 | 公式及公式数据处理装置和公式及公式数据处理方法 |
CN105447477A (zh) * | 2015-12-25 | 2016-03-30 | 北京汉王数字科技有限公司 | 基于公式库的公式识别方法及装置 |
WO2016117564A1 (ja) * | 2015-01-21 | 2016-07-28 | 国立大学法人東京農工大学 | プログラム、情報記憶媒体及び認識装置 |
CN106372073A (zh) * | 2015-07-21 | 2017-02-01 | 北京大学 | 一种数学公式检索方法与装置 |
CN107122342A (zh) * | 2017-04-21 | 2017-09-01 | 东莞中国科学院云计算产业技术创新与育成中心 | 文本编码识别方法和装置 |
CN107133201A (zh) * | 2017-04-21 | 2017-09-05 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于文本编码识别的热点信息采集方法和装置 |
CN107301411A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 数学公式识别方法及装置 |
CN108615058A (zh) * | 2018-05-10 | 2018-10-02 | 苏州大学 | 一种字符识别的方法、装置、设备及可读存储介质 |
CN108846367A (zh) * | 2018-06-25 | 2018-11-20 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
CN109359201A (zh) * | 2018-10-15 | 2019-02-19 | 浙江蓝鸽科技有限公司 | 多媒体教学资源的编码、存储方法及其设备 |
CN109614944A (zh) * | 2018-12-17 | 2019-04-12 | 科大讯飞股份有限公司 | 一种数学公式识别方法、装置、设备及可读存储介质 |
CN111144125A (zh) * | 2019-12-04 | 2020-05-12 | 深圳追一科技有限公司 | 文本信息处理方法、装置、终端设备及存储介质 |
-
2020
- 2020-05-22 CN CN202010443256.5A patent/CN111539383B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01302484A (ja) * | 1988-05-31 | 1989-12-06 | Canon Inc | 情報処理方法及び装置 |
JP2011065646A (ja) * | 2009-09-18 | 2011-03-31 | Fujitsu Ltd | 文字列認識装置及び文字列認識方法 |
CN102521411A (zh) * | 2011-12-28 | 2012-06-27 | 畅捷通信息技术股份有限公司 | 公式及公式数据处理装置和公式及公式数据处理方法 |
WO2016117564A1 (ja) * | 2015-01-21 | 2016-07-28 | 国立大学法人東京農工大学 | プログラム、情報記憶媒体及び認識装置 |
CN106372073A (zh) * | 2015-07-21 | 2017-02-01 | 北京大学 | 一种数学公式检索方法与装置 |
CN105447477A (zh) * | 2015-12-25 | 2016-03-30 | 北京汉王数字科技有限公司 | 基于公式库的公式识别方法及装置 |
CN107301411A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 数学公式识别方法及装置 |
CN107122342A (zh) * | 2017-04-21 | 2017-09-01 | 东莞中国科学院云计算产业技术创新与育成中心 | 文本编码识别方法和装置 |
CN107133201A (zh) * | 2017-04-21 | 2017-09-05 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于文本编码识别的热点信息采集方法和装置 |
CN108615058A (zh) * | 2018-05-10 | 2018-10-02 | 苏州大学 | 一种字符识别的方法、装置、设备及可读存储介质 |
CN108846367A (zh) * | 2018-06-25 | 2018-11-20 | 掌阅科技股份有限公司 | 生僻字处理方法、计算设备及计算机存储介质 |
CN109359201A (zh) * | 2018-10-15 | 2019-02-19 | 浙江蓝鸽科技有限公司 | 多媒体教学资源的编码、存储方法及其设备 |
CN109614944A (zh) * | 2018-12-17 | 2019-04-12 | 科大讯飞股份有限公司 | 一种数学公式识别方法、装置、设备及可读存储介质 |
CN111144125A (zh) * | 2019-12-04 | 2020-05-12 | 深圳追一科技有限公司 | 文本信息处理方法、装置、终端设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
石春爽;: "多媒体数字网络恶意信息分层优化识别仿真" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931020A (zh) * | 2020-10-12 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 公式的标注方法、装置、设备及存储介质 |
CN114677767A (zh) * | 2022-02-11 | 2022-06-28 | 锐捷网络股份有限公司 | 公式生成方法、装置、计算设备及计算机存储介质 |
CN116483943A (zh) * | 2023-06-21 | 2023-07-25 | 山东网安安全技术有限公司 | 一种全文检索方法及其检索系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111539383B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hill et al. | Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN111539383B (zh) | 公式知识点识别方法及装置 | |
CN112417885A (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN113010679A (zh) | 问答对生成方法、装置、设备及计算机可读存储介质 | |
CN111209734A (zh) | 试题去重方法及其系统 | |
CN115713085A (zh) | 文献主题内容分析方法及装置 | |
Hakak et al. | Residual-based approach for authenticating pattern of multi-style diacritical Arabic texts | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
Klampfl et al. | Reconstructing the logical structure of a scientific publication using machine learning | |
CN113723085B (zh) | 一种隐私政策文档中伪模糊检测方法 | |
CN112925874B (zh) | 基于案例标记的相似代码搜索方法及系统 | |
CN112989820B (zh) | 法律文书定位方法、装置、设备及存储介质 | |
Mande et al. | Regular expression rule-based algorithm for multiple documents key information extraction | |
US11449794B1 (en) | Automatic charset and language detection with machine learning | |
Singh et al. | Authorship attribution using filtered n-grams as features | |
Lizega Rika | Relative width and height of handwritten letter | |
CN113010573A (zh) | 一种关联关系提取方法、装置及电子设备 | |
JP2020198023A (ja) | 情報処理装置、方法及びプログラム | |
Gal et al. | Deep Learning-Based Analysis of Ancient Greek Literary Texts in English Version: A Statistical Model Based on Word Frequency and Noise Probability for the Classification of Texts | |
CN111259237B (zh) | 一种用于公众有害信息的识别方法 | |
Shere et al. | Identifying and Extracting Hierarchical Information from Business PDF Documents | |
O'Donnell | KWICgrouper–Designing a tool for corpus-driven concordance analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |