CN114253454B

CN114253454B - 一种基于符号挖掘的动态键盘生成方法及系统

Info

Publication number: CN114253454B
Application number: CN202210099162.XA
Authority: CN
Inventors: 余新国; 何彬; 陈想东
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2024-03-19
Anticipated expiration: 2042-01-27
Also published as: CN114253454A

Abstract

本发明公开了一种基于符号挖掘的动态键盘生成方法及系统。该方法包括步骤：获取试题数据，提取所述试题数据的试题向量；将所述试题向量输入到训练后的情景模式识别模型，输出所述试题数据包含的情景模式，获取所述试题数据包含的情景模式对应的符号集合，对所述符号集合进行筛选形成候选符号集合；预先定义键盘界面分区、以及每个区域的符号筛选规则，按照预设符号筛选规则对所述候选符号集合进行筛选，分别形成每个区域的符号集合；按照键盘界面分区以及每个区域的符号集合生成虚拟键盘并显示。本发明具有符号发现能力强、动态化智能布局的优点。

Description

一种基于符号挖掘的动态键盘生成方法及系统

技术领域

本发明属于人工智能技术领域，更具体地，涉及一种基于符号挖掘的动态键盘生成方法及系统。

背景技术

随着各类智能导学系统的发展，学习者面临大量非文字内容（如数学符号）的交互问题。如何利用智能化交互模块提升学习者与学习系统的符号交互效率具有重要的现实意义。传统的符号输入技术包括键盘输入和手写输入两大类。后者依赖一定的软硬件环境（如手写板、触摸屏等），应用场景受限。因此，符号输入仍然是键盘输入为主。

根据键盘的具体形态，可进一步将键盘分为物理键盘和虚拟键盘两种。物理键盘是一种计算机硬件组件，而虚拟键盘则是以软件形式模拟物理键盘完成符号输入。无论是物理键盘还是虚拟键盘，都面临了如何建立符号与键盘按键之间的对应关系的问题。对于物理键盘而言，由于按键数量有限，往往将一个物理按键对应一组符号，通过翻页的方式进行选择。因此，通过物理键盘进行符号输入面临效率低下以及用户体验不佳的问题。虚拟键盘由于不受按键数量和空间布局的限制，可以尽可能将所有符号显示在虚拟按键上供用户输入，一定程度缓解了物理键盘的输入局限。然而，当虚拟键盘上显示的符号数量过多时，又会带来选择效率问题。

针对上述问题，动态键盘技术随之被提出。动态键盘是一种虚拟键盘技术，其特点在于：一是与物理键盘类似，动态键盘使用有限的按键数量，仅显示与本次答题相关的符号；二是每个按键对应的符号内容不是固定不变的，而是可以根据本次答题的符号需求动态改变。动态键盘的这一特性使其在具有大量符号输入需求的学科在线学习系统中具有广泛和迫切的需求。

现有的动态键盘技术主要存在以下两方面问题：

一、符号自动发现能力不足。现有方法多依赖符号识别技术，直接从题目中提取符号。这类方法存在两方面不足：一方面，答题所需的符号完整度无法保证。存在大量无符号或仅包含少数符号的题目，此时如直接提取，则可能会出现答题所需的多数符号缺少的问题。另一方面，答题所需的符号相关度无法保证。教学实践表明，题目中出现的符号并不一定都是答题所需，因此造成无关符号的大量引入，影响符号输入效率。

二、符号的过度显示问题。现有的技术由于无法提高符号获取的精度，往往将该学科领域的所有符号按照一定布局逻辑显示在动态键盘上。这虽然在符号的覆盖率上达到最高，但是仍然增加了学生的选择负担，不够动态和智能。

现有技术CN106021498A中提出了一种基于问题求解的动态键盘信息生成方法，其符号的提取依赖于输入的问题属性信息，虽然在一定程度上可以帮助发现符号，但仍然比较局限。该技术也没有解决符号的过度显示问题。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于符号挖掘的动态键盘生成方法及系统，具有符号发现能力强、动态化智能布局的优点。

为实现上述目的，按照本发明的第一方面，提供了一种基于符号挖掘的动态键盘生成方法，包括步骤：

获取试题数据，提取所述试题数据的试题向量；

将所述试题向量输入到训练后的情景模式识别模型，输出所述试题数据包含的情景模式，获取所述试题数据包含的情景模式对应的符号集合，对所述符号集合进行筛选形成候选符号集合；

预先定义键盘界面分区、以及每个区域的符号筛选规则，按照预设符号筛选规则对所述候选符号集合进行筛选，分别形成每个区域的符号集合；

按照键盘界面分区以及每个区域的符号集合生成虚拟键盘并显示。

进一步地，所述试题数据包含试题文本和/或试题图形，提取所述试题数据的试题向量包括步骤：

训练知识属性特征词识别模型，所述知识属性特征词识别模型用于标注试题文本中的知识属性特征词，将所述试题数据输入到所述知识属性特征词识别模型，获取所述试题数据的知识属性特征词，将所述试题数据的知识属性特征词进行向量化，获得试题文本特征向量；

检测所述试题数据的基本图形单元，将所述试题数据中包含的基本图形单元向量化，获得试题图形特征向量；

将所述试题文本特征向量和所述试题图形特征向量进行拼接，获得所述试题数据的试题向量。

进一步地，其中，获取所述试题数据包含的情景模式对应的符号集合包含步骤：

在所述数据库中建立情景模式到知识点、知识点到数学符号的映射模型，根据所述映射模型获取所述试题数据包含的情景模式对应的符号集合。

进一步地，对所述符号集合进行筛选形成候选符号集合前，对所述符号集合进行扩充。

进一步地，所述扩充采用以下两种方式中的任意组合实现：

方式一，检测所述试题数据中包含的符号，将所述试题数据中包含的符号添加到所述符号集合；

方式二，预先建立答题库，所述答题库中每道试题包含试题内容和对应的答题内容，在所述答题库中检索与所述试题数据相似度高于预设值的试题内容，将检索到的试题内容对应的答题内容中包含的符号添加到所述符号集合。

进一步地，所述筛选形成候选符号集合包含步骤：

计算所述符号集合中各个符号出现的概率；

选取概率最高的前N个符号形成候选符号集合，N为预设值。

进一步地，所述键盘界面分区包括第一区域、第二区域、第三区域和第四区域，所述符号筛选规则为：

选取所述候选符号集合中概率最高的前M₁个符号，作为所述第一区域的符号集合，其中M₁/N＜O₁，O₁为第一预设比例；

对于所述候选符号集合中去除该前M₁个符号剩余的符号，选取符号所属情景模式在所述试题数据中出现频度最高的前M₂个符号，作为所述第二区域的符号集合，其中M₂/N＜O₂，O₂为第二预设比例；

选取所述候选符号集合中去除该前M₁个符号和该M₂个符号剩余的符号作为所述第三区域的符号集合；

选取预先指定的字符作为所述第四区域的符号集合。

进一步地，还包括步骤：

获取用户与虚拟键盘的交互数据，根据交互数据按照预先定义的更新规则更新每个区域的符号集合，根据每个区域的更新后符号集合重新生成虚拟键盘并显示。

按照本发明的第二方面，提供了一种基于符号挖掘的动态键盘生成系统，包括：

试题输入模块，用于获取试题数据，提取所述试题数据的试题向量；

符号挖掘模块，用于将所述试题向量输入到训练后的情景模式识别模型，输出所述试题数据包含的情景模式，获取所述试题数据包含的情景模式对应的符号集合，对所述符号集合进行筛选形成候选符号集合；

符号显示控制模块，用于预先定义键盘界面分区、以及每个区域的符号筛选规则，按照预设符号筛选规则对所述候选符号集合进行筛选，分别形成每个区域的符号集合；

符号显示模块，用于按照键盘界面分区以及每个区域的符号集合生成虚拟键盘并显示。

进一步地，所述符号显示控制模块还用于获取用户与虚拟键盘的交互数据，根据交互数据按照预先定义的更新规则更新每个区域的符号集合。

总体而言，本发明与现有技术相比，具有有益效果：

（1）符号自动发现能力强。通过人工智能技术，解析题目文本中所包含的情境模式，自动查找到与情境模式对应的符号，从而提高符号的相关度。

（2）键盘可以进行动态化布局。通过深层次的符号挖掘和分区的布局，能够在保证符号精准度的同时，提高键盘依据题目变化而变化的动态性和按照相关性分区排列的智能性。

附图说明

图1是本发明实施例的基于符号挖掘的动态键盘生成方法的流程图；

图2是本发明实施例的情景知识库示意图；

图3是本发明实施例的基于符号挖掘的动态键盘生成系统的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的目的是基于人工智能领域的知识，深入挖掘题目文本、图像等中所蕴含的解题所需要的符号，设计并实现基于符号挖掘的动态键盘生成方法及系统。

本发明要解决的问题是：1）提高符号自动发现的能力；2）符号键盘的动态化布局。本发明提出的基于符号挖掘的动态键盘生成方法及系统具有根据题目进行知识点场景挖掘，同时具有高准确率、高覆盖率，按重要性分层的智能布局等特点，将一定程度缓解用户数学符号输入困难，提高数学符号输入效率。

如图1所示，本发明实施例的一种基于符号挖掘的动态键盘生成方法，包括步骤：

S1，获取试题数据，提取试题数据的试题向量。

试题数据可以是试题文本、图形或二者的混合为输入。对其进行知识属性表征建模，提取试题情景蕴含的知识属性，输出试题的知识属性特征向量。本发明实施例中将试题视为一组情景故事，出题者通过设置一定的试题情景并以此嵌入知识属性。与直接使用试题文本向量或者试题文本对应的知识点ID作为特征表示相比，本发明实施例输出的特征向量具有更好的知识属性表征能力以及可计算性。

进一步地，提取试题数据的试题向量具体处理过程如下：

（1）训练知识属性特征词识别模型，知识属性特征词识别模型用于标注试题文本中的知识属性特征词，将试题数据输入到知识属性特征词识别模型，获取试题数据的知识属性特征词，将试题数据的知识属性特征词进行向量化，获得试题文本特征向量；

知识属性特征词是指描述试题语义的关键词序列，以达到过滤试题中的与符号提取无关的信息，关键词包括抽象实体名词、动词、数词、量词等。

对于输入的试题文本，训练学科分析器模型，通过该分词器模型以句子为单位标注试题文本/>中的知识属性特征词/>，使用word2vec等技术将得到特征词/>向量化为试题文本特征向量/>。

（2）检测试题数据的基本图形单元，将试题数据中包含的基本图形单元向量化，获得试题图形特征向量。

基本图形单元是指具有知识语义的最小图形单元，如几何图形中的点、线、圆、三角形、四边形等。所有的图形均视为是由一个或多个基本图元组合构建而成的。

对于输入的试题图形，采用图像识别技术检测图形中的基本语义单元/>，每个基本语义单元/>为一个具有特定知识语义的图形单元/>，使用Graph2Vec技术将图形单元向量化为试题图形特征向量/>。

（3）将试题文本特征向量和试题图形特征向量进行拼接，获得试题数据的试题向量。

拼接试题文本特征向量和试题图形特征向量/>，得到完整的试题向量。

S2，将试题向量输入到训练后的情景模式识别模型，输出试题数据包含的情景模式，根据预先构建的情景知识库获取试题数据包含的情景模式对应的符号集合，对符号集合进行筛选形成候选符号集合。

情景模式是试题中所隐含的知识逻辑类型，不同的知识逻辑类型对应不同的符号表示和推理逻辑。本方案通过情景模式建立试题与对应数学符号之间的联系。

为了实现从试题向量挖掘潜在的数学符号，与传统方法试图直接将试题内容映射到数学符号不同，本发明实施例采用“试题向量-情景模式-知识点-数学符号”的四层表征方案，其优点在于：一方面可以根据情景模式挖掘更多潜在的数学符号，另一方面可以根据试题中多个情景模式之间的关联，进一步强化潜在的数学符号或者移除低相关度的数学符号。

具体而言，建立情景模式到知识点、知识点到数学符号的映射模型，根据映射模型获取试题数据包含的情景模式对应的符号集合。首先根据教育先验知识构建不同学科试题的情景-符号描述模型。其中，/>为情景模式类别标识，/>为与当前情景模式对应的知识点标识，/>为/>包含数学符号集。基于该情景-符号描述模型，试题与数学符号之间的关联可以表示为试题-情景-知识点-数学符号所构成的四层模型，如图2所示，其中，情景模式-知识点-数学符号这三者之间的关系是确定的，即若已知情景模式，则可以通过知识点确定数学符号，如图2实线箭头所示。然而，试题内容与情景模式之间是不确定的，即试题内容具体包含哪些情景模式是预先不知道的，如图2虚线箭头所示。因此，本方案将试题对应数学符号的挖掘问题转化为根据试题内容预测情景模式的问题。

其次，试题内容的情景模式检测。为了检测输入试题中可能存在的情景模式类型，本发明实施例试题内容的情景模式检测视为一个多标签多分类问题，即一个题目可能包含多个情景模式。针对这一特性，本发明实施例采用Text-CNN模型，以上一模块中的试题向量为输入，增加了卷积层的深度和模型的复杂度，分类器输出情景模式类别标识集/>。由于每个情景模式类别标识对应固定的知识点，因此，可以根据试题内容的情景模式检测结果得到该试题对应的知识点集合/>。

进一步地，还可以在映射模型中建立情境模式间的关联关系，根据情境模式间的关联关系对知识点集合进行扩充。例如若情境模式A和情境模式B间具有较强的关系，可以为情境模式A和情境模式B建立关联，当试题数据中没有显示的特征表明本题包含了情景模式B，但是已经预测其包含了情景模式A，则可以将情景模式B对应知识点也添加到知识点集合/>。

然后，数学符号优选。基于情景模式检测输出的知识点集合，可以得到与每个知识点相关的数学符号，从而形成数学符号集合/>。然而，仅输出/>存在两方面问题：一是/>可能存在大量不相关的数学符号，二是由于试题语义的隐含性，/>的数学符号可能并不完整。针对这个问题，本发明实施例通过建立数学符号优选方法，提升所输出数学符号集的相关性和完整性。该优选方法具体如下：

扩充数学符号输入来源。在基于试题内容情景模式检测获取数学符号集的基础上，采用以下两种方式来扩充符号集合。方式一，直接提取试题文本或图形中的数学符号，加入符号集/>。方式二，通过建立答题库，答题库中每道题包含试题内容和答题内容，使用当前试题内容在答题库中通过文本相似性检索相似试题，并将检索得到的相似试题对应的答题内容中的数学符号提取出来并加入符号集/>。以上两种方式可以都采用或者只采用其中一种。

符号筛选。通过扩充符号输入来源，符号集包含了尽可能多的数学符号，同时必然存在大量与试题内容相关性较低的符号。本发明实施例通过符号-试题相关性计算，计算符号集/>中的所有符号与试题内容的相关性，相关性高的符号将被保留并输出，相关度低的符号将被移入备选符号集/>。

在一个实施例中，相关性的计算过程被定义一个条件概率计算过程，我们通过将知识点与符号出现的概率进行了统计，通过计算分类知识点标签与某符号出现的概率，可通过如下贝叶斯公式计算：

其中，表示在/>同时出现条件下符号/>的后验概率。为符号/>的先验概率，其中/>为符号id，取值范围为[1，n]，/>表示符号序列/>的完备组合概率。通过该贝叶斯公式，可以计算出在知识点标签同时出现的情况下，符号B_i出现的概率，从而得出各个符号出现的概率，选取概率较高N个符号进入候选符号集/>，N为预设值，其中/>为候选符号，/>为/>对应的试题相关度，也即计算出来的/>。

S3，预先定义键盘界面分区、以及每个区域的符号筛选规则，按照预设符号筛选规则对候选符号集合中进行筛选，分别形成每个区域的符号集合。

为了从不同维度体现候选符号对当前试题的重要程度，本发明实施例建立候选符号分区机制，对所有候选符号进行排序。

在一个实施例中，键盘界面分区包括第一区域、第二区域、第三区域和第四区域。定义每个区域的符号筛选规则，也即四层分类机制，分别是核心层、情景层、领域层和特殊符号层，依次对应键盘界面分区的第一区域、第二区域、第三区域和第四区域。

第一区域（核心层）：该层包含与该试题解答最为相关的数学符号，该层数学符号直接来自候选符号集，按照相关度/>选取前M₁个符号，作为第一区域的符号集合，其中M₁/N＜O₁，O₁为第一预设比例，即入选核心层的符号数量不超过候选符号集总数的O₁。在一个实施例中，O₁为30%。

第二区域（情景层）：该层包含要该试题所涉及情景模式相关的数学符号。情景层符号的确定，从候选符号集中去除已入选核心层的M₁个符号，将剩余候选符号根据其所属情景模式在试题中出现频度由高到低排序，频度相同的按照其在试题中出现顺序的逆序排列。情景模式在试题中出现频度可通过统计该情景模式在试题情景模式分类结果中出现的次数与该试题情景分类结果中所有情景模式出现次数的比值来计算。选取符号所属情景模式在试题数据中出现频度最高的前M₂个符号，作为情景层）的符号集合，其中M₂/N＜O₂，O₂为第二预设比例，即入选情景层的符号数量不超过候选符号集总数的O₂。在一个实施例中，O₂为40%。

第三区域（领域层）：该层包含该试题所属领域除去上面两层后的所有符号，即候选符号集去除入选核心层和情景层后剩余的所有符号。在一个实施例中，领域层符号占候选符号集总数的30%。

第四区域（特殊符号层）：该层包含了一些不常见的特殊符号，和一些希腊字母符号，可以预先指定特殊字符。

进一步地，本发明实施例的基于符号挖掘的动态键盘生成方法还包括步骤：

换而言之，上述四层中的前三层（核心层、情景层和领域层）在使用过程中并不是固定不变的，会根据用户对符号的使用频度动态更新。为此，本发明实施例实时统计每个符号的使用频度（交互频度），通过交互频度动态更新候选符号集中各符号的相关度/>，从而改变核心层的入选符号。由于情景层、领域层入选的符号依次依赖前一层的入选结果，因此核心层入选符号的改变会逐层影响情景层和领域层的符号。

在一个实施例中，交互频度计算方式为：在用户在动态数字键盘使用过程中，根据某一符号被点击次数以及该时间段内累计点击次数，计算改符号的交互频度。最后，使用更新改符号的相关度概率/>，/>为更新学习率。

S4，按照键盘界面分区以及每个区域的符号集合生成虚拟键盘并显示。

本模块采用层次布局将上述不同层级的数学符号显示在虚拟键盘的不同区域。在一个实施例中，该层次布局可以使用垂直布局的形式，在虚拟键盘的顶端显示核心层符号，然后往下依次显示情景层和领域层符号，虚拟键盘的最底部显示特殊符号，各层之间使用分割线加以区分。

考虑到虚拟键盘的显示区域有限，可能无法显示各层所有的符号，本发明实施例可在虚拟键盘的首页显示各层的前M个符号，并通过扩展界面显示剩余的符号，用户可通过虚拟键盘首页的命令按钮打开或关闭扩展界面。

如图3所示，本发明实施例的一种基于符号挖掘的动态键盘生成方法，包括：

试题输入模块，用于获取试题数据，试题数据包含试题文本和/或试题图形，提取试题数据的试题向量；

符号挖掘模块，用于将试题向量输入到训练后的情景模式识别模型，输出试题数据包含的情景模式，根据预先构建的情景知识库获取试题数据包含的情景模式对应的符号集合，对符号集合进行筛选形成候选符号集合；

符号显示控制模块，用于预先定义键盘界面分区、以及每个区域的符号筛选规则，按照预设符号筛选规则对候选符号集合中进行筛选，分别形成每个区域的符号集合；

进一步地，符号显示控制模块还用于获取用户与虚拟键盘的交互数据，根据交互数据按照预先定义的更新规则更新每个区域的符号集合。

系统的实现原理、技术效果与上述方法类似，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于符号挖掘的动态键盘生成方法，其特征在于，包括步骤：

获取试题数据，提取所述试题数据的试题向量；

按照键盘界面分区以及每个区域的符号集合生成虚拟键盘并显示；

其中，所述情景模式是试题中所隐含的知识逻辑类型；

获取所述试题数据包含的情景模式对应的符号集合包含步骤：

2.如权利要求1所述的一种基于符号挖掘的动态键盘生成方法，其特征在于，所述试题数据包含试题文本和试题图形，提取所述试题数据的试题向量包括步骤：

3.如权利要求1所述的一种基于符号挖掘的动态键盘生成方法，其特征在于，对所述符号集合进行筛选形成候选符号集合前，对所述符号集合进行扩充。

4.如权利要求3所述的一种基于符号挖掘的动态键盘生成方法，其特征在于，所述扩充采用以下两种方式中的任意一种实现，或采用两种方式组合实现：

5.如权利要求1所述的一种基于符号挖掘的动态键盘生成方法，其特征在于，所述筛选形成候选符号集合包含步骤：

计算所述符号集合中各个符号出现的概率；

选取概率最高的前N个符号形成候选符号集合，N为预设值。

6.如权利要求5所述的一种基于符号挖掘的动态键盘生成方法，其特征在于，所述键盘界面分区包括第一区域、第二区域、第三区域和第四区域，所述符号筛选规则为：

选取预先指定的字符作为所述第四区域的符号集合。

7.如权利要求1所述的一种基于符号挖掘的动态键盘生成方法，其特征在于，还包括步骤：

8.一种基于符号挖掘的动态键盘生成系统，其特征在于，包括：

符号显示模块，用于按照键盘界面分区以及每个区域的符号集合生成虚拟键盘并显示；

其中，所述情景模式是试题中所隐含的知识逻辑类型；

9.如权利要求8所述的一种基于符号挖掘的动态键盘生成系统，其特征在于，所述符号显示控制模块还用于获取用户与虚拟键盘的交互数据，根据交互数据按照预先定义的更新规则更新每个区域的符号集合。