CN114048354B - 基于多元表征和度量学习的试题检索方法、装置及介质 - Google Patents
基于多元表征和度量学习的试题检索方法、装置及介质 Download PDFInfo
- Publication number
- CN114048354B CN114048354B CN202210018994.4A CN202210018994A CN114048354B CN 114048354 B CN114048354 B CN 114048354B CN 202210018994 A CN202210018994 A CN 202210018994A CN 114048354 B CN114048354 B CN 114048354B
- Authority
- CN
- China
- Prior art keywords
- test
- questions
- question
- test question
- test questions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于多元表征和度量学习的试题检索方法、装置、计算机设备及存储介质,该方法步骤如下:获取试题库数据,提取试题中的多元异构数据的特征;对多元特征分别建立索引;提取输入查询的试题特征,利用BM25算法从题库中粗召回一定量的候选相似试题;将输入查询的试题和BM25算法返回的候选试题特征输入到多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果。本发明根据试题多源异构,分别对图片、文本、公式进行特征提取和建模。采用粗召回和精排两阶段检索策略,利用概率模型召回候选试题再重排序,提升匹配的效率。在精排阶段,多维度融合不同度量学习匹配算法,提升搜索方法的准确率和鲁棒性。
Description
技术领域
本发明涉及试题检索技术领域,具体涉及一种基于多元表征和度量学习的试题检索方法、装置、计算机设备及存储介质。
背景技术
检索相似试题,避免重复命题是各类考试命题工作中的重要环节。传统试题检索需要在明确试题范围的情况下依靠专家经验,在已有纸质资料手动查询或在以Word形式存储的整张试卷中通过简单搜索功能查询,从而做出比对和判断。这种模式在检索范围较小、命题任务较少的情况下,尚可实行。但传统试题检索面临着很多挑战。第一,检索效率难以提高。伴随着每次考试,都会有大量的与这次考试相关的教辅资料和模拟题出现。如果试题检索范围扩大,命题数量提升,那么简单依靠传统检索方式很难应对。第二,检索准确度难以保障。在书目中手动查询,很容易漏查。在以Word形式存储的试卷中,只能通过关键词匹配查询,而且难以对于不同元数据进行精确查询和检索,例如复杂公式和图片在试题中比例较高而且尤为重要,尤其是理科试题。第三,维护成本较高。传统检索方式就需要以整套试卷和整本书目收集这些试题,积累的数量也会越来越多,不同资料中甚至还会出现大量重复试题,从而增大维护管理的成本。
传统的查重算法通过one-hot向量或者TF-IDF对试题数值化表征,然后利用距离度量方法来刻画试题之间的相似度,例如海明距离、编辑距离和余弦距离等。向量空间模型VSM是一个简单有效的无监督学习算法,根据TF-IDF值将试题转化为向量空间的数学运算,使用余弦距离度量试题之间的相似性,已经被广泛应用相似试题挖掘任务中。然而向量空间模型VSM得到的向量维度往往太大并且过于稀疏,并且每次查询需要更新词表,将待查询试题和试题库中的所有试题都进行计算,效率比较低。而且传统查重算法主要针对纯文本信息,仅可应用于题干中的语义逻辑检索,难以建模试题中的多元异构数据。随着试题的多元化以及多样性,往往除了文本信息,还包括公式和图片,甚至公式图片所占比例还比较大。公式虽然可以转化为Tex或Latex文本,但直接使用文本相似度算法将会导致公式语义的不恰当分割,从而使得公式相似度匹配结果准确度低。而传统的图像检索方法基于图像的局部特征(例如角点、关键点等)或者全局特征(例如颜色直方图)判断图像是否相似,然而局部特征容易受到文字影响,全局特征对尺度变换敏感,目前更多的研究是基于卷积神经网络提取图像的特征信息。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供基于多元表征和度量学习的试题检索方法、装置、计算机设备及存储介质。该试题检索方法首先对试题中文本、公式以及图片等多元异构数据进行表征,表示成计算机可识别和计算处理的张量形式;为了兼顾性能和效率的平衡,通过建立索引存储图片、文本和公式的特征实现快速检索;最后基于多种度量学习方法,实现多元异构数据(文本、公式和符号)的匹配,采用粗召回+精排两阶段策略,利用概率模型召回候选试题再重排序,从而提升匹配的效率。在精排阶段,多维度融合不同度量学习匹配算法,多维度匹配试题内容,以丰富算法库,提升算法的准确率和鲁棒性,并通过加权融合技术给出综合评估的相似度。
本发明的第一个目的在于提供一种基于多元表征和度量学习的试题检索方法。
本发明的第二个目的在于提供一种基于多元表征和度量学习的试题检索装置。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种基于多元表征和度量学习的试题检索方法,所述试题检索方法包括以下步骤:
S1、获取试题库数据,提取试题库中试题的多元异构数据的特征,所述多元异构数据包括文本、公式以及图片;
S2、对步骤S1中提取的多元异构数据的特征分别建立索引;
S3、提取输入查询的试题的多元异构数据的特征,利用BM25算法从试题库中粗召回一定量的候选相似试题;
S4、将输入查询的试题的多元异构数据的特征,和步骤S3返回的候选相似试题的多元异构数据的特征通过多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果。
进一步地,步骤S1中提取试题库中试题的多元异构数据的特征的计算过程如下:
S1.1、对试题中的文本信息利用结巴分词提取文本特征,并过滤停用词,其中,所述文本信息由中文字符组成,再利用one-hot技术将每个单词编码形成字符串。
试题中的文本信息通常是由中文字符组成。对于中文字符来说,一个字可以看成一个特征,但是通常一个字所涵盖的语义不明确,需要和其他字组成词语才具有区分度,并且和任务目标更加关联。所以首先需要对试题进行分词,也就是将连续的字序列按照一定的规范重新组合成词序列。对于中文字符可以采取结巴分词技术对题干进行划分。然而文本中存在影响检索结果的停用词,也就是在大量文本中频繁出现但是对文本理解实际意义不大的词,例如“的”、“得”、“这个”等等。停用词不包含关键的信息,并且容易对文本中的有效信息造成噪声干扰,影响搜索的准确率,并且降低搜索的速度。所以通常将停用词过滤,例如人称代词、连词、助词等。过滤后能够减少词表的大小,减少计算量,降低噪声对检索结果的影响。经过分词之后可以得到无序的单词,可以利用one-hot技术对每个单词进行编码成计算机可以识别的字符串。
S1.2、对试题中的Latex公式提取公式特征。
试题中的公式通常以Latex公式形式存储。Latex公式是由一系列定义好的数学符号和字符组成,如果按照现有的分词技术对公式分词,会导致公式由于被过度分割导致失去语义信息,缺乏判别性。两道不同的Latex公式通过结巴分词后会得到相同字符特征集合,导致相同特征集合通过不同排列组合匹配多个公式的问题,影响检索的效果。除此之外,结巴分词对于公式特征的划分粒度太细,导致大部分特征都是单个字符或者符号。然而单个字符或者符号并不具备判别性,所以对于Latex公式不能简单通过现有的分词技术提取特征。
根据Latex公式的一些特性和规则,本发明进一步设计一种面向Latex公式的特征提取流程。
首先对Latex公式进行数据清洗,例如,检查数学符号的格式是否满足Latex的命名规则,去除冗余的空格符号或者无效字符,过滤只包含单个变量的公式等等,经过清洗后可以得到较为干净的Latex公式。虽然Latex的组合形式非常丰富,但是都是基于一些基本的模板函数和逻辑符号通过不同排列组合组成,例如cos、sin、tanh等,所以本发明通过一些通用的规则提取常用的结构作为公式的特征表示。首先每个独立的公式都可以看作一种特征。由于公式的多样性,完全相同的公式出现在不同试题中的概率相对比较低,这使得一些基于概率统计的算法(例如TF-IDF、BM25)对于公式分配的权重较高,提高包含相同公式的不同试题的召回率。然而这种特征体现的是精确的字符匹配,也就是必须满足两个完全相同的公式才看成相同特征,但是对于一些由于常量或者变量不同的相似公式无法满足;同样因为公式的多样性,相同的公式可能存在不同的Latex写法,所以公式仅包含一个特征是不足够的。考虑到常见的公式(例如三角函数,曲线方程等)存在一定的模板,两道同类型的公式可能存在较大的重合度,所以可以基于一些规则从公式中提取出一些结构作为公式的特征。图3展示了本发明提出的面向Latex公式的5种不同的公式特征提取方式,包含基于变量替换、常量替换、子结构抽取等手段。
其中,特征提取包括:
S1.2.1、提取原始字符串公式;
S1.2.2、消除Latex公式中的常量,即去除公式中的常数,保留变量和等式,将公式中所有数值(常量)统一用一个特殊符号@代替;例如公式2x+3y=5转化为@x+@y=@。通过消除数值能够使得特征能够匹配只是数值不同的相似公式。例如2x+3y=5和 4x+6y=10是恒等的两道式子。
S1.2.3、消除Latex公式中的变量,即去除公式中的变量,保留常量和等式,将公式中的所有变量统一用一个特殊符号#代替;例如公式y=4x 2转化为#=4#2。通过消除变量的不一致使得特征能够匹配只是变量名不同的相似公式。例如对于公式y=4x 2和 b=4a 2的区别只是变量名不一样,但是所表征的公式是一致的,所以这两道公式可以看作相似的。
S1.2.4、得到Latex公式的模板,即消除常量和变量,保留算术符号;例如a+b-c=3转化为@+@-@=#,可以看成三个变量通过加减法得到一个常量的模板。
S1.2.5、上述步骤S1.2.1- S1.2.4均是基于完整的公式,然而公式中存在一些特殊符号,对Latex公式拆解提取特殊子结构,所述特殊子结构用于表征Latex公式的基本单元,所述特殊子结构包括Latex公式专有数学符号、上标结构“^”、下标结构“_”和方程组的一种或多种。
其中,Latex公式专有数学符号,例如三角函数符号\sin,\cos,\tan、指数函数\exp、对数\ln等等;
上标结构“^”或者下标结构“_”,例如a^b,x^2,y_1,x_2等等;
通过上述的设计的5种不同提取方式,不同公式将会得到不同的特征集合,避免相同特征集合对应多个公式的情况,减少歧义性,同时避免过度分割导致失去语义信息,缺乏判别性。
S1.3、采用在大规模图像数据集ImageNet上预训练的VGG16模型提取图片特征,将VGG16模型的倒数第二个全连接层的特征作为图片的全局特征,即将试题中的一张图片压缩为4096维的特征向量。
进一步地,步骤S2中对多元异构数据的特征分别建立索引的过程如下:
由于步骤S1提取的多元特征不会随着查询而改变,所以可以事先对所有的特征建立索引,当需要查询时直接返回对应的特征,而不需要重新计算,提高检索效率。对于文本和公式,利用倒排索引建立“特征-试题ID”字典;对于图片,通过VGG16作为预训练模型计算试题库中每一张图片特征,建立“图片ID-表征向量”字典。
进一步地,步骤S3中利用BM25算法从试题库中召回一定量的候选相似试题的计算过程如下:
S3.1、对输入查询的试题s的文本和公式按照结巴分词和Latex公式分词得到文本和公式的特征并集{q 1,…,q i,…,q T },其中q i是分词后的第i个特征,给定试题库中某道试题d∈D,D是试题库所有试题集合。本发明采用基于概率检索的BM25算法作为粗召回阶段的匹配方法,衡量搜索词和文档之间的相关性,具有简单有效、速度快等特点,能够快速召回相关的候选相似试题。试题s与试题d的匹配分数计算方式如下:
其中w i表示特征q i的权重,R(q i , d)表示特征q i和试题d的相关性,公式中符号“*”表示元素相乘;
其中N是试题库中试题总数,df(q i)为包含特征q i的试题数量;
相关性R(q i , d)的计算方式如下:
其中f i 表示特征q i在试题d中出现的频率,qf i 表示特征q i在试题s中出现的频率,dl表示试题d的长度,avgdl表示数据库D中所有试题的平均长度,k 1、k 2、b均为可调节的第一、第二、第三计算参数;
S3.2、根据BM25算法得到每道试题d和查询的试题s的匹配分数,按照分数从高到低排序,返回前Y个题目作为和试题s相似度最高的题目用于后续的精排阶段。
进一步地,步骤S4中多种度量学习方法进行重排序,在步骤S3中BM25算法召回一定量的候选相似试题,然而由于数据多元化信息以及录入、转码、储存阶段可能引入的噪声,会影响到试题的相似度分数计算。因此,在精排阶段需要对BM25算法召回的候选试题重新排序,得到更加鲁棒的结果。本发明利用多种不同的机器学习匹配技术进行多维度、多方面的匹配,并通过加权融合技术给出综合评估的相似度。
步骤S4中精排的计算过程如下:
S4.1、利用向量空间模型VSM调节BM25算法得到的匹配分数,假设输入查询的试题s和试题库中试题d经向量空间模型VSM进行特征提取后得到的向量表示如下:
其中f(w ij),i∈{s,d}表示第j个单词在文档i中的TF-IDF权重;w ij表示第j个单词是否在文档i中出现,如果出现则w ij=1,否则w ij=0;通过余弦相似度得到输入查询的试题s和试题库中试题d的第一相似性分数:
公式中符号“.”表示向量相乘,“‖𝑥‖”表示对x求范数;
由于向量空间模型VSM需要对不同的两道试题重新计算向量F s 和F d ,当题量很大时会导致计算效率低下,并且向量空间模型VSM存在语义鸿沟等问题。为了缓解这个问题,本发明只是将查询试题s以及BM25算法得到的匹配度最高的试题通过向量空间模型VSM得到相似度分数score(s, d′),将这种分数作为缩放因子和BM25算法归一化后的分数相乘进行缩放调整。
S4.2、基于编辑距离计算输入查询的试题s和试题库中试题d的第二相似度分数Sim(s,d),公式如下:
其中leve(s,d) 表示输入查询的试题s和试题库中试题d的编辑距离, 即查询的试题s通过删除、插入和替换三种操作变成试题库中试题d所需要的最小代价,可以通过动态规划求得leve(s,d)的取值,|s|和|d|分别是试题s和试题d的长度;
由于Latex公式书写的多样性,并且数据中存在一定的噪声干扰影响分词的结果,从而影响BM25算法的性能。因此,本发明引入了编辑距离提升模型的鲁棒性。然而编辑距离的复杂度为O(n 2),当试题库较大时检索效率十分低,所以本发明只是考虑将BM25算法得到的前道试题参与编辑距离计算,其中𝑌≪ 𝑁。当𝑌越大,所需的计算时间也越长。
S4.3、上述方式都是考虑对试题的全部内容进行不同方式的衡量,然而对于短查询内容的匹配效果可能不佳,例如编辑距离倾向匹配和查询内容长度接近而不是内容接近的试题。为了缓解这个问题,提高短查询内容的召回率,本发明进一步引入了特征覆盖率,考虑了试题库试题特征包含了查询内容的特征的占比率,占比率越大,说明试题包含查询内容的概率越大,减少试题长度因素对匹配效果的影响。引入特征覆盖率提高短查询内容的召回率,假设输入查询的试题s和试题库中试题d经过特征提取后分别得到的特征集合和P表示如下:
其中q i是输入查询的试题s经特征提取后的第i个特征,p t是试题库中试题d经特征提取后的第t个特征;
计算特征覆盖率,公式如下:
Q⋂P表示两个特征集合的交集,|Q⋂P|表示交集Q⋂P的集合大小,|P|表示特征集合P的大小;
S4.4、最后通过加权融合多种匹配算法得到综合的评估分数。融合方式可以采取人工设定权重值、投票法、自由组合等方式进行融合。本发明主要采取了组合和投票法的融合方式,利用向量空间模型VSM对BM25算法计算得到的结果进行归一化,然后和编辑距离、特征覆盖率的结果进行比较,保留最大值作为试题之间的相似程度,最后按照相似程度从大到小排序返回检索结果。
本发明的第二个目的可以通过采取如下技术方案达到:
一种基于多元表征和度量学习的试题检索装置,所述试题检索装置包括:
特征提取模块,用于获取试题库数据,提取试题库中试题的多元异构数据的特征,所述多元异构数据包括文本、公式以及图片;
索引建立模块,用于对特征提取模块中提取的多元异构数据的特征分别建立索引;
粗召回模块,用于提取输入查询的试题的多元异构数据的特征,利用BM25算法从试题库中粗召回一定量的候选相似试题;
精排模块,用于将输入查询的试题的多元异构数据的特征,和粗召回模块返回的候选相似试题的多元异构数据的特征通过多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的基于多元表征和度量学习的试题检索方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的基于多元表征和度量学习的试题检索方法。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明提出了一种多元表征和度量学习的试题检索方法。针对试题中的多元异构特性,分别针对纯文本、Latex公式以及图片等不同信息进行多维度匹配。
(2)本发明采取粗召回和精排两阶段模式,通过加权融合不同的机器学习匹配算法进行试题多方面的相关性评估。
(3)由于公式和符号的复杂多样性,本发明针对当前分词方法会导致公式过度分割的问题,设计一种面向Latex公式的特征提取方法,通过变量替换、常量替换、子结构抽取等手段提取特征,极大提高试题的召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例1中公开的基于多元表征和度量学习的试题检索方法的流程图;
图2是本发明实施例1中公开的基于多元表征和度量学习的试题检索方法的框架图;
图3是本发明实施例1中公开的面向Latex公式的5种不同的特征提取方式示意图;
图4是本发明实施例2中的基于多元表征和度量学习的试题检索装置的结构框图;
图5是本发明实施例3中计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
随着信息技术的突飞猛进,特别是人工智能和大数据的迅速发展,传统产业在与这些新技术的融合过程中,效率得到很大程度的提高。例如,通过图像识别,机场车站安检工作得到提升;通过语音识别技术,会议记录、在线翻译也有了快速进步;通过大数据分析,城市交通等多项治理工作也得到优化。试题检索工作的基础是试题资源,试题资源以试题所包含的文本、图片、公式、符号等信息为主。本实施例旨在通过引入人工智能和大数据技术,研发面向试题检索的相关算法,从多元异构数据介入,进行建模和表征,实现试题相似度的自动判定和检索。
本实施例以全国高考理科试题库作为具体实例。高考理科试题库收集了1981-2020年间的高考真题试卷、模拟考试卷和专题练习试卷,试题中的公式均处理为Latex公式的格式。试题类型包括选择题、填空题、解答题和其他题型。从数据集中采样2000道数学试题对本发明的方法进行测试,其中BM25算法中的参数k 1、k 2、b分别设置为1.5、0和0.75,参与编辑距离计算的Y设置为50。采用TOP-1和TOP-5两个准确率指标评价本项目研究的算法。TOP-1准确率是指排名第一的试题和输入试题为相同试题的准确率;TOP-5准确率是指排名前5的试题包含输入试题的准确率。
该试题检索方法包括以下步骤:
S1、获取试题库数据,提取试题库中试题的多元异构数据的特征,该多元异构数据包括文本、公式以及图片;
S1.1、对试题中的文本信息利用结巴分词提取文本特征,并过滤停用词,其中,所述文本信息由中文字符组成,再利用one-hot技术将每个单词编码形成字符串;
S1.2、对试题中的Latex公式提取公式特征。本实施例针对Latex公式,根据其特性和规则设计一种面向Latex公式的特征提取方法。例如对于公式x 2+2y=1,其提取的特征流程如下:
首先对latex公式进行数据清洗得到较为干净的latex公式;考虑到常见的公式(例如三角函数,曲线方程等)存在一定的模板,两道同类型的公式可能存在较大的重合度,所以基于一些规则从公式中提取出一些结构作为公式的特征,其中提取的特征包括:
S1.2.1、提取原始字符串公式;原始字符串公式,即x 2+2y=1。
S1.2.2、消除Latex公式中的常量,即去除公式中的常数,保留变量和等式,将公式中所有数值(常量)统一用一个特殊符号@代替,即x 2+@y=@;
S1.2.3、消除Latex公式中的变量,即去除公式中的变量,保留常量和等式,将公式中的所有变量统一用一个特殊符号#代替,即# 2+2#=1;
S1.2.4、得到Latex公式的模板,即消除常量和变量,保留算术符号;
S1.2.5、对Latex公式拆解提取特殊子结构,所述特殊子结构用于表征Latex公式的基本单元,所述特殊子结构包括Latex公式专有数学符号、上标结构“^”或者下标结构“_”、方程组,即# 2+@#=@;例如x 2。
S1.3、对试题中的图片采用在大规模图像数据集ImageNet上预训练的VGG16模型提取图片特征,将VGG16模型的倒数第二个全连接层的特征作为图片的全局特征,即将试题中的一张图片压缩为4096维的特征向量。
S2、对步骤S1提取试题的多元异构数据的特征分别建立索引。对于文本和公式,利用倒排索引建立“特征-试题ID”字典;对于图片,通过VGG16模型作为预训练模型计算试题库中每一张图片表征,建立“图片ID-表征向量”字典。
S3、提取输入查询的试题的多元异构数据的特征,利用BM25算法从试题库中粗召回一定量的候选相似试题;
本实施例中,步骤S3中利用BM25算法从试题库中粗召回一定量的候选相似试题的过程如下:
S3.1、假设输入查询的试题s的内容为“线性方程2x+3y=5的解是多少”。按照结巴分词和Latex公式分词得到纯文本和公式的特征并集{线性,方差,2x+3y=5,2#+3#=5,q i,…,q T },其中q i是分词后的第i个特征,给定试题库中某道试题d∈D,D是试题库所有试题集合,试题s与试题d的匹配分数计算方式如下:
其中w i表示特征q i的权重,R(q i , d)表示特征q i和试题d的相关性,公式中符号“*”表示元素相乘;
其中N是试题库中试题总数,df(q i)为包含特征q i的试题数量;
相关性R(q i ,d)的计算方式如下:
其中f i 表示特征q i在试题d中出现的频率,qf i 表示特征q i在试题s中出现的频率,dl表示试题d的长度,avgdl表示数据库D中所有试题的平均长度,k 1、k 2、b均为可调节的第一、第二、第三计算参数;
S3.2、根据BM25算法得到每道试题d和查询的试题s的匹配分数,按照分数从高到低排序,返回前Y个题目作为和试题s相似度最高的题目用于后续的精排阶段。
S4、将输入查询的试题的多元异构数据的特征,和步骤S3返回的候选相似试题的多元异构数据的特征通过多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果。
所述步骤S4中精排过程如下:
S4.1、利用向量空间模型VSM调节BM25算法得到的匹配分数,假设输入查询的试题s和试题库中试题d经向量空间模型VSM进行特征提取后得到的向量表示如下:
其中f(w ij),i∈{s,d}表示第j个单词在文档i中的TF-IDF权重;w ij表示第j个单词是否在文档i中出现,如果出现则w ij=1,否则w ij=0;通过余弦相似度得到输入查询的试题s和试题库中试题d的第一相似性分数:
公式中符号“.”表示向量相乘,“‖x‖”表示对x求范数;
由于向量空间模型VSM需要对不同的两道试题重新计算向量F s 和F d ,当题量很大时会导致计算效率低下,并且向量空间模型VSM存在语义鸿沟等问题。为了缓解这个问题,本实施例只是将输入的查询试题s以及BM25算法得到的匹配度最高的试题d′通过向量空间模型VSM得到相似度分数score(s, d′),将这种分数作为缩放因子和BM25算法归一化后的分数相乘进行缩放调整。
S4.2、引入编辑距离提升模型的鲁棒性,基于编辑距离计算输入查询的试题s和试题库中试题d的第二相似度分数Sim(s,d),公式如下:
其中leve(s,d)表示输入查询的试题s和试题库中试题d的编辑距离, 即查询的试题s通过删除、插入和替换三种操作变成试题库中试题所需要的最小代价,可以通过动态规划求得leve(s,d)的取值,|s|和|d|分别是试题s和试题d的长度;由于编辑距离的复杂度为O(n 2),当试题库较大时检索效率十分低,所以本发明只是考虑将BM25算法得到的前50道试题参与编辑距离计算,减少计算量,加快检索速度。
由于Latex公式书写的多样性,并且数据中存在一定的噪声干扰影响分词的结果,从而影响BM25算法的性能。因此,本发明引入了编辑距离提升模型的鲁棒性。然而编辑距离的复杂度为O(n 2),当试题库较大时检索效率十分低,所以本发明只是考虑将BM25算法得到的前Y道试题参与编辑距离计算,其中Y≪N。当Y越大,所需的计算时间也越长。
S4.3、引入特征覆盖率提高短查询内容的召回率,假设输入查询的试题s和试题库中试题d经过特征提取后分别得到的特征集合Q和P表示如下:
其中q i是输入查询的试题s经特征提取后的第i个特征,p t是试题库中试题d经特征提取后的第t个特征;
计算特征覆盖率,公式如下:
Q⋂P表示两个特征集合的交集,|Q⋂P|表示交集Q⋂P的集合大小,|P|表示特征集合P的大小;
S4.4、利用向量空间模型VSM对BM25算法计算得到的结果进行归一化,然后和编辑距离、特征覆盖率的结果进行比较,保留最大值作为试题之间的相似程度,最后按照相似程度从大到小排序返回检索结果。
采用相同的数据集,将本发明的实验结果和传统特征表示以及检索方法相比较。所得结果如下表1:
表1.不同方法对于试题检索结果表
实验结果如表1所示,如果试题采用传统结巴分词提取特征(方法1),TOP-1准确率只有70.05,原因在于结巴分词导致公式过度分割产生大量的停用词,并且得到的公式特征存在对应多道公式的问题,影响检索结果;然而通过本发明设计的Latex公式分词提取特征(方法2),TOP-1准确率达到了98.35,基本上能够召回高度相似试题。进一步地,采取多种度量学习方法融合进行精排能够减少噪声的影响(方法3),对准确率也有一定的提升,TOP-1准确率达到了98.60。由于试题中可能存在和输入相同或者相似的多道试题,所以通过TOP-5准确率更能体现召回的结果,可以发现表1中3种方法的TOP-5均比TOP-1结果高,其中方法2和方法3在TOP-5中达到了100的准确率,说明了本发明方法的有效性。由于建立了索引,所以每道题目的测试时间均在毫秒级以内,由于方法3融合了复杂度比较高的编辑距离,所以平均测试时间比方法1和方法2要高,但是因为只是取BM25算法得到的前50道试题参与计算,所以检索时间依然是高效的。
实施例2:
如图4所示,本实施例提供了一种基于多元表征和度量学习的试题检索装置,该试题检索装置包括:
特征提取模块401,用于获取试题库数据,提取试题库中试题的多元异构数据的特征,所述多元异构数据包括文本、公式以及图片;
索引建立模块402,用于对特征提取模块中提取的多元异构数据的特征分别建立索引;
粗召回模块403,用于提取输入查询的试题的多元异构数据的特征,利用BM25算法从试题库中粗召回一定量的候选相似试题;
精排模块404,用于将输入查询的试题的多元异构数据的特征,和粗召回模块返回的候选相似试题的多元异构数据的特征通过多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果。
本实施例中各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图5所示,其通过系统总线501连接的处理器502、存储器、输入装置503、显示器504和网络接口505,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质506和内存储器507,该非易失性存储介质506存储有操作系统、计算机程序和数据库,该内存储器507为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器502执行存储器存储的计算机程序时,实现上述实施例1的一种基于多元表征和度量学习的试题检索方法,包括以下步骤:
S1、获取试题库数据,提取试题库中试题的多元异构数据的特征,所述多元异构数据包括文本、公式以及图片;
S2、对步骤S1中提取的多元异构数据的特征分别建立索引;
S3、提取输入查询的试题的多元异构数据的特征,利用BM25算法从试题库中粗召回一定量的候选相似试题;
S4、将输入查询的试题和步骤S3返回的候选相似试题的多元异构数据的特征通过多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的基于多元表征和度量学习的试题检索方法,如下:
S1、获取试题库数据,提取试题库中试题的多元异构数据的特征,所述多元异构数据包括文本、公式以及图片;
S2、对步骤S1中提取的多元异构数据的特征分别建立索引;
S3、提取输入查询的试题的多元异构数据的特征,利用BM25算法从试题库中粗召回一定量的候选相似试题;
S4、将输入查询的试题和步骤S3返回的候选相似试题的多元异构数据的特征通过多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果。
本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本实施例针对试题中多元异构数据的特点,设计了一套多元表征的特征提取方法,能够有效编码文本、公式以及图片等不同模态数据,并融合多种不同度量学习方法多维度多视角对比不同试题之间关系,在试题检索上取得了更好的召回率,同时具有良好的鲁棒性,有助于相关试题的甄别以及过滤,对保障试题质量、维护考试公平也有着重要意义。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于多元表征和度量学习的试题检索方法,其特征在于,所述试题检索方法包括以下步骤:
S1、获取试题库数据,提取试题库中试题的多元异构数据的特征,所述多元异构数据包括文本、公式以及图片;
S2、对步骤S1中提取的多元异构数据的特征分别建立索引;
S3、提取输入查询的试题的多元异构数据的特征,利用BM25算法从试题库中粗召回一定量的候选相似试题;
S4、将输入查询的试题的多元异构数据的特征,和步骤S3返回的候选相似试题的多元异构数据的特征通过多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果;
上述精排过程如下:
S4.1、利用向量空间模型VSM调节BM25算法得到的匹配分数,假设输入查询的试题s和试题库中试题d经向量空间模型VSM进行特征提取后得到的向量表示如下:
其中f(w ij),i∈{s,d}表示第j个单词在文档i中的TF-IDF权重;w ij表示第j个单词是否在文档i中出现,如果出现则w ij=1,否则w ij=0;通过余弦相似度得到输入查询的试题s和试题库中试题d的第一相似性分数:
公式中符号“.”表示向量相乘,“‖𝑥‖”表示对x求范数;
S4.2、基于编辑距离计算输入查询的试题s和试题库中试题d的第二相似度分数Sim(s,d),公式如下:
其中l𝑒𝑣𝑒(𝑠, d)表示输入查询的试题s和试题库中试题d的编辑距离,即查询的试题s通过删除、插入和替换三种操作变成试题库中试题d所需要的最小代价,通过动态规划求得l𝑒𝑣𝑒(𝑠, d)的取值,|𝑠|和|d|分别是试题s和试题的长度;
S4.3、假设输入查询的试题s和试题库中试题d经过特征提取后分别得到的特征集合Q和P表示如下:
其中q i是输入查询的试题s经特征提取后的第i个特征,p t是试题库中试题d经特征提取后的第t个特征;
计算特征覆盖率,公式如下:
Q⋂P表示两个特征集合的交集,|Q⋂P |表示交集Q⋂P的集合大小,| P |表示特征集合P的大小;
S4.4、利用向量空间模型VSM对BM25算法计算得到的结果进行归一化,然后和编辑距离、特征覆盖率的结果进行比较,保留最大值作为试题之间的相似程度,最后按照相似程度从大到小排序返回检索结果。
2.根据权利要求1所述的基于多元表征和度量学习的试题检索方法,其特征在于,所述步骤S1中提取试题库中试题的多元异构数据的特征过程如下:
S1.1、对试题中的文本信息利用结巴分词提取文本特征,并过滤停用词,其中,所述文本信息由中文字符组成,再利用one-hot技术将每个单词编码形成字符串;
S1.2、对试题中的Latex公式提取公式特征,特征提取包括:
S1.2.1、提取原始字符串公式;
S1.2.2、消除Latex公式中的常量,即去除公式中的常数,保留变量和等式,将公式中所有数值统一用一个特殊符号@代替;
S1.2.3、消除Latex公式中的变量,即去除公式中的变量,保留常量和等式,将公式中的所有变量统一用一个特殊符号#代替;
S1.2.4、得到Latex公式的模板,即消除常量和变量,保留算术符号;
S1.2.5、对Latex公式拆解提取特殊子结构,所述特殊子结构包括Latex公式专有数学符号、上标结构“^”、下标结构“_”和方程组的一种或多种;
S1.3、对试题中的图片采用在大规模图像数据集ImageNet上预训练的VGG16模型提取图片特征,将VGG16模型的倒数第二个全连接层的特征作为图片的全局特征,即将试题中的一张图片压缩为4096维的特征向量。
3.根据权利要求1所述的基于多元表征和度量学习的试题检索方法,其特征在于,所述步骤S2中对多元异构数据的特征分别建立索引的过程如下:
对于文本和公式,利用倒排索引建立“特征-试题ID”字典;对于图片,通过VGG16作为预训练模型计算试题库中每一张图片特征,建立“图片ID-表征向量”字典。
4.根据权利要求1所述的基于多元表征和度量学习的试题检索方法,其特征在于,所述步骤S3中利用BM25算法从试题库中粗召回一定量的候选相似试题的过程如下:
S3.1、对输入查询的试题s的文本和公式按照结巴分词和Latex公式分词得到文本和公式的特征并集{q 1,…,q i,…,q T },其中q i是分词后的第i个特征,给定试题库中某道试题d∈D,D是试题库所有试题集合,试题s与试题d的匹配分数计算方式如下:
其中w i表示特征q i的权重,R(q i , d)表示特征q i和试题d的相关性,公式中符号“*”表示元素相乘;
使用简化的二元独立模型作为w i值,即
其中N是试题库中试题总数,df(q i)为包含特征q i的试题数量;
相关性R(q i , d)的计算方式如下:
其中f i 表示特征q i在试题d中出现的频率,qf i 表示特征q i在试题s中出现的频率,dl表示试题d的长度,avgdl表示数据库D中所有试题的平均长度,k 1、k 2、b均为可调节的第一、第二、第三计算参数;
S3.2、根据BM25算法得到每道试题d和查询的试题s的匹配分数,按照分数从高到低排序,返回前Y个题目作为和试题s相似度最高的题目用于后续的精排阶段。
7.一种实现权利要求 1-6任一项所述的基于多元表征和度量学习的试题检索方法的试题检索装置,其特征在于,所述试题检索装置包括:
特征提取模块,用于获取试题库数据,提取试题库中试题的多元异构数据的特征,所述多元异构数据包括文本、公式以及图片;
索引建立模块,用于对特征提取模块中提取的多元异构数据的特征分别建立索引;
粗召回模块,用于提取输入查询的试题的多元异构数据的特征,利用BM25算法从试题库中粗召回一定量的候选相似试题;
精排模块,用于将输入查询的试题的多元异构数据的特征,和粗召回模块返回的候选相似试题的多元异构数据的特征通过多种度量学习方法进行精排,最后按照相似度程度从大到小排序返回检索结果。
8.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-6任一项所述的基于多元表征和度量学习的试题检索方法。
9.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-6任一项所述的基于多元表征和度量学习的试题检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210018994.4A CN114048354B (zh) | 2022-01-10 | 2022-01-10 | 基于多元表征和度量学习的试题检索方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210018994.4A CN114048354B (zh) | 2022-01-10 | 2022-01-10 | 基于多元表征和度量学习的试题检索方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114048354A CN114048354A (zh) | 2022-02-15 |
CN114048354B true CN114048354B (zh) | 2022-04-26 |
Family
ID=80213460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210018994.4A Active CN114048354B (zh) | 2022-01-10 | 2022-01-10 | 基于多元表征和度量学习的试题检索方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048354B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357691B (zh) * | 2022-10-21 | 2023-04-07 | 成都数之联科技股份有限公司 | 一种语义检索方法及系统、设备和计算机可读存储介质 |
CN116680422A (zh) * | 2023-07-31 | 2023-09-01 | 山东山大鸥玛软件股份有限公司 | 一种多模态题库资源查重方法、系统、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229186B1 (en) * | 2016-03-18 | 2019-03-12 | EMC IP Holding Company LLC | Data set discovery engine comprising relativistic retriever |
WO2021169263A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 基于内部对抗机制的语义匹配方法、装置及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043265B2 (en) * | 2006-09-21 | 2015-05-26 | Aebis, Inc. | Methods and systems for constructing intelligent glossaries from distinction-based reasoning |
CN104765769B (zh) * | 2015-03-06 | 2018-04-27 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN105824798A (zh) * | 2016-03-03 | 2016-08-03 | 云南电网有限责任公司教育培训评价中心 | 基于试题关键字相似性的试题库中的试题去重方法 |
CN111680173B (zh) * | 2020-05-31 | 2024-02-23 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 统一检索跨媒体信息的cmr模型 |
CN112685452B (zh) * | 2020-12-31 | 2021-08-10 | 特赞(上海)信息科技有限公司 | 企业案例检索方法、装置、设备和存储介质 |
CN113220821A (zh) * | 2021-04-30 | 2021-08-06 | 作业帮教育科技(北京)有限公司 | 一种针对试题检索的索引建立方法、装置及电子设备 |
CN112989058B (zh) * | 2021-05-10 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 信息分类方法、试题分类方法、设备、服务器和存储介质 |
CN113392196B (zh) * | 2021-06-04 | 2023-04-21 | 北京师范大学 | 一种基于多模态交叉比较的题目检索方法和系统 |
-
2022
- 2022-01-10 CN CN202210018994.4A patent/CN114048354B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229186B1 (en) * | 2016-03-18 | 2019-03-12 | EMC IP Holding Company LLC | Data set discovery engine comprising relativistic retriever |
WO2021169263A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 基于内部对抗机制的语义匹配方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
Query Representation through Lexical Association for Information Retrieval;Pawan Goyal et al;《IEEE Transactions on Knowledge and Data Engineering 》;20121231;第24卷(第12期);第2260-2273页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114048354A (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN111368088A (zh) | 一种基于深度学习的文本情感分类方法 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN108681548A (zh) | 一种律师信息处理方法和系统 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
Leng et al. | Deepreviewer: Collaborative grammar and innovation neural network for automatic paper review | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN113987536A (zh) | 数据表中字段安全等级确定方法、装置、电子设备及介质 | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
CN113516202A (zh) | Cbl特征提取与去噪的网页精准分类方法 | |
CN111611379A (zh) | 一种文本信息分类方法、装置、设备及可读存储介质 | |
Rahman et al. | ChartSumm: A large scale benchmark for Chart to Text Summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |