CN110232128A - 题目文本分类方法及装置 - Google Patents
题目文本分类方法及装置 Download PDFInfo
- Publication number
- CN110232128A CN110232128A CN201910540125.6A CN201910540125A CN110232128A CN 110232128 A CN110232128 A CN 110232128A CN 201910540125 A CN201910540125 A CN 201910540125A CN 110232128 A CN110232128 A CN 110232128A
- Authority
- CN
- China
- Prior art keywords
- topic
- topic text
- vector
- text data
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种题目文本分类方法及装置,涉及自然语言处理技术领域。该方法及装置根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量,在得到多个特征词向量后,对多个特征词向量进行拼接,得到题目文本数据对应的语义特征向量,进而将自然语言描述的题目文本转化成易于计算机理解的等价语义特征向量表示形式,提高了题目理解的准确性,并基于预先训练得到的分类模型,对语义特征向量进行分类,得到题目文本数据的类别,提高了题目文本分类的正确率。
Description
技术领域
本公开涉及自然语言处理技术领域,具体而言,涉及一种题目文本分类方法及装置。
背景技术
机器智能解答题目是智力工作机械化方面的代表性问题,而题目理解是能够进行正确解答的不可或缺的前提。现有技术中,题目理解大多从题目文本提取部分解题信息,对题目文本进行分类,确定解题方案,解题过程中还需从题目文本中提取更多的信息。但是,目前在智能解答问题的方法中,题目文本分类的正确率较低。
发明内容
基于上述研究,本公开提供一种题目文本分类方法及装置。
本公开提供的一种题目文本分类方法,包括:
根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量。
对所述多个特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量。
基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本数据的类别。
进一步的,所述题目文本数据中包括多个题目文本,所述根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量的步骤包括:
将所述题目文本数据输入至所述词向量模型中。
针对每一个题目文本,基于所述词向量模型,对该题目文本中的每个分词进行映射,得到该题目文本的多个特征词向量。
进一步的,所述对所述多个特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量的步骤包括:
针对每一个题目文本,将该题目文本的多个特征词向量按照设定的第一顺序进行拼接,得到该题目文本的语义特征向量。
将所有的题目文本的语义特征向量按照设定的第二顺序进行拼接,以得到所述题目文本数据对应的语义特征向量。
进一步的,所述基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本数据的类别的步骤包括:
将所述题目文本数据对应的语义特征向量输入至所述分类模型中。
基于所述分类模型,得到所述语义特征向量属于各类别的概率。
根据所述语义特征向量属于各类别的概率,得到所述语义特征向量对应题目文本数据的类别。
进一步的,所述分类模型通过以下步骤训练得到:
对题目文本数据进行分类,并按照类别进行标记,以得到带有类别标记的语义特征向量。
将带有类别标记的语义特征向量输入至所述分类模型中进行训练,并基于预设损失函数,通过反向传播算法对所述分类模型的权值进行调整,直到所述预设损失函数的输出小于预设阈值。
进一步的,在根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量之前,所述方法还包括:
对所述题目文本数据进行预处理。
进一步的,所述对所述题目文本数据进行预处理的步骤包括:
对所述题目文本数据进行分词,并去除所述题目文本数据中的停用词、标点符号以及数字。
本公开提供一种题目文本分类装置,所述题目文本分类装置包括特征抽取模块、向量拼接模块以及分类模块。
所述特征抽取模块用于根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量。
所述向量拼接模块用于对多个所述特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量。
所述分类模块用于基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本的类别。
进一步的,所述题目文本数据中包括多个题目文本,所述特征抽取模块用于:
将所述题目文本数据输入至预先训练得到的词向量模型中。
针对每一个题目文本,基于预先训练得到的词向量模型,对该题目文本中的每个分词进行映射,得到该题目文本的多个特征词向量。
进一步的,所述向量拼接模块用于:
针对每一个题目文本,将该题目文本的多个特征词向量按照设定的第一顺序进行拼接,得到该题目文本的语义特征向量。
将所有的题目文本的语义特征向量按照设定的第二顺序进行拼接,得到所述题目文本数据对应的语义特征向量。
本公开提供的题目文本分类方法及装置,根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量,在得到多个特征词向量后,对多个特征词向量进行拼接,得到题目文本数据对应的语义特征向量,进而将自然语言描述的题目文本转化成易于计算机理解的等价语义特征向量表示形式,提高了题目理解的准确性,并基于预先训练得到的分类模型,对语义特征向量进行分类,得到题目文本数据的类别,提高了题目文本分类的正确率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本公开所提供的电子设备的一种方框示意图。
图2为本公开所提供的题目文本分类方法的一种流程示意图。
图3为本公开所提供的题目文本分类方法的另一种流程示意图。
图4为本公开所提供的题目文本分类方法的一种应用场景示意图。
图5为本公开所提供的题目文本分类方法的又一种流程示意图。
图6为本公开所提供的题目文本分类方法的又一种流程示意图。
图7为本公开所提供的分类模型的一种结构示意图。
图8为本公开所提供的题目文本分类方法的又一种流程示意图。
图9为本公开所提供的题目文本分类装置的一种方框示意图。
图标:100-电子设备;10-题目文本分类装置;11-特征抽取模块;12-向量拼接模块;13-分类模块;20-存储器;30-处理器。
具体实施方式
下面将结合本公开中附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
机器智能解答题目是智力工作机械化方面的代表性问题,而题目理解是能够进行正确解答的不可或缺的前提。从现阶段的研究成果中可知题目理解是从题目文本包括文字、图形、公式、提取用于解题的信息。现有题目理解可分成两种类型。第一类题目理解就是题目文本形式转化成易于计算机理解和运算的等价表示形式,简称题目等价表示。第二类题目理解是从题目文本提取部分解题信息并确定解题方案,解题过程中还需从题目文本中提取更多的信息,题目以文本的形式提交给计算机,然后,通过中文信息处理技术对该题目进行分词和信息提取,然后与系统中的各个分类器进行匹配,选择本题相同的类别联系到相应的知识库来实现题目解答。
针对第一类题目理解,若题目文本的理解过程可以得到题目的等价表示,例如线性方程组,多项式组等等,则题目求解的方法一般比较简单。但是,在等价表示与题目文本无法保证语义互通的情况下,就不易通过回溯求解过程来生成类人解答。
针对第二类题目理解,题目分类是题目解答的首要步聚。目前使用最多的题目分类方法是在概括归纳各个题型的结构特征的基础上构建关键词串,先进行同义词相似度计算,与关键词串的匹配过程中找到和题目一致的关键词串时便完成了题目的分类过程。例如,用机器学习的方法(支持向量机,Support Vector Machine,SVM)来构建数学题目分类器模型,在分析待分类文本样本的基础上,通过合理的特征选择,选择能够很好区分题目类别的词语作为特征关键词,来训练分类模型。对待分类文本预测就是在预先训练好的分类模型上比较待分类样本与分类好的训练样本间的相似性,来确定其最终分类。这种分类方法有以下不足:1)对预设关键词依赖过度造成的灵活度不够。由于题目情境多来源于现实生活,丰富的现实多具有千变万化的情境信息以及承载这些信息的表述方式,通过匹配有限的关键词实现题目的分类导致能够解决的问题也相当有限。2)进行训练分类模型时,对文本进行人工特征选择,选择很好区分能力的词语做为特征关键词,来训练分类模型。而中文题目的语义表达方式丰富多变,用有限的特征关键词与千变万化的汉语语义表达相比,仍不能穷尽所有的表达方式,能够正确解决的问题也有限,显得有失全面。3)关键词语来分类是片面的,分类正确率并未达到要求,尚有部分题目不能识别,以及识别错误。
基于上述研究,本公开提供一种题目文本分类方法,以改善上述问题。
请结合参阅图1,本公开提供的一种题目文本分类方法应用于图1所示的电子设备100,由所述电子设备100执行本公开所提供的题目文本分类方法。在本公开中,所述电子设备100可以是,但不限于,个人电脑(Personal Computer,PC)、笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)或服务器等具有数据处理能力的电子设备100。
所述电子设备100包括题目文本分类装置10、存储器20以及处理器30,所述存储器20以及处理器30各个元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互直接可通过一条或多条通讯总线或信号线实现电性连接。所述题目文本分类装置10包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器20中的软件功能模块,所述处理器30通过运行存储在存储器20内的软件程序以及模块,从而执行各种功能应用以及数据处理。
所述存储器20可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
所述处理器30可以是一种集成电路芯片,具有信号的处理能力。所述处理器30可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。
请结合参阅图2,图2为本公开所提供的题目文本分类方法的流程示意图。下面对图2所示的题目文本分类方法的具体流程进行详细阐述。
步骤S10:根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量。
其中,在根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量之前,需要对获取到的题目文本数据进行预处理。
进一步的,对所述题目文本数据进行预处理的步骤包括:
对所述题目文本数据进行分词,并去除所述题目文本数据中的停用词、标点符号以及数字。
其中,在对题目文本数据进行分词时,将题目文本数据中的每一道题目文本作为一个样本点,进行分词。分词之后,去除题目文本数据中的标点符号、数字以及停用词。例如,一个题目文本为:“一个牧场长满青草,牛在吃草而草又在不断生长,已知牛27头,6天把草吃尽,同样一片牧场,23头牛9天把草吃尽,如果有牛21头,几天能把草吃尽?”,则预处理后的题目文本为:“一个牧场长满青草牛吃草草又不断生长已知牛头天草吃尽同样一片牧场2头牛天草吃尽如果牛头几天草吃尽”。
停用词相当于一些没用的词,如“的”、“了”“即使”“其”等这些无用的词,无法表达任何含义的词。虽然标点符号在语法上不可少,但自身并没有语义。数字在题目中表示数量,对于某样本题目来说,数字并不是唯一的,可以有很多种选择,只要满足某种约束条件的一套数据都可以填充。因此,在预处理时,去掉停用词,标点符号以及数字等,对于判定文本类型,既可以减少计算量,也可以提高准确率。可选的,在本公开中,题目文本的分词是通过Jieba分词实现的。
进一步的,请结合参阅图3,在对题目文本数据预处理完后,所述根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量的步骤包括步骤S11至步骤S12。
步骤S11:将所述题目文本数据输入至所述词向量模型中。
步骤S12:针对每一个题目文本,基于所述词向量模型,对该题目文本中的每个分词进行映射,得到该题目文本的多个特征词向量。
其中,题目文本数据中包括多个题目文本,在对题目文本数据预处理完后,将题目文本数据输入至词向量模型中。针对每一个题目文本,把该题目文本中的每一个分词当做特征,词向量模型则可将每一个分词特征映射到K维空间向量,进而得到该题目文本的多个特征词向量,如图4所示,图4中,[XXXXXX......XXXXXXX]表示分词经映射后的特征词向量。
可选的,在本公开中,词向量模型为Word2Vec模型,Word2Vec模型通过以下过程训练得到:
首先收集数据集,在本公开中,所述数据集包括教学教材中的习题,专业教辅材料中的习题以及竞赛题目。
在收集到数据集后,对数据集进行预处理,将预处理后的数据集按照一定比例(例如10:1)分为训练集和测试集。然后加载gensim包,进行预训练,将预处理后的训练集输入到Word2Vec模型中,对预处理后的训练集中的所有词汇进行训练,保存训练完成时的Word2Vec模型的参数,供测试调用使用。
训练生成的Word2Vec模型,具有将不定长的题目文本映射到维度大小固定的向量的功能,通过加载训练好的Word2Vec模型对测试集进行预测,若测试结果中每个分词均映射成维度固定大小的向量,则表示该Word2Vec模型已训练完成。可选的,在本公开中,通过加载训练完成的Word2Vec模型对测试集进行预测,Word2Vec模型将题目文本中的每个分词均映射成一个1x100维固定大小的向量。
进一步的,请返回结合参阅图2,在对题目文本数据进行特征抽取,得到多个特征词向量后,执行步骤S20。
步骤S20:对所述多个特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量。
进一步的,请结合参阅图5,所述对所述多个特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量的步骤包括步骤S21至步骤S22。
步骤S21:针对每一个题目文本,将该题目文本的多个特征词向量按照设定的第一顺序进行拼接,得到该题目文本的语义特征向量。
其中,第一顺序为分词在题目文本中的先后顺序。针对每一个题目文本,词向量模型将该题目文本的N个分词映射成K维的特征词向量后,将该题目文本的所有特征词向量按照分词的先后顺序进行拼接,得到该题目文本的语义特征向量,则该题目文本的语义特征向量为N×K列的二维向量。例如,该题目文本中有N个分词,词向量模型将该题目文本中的N个分词进行映射,得到的N个特征词向量,若每个特征词向量均为1x100维固定大小的向量,则对N个特征词向量按照分词的先后顺序进行拼接后,则该题目文本的语义特征向量为N×100列(1×N×100维)的向量。
步骤S22:将所有的题目文本的语义特征向量按照设定的第二顺序进行拼接,以得到所述题目文本数据对应的语义特征向量。
其中,在本公开中,题目文本数据中包括多个题目文本,每一个题目文本对应有一个语义特征向量,将所有题目文本的语义特征向量按照设定的第二顺序进行拼接,即将所有题目文本的语义特征向量按行进行拼接,即可得到题目文本数据对应的语义特征向量。例如,题目文本数据中包括M个题目文本,在得到M个题目文本的语义特征向量后,将M个语义特征向量按行进行拼接,得到M×(N×100)的二维矩阵,该二维矩阵的行数为M,列数为Nx100,行数M代表题目文本个数,每一行即对应一个题目文本的语义特征向量,列数N代表题目文本中的特征词向量个数,Nx100代表特征词向量的维数。由于该二维矩阵包括了题目文本数据中每一个题目文本对应的语义特征向量,因此,即可得到题目文本数据对应的语义特征向量。
由于每一个题目文本的长度不同,特征词向量不同,因此,每一个题目文本所得到语义特征向量也就不同。为了便于计算,在本公开中,首先设定对语义特征向量的长度设定一较大的上限值,因此,在得到每一个题目文本的语义特征向量后,基于上限值,对每一个题目文本的语义特征向量进行补齐,以使每一个题目文本的语义特征向量长度相等。
进一步的,请返回结合参阅图2,在得到题目文本数据对应的语义特征向量后,执行步骤S30。
步骤S30:基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本数据的类别。
进一步的,请结合参阅图6,所述基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本数据的类别的步骤包括步骤S31至步骤S33。
步骤S31:将所述题目文本数据对应的语义特征向量输入至所述分类模型中。
步骤S32:基于所述分类模型,得到所述语义特征向量属于各类别的概率。
步骤S33:根据所述语义特征向量属于各类别的概率,得到所述语义特征向量对应题目文本数据的类别。
其中,请结合参阅图7,图7为分类模型的结构框架图,分类模型是基于CNN卷积神经网络构建的,包括输入层、卷积层、softmax层以及输出层。通过输入层将每一个题目文本对应的语义特征向量输入到卷积层中,基于卷积层提取语义特征向量的特征信息,然后将每一个语义特征向量对应提取到的特征信息输入至softmax层,基于softmax层进行分类,计算每一个语义特征向量属于各类别的概率,并基于输出层输出结果。针对每一个语义特征向量,在计算得到该语义特征向量属于各类别的概率后,取最大概率值所对应的类别为该语义特征向量的目标类别,即该语义特征向量对应题目文本的类别。
在本公开中,输入层的结点数、输出层的结点数、卷积层的数量、卷积核数量以及大小可以根据实际情况而设定。例如,若语义特征向量为N×100列(1×N×100维)的向量,为了便于计算,可设定卷积层的数量为2;输入层的结点数可设定为4000个;第一层卷积层的卷积核的数量可以设定为400个,大小可以设定为1×3;第二层卷积层的卷积核的数量可以设定为40个,大小可以设定为1×3;输出层的结点数可以设定为2个结点,输出的类别数设定为2,分别以1和0表示,其中,1表示目标类别,0表示其他类别,例如,题目文本数据中,若以牛吃草类为目标类别,则其表述方法如下表所示:
题目文本数据 | 真实类别 | 类别表示 |
目标类别 | 牛吃草类 | 1 |
其他类别 | 非牛吃草类 | 0 |
其中,其他类别表示除目标类别外的所有类别。
进一步的,请结合参阅图8,所述分类模型通过步骤S40至步骤S41训练得到。
步骤S40:对题目文本数据进行分类,并按照类别进行标记,以得到带有类别标记的语义特征向量。
其中,在获取得到题目文本数据后,首先对题目文本数据进行预处理,对预处理后的题目文本数据按照类别进行标记,按照步骤S10至步骤S20对应的流程对预处理后的题目文本数据进行处理,进而得到题目文本数据对应的带有类别标记的语义特征向量。
步骤S41:将带有类别标记的语义特征向量输入至所述分类模型中进行训练,并基于预设损失函数,通过反向传播算法对所述分类模型的权值进行调整,直到所述预设损失函数的输出小于预设阈值。
其中,将带有类别标记的语义特征向量输入至分类模型中后,基于分类模型进行计算,得到输出结果,并基于预设损失函数,将输出结果与对应的类别标记进行比对,通过反向传播算法对分类模型的权值进行调整,直至预设损失函数的输出小于预设阈值,分类模型训练完成。可选的,在本公开中,预设损失函数为交叉熵损失函数。
在本公开中,训练分类模型时,将题目文本数据按照一定比例(例如10:1)分为训练集和测试集,基于训练集对分类模型进行训练,在训练完成后,基于测试集对分类模型进行测试,并通过准确率和召回率对分类模型的能力进行评判。可选的,在本公开中,选取了178个题目文本作为测试集,包括12个正样本(目标类别),166个负样本(其他类别)。其测试结果如下表所示:
类别数 | True | False |
正样本(12) | 9 | 3 |
负样本(166) | 12 | 154 |
则准确率(Precision)=tp/(tp+fp)=9/(9+3)=75%;
召回率(Recall)=tp/(tp+fn)=9/(9+154)=5.5%;
其中,tp表示预测为正,实际为正的结果;tn表示预测为负,实际为负的结果;fp表示预测为正,实际为负的结果;fn表示预测为负,实际为正的结果。
本公开基于CNN卷积神经网络构建分类模型,并通过准确率和召回率对分类模型的能力进行评判,提高了分类模型的准确性。
本公开提供的文本分类方法通过将自然语言描述的题目文本转化成易于计算机理解的等价语义特征向量表示形式,提高了题目理解的准确性,并基于分类模型,结合语义,对题目文本进行分类,提高了题目文本分类的正确率以及全面性。
在上述基础上,本公开还提供一种题目文本分类装置10。请结合参阅图9,本公开提供的题目文本分类装置10包括特征抽取模块11、向量拼接模块12以及分类模块13。
所述特征抽取模块11用于根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量。
所述向量拼接模块12用于对多个所述特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量。
所述分类模块13用于基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本的类别。
进一步的,所述题目文本数据中包括多个题目文本,所述特征抽取模块11用于:
将所述题目文本数据输入至预先训练得到的词向量模型中。
针对每一个题目文本,基于预先训练得到的词向量模型,对该题目文本中的每个分词进行映射,得到该题目文本的多个特征词向量。
进一步的,所述向量拼接模块12用于:
针对每一个题目文本,将该题目文本的多个特征词向量按照设定的第一顺序进行拼接,得到该题目文本的语义特征向量。
将所有的题目文本的语义特征向量按照设定的第二顺序进行拼接,得到所述题目文本数据对应的语义特征向量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的题目文本分类装置10的具体工作过程,可以参考前述方法的对应过程,在此不再过多赘述。
综上,本公开提供的题目文本分类方法及装置,根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量,在得到多个特征词向量后,对多个特征词向量进行拼接,得到题目文本数据对应的语义特征向量,进而将自然语言描述的题目文本转化成易于计算机理解的等价语义特征向量表示形式,提高了题目理解的准确性,并基于预先训练得到的分类模型,对语义特征向量进行分类,得到题目文本数据的类别,提高了题目文本分类的正确率。
在本公开所提供的施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开实施例的装置和方法可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本公开的可选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种题目文本分类方法,其特征在于,所述方法包括:
根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量;
对所述多个特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量;
基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本数据的类别。
2.根据权利要求1所述的题目文本分类方法,其特征在于,所述题目文本数据中包括多个题目文本,所述根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量的步骤包括:
将所述题目文本数据输入至所述词向量模型中;
针对每一个题目文本,基于所述词向量模型,对该题目文本中的每个分词进行映射,得到该题目文本的多个特征词向量。
3.根据权利要求2所述的题目文本分类方法,其特征在于,所述对所述多个特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量的步骤包括:
针对每一个题目文本,将该题目文本的多个特征词向量按照设定的第一顺序进行拼接,得到该题目文本的语义特征向量;
将所有的题目文本的语义特征向量按照设定的第二顺序进行拼接,以得到所述题目文本数据对应的语义特征向量。
4.根据权利要求1所述的题目文本分类方法,其特征在于,所述基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本数据的类别的步骤包括:
将所述题目文本数据对应的语义特征向量输入至所述分类模型中;
基于所述分类模型,得到所述语义特征向量属于各类别的概率;
根据所述语义特征向量属于各类别的概率,得到所述语义特征向量对应题目文本数据的类别。
5.根据权利要求4所述的题目文本分类方法,其特征在于,所述分类模型通过以下步骤训练得到:
对题目文本数据进行分类,并按照类别进行标记,以得到带有类别标记的语义特征向量;
将带有类别标记的语义特征向量输入至所述分类模型中进行训练,并基于预设损失函数,通过反向传播算法对所述分类模型的权值进行调整,直到所述预设损失函数的输出小于预设阈值。
6.根据权利要求1所述的题目文本分类方法,其特征在于,在根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量之前,所述方法还包括:
对所述题目文本数据进行预处理。
7.根据权利要求6所述的题目文本分类方法,其特征在于,所述对所述题目文本数据进行预处理的步骤包括:
对所述题目文本数据进行分词,并去除所述题目文本数据中的停用词、标点符号以及数字。
8.一种题目文本分类装置,其特征在于,所述题目文本分类装置包括特征抽取模块、向量拼接模块以及分类模块;
所述特征抽取模块用于根据预先训练得到的词向量模型,对题目文本数据进行特征抽取,得到多个特征词向量;
所述向量拼接模块用于对多个所述特征词向量进行拼接,得到所述题目文本数据对应的语义特征向量;
所述分类模块用于基于预先训练得到的分类模型,对所述语义特征向量进行分类,以得到所述题目文本的类别。
9.根据权利要求8所述的题目文本分类装置,其特征在于,所述题目文本数据中包括多个题目文本,所述特征抽取模块用于:
将所述题目文本数据输入至预先训练得到的词向量模型中;
针对每一个题目文本,基于预先训练得到的词向量模型,对该题目文本中的每个分词进行映射,得到该题目文本的多个特征词向量。
10.根据权利要求9所述的题目文本分类装置,其特征在于,所述向量拼接模块用于:
针对每一个题目文本,将该题目文本的多个特征词向量按照设定的第一顺序进行拼接,得到该题目文本的语义特征向量;
将所有的题目文本的语义特征向量按照设定的第二顺序进行拼接,得到所述题目文本数据对应的语义特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540125.6A CN110232128A (zh) | 2019-06-21 | 2019-06-21 | 题目文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540125.6A CN110232128A (zh) | 2019-06-21 | 2019-06-21 | 题目文本分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110232128A true CN110232128A (zh) | 2019-09-13 |
Family
ID=67857162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910540125.6A Pending CN110232128A (zh) | 2019-06-21 | 2019-06-21 | 题目文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232128A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563097A (zh) * | 2020-04-30 | 2020-08-21 | 广东小天才科技有限公司 | 一种无监督式的题目聚合方法、装置、电子设备及存储介质 |
CN111767307A (zh) * | 2020-07-06 | 2020-10-13 | 北京猿力未来科技有限公司 | 对象处理方法及系统、数学题目批改方法及系统 |
WO2021189881A1 (en) * | 2020-03-25 | 2021-09-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Text classification method and text classification device |
CN113505246A (zh) * | 2021-09-11 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、终端设备以及存储介质 |
CN113837157A (zh) * | 2021-11-26 | 2021-12-24 | 北京世纪好未来教育科技有限公司 | 题目类型识别方法、系统和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN108804595A (zh) * | 2018-05-28 | 2018-11-13 | 中山大学 | 一种基于word2vec的短文本表示方法 |
-
2019
- 2019-06-21 CN CN201910540125.6A patent/CN110232128A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN108804595A (zh) * | 2018-05-28 | 2018-11-13 | 中山大学 | 一种基于word2vec的短文本表示方法 |
Non-Patent Citations (2)
Title |
---|
曹祺: "《情报学视域下的数据研究 理论、原理与方法》", 31 October 2018, 武汉:武汉大学出版社 * |
高志强 等: "《深度学习 从入门到实战》", 30 June 2018, 北京:中国铁道出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021189881A1 (en) * | 2020-03-25 | 2021-09-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Text classification method and text classification device |
CN111563097A (zh) * | 2020-04-30 | 2020-08-21 | 广东小天才科技有限公司 | 一种无监督式的题目聚合方法、装置、电子设备及存储介质 |
CN111767307A (zh) * | 2020-07-06 | 2020-10-13 | 北京猿力未来科技有限公司 | 对象处理方法及系统、数学题目批改方法及系统 |
CN113505246A (zh) * | 2021-09-11 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、终端设备以及存储介质 |
CN113837157A (zh) * | 2021-11-26 | 2021-12-24 | 北京世纪好未来教育科技有限公司 | 题目类型识别方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN111177326B (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN110232128A (zh) | 题目文本分类方法及装置 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN109902285B (zh) | 语料分类方法、装置、计算机设备及存储介质 | |
US11429810B2 (en) | Question answering method, terminal, and non-transitory computer readable storage medium | |
Noguti et al. | Legal document classification: An application to law area prediction of petitions to public prosecution service | |
CN110134961A (zh) | 文本的处理方法、装置和存储介质 | |
CN112818120B (zh) | 习题标注方法、装置、存储介质及电子设备 | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
CN111460101A (zh) | 知识点类型的识别方法、装置及处理器 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN113868419A (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN114722204A (zh) | 多标签文本分类方法及装置 | |
CN112307210B (zh) | 一种文档标签预测方法、系统、介质及电子器件 | |
CN117763126A (zh) | 知识检索方法、设备、存储介质及装置 | |
CN118339550A (zh) | 一种几何解题方法、装置、设备及存储介质 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN112182211B (zh) | 文本分类方法及装置 | |
CN114817537A (zh) | 一种基于政策文件数据的分类方法 | |
CN111428002B (zh) | 一种自然语言人机交互式的智能问答实现方法 | |
CN114528373A (zh) | 一种基于嵌入的新闻多标签分类方法及装置 | |
CN113569741A (zh) | 图像试题的答案生成方法、装置、电子设备及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190913 |