CN109960804B - 一种题目文本句子向量生成方法及装置 - Google Patents

一种题目文本句子向量生成方法及装置 Download PDF

Info

Publication number
CN109960804B
CN109960804B CN201910215490.XA CN201910215490A CN109960804B CN 109960804 B CN109960804 B CN 109960804B CN 201910215490 A CN201910215490 A CN 201910215490A CN 109960804 B CN109960804 B CN 109960804B
Authority
CN
China
Prior art keywords
keywords
sentence
dictionary
topic text
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910215490.XA
Other languages
English (en)
Other versions
CN109960804A (zh
Inventor
梅阳阳
郑文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Wind Vane Intelligent Technology Co ltd
Original Assignee
Jiangxi Vaneducation Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Vaneducation Technology Inc filed Critical Jiangxi Vaneducation Technology Inc
Priority to CN201910215490.XA priority Critical patent/CN109960804B/zh
Publication of CN109960804A publication Critical patent/CN109960804A/zh
Application granted granted Critical
Publication of CN109960804B publication Critical patent/CN109960804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种题目文本句子向量生成方法,包括步骤:S1.根据题目文本表达筛选出所有关键词,加入词典,再对题目文本中的句子进行词典分词,同时对句子中出现的关键词进行标记;S2.基于分词结果和筛选出的所有关键词,通过分别对每条句子和其内包含的关键词编码后,再建立RNN模型采用随机剔除关键词的方法进行预测训练;S3.利用训练好的模型提取到的特征,对题目文本中的每条句子生成句子向量。

Description

一种题目文本句子向量生成方法及装置
技术领域
本发明属于文本处理技术领域,特别涉及一种题目文本句子向量生成方法及装置。
背景技术
将文本转换成向量的方法是目前自然语言处理技术领域中常采用的一种方法,主要的模型有Cbow和Skip-gram、One_hot、TF/IDF等。文本向量化的处理也主要是为了便于文本的分类、聚类和相似度计算,以达到有效处理数据信息的目的。此方法广泛应用在新闻推荐、文档分类、情感分析、自动摘要、信息检索、机器翻译等业务领域,但在基础学科等专业领域,如数学学科,由于数学文本中有大量的公式,且公式大部分都是通过数学专有字符呈现,字符与字符之间的关系紧密,不仅字符占比高,并且共现频率高。因此,通过传统训练方法操作这些数学字符,容易放大句子中的公式对语义的影响,而忽略一些重要信息,导致利用训练结果进行自动化标注知识点、推荐题目时很难达到很好的效果。
发明内容
本发明提供了一种题目文本句子向量生成方法,用于解决基础学科,例如数学中题目文本的句子向量的生成。
本发明实施例之一,一种题目文本句子向量生成方法,包括以下步骤:
S1.根据题目文本表达筛选出所有关键词,加入词典,再对题目文本中的句子进行词典分词,同时对句子中出现的关键词进行标记;
S2.基于分词结果和筛选出的所有关键词,通过分别对每条句子和其内包含的关键词编码后,再建立RNN模型采用随机剔除关键词的方法进行预测训练;
S3.利用训练好的模型提取到的特征,对题目文本中的每条句子生成句子向量。
本发明首先针对某一基础学科专业领域如数学,搜集大量的文本数据进行关键词的筛选,然后通过句子分词训练、句子编码、关键词编码等一系列操作后,利用RNN模型采用随机剔除关键词的方法进行预测训练,最后利用RNN模型提取的特征生成句子向量。本发明根据基础学科的语言特点,摒弃传统词向量、句向量生成方法,利用关键词预测技巧和深度学习算法,可以有效地提取题目文本表达中的重要特征。而且利用生成的句子向量对题目文本的句子进行相似度的计算,有效地改善了基础学科知识点的提取效果,并提高了题目推荐的准确度,对自然语言处理技术在基础学科专业领域上的应用也起到了良好的促进作用。
本发明针对基础学科专业领域的语言特点,专门设计了一种句子向量生成方法用于有效提取文本中的关键信息。首先根据基础学科题目文本中用到的词语的重要性筛选出所有关键词加入词典,然后对大量题目文本中的句子进行词典分词。基于分词结果和筛选出的所有关键词,通过对句子和关键词编码后再采用随机剔除关键词的方法进行RNN模型的预测训练,最后利用训练好后RNN模型提取的特征生成句子向量。本发明利用关键词预测技巧和深度学习算法,相比传统方法产生的向量,可以生成更具区分度的句子向量,即可以有效地提取基础学科文本表达中的重要特征。而且利用生成的句子向量对题目文本的句子进行相似度的计算,有效地改善了基础学科知识点的提取效果,并提高了题目推荐的准确度,对自然语言处理技术在基础学科专业领域上的应用也起到了良好的促进作用。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1是本发明实施例中一种面向基础学科专业领域的句子向量生成方法的流程图。
具体实施方式
根据一个或者多个实施例,如图1所示,一种面向基础学科专业领域的句子向量生成方法,包括如下步骤:
S1,根据基础学科的文本表达筛选出所有关键词,加入词典,再对题目文本中的句子进行词典分词,同时对句子中出现的关键词进行标记;
S2,基于分词结果和筛选出的所有关键词,通过分别对每条句子和其内包含的关键词编码后,再建立RNN模型采用随机剔除关键词的方法进行预测训练;
S3,利用训练好的模型提取到的特征,对题目文本中的每条句子生成句子向量。
句子向量一般是词向量的平均,通过词向量相加求和再求平均可得到句子向量。词向量(Word embedding)是Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称。一般而言,也是指来自词汇表的单词或短语被映射到实数的向量,从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。对于相似的词,其对应的词向量也相近。
所述步骤S1具体包括以下步骤:
S11.首先根据基础学科题目文本中用到的词语的重要性由人工筛选关键词,组成关键词表。也可以通过tf-idf模型对大量的题目文本先初步筛选出关键词后,再由人工进一步确定出最终关键词表。关键词主要是专业领域的一些常见的概念词汇或本身有特殊含义的词语。
S12.把筛选出的所有关键词加入词典。词典是指分词用的通用词典,关键词如果已在词典里则不加入,如果不在则需要加入。将关键词加入词典可以在分词操作的时候将其被正确分出。
S13.搜集并整理大量某基础学科(如数学学科)的题目文本,先进行预处理,包括文本标准化、规范化、去停用词等,再对其中每个句子进行词典分词,并判断句子中的每个词语是不是关键词,做好标记。
所述步骤S2具体包括以下步骤:
S21.根据分词结果建立单词--id间的字典。所述单词包括基础学科及其相关专业领域的所有常用词汇。
S22.把题目文本的每个句子中出现的每个单词按照整理好的字典进行替换,得到数字填充的编码序列。
S23.基于关键词表,对题目文本中的每个句子所包含的关键词进行one-hot编码。
S24.使用RNN神经网络模型,将步骤S22中得到的数字填充的编码序列作为输入,步骤S23中得到的one-hot矩阵作为标签进行关键词预测的训练。每轮迭代前,随机剔除句子中已标记的关键词用<blank>替代,重复本步骤,迭代训练多轮后得到模型提取到的所有特征参数,并保存模型。
RNN是一种神经网络模型,在普通神经网络基础上,增加了许多可以处理前后特征的记忆细胞,在自然语言处理上有很好的记忆性,并且RNN可以处理不定长序列,并转化为固定维度的向量组。
one-hot编码,也叫独热编码,是自然语言处理中的一种有效编码,主要是采用N位01编码对N个词语进行编码,每个词语所在的固定位置保存为一种状态,共有N^N种状态。
所述步骤S3具体包括以下步骤:
S31,将题目文本中的每个句子进过步骤S22处理后,输入到训练好的模型中进行向量运算。
S32,对RNN模型内部进行一些处理,拿到向量运算的结果作为RNN模型的输出,此输出即为句子向量。
下面以实例对本发明的一种面向基础学科专业领域的句子向量生成方法进行详细的说明:
这里以数学学科为例,选择一道数学题目进行输入,题目信息为:画出函数y=3*x的图象,并说出函数的定义域、值域。
首先根据大量的题目文本总结所有的关键词,得到关键词表。
然后对输入题目利用加入了所有关键词的词典进行分词,得到的结果为:画出/函数/y/=/3/*/x/的/图象/,/并/说出/函数/的/定义域/、/值域/。
根据事先基于大量的题目文本的分词结果建立的单词-id字典,将本题目中的单词使用id进行替换,得到数字填充的编码序列,结果示例为:1,2,3,4,5,6,7,8,9,10,11,12,3,8,13,14。
根据总结的关键词表,得到本题目含有的关键词有:定义域,值域,函数,图象。若关键词表为定义域,值域,函数,图象,周期,单调,则对本题目进行one-hot编码生成的关键词标签矩阵为[1,1,1,1,0,0]。
对本题目文本随机剔除一部分关键词用<blank>替换,<blank>默认id为0,得到新的编码序列为:1,0,3,4,5,6,7,8,9,10,11,12,3,8,0,14。
本案例只列举了一道题目,模型训练时要将大量题目的编码序列作为输入,关键词标签矩阵作为标签,采用RNN中的LSTM_CLASSFILY模型进行多轮迭代训练,迭代训练时则采用新的编码序列作为输入,最后保存模型训练得到的所有特征参数。
将题目文本中的每个句子经过编码处理后,输入到训练好的模型中进行向量运算,并对LSTM_CLASSFILY模型内部进行一些处理,拿到向量运算的结果即为句子向量。
值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (3)

1.一种题目文本句子向量生成方法,包括以下步骤:
S1.根据题目文本表达筛选出所有关键词,加入词典,再对题目文本中的句子进行词典分词,同时对句子中出现的关键词进行标记;
S2.基于分词结果和筛选出的所有关键词,通过分别对每条句子和其内包含的关键词编码后,再建立RNN模型采用随机剔除关键词的方法进行预测训练;
所述S2具体包括:
S21.根据分词结果建立单词间的字典,所述单词包括基础学科及其相关专业领域的所有常用词汇;
S22.把题目文本的每个句子中出现的每个单词按照整理好的字典进行替换,得到数字填充的编码序列;
S23.基于关键词表,对题目文本中的每个句子所包含的关键词进行one-hot编码;
S24.使用RNN神经网络模型,将步骤S22中得到的数字填充的编码序列作为输入,步骤S23中得到的one-hot矩阵作为标签进行关键词预测的训练,每轮迭代前,随机剔除句子中已标记的关键词用<blank>替代,重复本步骤,迭代训练多轮后得到模型提取到的所有特征参数,并保存模型;
S3.利用训练好的模型提取到的特征,对题目文本中的每条句子生成句子向量;
所述S3具体包括:
S31.将题目文本中的每个句子进过步骤S22处理后,输入到训练好的模型中进行向量运算;
S32.对RNN模型内部进行处理,获得向量运算的结果作为RNN模型的输出,此输出即为句子向量。
2.根据权利要求1所述的题目文本句子向量生成方法,其特征在于,所述步骤S1具体包括步骤:
S11.首先根据题目文本中用到的词语的重要性由人工筛选关键词,组成关键词表,或者通过tf-idf模型对大量的题目文本先初步筛选出关键词后,再由人工进一步确定出最终关键词表;
S12.把筛选出的所有关键词加入词典,词典是分词用的通用词典,关键词如果已在词典里则不加入,如果不在则需要加入;
S13.获取大量题目文本,先进行预处理,包括文本标准化、规范化、去停用词,再对其中每个句子进行词典分词,并判断句子中的每个词语是不是关键词,做好标记。
3.一种题目文本句子向量生成装置,其特征在于,所述生成装置包括存储器;以及耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下操作:
S1.根据题目文本表达筛选出所有关键词,加入词典,再对题目文本中的句子进行词典分词,同时对句子中出现的关键词进行标记;
S2.基于分词结果和筛选出的所有关键词,通过分别对每条句子和其内包含的关键词编码后,再建立RNN模型采用随机剔除关键词的方法进行预测训练;
S3.利用训练好的模型提取到的特征,对题目文本中的每条句子生成句子向量。
CN201910215490.XA 2019-03-21 2019-03-21 一种题目文本句子向量生成方法及装置 Active CN109960804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910215490.XA CN109960804B (zh) 2019-03-21 2019-03-21 一种题目文本句子向量生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910215490.XA CN109960804B (zh) 2019-03-21 2019-03-21 一种题目文本句子向量生成方法及装置

Publications (2)

Publication Number Publication Date
CN109960804A CN109960804A (zh) 2019-07-02
CN109960804B true CN109960804B (zh) 2023-05-02

Family

ID=67024661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910215490.XA Active CN109960804B (zh) 2019-03-21 2019-03-21 一种题目文本句子向量生成方法及装置

Country Status (1)

Country Link
CN (1) CN109960804B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414004B (zh) * 2019-07-31 2022-11-18 创新先进技术有限公司 一种核心信息提取的方法和系统
CN111737949B (zh) * 2020-07-22 2021-07-06 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN112749557A (zh) * 2020-08-06 2021-05-04 腾讯科技(深圳)有限公司 文本处理模型的构建方法和文本处理方法
CN112016296B (zh) * 2020-09-07 2023-08-25 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
CN112906894A (zh) * 2021-02-09 2021-06-04 柳州智视科技有限公司 一种题目数字仿造的方法
CN112988844B (zh) * 2021-03-31 2022-09-27 东北大学 一种基于学生练习序列的知识概念表示学习方法
CN113033200B (zh) * 2021-05-27 2021-08-24 北京世纪好未来教育科技有限公司 数据处理方法、文本识别模型的生成方法和文本识别方法
CN113254616B (zh) * 2021-06-07 2021-10-19 佰聆数据股份有限公司 面向智能问答系统的句向量生成方法及系统
CN113392253B (zh) * 2021-06-28 2023-09-29 北京百度网讯科技有限公司 视觉问答模型训练及视觉问答方法、装置、设备及介质
CN113935315A (zh) * 2021-10-26 2022-01-14 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
CN114757154B (zh) * 2022-06-13 2022-09-30 深圳市承儒科技有限公司 基于深度学习的作业生成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN108073574A (zh) * 2016-11-16 2018-05-25 三星电子株式会社 用于处理自然语言以及训练自然语言模型的方法和设备
CN108153864A (zh) * 2017-12-25 2018-06-12 北京牡丹电子集团有限责任公司数字电视技术中心 基于神经网络生成文本摘要的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073574A (zh) * 2016-11-16 2018-05-25 三星电子株式会社 用于处理自然语言以及训练自然语言模型的方法和设备
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN108153864A (zh) * 2017-12-25 2018-06-12 北京牡丹电子集团有限责任公司数字电视技术中心 基于神经网络生成文本摘要的方法

Also Published As

Publication number Publication date
CN109960804A (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
CN109960804B (zh) 一种题目文本句子向量生成方法及装置
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110543639B (zh) 一种基于预训练Transformer语言模型的英文句子简化算法
CN107229610B (zh) 一种情感数据的分析方法及装置
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN114580382A (zh) 文本纠错方法以及装置
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN110298044B (zh) 一种实体关系识别方法
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN112861540A (zh) 基于深度学习的广播电视新闻关键词自动抽取方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN112214989A (zh) 一种基于bert的汉语句子简化方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN111522948A (zh) 一种智能处理公文的方法及其系统
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 330000 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province

Patentee after: Jiangxi wind vane Intelligent Technology Co.,Ltd.

Address before: 334600 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province

Patentee before: JIANGXI VANEDUCATION TECHNOLOGY Inc.

CP03 Change of name, title or address