CN109766537A - 留学文书撰写方法、装置及电子设备 - Google Patents
留学文书撰写方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109766537A CN109766537A CN201910042070.6A CN201910042070A CN109766537A CN 109766537 A CN109766537 A CN 109766537A CN 201910042070 A CN201910042070 A CN 201910042070A CN 109766537 A CN109766537 A CN 109766537A
- Authority
- CN
- China
- Prior art keywords
- document
- entity description
- paragraph
- migration models
- synonym
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000000203 mixture Substances 0.000 title claims abstract description 16
- 230000005012 migration Effects 0.000 claims abstract description 70
- 238000013508 migration Methods 0.000 claims abstract description 70
- 239000013598 vector Substances 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 31
- 238000003062 neural network model Methods 0.000 claims description 16
- 230000000692 anti-sense effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000013519 translation Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009415 formwork Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种留学文书撰写方法、装置及电子设备,该留学文书撰写方法包括获取个人信息,该个人信息包括待申请的学校名称、专业名称、个人特点;从预设的文书数据库中查找与该个人信息匹配的相似文书;基于迁移模型,从相似文书中选取实体描述段落;该迁移模型是通过预先训练的模型得到的;对该实体描述段落进行改写,并输出改写后的实体描述段落以撰写留学文书。该方式可以自动根据申请人的个人信息,查找匹配的相似文书,并对相似文书中的实体描述段落进行改写,得到满足申请人需求的实体描述文本,进而使申请人根据该实体描述文本进行留学文书的撰写,有效节省了人力成本和时间成本,并提高了生产效率。
Description
技术领域
本发明涉及文本处理技术领域,尤其是涉及一种留学文书撰写方法、装置及电子设备。
背景技术
留学文书主要以个人陈述、推荐信、个人简历及短文材料构成。留学文书是出国留学申请中的重要材料,学生在申请海外学校时,绝大多数的学校都要求申请人提交申请文书(即留学文书)。海外院校招生官通过留学文书了解申请者是否符合申请条件。留学文书写作好坏对录取结果的影响非常大。
传统的留学文书写作需要全部依赖人工,需要耗费大量的人力成本和时间,且生产效率低。
发明内容
有鉴于此,本发明的目的在于提供一种留学文书撰写方法、装置及电子设备,以有效节省留学文书撰写时的人力成本和时间成本,并提高了生产效率。
第一方面,本发明实施例提供了一种留学文书撰写方法,包括:
获取个人信息,所述个人信息包括待申请的学校名称、专业名称、个人特点;
从预设的文书数据库中查找与所述个人信息匹配的相似文书;
基于迁移模型,从所述相似文书中选取实体描述段落;其中所述迁移模型是通过预先训练的模型得到的;
对所述实体描述段落进行改写,并输出改写后的实体描述段落以撰写留学文书。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对所述实体描述段落进行改写的步骤,包括:
基于预先训练的基于同义词的向量模型,对所述实体描述段落中的相应词汇进行同义词替换;和/或
将属于第一语言的所述实体描述段落翻译为属于第二语言的第一段落,将所述第一段落翻译为属于所述第一语言的第二段落。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,对所述实体描述段落进行改写的步骤包括:
获取当前选择的改写方式,所述改写方式包括同义词改写方式、翻译改写方式及混合改写方式;
基于当前选择的所述改写方式,对所述实体描述段落进行改写。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述迁移模型的训练过程包括:
获取若干个预先训练的神经网络模型;
将所述神经网络模型并联或者串联,得到迁移模型;
将文书样本输入至所述迁移模型,对所述迁移模型进行训练。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,将文书样本输入至所述迁移模型,对所述迁移模型进行训练的步骤包括:
对所述文书样本中的段落进行实体标注;
将标注后的文书样本输入至所述迁移模型,以使所述迁移模型对所述文书样本中的段落进行实体识别,并返回错误率;
基于所述错误率调整所述迁移模型中各个所述神经网络模型的每一层的参数。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述基于同义词的向量模型的训练过程包括:
基于词向量模型建立基于同义词的向量模型;所述词向量模型用于对任意词语向量化;
将预先获取的同义词集合、反义词集合及语句样本输入至所述基于同义词的向量模型,对所述基于同义词的向量模型进行训练;
所述同义词集合、反义词集合均包括多个不同词性类别的集合。
第二方面,本发明实施例还提供一种留学文书撰写装置,包括:
获取模块,用于获取个人信息,所述个人信息包括待申请的学校名称、专业名称、个人特点;
查找模块,用于从预设的文书数据库中查找与所述个人信息匹配的相似文书;
选取模块,用于基于迁移模型,从所述相似文书中选取实体描述段落;其中所述迁移模型是通过预先训练的模型得到的;
改写模块,用于对所述实体描述段落进行改写,并输出改写后的实体描述段落以撰写留学文书。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,还包括:迁移模型训练模块,所述迁移模型训练模块用于:
获取若干个预先训练的神经网络模型;
将所述神经网络模型并联或者串联,得到迁移模型;
将文书样本输入至所述迁移模型,对所述迁移模型进行训练。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面及其任一种可能的实施方式所述的方法。
第四方面,本发明实施例还提供一种计算机可读介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现所述第一方面及其任一种可能的实施方式所述的方法。
本发明实施例带来了以下有益效果:
在本发明实施例中,该留学文书撰写方法包括获取个人信息,该个人信息包括待申请的学校名称、专业名称、个人特点;从预设的文书数据库中查找与该个人信息匹配的相似文书;基于迁移模型,从相似文书中选取实体描述段落;其中迁移模型是通过预先训练的模型得到的;对该实体描述段落进行改写,并输出改写后的实体描述段落以撰写留学文书。该方式可以自动根据申请人的个人信息,查找匹配的相似文书,并利用迁移模型判定相似文书中的实体描述段落,然后对该实体描述段落进行改写,得到满足申请人需求的实体描述文本,进而使申请人根据该实体描述文本进行留学文书的撰写,有效节省了人力成本和时间成本,并提高了生产效率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种留学文书撰写方法的流程示意图;
图2为本发明实施例提供的一种并联后的LSTM-DSSM模型的结构示意图;
图3为本发明实施例提供的一种基于同义词的向量模型的框架示意图;
图4为本发明实施例提供的一种留学文书撰写装置的结构示意图;
图5为本发明实施例提供的另一种留学文书撰写装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前传统的留学文书写作需要全部依赖人工,需要耗费大量的人力成本和时间,且生产效率低。基于此,本发明实施例提供的一种留学文书撰写方法、装置及电子设备,可以自动根据申请人的个人信息,查找匹配的相似文书,并对相似文书中的实体描述段落进行改写,得到满足申请人需求的实体描述文本,进而使申请人根据该实体描述文本进行留学文书的撰写,有效节省了人力成本和时间成本,并提高了生产效率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种留学文书撰写方法进行详细介绍。
实施例一:
图1示出了本发明实施例提供的一种留学文书撰写方法的流程示意图。该方法可以但不限于留学文书的撰写过程中,可以通过相关硬件或者软件实现,例如是加载相应软件的移动终端、电脑或者其他电子设备。如图1所示,该方法包括:
步骤S101,获取个人信息,该个人信息包括待申请的学校名称、专业名称、个人特点。
例如用户可以通过电子设备的输入设备,输入相应的个人信息。其中个人特点可以包括参加的项目、比赛信息等。
步骤S102,从预设的文书数据库中查找与上述个人信息匹配的相似文书。
该文书数据库可以存储在电子设备中,或者是与电子设备通信连接的云服务器中,以减小电子设备的存储压力。其中查找匹配的相似文书的过程可以参考现有技术中文章检索的相关技术,再次不在赘述。
步骤S103,基于迁移模型,从上述相似文书中选取实体描述段落,其中该迁移模型是通过预先训练的模型得到的。
该实体描述段落即为用于描述实体的段落,这里的实体可以是预先定义的,如teacher、teachers、professor等。
步骤S104,对上述实体描述段落进行改写,并输出改写后的实体描述段落以撰写留学文书。
将相似文书中的实体描述段落改写后,输出改写的实体描述段落,以使申请人可以根据该改写后的实体描述段落撰写留学文书文本。
在可能的实施例中,还可以将查找到的相似文书、该相似文书内的实体描述段落及相应改写的实体描述段落一并输出,以便于申请人查看。
本发明实施例中,可以自动根据申请人的个人信息,查找匹配的相似文书,并利用迁移模型判定相似文书中的实体描述段落,然后对该实体描述段落进行改写,得到满足申请人需求的实体描述文本,进而使申请人根据该实体描述文本进行留学文书的撰写,有效节省了人力成本和时间成本,并提高了生产效率。
为了提升实体识别的准确性,使用本发明实施例提供的技术进行实体描述段落的选取之前,进行模型训练以得到迁移模型,训练的目的是从文书中的各个段落中选取描述实体的段落。基于此,上述迁移模型的训练过程包括:获取若干个预先训练的神经网络模型;将上述神经网络模型并联或者串联,得到迁移模型;将文书样本输入至上述迁移模型,对该迁移模型进行训练。
在可能的实施例中,上述神经网络模型可以为LSTM-DSSM,并对该LSTM-DSSM模型采用并联的方式得到迁移模型。
其中上述将文书样本输入至上述迁移模型,对所述迁移模型进行训练的步骤包括:对上述文书样本中的段落进行实体标注;将标注后的文书样本输入至上述迁移模型,以使该迁移模型对文书样本中的段落进行实体识别,并返回错误率;基于该错误率调整上述迁移模型中各个神经网络模型的每一层的参数。
具体地,通过该迁移模型判断文书样本中的各个段落对应的实体,例如预先定义的实体包括学校、老师、吃饭、喝水等。假设该文书样本中段落1标注为实体:老师,而该迁移模型的输出结果为:学校的概率为0.1,老师的概率为0.5,吃饭的概率为0.2,喝水的概率为0.4,则确定错误率为50%。
以LSTM-DSSM为例,由于上述LSTM-DSSM(Long Short Term Memory-DeepStructured Semantic Models,长短期记忆-深度结构语义模型)模型是利用不同的方法训练得到的模型,训练时使用的数据不同,即应用了大量的样本,其中该LSTM-DSSM模型可以但不限于是从网络环境中获取的。因此并联多个这样的LSTM-DSSM模型更有鲁棒性,提高了模型的泛化能力。其中并联后的LSTM-DSSM模型如图2所示,需要说明的是,图2中的LSTM-DSSM模型中的层次结构仅是示例性的,并不作为具体限定。
在实际的训练过程中,首先可以从网络环境中获取多个文书作为文书样本,并在该文书样本中标注出实体,其中实体可以是teacher、professor等。将文书样本输入至由多个LSTM-DSSM模型并联构成的迁移模型中进行训练。其中该LSTM-DSSM模型可以分为以下三部分:
第一部分:BI-LSTM模型,该部分通过词嵌入生成句子向量,并通过矩阵来表示文本的段落。第二部分:卷积神经网络,由该部分提取段落特征。第三部分:DSSM层+SOFTMAX+密集层,由该部分计算实体词汇与段落的cosin距离以衡量相关度,确定段落是否为实体描述段落。
最后通过上述迁移模型返回的错误率,对上述迁移模型中各个LSTM-DSSM模型的每一层的参数进行调整。调整顺序为:首先冻结第一部分的BI-LSTM模型和第二部分的卷积神经网络,微调密集层的参数,这样不会因为初始梯度过大而破坏训练好的词向量。然后冻结第一部分和第三部分,从前往后调整第二部分的卷积神经网络的参数。最后冻结第二部分和第三部分,微调第一部分的BI-LSTM模型的参数,从而对词向量进行微调。
上述这种利用预先训练的多个LSTM-DSSM模型进行微调的迁移学习方法,将多个LSTM-DSSM模型进行集成,逐步改变神经网络各层的参数,进而调整了各个LSTM-DSSM模型的占比,有利于提升迁移模型的判别效果。
例如在训练后,得到的实体描述段落可以是:Teachers are the light thatguide our way,the ladder that lead us to success and I have been admiring myteachers and the teaching profession since I was very young.I received greathelps from my teachers and I have decided to devote my life into teachingbecause teaching is a noble profession that inspires talents.
在可能的实施例中,上述步骤S104中对上述实体描述段落进行改写的步骤包括:同义词改写步骤:基于预先训练的基于同义词的向量模型,对上述实体描述段落中的相应词汇进行同义词替换;和/或翻译改写步骤:将属于第一语言的上述实体描述段落翻译为属于第二语言的第一段落,将该第一段落翻译为属于第一语言的第二段落。
具体地,在同义词改写步骤中,由基于同义词的向量模型确定实体描述段落中相应词汇对应的同义词,将该相应词汇替换为其对应的同义词,从而实现对实体描述段落的改写。在翻译改写步骤中,第一语言和第二语言为不同的语言,如第一语言为英文、第二语言为中文;或者第一语言为法文、第二语言为中文。假设相似文书属于英文(即第一语言),则可以将英文的实体描述段落翻译成中文(即第二语言),然后将中文的实体描述段落翻译回英文,从而改变状语位置。
需要说明的是当上述步骤S104中对上述实体描述段落进行改写的步骤包括上述同义词改写步骤和翻译改写步骤时,同义词改写步骤和翻译改写步骤的执行顺序不限,可以先执行同义词改写步骤再执行翻译改写步骤;或者是先执行翻译改写步骤再执行同义词改写步骤。
当然上述步骤S104中也可以包括现有技术中的改写步骤,例如将实体描述段落中的复杂的句子(多个谓词嵌套的复合句)拆分重构为简单的单谓词非嵌套子句的句子。
基于上述多种改写步骤,本发明实施例提供了一种或者多种方式对实体描述段落进行改写,从而丰富改写的内容,提高改写效果。其中改写方式可以但不限于包括同义词改写方式、翻译改写方式及混合改写方式。为了满足用户的个性化需求,在可能的实施例中,上述步骤S104中对实体描述段落进行改写的步骤包括:获取当前选择的改写方式;基于当前选择的改写方式,对实体描述段落进行改写。
用户可以通过电子设备的输入设备,输入所需的改写方式。例如当用户选择同义词改写方式时,则在步骤S104中执行上述同义词改写步骤;当用户选择翻译改写方式时,则在步骤S104中执行上述翻译改写步骤;当用户选择混合改写方式时,则在步骤S104中执行上述同义词改写步骤和翻译改写步骤。
为了在同义词修改步骤中,能够更好的查找同义词,在基于同义词的向量模型的训练过程中可以是在词向量模型(例如Word2vec的模型)中加入同义词集合和反义词集合。基于此上述基于同义词的向量模型的模型用于对任意词语向量化;将预先获取的同义词集合、反义词集合及语句样本输入至基于同义词的向量模型,对该基于同义词的向量模型进行训练;其中同义词集合、反义词集合均包括多个不同词性类别的集合。
下面以Word2vec的CBOW模型为例进行说明。在Word2vec的CBOW模型中,通过上下文的词预测目标词,目标是让目标词在其给定上下文出现的概率最大,所以词向量训练的结果是与其上下文的词相关联的。然而CBOW模型只考虑了词语的局部上下文信息,无法很好的表达同义词和反义词等信息。为了解决上述问题,将同义词和反义词等词汇信息以外部知识的形式,作为词向量训练中的监督数据,让训练得到的词向量能学习到同义、反义等词汇信息,从而能更好地区分同义词和反义词。
为此,可以根据同义词和反义词预测目标词,最大化词语和它的同义词同时出现的概率,并降低该词语和它的反义词同时出现的概率。例如“The cat sat on the mat.”,已知sat有同义词seated,反义词stand,来预测目标词为sat。基于此,提出了词汇信息模型,该词汇信息模型的目标函数表示如下算式(1):
其中为同意词集合,为反义词集合,|V|为词表字典的大小,p(wi|u)表示已知同义词或者反义词为u的时候,目标词为wi的概率,wi计算如下算式(2):
其中,eu表示词u对应的词向量,表示目标词wi对应的参数。
在本发明实施例中,要达到的目标是在基于上下文的CBOW语言模型训练过程中,加入同义词和反义词的信息作为监督,使得训练所得词向量能学习到同义和反义知识。由此,基于词汇信息模型及Word2vec的CBOW模型建立基于同义词的向量模型,该基于同义词的向量模型的目标函数可以但不限于为算式(3):
其中表示CBOW模型的目标函数,另一部分为词汇信息模型,β是调权参数,用来平衡两个模型的贡献率,C是训练的语料库即实体描述段落,|C|是语料库的大小。
最终得到的基于同义词的向量模型的框架如图3所示,需要注意的是,CBOW模型和词汇信息模型共用同一份词向量,这是为了通过共享表示来获得彼此的知识信息,使得词向量在训练的时候,能综合利用上下文信息和同义词反义词信息,从而得到更高质量的词向量。
需要说明的是,上述同义词集合和反义词集合采用已有生成集合,并且根据词性分类,如名词、动词、形容词等类型。因此同义词和反义词不再采用人工标注,而是混合多种已有模型输出的同义词集合和反义词集合,直接加入训练。
综上,应用本发明提供的实施例,使得撰写文书的人,能很快获得实体(所在专业,所在学校等)的完整信息,并能很快获得英语句子的各种写法,能更准确的使用词,从而帮助申请人完成留学文书的撰写,有效节省留学文书撰写时间。
实施例二:
在上述实施例的基础上,本发明实施例还提供了一种留学文书撰写装置,参见图4,该装置包括:
获取模块11,用于获取个人信息,该个人信息包括待申请的学校名称、专业名称、个人特点;
查找模块12,用于从预设的文书数据库中查找与上述个人信息匹配的相似文书;
选取模块13,用于迁移模型,从上述相似文书中选取实体描述段落;其中该迁移模型是通过预先训练的模型得到的;
改写模块14,用于对上述实体描述段落进行改写,并输出改写后的实体描述段落以撰写留学文书。
进一步地,上述改写模块14还用于:
基于预先训练的基于同义词的向量模型,对上述实体描述段落中的相应词汇进行同义词替换;和/或
将属于第一语言的实体描述段落翻译为属于第二语言的第一段落,将该第一段落翻译为属于第一语言的第二段落。
进一步地,参见图5,上述装置还包括迁移模型训练模块15,该迁移模型训练模块用于:获取若干个预先训练的神经网络模型;将上述神经网络模型并联或者串联,得到迁移模型;将文书样本输入至迁移模型,对该迁移模型进行训练。
该迁移模型训练模块还用于:对文书样本中的段落进行实体标注;将标注后的文书样本输入至迁移模型,以使该迁移模型对文书样本中的段落进行实体识别,并返回错误率;基于该错误率调整迁移模型中各个神经网络模型的每一层的参数。
进一步地,上述装置还包括翻译模型训练模块16,该翻译模型训练模块用于:基于词向量模型建立基于同义词的向量模型;该词向量模型用于对任意词语向量化;
将预先获取的同义词集合、反义词集合及语句样本输入至基于同义词的向量模型,对该基于同义词的向量模型进行训练;
上述同义词集合、反义词集合均包括多个不同词性类别的集合。
本发明实施例中,可以自动根据申请人的个人信息,查找匹配的相似文书,并利用迁移模型判定相似文书中的实体描述段落,然后对该实体描述段落进行改写,得到满足申请人需求的实体描述文本,进而使申请人根据该实体描述文本进行留学文书的撰写,有效节省了人力成本和时间成本,并提高了生产效率。
实施例三:
参见图6,本发明实施例还提供一种电子设备100,包括:处理器40,存储器41,总线42和通信接口43,所述处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器40在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的留学文书撰写装置及电子设备,与上述实施例提供的留学文书撰写方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的进行留学文书撰写方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置及电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本发明的多个实施例方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种留学文书撰写方法,其特征在于,包括:
获取个人信息,所述个人信息包括待申请的学校名称、专业名称、个人特点;
从预设的文书数据库中查找与所述个人信息匹配的相似文书;
基于迁移模型,从所述相似文书中选取实体描述段落;其中所述迁移模型是通过预先训练的模型得到的;
对所述实体描述段落进行改写,并输出改写后的实体描述段落以撰写留学文书。
2.根据权利要求1所述的方法,其特征在于,对所述实体描述段落进行改写的步骤,包括:
基于预先训练的基于同义词的向量模型,对所述实体描述段落中的相应词汇进行同义词替换;和/或
将属于第一语言的所述实体描述段落翻译为属于第二语言的第一段落,将所述第一段落翻译为属于所述第一语言的第二段落。
3.根据权利要求1所述的方法,其特征在于,对所述实体描述段落进行改写的步骤包括:
获取当前选择的改写方式,所述改写方式包括同义词改写方式、翻译改写方式及混合改写方式;
基于当前选择的所述改写方式,对所述实体描述段落进行改写。
4.根据权利要求1所述的方法,其特征在于,所述迁移模型的训练过程包括:
获取若干个预先训练的神经网络模型;
将所述神经网络模型并联或者串联,得到迁移模型;
将文书样本输入至所述迁移模型,对所述迁移模型进行训练。
5.根据权利要求4所述的方法,其特征在于,将文书样本输入至所述迁移模型,对所述迁移模型进行训练的步骤包括:
对所述文书样本中的段落进行实体标注;
将标注后的文书样本输入至所述迁移模型,以使所述迁移模型对所述文书样本中的段落进行实体识别,并返回错误率;
基于所述错误率调整所述迁移模型中各个所述神经网络模型的每一层的参数。
6.根据权利要求2所述的方法,其特征在于,所述基于同义词的向量模型的训练过程包括:
基于词向量模型建立基于同义词的向量模型;所述词向量模型用于对任意词语向量化;
将预先获取的同义词集合、反义词集合及语句样本输入至所述基于同义词的向量模型,对所述基于同义词的向量模型进行训练;
所述同义词集合、反义词集合均包括多个不同词性类别的集合。
7.一种留学文书撰写装置,其特征在于,包括:
获取模块,用于获取个人信息,所述个人信息包括待申请的学校名称、专业名称、个人特点;
查找模块,用于从预设的文书数据库中查找与所述个人信息匹配的相似文书;
选取模块,用于基于迁移模型,从所述相似文书中选取实体描述段落;其中所述迁移模型是通过预先训练的模型得到的;
改写模块,用于对所述实体描述段落进行改写,并输出改写后的实体描述段落以撰写留学文书。
8.根据权利要求7所述的装置,其特征在于,还包括:迁移模型训练模块,所述迁移模型训练模块用于:
获取若干个预先训练的神经网络模型;
将所述神经网络模型并联或者串联,得到迁移模型;
将文书样本输入至所述迁移模型,对所述迁移模型进行训练。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910042070.6A CN109766537A (zh) | 2019-01-16 | 2019-01-16 | 留学文书撰写方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910042070.6A CN109766537A (zh) | 2019-01-16 | 2019-01-16 | 留学文书撰写方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109766537A true CN109766537A (zh) | 2019-05-17 |
Family
ID=66452407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910042070.6A Pending CN109766537A (zh) | 2019-01-16 | 2019-01-16 | 留学文书撰写方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766537A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245350A (zh) * | 2019-05-29 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 文案改写与更新方法、装置及设备 |
CN111753514A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种专利申请文本的自动生成方法和装置 |
CN112329436A (zh) * | 2019-07-30 | 2021-02-05 | 北京国双科技有限公司 | 一种法律文书要素解析方法及系统 |
CN112686639A (zh) * | 2021-01-05 | 2021-04-20 | 河北冀联人力资源服务集团有限公司 | 一种基于深度学习的劳动合同确定的方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130325442A1 (en) * | 2010-09-24 | 2013-12-05 | National University Of Singapore | Methods and Systems for Automated Text Correction |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN106650943A (zh) * | 2016-10-28 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于人工智能的辅助写作方法和装置 |
CN107273391A (zh) * | 2016-04-08 | 2017-10-20 | 北京国双科技有限公司 | 文书推荐方法和装置 |
CN108121697A (zh) * | 2017-11-16 | 2018-06-05 | 北京百度网讯科技有限公司 | 一种文本改写的方法、装置、设备和计算机存储介质 |
CN108959271A (zh) * | 2018-08-10 | 2018-12-07 | 广州太平洋电脑信息咨询有限公司 | 描述文本生成方法、装置、计算机设备和可读存储介质 |
-
2019
- 2019-01-16 CN CN201910042070.6A patent/CN109766537A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130325442A1 (en) * | 2010-09-24 | 2013-12-05 | National University Of Singapore | Methods and Systems for Automated Text Correction |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN107273391A (zh) * | 2016-04-08 | 2017-10-20 | 北京国双科技有限公司 | 文书推荐方法和装置 |
CN106650943A (zh) * | 2016-10-28 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于人工智能的辅助写作方法和装置 |
CN108121697A (zh) * | 2017-11-16 | 2018-06-05 | 北京百度网讯科技有限公司 | 一种文本改写的方法、装置、设备和计算机存储介质 |
CN108959271A (zh) * | 2018-08-10 | 2018-12-07 | 广州太平洋电脑信息咨询有限公司 | 描述文本生成方法、装置、计算机设备和可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245350A (zh) * | 2019-05-29 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 文案改写与更新方法、装置及设备 |
CN110245350B (zh) * | 2019-05-29 | 2023-04-07 | 创新先进技术有限公司 | 文案改写与更新方法、装置及设备 |
CN112329436A (zh) * | 2019-07-30 | 2021-02-05 | 北京国双科技有限公司 | 一种法律文书要素解析方法及系统 |
CN111753514A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种专利申请文本的自动生成方法和装置 |
CN112686639A (zh) * | 2021-01-05 | 2021-04-20 | 河北冀联人力资源服务集团有限公司 | 一种基于深度学习的劳动合同确定的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106484682B (zh) | 基于统计的机器翻译方法、装置及电子设备 | |
CN111125331B (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN109766537A (zh) | 留学文书撰写方法、装置及电子设备 | |
CN103782291B (zh) | 定制自然语言处理引擎 | |
CN106484681A (zh) | 一种生成候选译文的方法、装置及电子设备 | |
CN109344236A (zh) | 一种基于多种特征的问题相似度计算方法 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN109740126A (zh) | 文本匹配方法、装置及存储介质、计算机设备 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN109597988A (zh) | 跨语言的词汇义原预测方法、装置与电子设备 | |
CN106502979A (zh) | 一种自然语言信息的数据处理方法和装置 | |
CN109800307A (zh) | 产品评价的分析方法、装置、计算机设备及存储介质 | |
CN108763529A (zh) | 一种智能检索方法、装置和计算机可读存储介质 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN111737426A (zh) | 问答模型的训练方法、计算机设备以及可读存储介质 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN112463989A (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN110502613A (zh) | 一种模型训练方法、智能检索方法、装置和存储介质 | |
CN110162595A (zh) | 用于生成文本摘要的方法、装置、设备以及可读存储介质 | |
CN106250367B (zh) | 基于改进的Nivre算法构建越南语依存树库的方法 | |
CN110889288A (zh) | 中文实体链接方法以及装置、文本处理方法、设备、存储介质 | |
CN116341515A (zh) | 一种面向对比学习的动态课程的句子表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |