CN109426660A - 基于长短时记忆网络的英文电子邮件写作助手 - Google Patents

基于长短时记忆网络的英文电子邮件写作助手 Download PDF

Info

Publication number
CN109426660A
CN109426660A CN201710705193.4A CN201710705193A CN109426660A CN 109426660 A CN109426660 A CN 109426660A CN 201710705193 A CN201710705193 A CN 201710705193A CN 109426660 A CN109426660 A CN 109426660A
Authority
CN
China
Prior art keywords
language model
term
short
memory network
plug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710705193.4A
Other languages
English (en)
Inventor
仲国强
魏洪旭
王海珍
孔浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN201710705193.4A priority Critical patent/CN109426660A/zh
Publication of CN109426660A publication Critical patent/CN109426660A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

自然语言处理是一个实现计算机与人之间使用自然语言进行有效通信的科学领域,可以提高计算机的易用性和人机交互的友好性。语言模型是自然语言处理中非常重要的一部分,同时也是语音识别、机器翻译和由图片生成标题等任务的基础和关键。本发明实现了一个英文邮件编写助手,可以帮助编写者预测出符合其语法和上下文语义的下一个单词或词组,提示编写者的遣词造句,启发灵感,并节省编写时间。本发明利用TensorFlow实现基于长短时记忆网络(LSTM)的语言模型,并在Penn Tree Bank(PTB)数据集上进行了训练。此外,本发明还能够根据用户的编写习惯,将其编写内容加入到语言模型的训练当中,使得邮件编写助手的提示结果符合用户的个性化风格。

Description

基于长短时记忆网络的英文电子邮件写作助手
技术领域
本发明涉及自然语言处理领域的词汇预测技术,人工智能领域的深度学习技术。
背景技术
1.Python语言(版本号为3.5)及深度学习框架Tensorflow(版本号为1.0)
本发明的语言预测部分采用Python语言开发,版本号为3.5;循环神经网络部分采用深度学习框架Tensorflow搭建,版本号为1.0。运行环境为Windows10。
2.程序基于Outlook 2015开发,开发环境为Microsoft Visual Studio 2015
本发明在Outlook 2015基础上开发了一个词汇自动预测的插件,使用的开发环境为Microsoft Visual Studio 2015。
发明内容
近年来,由于AlphaGo的出现,再次掀起一股“深度学习”热潮,加上当前硬件设备越来越好,深度学习的强大功能也越来越受到大家的认可。深度学习的模型之一RNN虽然被设计成可以处理整个时间序列信息,但是其记忆最深的还是最后输入的一些信号,因此对于一些间隔太远的输入信息,RNN是难以记忆的,而LSTM可以解决长程依赖而设计的,不需要特别复杂地调试超参数,默认就可以记住长期的信息。本作品就采用了目前比较流行的LSTM进行语言模型的训练。
本文使用了PTB数据集,PTB是在语言模型训练中经常使用的一个数据集,它的质量比较高,可以用来评测语言模型的准确率,同时数据集不大,训练也比较快。PTB数据集包括100000个不同的单词,有句尾的标记,同时将罕见的词汇统一处理为特殊字符,利用TensorFlow 模块中的PTBreader读取数据内容。读取数据内容的操作比较繁琐,主要是将单词转为唯一的数字编码,以便神经网络进行处理。利用LSTM训练好的语言模型,可以对输入语句接下来出现的单词进行预测,在此使用的是softmax输出,输出可能出现的单词概率最高的三个单词及两个词组。
我们在Microsoft Visual Studio 2015上实现outlook插件的应用,将插件放入outlook快速启动栏,使用快捷键“Alt+1”。按下快捷键后,会出现一个窗体,里边是语言模型所预测出来的概率最高的3个单词和2个词组,可供用户选择。
附图说明
图1. 技术难题
本发明中解决了语言模型在邮件编写、单词提示中的几大难题,分为两大方面,首先在插件方面,模型能够做到实时响应没有延迟,以及调用方便,在很大程度上注重用户体验;另外,语言模型要擅长处理序列数据,为了没有延迟,网络规模不能够过大,训练模型的数据集还要保证包含大量的邮件文本,这样模型的预测更符合邮件编写的要求。
图2 长短时记忆网络的基本结构
长短时记忆网络的基本单元实现的包括三个“门”:输入门,遗忘门,输出门。输入门控制每个单元的输入信息保留或者丢弃的程度,遗忘门代表单元信息的保留情况,输出门可以控制信息的输出。
图3 模型详解
模型插件分为两大部分,第一部分是Outlook邮箱插件,插件能够用Alt+1的方式进行调用,将邮件中已经编辑的邮件文本数据传到语言模型中,还能够将语言模型预测的数据传到插件中供用户进行选择;第二部分是语言模型的核心部分,文本数据集由PTB和邮件文本构成,网络模型选择的是长短时记忆网络。
图4 数据流传递示意图
共分为5层,最底层是出入单词,在第二层的数据字典中转换中独一无二的编码,然后传到第三层的长短时记忆网络中,预测出的同样是单词编码,再通过第四层的数据字典,转换成预测的单词,也就是第五层。
图5 插件预测示意图
邮件中输入了一部分文本,调用插件预测到了五个单词和词组。
图6 插件预测示意图
邮件中输入了一部分文本,调用插件预测到了五个单词和词组。

Claims (2)

1.一种基于长短时记忆网络的单词预测语言模型,包括利用词嵌入方法在文本数据集运行得出的单词字典,利用循环神经网络中的长短时记忆网络搭建的深度网络对文本数据集进行训练,得到一个适用于文本预测的语言模型(1)。
2.利用Microsoft Visual Studio 2015为Outlook2015制作了一个插件,插件由快捷键进行调用,插件起到一个桥梁的作用,将邮件中已经输入完的文本传入到语言模型(1)中,再将语言模型(1)预测的结果反馈到邮件编写界面中,将概率最高的单词和词组展示给用户,供用户进行选择。
CN201710705193.4A 2017-08-17 2017-08-17 基于长短时记忆网络的英文电子邮件写作助手 Pending CN109426660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710705193.4A CN109426660A (zh) 2017-08-17 2017-08-17 基于长短时记忆网络的英文电子邮件写作助手

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710705193.4A CN109426660A (zh) 2017-08-17 2017-08-17 基于长短时记忆网络的英文电子邮件写作助手

Publications (1)

Publication Number Publication Date
CN109426660A true CN109426660A (zh) 2019-03-05

Family

ID=65497235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710705193.4A Pending CN109426660A (zh) 2017-08-17 2017-08-17 基于长短时记忆网络的英文电子邮件写作助手

Country Status (1)

Country Link
CN (1) CN109426660A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗振候等编著: "藏语计算语言学 藏文信息处理技术", 西南交通大学出版社, pages: 141 - 142 *

Similar Documents

Publication Publication Date Title
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
WO2019085779A1 (zh) 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN105095182B (zh) 一种回复信息推荐方法及装置
WO2021139108A1 (zh) 情绪智能识别方法、装置、电子设备及存储介质
US20150279366A1 (en) Voice driven operating system for interfacing with electronic devices: system, method, and architecture
CN108984529A (zh) 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN103578464A (zh) 语言模型的建立方法、语音辨识方法及电子装置
CN111199727A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
US11636272B2 (en) Hybrid natural language understanding
CN112183058B (zh) 基于bert句子向量输入的诗词生成方法及装置
CN107679225A (zh) 一种基于关键词的回复生成方法
CN113360001A (zh) 输入文本的处理方法、装置、电子设备和存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN110991175A (zh) 多模态下的文本生成方法、系统、设备及存储介质
CN112560510A (zh) 翻译模型训练方法、装置、设备及存储介质
CN112216267A (zh) 一种韵律预测的方法、装置、设备及存储介质
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
CN112017643B (zh) 语音识别模型训练方法、语音识别方法及相关装置
Guillaume et al. Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings
CN112948558A (zh) 面向开放域对话系统的上下文增强的问题生成方法及装置
CN114783405B (zh) 一种语音合成方法、装置、电子设备及存储介质
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN109426660A (zh) 基于长短时记忆网络的英文电子邮件写作助手
CN112150103B (zh) 一种日程设置方法、装置和存储介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination