CN112149428A

CN112149428A - 基于语义分析和深度学习的智能写作辅助系统

Info

Publication number: CN112149428A
Application number: CN202011085142.4A
Authority: CN
Inventors: 陈海林; 张蓬; 赵绪龙
Original assignee: Trueland Information Technology Shanghai Co ltd
Current assignee: Trueland Information Technology Shanghai Co ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2020-12-29

Abstract

本发明公开了基于语义分析和深度学习的智能写作辅助系统，用于解决现有技术对于内容级别的研究甚少，没有对写作的内容进行主题方面的提示和推荐，不能有效地解决用户缺乏写作素材或灵感的问题；包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块；所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息，并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块。

Description

基于语义分析和深度学习的智能写作辅助系统

技术领域

本发明涉及一种智能写作辅助系统，具体为基于语义分析和深度学习的智能写作辅助系统，属于智能写作辅助系统技术领域。

背景技术

在语言的学习过程中，写作常常扮演着重要的角色。写作者的写作水平可以凸显其掌握语言的熟练程度，要想写出高质量的文章，必须拥有大量的阅读经历及知识储备。然而，对大多数以非英语为母语的学生来说，由于英语阅读经历和知识储备的缺乏，写出高质量的英语文章绝非是一件容易的事。

然而，大多数系统都将重点放在词汇、短语、语句级别，对于内容级别的研究甚少，没有对写作的内容进行主题方面的提示和推荐，不能有效地解决用户缺乏写作素材或灵感的问题。

为了解决上述技术问题，本发明提供如下技术方案。

发明内容

本发明的目的在于提供基于语义分析和深度学习的智能写作辅助系统，用于解决现有技术对于内容级别的研究甚少，没有对写作的内容进行主题方面的提示和推荐，不能有效地解决用户缺乏写作素材或灵感的问题；本发明包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块；所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息，并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块。

本发明的目的可以通过以下技术方案实现：

基于语义分析和深度学习的智能写作辅助系统，包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块；

所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息，并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块；

所述词搭配模块用于计算两个词语的关联程度，具体计算过程包括以下步骤：

步骤一：获取词语i，j在语料库中出现的频率，获取词语i，j在语料库中共同出现的频率，并将词语i，j在语料库中出现的频率以及词语i，j在语料库中共同出现的频率发送至词搭配模块；

步骤二：所述词搭配模块获取得到词语i，j在语料库中出现的频率以及词语i，j在语料库中共同出现的频率后，将其标记为Pi、Pj以及Pij；

步骤三：利用计算公式得到词语i，j的关联度Gij，

其中计算公式为

其中α为修正系数固定值；

所述例句实时提示模块用于根据用户的当前输入，为用户提供包含词或者短语的例句；所述相关内容推荐模块用于根据用户的输入进行主题内容分析，为客户提供主题相关，内容相近的句子；

所述主题词抽取模块具体为一种统计方法，用来评估一个词对于一个文档的重要程度，具体评估方式如下：

步骤S1：通过信息获取模块获取词p在文档q中出现的次数，获取文档q中包含p的词数，并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块；

步骤S2：主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq；

步骤S3：利用计算公式计算出词p的词频Cp,q，计算公式为

其中β表示预设比例系数固定值；

步骤S4：获取语料库中文档的数量、包含词n的文档数量，并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块；

步骤S5：主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量，将其分别标记为Z、Bn；

步骤S6：利用计算公式计算逆向文件频率I，计算公式为

其中γ表示预设比例系数固定值；

步骤S7：设定重要度值D，利用计算公式计算重要度值D，计算公式为D＝θ×Cp,q×I。

作为本发明的进一步方案，所述相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度，具体的计算过程包括以下步骤：

步骤P1：通过信息获取模块获取两个词语所在同义词集中的路径长度、公共同义词集的深度，并将两个词语所在同义词集中的路径长度、公共同义词集的深度发送至相似度计算模块；

步骤P2：相似度计算模块得到两个词语所在同义词集中的路径长度、公共同义词集的深度后，将其分别标记为l、h；

步骤P3：利用计算公式计算相似度S，其中相似度S的计算公式为

其中c1、c2分别是路径长度l、公共同义词集的深度h的权重，且c1、c2∈[0，1]。

作为本发明的进一步方案，所述信息获取模块用于网络信息，具体网络信息包括：词语i，j在语料库中出现的频率、词语i，j在语料库中共同出现的频率、词p在文档q中出现的次数、文档q中包含p的词数、语料库中文档的数量、包含词n的文档数量、两个词语所在同义词集中的路径长度以及公共同义词集的深度。

作为本发明的进一步方案，智能写作辅助具体表现为以下步骤：

步骤G1：当用户使用鼠标点击某个特定的词语时，词搭配模块在搭配词库中进行检索，为用户推荐与词语搭配的词；

步骤G11：词搭配模块在搭配词库中进行检索，获取与输入词语关联的词语；

步骤G12：将与输入词语关联的词语按照关联度由大到小的顺序依次排列；

步骤G13：将排列的关联词显示在用户的界面上；

步骤G2：当用户输入语句时，例句实时提示模块根据用户的当前输入，为其提供包含当前输入中词或短语的例句；

步骤G21：当用户输入语句空格键被按下时，例句实时提示模块向互联网发送http请求，例句实时提示模块自动获取用户的输入提交给互联网；

步骤G22：例句实时提示模块首先对用户的输入进行分句，提取出用户正在输入的当前句S：对句子S分词，并将S中的当前词作为查询词在句子索引库中进行检索，找出包含当前词的候选句ID：

步骤G23：在句子库中找出句子ID对应的句子信息，并计算候选句与句子S的相似度，并按其相似度进行排序，将例句显示在用户的界面上；

步骤G3：相关内容推荐模块用于根据用户的输入进行主题内容分析，为客户提供主题相关，内容相近的句子；

步骤G31：当用户输入语句空格键被按下时，对语句进行分句，分词以及词性标注；

步骤G32：通过信息获取模块获取词p在文档q中出现的次数，获取文档q中包含p的词数，并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块；

步骤G33：主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq；

步骤G34：利用计算公式计算出词p的词频Cp,q，计算公式为

其中β表示预设比例系数固定值；

步骤G35：获取语料库中文档的数量、包含词n的文档数量，并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块；

步骤G36：主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量，将其分别标记为Z、Bn；

步骤G37：利用计算公式计算逆向文件频率I，计算公式为

其中γ表示预设比例系数固定值；

步骤G38：设定重要度值D，利用计算公式计算重要度值D，计算公式为D＝θ×Cp,q×I；

步骤G39：按其重要度值D进行排序，将例句显示在用户的界面上。

与现有技术相比，本发明的有益效果是：

1、词搭配模块用于计算两个词语的关联程度，获取词语i，j在语料库中出现的频率，获取词语i，j在语料库中共同出现的频率，并将词语i，j在语料库中出现的频率以及词语i，j在语料库中共同出现的频率发送至词搭配模块；所述词搭配模块获取得到词语i，j在语料库中出现的频率以及词语i，j在语料库中共同出现的频率后，将其标记为Pi、Pj以及Pij；利用计算公式得到词语i，j的关联度Gij，其中计算公式为

其中α为修正系数固定值。

2、主题词抽取模块具体为一种统计方法，用来评估一个词对于一个文档的重要程度，通过信息获取模块获取词p在文档q中出现的次数，获取文档q中包含p的词数，并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块；主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq；利用计算公式计算出词p的词频Cp,q，计算公式为

其中β表示预设比例系数固定值；获取语料库中文档的数量、包含词n的文档数量，并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块；主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量，将其分别标记为Z、Bn；利用计算公式计算逆向文件频率I，计算公式为

其中γ表示预设比例系数固定值；设定重要度值D，利用计算公式计算重要度值D，计算公式为D＝θ×Cp,q×I。

3、相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度，通过信息获取模块获取两个词语所在同义词集中的路径长度、公共同义词集的深度，并将两个词语所在同义词集中的路径长度、公共同义词集的深度发送至相似度计算模块；相似度计算模块得到两个词语所在同义词集中的路径长度、公共同义词集的深度后，将其分别标记为l、h；利用计算公式计算相似度S，其中相似度S的计算公式为

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的原理框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，基于语义分析和深度学习的智能写作辅助系统，包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块；

步骤三：利用计算公式得到词语i，j的关联度Gij，

其中计算公式为

其中α为修正系数固定值；

步骤S3：利用计算公式计算出词p的词频Cp,q，计算公式为

其中β表示预设比例系数固定值；

步骤S6：利用计算公式计算逆向文件频率I，计算公式为

其中γ表示预设比例系数固定值；

其中，所述相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度，具体的计算过程包括以下步骤：

其中，所述信息获取模块用于网络信息，具体网络信息包括：词语i，j在语料库中出现的频率、词语i，j在语料库中共同出现的频率、词p在文档q中出现的次数、文档q中包含p的词数、语料库中文档的数量、包含词n的文档数量、两个词语所在同义词集中的路径长度以及公共同义词集的深度。

其中，智能写作辅助具体表现为以下步骤：

步骤G13：将排列的关联词显示在用户的界面上；

步骤G34：利用计算公式计算出词p的词频Cp,q，计算公式为

其中β表示预设比例系数固定值；

步骤G37：利用计算公式计算逆向文件频率I，计算公式为

其中γ表示预设比例系数固定值；

上述公式均是去量化取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况设定。

本发明的工作原理：当用户使用鼠标点击某个特定的词语时，词搭配模块在搭配词库中进行检索，为用户推荐与词语搭配的词；词搭配模块在搭配词库中进行检索，获取与输入词语关联的词语；将与输入词语关联的词语按照关联度由大到小的顺序依次排列；将排列的关联词显示在用户的界面上；

当用户输入语句时，例句实时提示模块根据用户的当前输入，为其提供包含当前输入中词或短语的例句；当用户输入语句空格键被按下时，例句实时提示模块向互联网发送http请求，例句实时提示模块自动获取用户的输入提交给互联网；例句实时提示模块首先对用户的输入进行分句，提取出用户正在输入的当前句S：对句子S分词，并将S中的当前词作为查询词在句子索引库中进行检索，找出包含当前词的候选句ID：在句子库中找出句子ID对应的句子信息，并计算候选句与句子S的相似度，并按其相似度进行排序，将例句显示在用户的界面上；

相关内容推荐模块用于根据用户的输入进行主题内容分析，为客户提供主题相关，内容相近的句子；当用户输入语句空格键被按下时，对语句进行分句，分词以及词性标注；通过信息获取模块获取词p在文档q中出现的次数，获取文档q中包含p的词数，并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块；主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq；利用计算公式计算出词p的词频Cp,q，计算公式为

其中γ表示预设比例系数固定值；设定重要度值D，利用计算公式计算重要度值D，计算公式为D＝θ×Cp,q×I；按其重要度值D进行排序，将例句显示在用户的界面上。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于语义分析和深度学习的智能写作辅助系统，其特征在于，包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块；

步骤三：利用计算公式得到词语i，j的关联度Gij，

其中计算公式为

其中α为修正系数固定值；

步骤S3：利用计算公式计算出词p的词频Cp,q，计算公式为

其中β表示预设比例系数固定值；

步骤S6：利用计算公式计算逆向文件频率I，计算公式为

其中γ表示预设比例系数固定值；

2.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统，其特征在于：所述相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度，具体的计算过程包括以下步骤：

3.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统，其特征在于：所述信息获取模块用于网络信息，具体网络信息包括：词语i，j在语料库中出现的频率、词语i，j在语料库中共同出现的频率、词p在文档q中出现的次数、文档q中包含p的词数、语料库中文档的数量、包含词n的文档数量、两个词语所在同义词集中的路径长度以及公共同义词集的深度。

4.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统，其特征在于：智能写作辅助具体表现为以下步骤：

步骤G13：将排列的关联词显示在用户的界面上；

步骤G34：利用计算公式计算出词p的词频Cp,q，计算公式为

其中β表示预设比例系数固定值；

步骤G37：利用计算公式计算逆向文件频率I，计算公式为

其中γ表示预设比例系数固定值；