CN109670040B - 写作辅助方法、装置及存储介质、计算机设备 - Google Patents
写作辅助方法、装置及存储介质、计算机设备 Download PDFInfo
- Publication number
- CN109670040B CN109670040B CN201811428812.0A CN201811428812A CN109670040B CN 109670040 B CN109670040 B CN 109670040B CN 201811428812 A CN201811428812 A CN 201811428812A CN 109670040 B CN109670040 B CN 109670040B
- Authority
- CN
- China
- Prior art keywords
- word
- phrase
- target text
- user
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims description 51
- 230000015654 memory Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种写作辅助方法、装置及存储介质、计算机设备,所述方法包括:获取用户写作时输入的目标文本;将所述目标文本输入序列预测模型,获得所述目标文本中每个词组在语法使用中的第一正确概率;所述序列预测模型用于分析输入文本中每个词组的组成结构,以得出每个词组的语法使用正确概率;根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组,将该词组作为用词不当词组;向所述用户提示所述用词不当词组。上述方法实现对用户的写作内容进行检测,指出写作文本内容用词不当之处。
Description
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种写作辅助方法、装置及存储介质、计算机设备。
背景技术
当下,许多人在撰写文本作品时,由于词汇量的缺乏以及对于词汇量的使用不当,造成文本作品的表达不通顺以及整个文本作品中词语、句子等的使用不当。并且,由于每个人的阅读储备量不一样,对于词汇的使用也缺乏一定的理解,从而在写作时容易出错。同时,用户并不能很快意识到错误处。或者,并不能理解到错误处。
当前,多数写作辅助产品和以及产品发明主要集中在对写作文本的语法、拼写等进行纠正提示,对于写作文本的内容上缺乏错误提示。
发明内容
本发明提出一种写作辅助方法、装置及存储介质、计算机设备,以实现对用户的写作内容进行检测,指出写作文本内容用词不当之处。
本发明提供以下方案:
一种写作辅助方法,包括:获取用户写作时输入的目标文本;将所述目标文本输入序列预测模型,获得所述目标文本中每个词组在语法使用中的第一正确概率;所述序列预测模型用于分析输入文本中每个词组的组成结构,以得出每个词组的语法使用正确概率;根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组,将该词组作为用词不当词组;向所述用户提示所述用词不当词组。
在一实施例中,所述序列预测模型根据以下方式训练:获取所述序列预测模型对应的训练语料,并标注出所述训练语料中的错误用语和正确用语;利用所述错误用语和所述正确用语对所述序列预测模型进行训练。
在一实施例中,所述序列预测模型为基于双向长短期记忆网络LSTM和条件随机场CRF构成的模型。
在一实施例中,所述获取所述目标文本中语法使用的正确概率低于预设值的词组之后,还包括:将所述目标文本中所述用词不当词组的上文信息输入语言生成模型中,得到替代所述用词不当词组的多个替代词以及多个所述替代词的生成概率;所述语言生成模型用于分析输入词组的上文信息以输出替代输入词组的替代词;所述生成概率为根据所述语言生成模型得到的替代词用于替代输入词组的概率;根据生成概率对多个所述替代词进行排序,获取排序在前的预设数量的替代词,以生成候选词列表;所述向所述用户提示所述用词不当词组之后,还包括:向所述用户提示所述候选词列表中的所述替代词。
在一实施例中,所述语言生成模型根据以下方式训练:获取训练样本文本;将所述训练样本文本进行分词,并采用one-hot独热码方式对分词后所述训练样本文本进行编码,得到第一词向量;将所述第一词向量输入word2vector模型进行词向量空间映射,得到第二词向量;将所述第二词向量输入所述语言生成模型中,以对所述语言生成模型进行训练。
在一实施例中,所述语言生成模型为基于LSTM的网络结构的模型。
在一实施例中,所述向所述用户提示所述候选词列表中的所述替代词,包括:将所述候选词列表中的所述替代词输入所述序列预测模型,得到每个替代词在语法使用上的第二正确概率,根据所述第二正确概率从高到低对每个替代词进行排序,得到排序后新的候选词列表;根据所述新的候选词列表的排序,向所述用户提示所述新的候选词列表中的替代词。
一种写作辅助装置,包括:第一获取模块,用于获取用户写作时输入的目标文本;第二获取模块,用于将所述目标文本输入序列预测模型,获得所述目标文本中每个词组在语法使用中的第一正确概率;所述序列预测模型用于分析输入文本中每个词组的组成结构,以得出每个词组的语法使用正确概率;第三获取模块,用于根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组,将该词组作为用词不当词组;提示模块,用于向所述用户提示所述用词不当词组。
一种存储介质,其上存储有计算机程序;所述计算机程序适于由处理器加载并执行上述任一实施例所述的写作辅助方法。
一种计算机设备,其包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行根据上述任一实施例所述的写作辅助方法。
上述实施例提供的写作辅助方法,在用户进行写作时,获取输入的目标文本,并将目标文本输入到序列预测模型中,从而得到目标文本中每个词组在语法使用上的正确概率。进一步地,获取正确概率低于预设值的词组作为用词不当词组,并向用户提示该用词不当词组。该写作辅助方法通过序列预测模型对用户输入的目标文本的词组内容进行检测,确定出每个词组在语法上使用的正确概率,从而可准确确定出目标文本中的用词不当词组,并向用户提示出用词不当词组。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明提供的一种写作辅助方法的应用场景的一实施例中的结构示意图;
图2为本发明提供的一种写作辅助方法的一实施例中的方法流程图;
图3为本发明提供的基于双向长短期记忆网络LSTM和条件随机场CRF构成的模型的示意图;
图4为本发明提供的一种写作辅助方法的另一实施例中的方法流程图;
图5为本发明提供的一种写作辅助装置的一实施例中的结构框图;
图6为本发明提供的一种计算机设备的一实施例中的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式,这里使用的“第一”、“第二”仅用于区别同一技术特征,并不对该技术特征的顺序和数量等加以限定。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明提供的一种写作辅助方法,适用于提供写作辅助的客户端、或者对用户写作内容进行分析并提供写作辅助的服务器。系统通过该写作辅助方法对用户输入的目标文本进行检测,并对目标文本中的错误用词进行提示,从而给用户提供便利且有效的写作辅助。该写作辅助方法的应用环境可以是直接在用户终端的客户端中对用户写作时输入的文本进行检测,以辅助用户写作。也可以是,通过用户终端的客户端将用户写作时输入的文本上传到系统平台的服务器,由服务器对文本进行检测,并将检测的结果(如提示用词不当词组)下发到用户终端,以向用户提供写作辅助。以下根据后一种方式对该写作辅助方法的应用环境进行先导性说明:
如图1所示,服务器100与用户终端位于同一个网络200环境中,服务器100与用户终端通过网络200进行数据信息的交互。用户终端可包括手机303以及pad等移动终端,也可以包括笔记本电脑以及台式电脑等。网络200可包括无线网络和/或有线网络。服务器100通过网络200获取用户输入的目标文本,根据本发明所述的写作辅助方法对用户输入的目标文本进行检测,以输出目标文本中用词不当词组,并向用户终端下发用词不当词组,以向提示该用词不当词组,从而在用户写作时提供写作辅助。服务器100的数量与用户终端中的用户的数量均不作限定,图1所示只作为示例说明。用户终端中安装有接收目标文本输入的客户端。用户可以通过客户端与对应的服务器100进行信息交互。客户端与服务器100相对应,共同遵循同一套数据协议,使得服务器100跟客户端能够互相解析出对方的数据,向用户下发写作文本的检测结果,以辅助用户写作。
本发明提供一种写作辅助方法。在一实施例中,如图2所示,该写作辅助方法,包括:
S100,获取用户写作时输入的目标文本。
在本实施例中,系统检测到用户进入写作模式时,获取用户输入的目标文本。其中,目标文本可以电子媒体上发表评论、个人发表内容等。如,微博发表内容,微博评论内容。此时,微博平台获取用户输入的文本作为目标文本。若用户采用写作软件进行作品编辑,该写作软件的系统平台检测用户输入的目标文本,并获取该目标文本。或者,也可以是写作软件的客户端检测用户输入的目标文本,并获取该目标文本。
S200,将所述目标文本输入序列预测模型,获得所述目标文本中每个词组在语法使用中的第一正确概率;所述序列预测模型用于分析输入文本中每个词组的组成结构,以得出每个词组的语法使用正确概率。
在本实施例中,当用户进行写作时,系统获取用户输入的文本,将该文本输入到序列预测模型中,以获得文本中每个词组在使用上的正确概率。其中,序列预测模型接收输入语料,如本实施例所述的目标文本,针对输入语料的每个句子中的各个词组进行语法分析,确定出每个句子的每个词组在语法使用上的正确概率,并输出每个词组的正确概率值。此处,序列预测模型可以是之前训练好的模型。该序列预测模型可对输入的文本结构进行分析,并根据文本结构分析出文本中每个词组在语法使用上的正确概率。
在一实施例中,所述序列预测模型根据以下方式训练:
获取所述序列预测模型对应的训练语料,并标注出所述训练语料中的错误用语和正确用语;利用所述错误用语和所述正确用语对所述序列预测模型进行训练。
具体地,所述序列预测模型为基于双向长短期记忆网络LSTM和条件随机场CRF构成的模型。
在该实施例中,序列预测模型对应的训练语料可以是通过爬虫方式从官方媒体网站或者公众媒体网站中爬取相应的文本。如,通过使用大量的电子媒体评论以及微博等文本中获取训练语料。进一步地,系统分析并标注出训练语料中正确用语和错误用语,利用训练语料中的语句及语义表达,以及其正确用词与错误用词,对序列预测模型进行训练。进一步地,所述序列预测模型为基于双向长短期记忆网络LSTM和条件随机场CRF构成的模型。其中,基于双向长短期记忆网络是一种特殊的RNN,能够学习长期依赖关系,其模型可参见图3所示。
S300,根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组,将该词组作为用词不当词组。
在本实施例中,目标文本输入序列预测模型后,可得到目标文本中每个词组在语法使用上的正确概率值。系统获取正确概率值低于系统预设值的词组,将该词组作为用词不当词组。例如,目标文本的词组包括词组A、词组B、词组C、词组D。词组A的正确概率值为80%、词组B的正确概率值为70%、词组C的正确概率值为30%、词组D的正确概率值为20%。系统预设值为70%,则系统获取词组C和词组D作为用词不当词组。
在该实施例的一个实施方式中,所述预设值可根据以下方式进行动态调整:
获取同一类型的文本作为训练文本;所述训练文本中标注出正确用词和错误用词;
将所述训练文本输入所述序列预测模型中,得到所述训练文本中每个正确用词和错误用词对应的所述正确概率值;
根据所述每个正确用词和错误用词对应的所述正确概率值确定出该类型对应的所述预设值;
确定所述目标文本的类型,根据所述目标文本的类型获取对应的预设值。
在该实施方式中,系统通过获取同一类型下的多个训练文本,将多个训练文本输入序列预测模型中,以得到训练文本中每个正确用词和错误用词在语法使用上对应的正确概率值,从而确定出该类型下的系统预设值。例如,训练文本中包含正确用词a、正确用词b、正确用词c、正确用词d,以及错误用词f、错误用词g、错误用词h、错误用词j。其中,正确用词a对应的正确概率值为75%、正确用词b对应的正确概率值为82%、正确用词c对应的正确概率值为55%、正确用词d对应的正确概率值为61%,以及错误用词f对应的正确概率值为45%、错误用词g对应的正确概率值为13%、错误用词h对应的正确概率值为33%、错误用词j对应的正确概率值为48%,则系统可将该类型对应的预设值设置为49%-54%之间的任何值。通过该方式可确定每个类型对应的预设值。当用户输入目标文本时,系统可先确定目标文本的类型,再根据其类型确定出对应的预设值。因此,该实施方式可根据不同类型确定出符合该类型的预设值,从而提高获取所述用词不当词组的准确度。
S400,向所述用户提示所述用词不当词组。
在本实施例中,系统确认获取到目标文本中用词不当词组之后,向用户提示该用词不当词组。在一实施方式中,系统确认用户输入目标文本后,同步对所述目标文本执行上述步骤S100至步骤S300,实时获取目标文本中的所述用词不当词组,并向用户提示目标文本的用词不当词组。具体地,系统实时获取用户输入的目标文本,并同步将目标文本输入到序列模型中,以根据语法使用对目标文本中词组进行分析,确认出目标文本中的用词不当词组,并实时反馈给用户。也可以是,系统确认用户输入目标文本后,对所述目标文本进行异步处理,对所述目标文本执行上述步骤S100至步骤S300,并向用户提示异步处理后得到的用词不当词组。具体地,系统每隔预设时间获取用户输入的目标文本,采用异步线程对目标文本进行异步处理,以获取目标文本中用词不当词组,并将用词不当词组反馈到用户输入界面。或者,系统获取用户输入的目标文本,确定异步处理线程中对当前的目标文本处理结束之后,再次获取用户输入的目标文本进行处理,并且将每次异步处理得到的用词不当词组反馈到用户输入界面。
在具体的实施方式中,向用户提示用词不当词组的方式可以是:对目标文本中用词不当词组进行颜色标注,或者将用词不当词组标注为不同颜色字体。还可以是,获取每个用词不当词组的所述第一正确概率,并在用户输入的目标文本界面上显示每个用词不当词组对应的第一正确概率。
上述写作辅助方法,当用户进行写作时,获取用户输入的目标文本,将该目标文本输入到序列预测模型中,以获得目标文本中每个词组在语法使用上的正确概率。进一步,筛选出正确概率低于系统预设值的词组作为用词不当词组,同时提示用户输入文本中用词不当词组,以便用户对用词不当词组进行修改,从而提高用户写作时用词的准确度。
在一实施例中,如图4所示,步骤S300之后,还包括
S310,将所述目标文本中所述用词不当词组的上文信息输入语言生成模型中,得到替代所述用词不当词组的多个替代词以及多个所述替代词的生成概率。
在该实施例中,所述语言生成模型用于分析输入词组的上文信息以输出替代输入词组的替代词;所述生成概率为根据所述语言生成模型得到的替代词用于替代输入词组的概率。其中,所述语言生成模型根据以下方式训练:
获取训练样本文本;将所述训练样本文本进行分词,并采用one-hot独热码方式对分词后所述训练样本文本进行编码,得到第一词向量;将所述第一词向量输入word2vector模型进行词向量空间映射,得到第二词向量;将所述第二词向量输入所述语言生成模型中,以对所述语言生成模型进行训练。在一具体实施方式中,所述语言生成模型为基于LSTM的网络结构的模型。
在具体的实施方式中,训练所述语言生成模型的方式具体可以是:首先将获取的训练文本进行分词。此处的训练文本可以是面向公众的电子媒体上发表评论、微博等形式的文本内容,并采用one-hot独热方法对分词后文本的词组进行编码,然后利用word2vector模型对独热编码后的词向量进行词向量空间映射。进一步地,对获取语料(训练文本)的词向量输入基于LSTM的网络结构,并经过网络结构的输入门、记忆门以及输出门三个部分的计算,训练出语言生成模型。
S320,根据生成概率对多个所述替代词进行排序,获取排序在前的预设数量的替代词,以生成候选词列表。
此时,步骤S400之后,还包括:
S500,向所述用户提示所述候选词列表中的所述替代词。
在该实施例中,系统经过序列预测模型得到用户输入文本中用词不当词组之后,将该用词不当的词组对应的上文信息输入语言生成模型中,从而由语言生成模型输出多个可替代该用词不当词组的替代词,并根据替代词的生成概率对多个替代词进行筛选,以筛选出生成概率较高的预设数量的替代词生成相应的候选词列表,向用户展示可替代用词不当词组的候选词列表。
在一实施例中,步骤S500,包括:将所述候选词列表中的所述替代词输入所述序列预测模型,得到每个替代词在语法使用上的第二正确概率,根据所述第二正确概率从高到低对每个替代词进行排序,得到排序后新的候选词列表;根据所述新的候选词列表的排序,向所述用户提示所述新的候选词列表中的替代词。
在该实施例中,系统通过语言生成模型得到可替代用户输入文本中用词不当用词的替代词之后,将替代词再次输入到序列预测模型中,得到每个替代词在文本语法中使用的正确概率。根据该正确概率再次对替代词进行排序,将排序后的替代词展示给用户。具体地,系统将每个替代词输入到序列预测模型中,结合用户输入的文本,即所述目标文本的格式和语法结构,确定每个替代词使用的正确概率。进一步地,根据每个替代词使用的正确概率再次排序,并向用户展示排序后的替代词列表。
本发明还提供一种写作辅助装置。在一实施例中,如图5所示,该写作辅助装置包括第一获取模块10、第二获取模块20、第三获取模块30以及提示模块40。
第一获取模块10用于获取用户写作时输入的目标文本。在本实施例中,系统检测到用户进入写作模式时,获取用户输入的目标文本。其中,目标文本可以电子媒体上发表评论、个人发表内容等。如,微博发表内容,微博评论内容。此时,微博平台获取用户输入的文本作为目标文本。若用户采用写作软件进行作品编辑,该写作软件的系统平台检测用户输入的目标文本,并获取该目标文本。或者,也可以是写作软件的客户端检测用户输入的目标文本,并获取该目标文本。
第二获取模块20用于将所述目标文本输入序列预测模型,获得所述目标文本中每个词组在语法使用中的第一正确概率;所述序列预测模型用于分析输入文本中每个词组的组成结构,以得出每个词组的语法使用正确概率。在本实施例中,当用户进行写作时,系统获取用户输入的文本,将该文本输入到序列预测模型中,以获得文本中每个词组在使用上的正确概率。其中,序列预测模型接收输入语料,如本实施例所述的目标文本,针对输入语料的每个句子中的各个词组进行语法分析,确定出每个句子的每个词组在语法使用上的正确概率,并输出每个词组的正确概率值。此处,序列预测模型可以是之前训练好的模型。该序列预测模型可对输入的文本结构进行分析,并根据文本结构分析出文本中每个词组在语法使用上的正确概率。
在一实施例中,所述序列预测模型根据以下方式训练:
获取所述序列预测模型对应的训练语料,并标注出所述训练语料中的错误用语和正确用语;利用所述错误用语和所述正确用语对所述序列预测模型进行训练。
具体地,所述序列预测模型为基于双向长短期记忆网络LSTM和条件随机场CRF构成的模型。
在该实施例中,序列预测模型对应的训练语料可以是通过爬虫方式从官方媒体网站或者公众媒体网站中爬取相应的文本。如,通过使用大量的电子媒体评论以及微博等文本中获取训练语料。进一步地,系统分析并标注出训练语料中正确用语和错误用语,利用训练语料中的语句及语义表达,以及其正确用词与错误用词,对序列预测模型进行训练。进一步地,所述序列预测模型为基于双向长短期记忆网络LSTM和条件随机场CRF构成的模型。其中,基于双向长短期记忆网络是一种特殊的RNN,能够学习长期依赖关系,其模型可参见图3所示。
第三获取模块30用于根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组,将该词组作为用词不当词组。在本实施例中,目标文本输入序列预测模型后,可得到目标文本中每个词组在语法使用上的正确概率值。系统获取正确概率值低于系统预设值的词组,将该词组作为用词不当词组。例如,目标文本的词组包括词组A、词组B、词组C、词组D。词组A的正确概率值为80%、词组B的正确概率值为70%、词组C的正确概率值为30%、词组D的正确概率值为20%。系统预设值为70%,则系统获取词组C和词组D作为用词不当词组。
在该实施例的一个实施方式中,所述预设值可根据以下方式进行动态调整:
获取同一类型的文本作为训练文本;所述训练文本中标注出正确用词和错误用词;
将所述训练文本输入所述序列预测模型中,得到所述训练文本中每个正确用词和错误用词对应的所述正确概率值;
根据所述每个正确用词和错误用词对应的所述正确概率值确定出该类型对应的所述预设值;
确定所述目标文本的类型,根据所述目标文本的类型获取对应的预设值。
在该实施方式中,系统通过获取同一类型下的多个训练文本,将多个训练文本输入序列预测模型中,以得到训练文本中每个正确用词和错误用词在语法使用上对应的正确概率值,从而确定出该类型下的系统预设值。例如,训练文本中包含正确用词a、正确用词b、正确用词c、正确用词d,以及错误用词f、错误用词g、错误用词h、错误用词j。其中,正确用词a对应的正确概率值为75%、正确用词b对应的正确概率值为82%、正确用词c对应的正确概率值为55%、正确用词d对应的正确概率值为61%,以及错误用词f对应的正确概率值为45%、错误用词g对应的正确概率值为13%、错误用词h对应的正确概率值为33%、错误用词j对应的正确概率值为48%,则系统可将该类型对应的预设值设置为49%-54%之间的任何值。通过该方式可确定每个类型对应的预设值。当用户输入目标文本时,系统可先确定目标文本的类型,再根据其类型确定出对应的预设值。因此,该实施方式可根据不同类型确定出符合该类型的预设值,从而提高获取所述用词不当词组的准确度。
提示模块40用于向所述用户提示所述用词不当词组。在本实施例中,系统确认获取到目标文本中用词不当词组之后,向用户提示该用词不当词组。在一实施方式中,系统确认用户输入目标文本后,同步执行获取目标文本中的所述用词不当词组,并向用户提示目标文本的用词不当词组。具体地,系统实时获取用户输入的目标文本,并同步将目标文本输入到序列模型中,以根据语法使用对目标文本中词组进行分析,确认出目标文本中的用词不当词组,并实时反馈给用户。也可以是,系统确认用户输入目标文本后,对所述目标文本进行异步处理,并向用户提示异步处理后得到的用词不当词组。具体地,系统每隔预设时间获取用户输入的目标文本,采用异步线程对目标文本进行异步处理,以获取目标文本中用词不当词组,并将用词不当词组反馈到用户输入界面。或者,系统获取用户输入的目标文本,确定异步处理线程中对当前的目标文本处理结束之后,再次获取用户输入的目标文本进行处理,并且将每次异步处理得到的用词不当词组反馈到用户输入界面。
在其他实施例中,本发明提供的写作辅助装置中的各个模块还用于执行本发明所述的写作辅助方法中,对应各个步骤执行的操作,在此不再做详细的说明。
本发明还提供一种存储介质。该存储介质上存储有计算机程序;所述计算机程序被处理器执行时,实现上述任一实施例所述的写作辅助方法。该存储介质可以是存储器。例如,内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储介质包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。
本发明还提供一种计算机设备。一种计算机设备包括:一个或多个处理器;存储器;一个或多个应用程序。其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述任一实施例所述的写作辅助方法。
图6为本发明一实施例中的计算机设备的结构示意图。本实施例所述计算机设备可以是服务器、个人计算机以及网络设备。如图6所示,设备包括处理器603、存储器605、输入单元607以及显示单元609等器件。本领域技术人员可以理解,图6示出的设备结构器件并不构成对所有设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器605可用于存储应用程序601以及各功能模块,处理器603运行存储在存储器605的应用程序601,从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。
输入单元607用于接收信号的输入,以及接收用户输入的关键字。输入单元607可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元609可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元609可采用液晶显示器、有机发光二极管等形式。处理器603是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器603内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
在一实施方式中,设备包括一个或多个处理器603,以及一个或多个存储器605,一个或多个应用程序601。其中所述一个或多个应用程序601被存储在存储器605中并被配置为由所述一个或多个处理器603执行,所述一个或多个应用程序601配置用于执行以上实施例所述的写作辅助方法。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括存储器、磁盘或光盘等。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
应该理解的是,在本发明各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种写作辅助方法,其特征在于,包括:
获取用户写作时输入的目标文本;
将所述目标文本输入序列预测模型,获得所述目标文本中每个词组在语法使用中的第一正确概率;所述序列预测模型用于分析输入文本中每个词组的组成结构,以得出每个词组的语法使用正确概率;所述序列预测模型为基于双向长短期记忆网络LSTM和条件随机场CRF构成的模型;
根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组,将该词组作为用词不当词组;
向所述用户提示所述用词不当词组;
所述根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组之前,还包括:
确定所述目标文本的类型,根据所述目标文本的类型获取对应的预设值;
所述获取所述目标文本中语法使用正确概率低于预设值的词组之后,还包括:
将所述目标文本中所述用词不当词组的上文信息输入语言生成模型中,得到替代所述用词不当词组的多个替代词以及多个所述替代词的生成概率;所述语言生成模型用于分析输入词组的上文信息以输出替代输入词组的替代词;所述生成概率为根据所述语言生成模型得到的替代词用于替代输入词组的概率;
根据生成概率对多个所述替代词进行排序,获取排序在前的预设数量的替代词,以生成候选词列表;
所述向所述用户提示所述用词不当词组之后,还包括:向所述用户提示所述候选词列表中的所述替代词;
所述语言生成模型根据以下方式训练:
获取训练样本文本;
将所述训练样本文本进行分词,并采用one-hot独热码方式对分词后所述训练样本文本进行编码,得到第一词向量;
将所述第一词向量输入word2vector模型进行词向量空间映射,得到第二词向量;
将所述第二词向量输入所述语言生成模型中,以对所述语言生成模型进行训练;
所述向所述用户提示所述候选词列表中的所述替代词,包括:将所述候选词列表中的所述替代词输入所述序列预测模型,得到每个替代词在语法使用上的第二正确概率,根据所述第二正确概率从高到低对每个替代词进行排序,得到排序后新的候选词列表;
根据所述新的候选词列表的排序,向所述用户提示所述新的候选词列表中的替代词。
2.根据权利要求1所述的方法,其特征在于,所述序列预测模型根据以下方式训练:
获取所述序列预测模型对应的训练语料,并标注出所述训练语料中的错误用语和正确用语;
利用所述错误用语和所述正确用语对所述序列预测模型进行训练。
3.根据权利要求1所述的方法,其特征在于,所述语言生成模型为基于LSTM的网络结构的模型。
4.一种写作辅助装置,其特征在于,包括:
第一获取模块,用于获取用户写作时输入的目标文本;
第二获取模块,用于将所述目标文本输入序列预测模型,获得所述目标文本中每个词组在语法使用中的第一正确概率;所述序列预测模型用于分析输入文本中每个词组的组成结构,以得出每个词组的语法使用正确概率;所述序列预测模型为基于双向长短期记忆网络LSTM和条件随机场CRF构成的模型;
第三获取模块,用于根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组,将该词组作为用词不当词组;
提示模块,用于向所述用户提示所述用词不当词组;
所述根据所述目标文本中每个词组在语法使用上的第一正确概率,获取所述目标文本中语法使用正确概率低于预设值的词组之前,还包括:
确定所述目标文本的类型,根据所述目标文本的类型获取对应的预设值;
所述获取所述目标文本中语法使用的正确概率低于预设值的词组之后,还包括:
将所述目标文本中所述用词不当词组的上文信息输入语言生成模型中,得到替代所述用词不当词组的多个替代词以及多个所述替代词的生成概率;所述语言生成模型用于分析输入词组的上文信息以输出替代输入词组的替代词;所述生成概率为根据所述语言生成模型得到的替代词用于替代输入词组的概率;
根据生成概率对多个所述替代词进行排序,获取排序在前的预设数量的替代词,以生成候选词列表;
所述向所述用户提示所述用词不当词组之后,还包括:向所述用户提示所述候选词列表中的所述替代词;
所述语言生成模型根据以下方式训练:
获取训练样本文本;
将所述训练样本文本进行分词,并采用one-hot独热码方式对分词后所述训练样本文本进行编码,得到第一词向量;
将所述第一词向量输入word2vector模型进行词向量空间映射,得到第二词向量;
将所述第二词向量输入所述语言生成模型中,以对所述语言生成模型进行训练;
所述向所述用户提示所述候选词列表中的所述替代词,包括:将所述候选词列表中的所述替代词输入所述序列预测模型,得到每个替代词在语法使用上的第二正确概率,根据所述第二正确概率从高到低对每个替代词进行排序,得到排序后新的候选词列表;
根据所述新的候选词列表的排序,向所述用户提示所述新的候选词列表中的替代词。
5.一种存储介质,其特征在于,其上存储有计算机程序;所述计算机程序适于由处理器加载并执行上述权利要求1至3中任一项所述的写作辅助方法。
6.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行根据权利要求1至3任一项所述的写作辅助方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811428812.0A CN109670040B (zh) | 2018-11-27 | 2018-11-27 | 写作辅助方法、装置及存储介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811428812.0A CN109670040B (zh) | 2018-11-27 | 2018-11-27 | 写作辅助方法、装置及存储介质、计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670040A CN109670040A (zh) | 2019-04-23 |
CN109670040B true CN109670040B (zh) | 2024-04-05 |
Family
ID=66143327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811428812.0A Active CN109670040B (zh) | 2018-11-27 | 2018-11-27 | 写作辅助方法、装置及存储介质、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670040B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264792B (zh) * | 2019-06-17 | 2021-11-09 | 上海元趣信息技术有限公司 | 一种针对小学生作文智能辅导系统 |
CN110866390B (zh) * | 2019-10-15 | 2022-02-11 | 平安科技(深圳)有限公司 | 中文语法错误的识别方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006122361A1 (en) * | 2005-05-17 | 2006-11-23 | Swinburne University Of Technology | A personal learning system |
CN105550173A (zh) * | 2016-02-06 | 2016-05-04 | 北京京东尚科信息技术有限公司 | 文本校正方法和装置 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN106325537A (zh) * | 2015-06-23 | 2017-01-11 | 腾讯科技(深圳)有限公司 | 信息输入方法及装置 |
CN106610930A (zh) * | 2015-10-22 | 2017-05-03 | 科大讯飞股份有限公司 | 外语写作自动纠错方法及系统 |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN108595410A (zh) * | 2018-03-19 | 2018-09-28 | 小船出海教育科技(北京)有限公司 | 手写作文的自动批改方法及装置 |
-
2018
- 2018-11-27 CN CN201811428812.0A patent/CN109670040B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006122361A1 (en) * | 2005-05-17 | 2006-11-23 | Swinburne University Of Technology | A personal learning system |
CN106325537A (zh) * | 2015-06-23 | 2017-01-11 | 腾讯科技(深圳)有限公司 | 信息输入方法及装置 |
CN106610930A (zh) * | 2015-10-22 | 2017-05-03 | 科大讯飞股份有限公司 | 外语写作自动纠错方法及系统 |
CN105550173A (zh) * | 2016-02-06 | 2016-05-04 | 北京京东尚科信息技术有限公司 | 文本校正方法和装置 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN108595410A (zh) * | 2018-03-19 | 2018-09-28 | 小船出海教育科技(北京)有限公司 | 手写作文的自动批改方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于LSTM和N-gram的ESL文章的语法错误自动纠正方法;谭咏梅 等;《中文信息学报》;第32卷(第6期);第19-27页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109670040A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
Kasewa et al. | Wronging a right: Generating better errors to improve grammatical error detection | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110705302B (zh) | 命名实体的识别方法、电子设备及计算机存储介质 | |
CN111310440B (zh) | 文本的纠错方法、装置和系统 | |
CN107679032A (zh) | 语音转换纠错方法和装置 | |
CN110781273B (zh) | 文本数据处理方法、装置、电子设备及存储介质 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
US9881000B1 (en) | Avoiding sentiment model overfitting in a machine language model | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
CN112434131B (zh) | 基于人工智能的文本错误检测方法、装置、计算机设备 | |
CN106610990B (zh) | 情感倾向性分析的方法及装置 | |
CN111950262A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
Singh et al. | HINDIA: a deep-learning-based model for spell-checking of Hindi language | |
CN111832278A (zh) | 文档流畅度的检测方法、装置、电子设备及介质 | |
CN109670040B (zh) | 写作辅助方法、装置及存储介质、计算机设备 | |
G. Torre et al. | Can Menzerath’s law be a criterion of complexity in communication? | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
WO2020074067A1 (en) | Automatic language proficiency level determination | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN113076736A (zh) | 多维度的文本评分方法、装置、计算机设备及存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN112634901A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN117370190A (zh) | 测试用例生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |