CN116432611A - 文稿写作辅助方法、系统、终端及存储介质 - Google Patents
文稿写作辅助方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN116432611A CN116432611A CN202310245528.4A CN202310245528A CN116432611A CN 116432611 A CN116432611 A CN 116432611A CN 202310245528 A CN202310245528 A CN 202310245528A CN 116432611 A CN116432611 A CN 116432611A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- manuscript
- word
- writing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000000463 material Substances 0.000 claims abstract description 84
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 69
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000002372 labelling Methods 0.000 claims description 33
- 238000012937 correction Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 239000010410 layer Substances 0.000 claims description 22
- 230000002159 abnormal effect Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 15
- 239000002356 single layer Substances 0.000 claims description 10
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 3
- 239000002699 waste material Substances 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,具体提供一种文稿写作辅助方法、系统、终端及存储介质,包括:收集已写文稿并对已写文稿进行预处理,得到可输入文本;将所述可输入文本输入预先构建的第一模型,所述第一模型输出素材库中与所述可输入文本匹配的素材文本并对所述可输入文本进行错误检测;在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果;基于用户调用指令调用预先构建的第二模型基于可输入文本、匹配的素材文本进行续写,并将续写内容输出至文稿显示界面。本发明有效解决用户文本写作工作量重、写作功底有限、写作素材筛选费时费力、写作遗漏、写作效率较低等问题。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种文稿写作辅助方法、系统、终端及存储介质。
背景技术
目前,文稿已成为各公司单位用以传递策令、交流经验,推动工作进展的重要工具和手段。员工在工作过程中存在大量的文档写作需求,高效精准的管理工作、重要的信息交流,都需要具有较强写作能力。但文稿写作过程中,从海量的存留文档中层层分析,筛选写作素材,耗费大量的人力和时间,对文章事件判断缺少统一标准,严重依赖个人经验,无法准确判断事件源头和发展趋势,且存在要点遗漏,文本错误等问题,文章写作质量难以得到保障。
以往的文章辅助系统是用户通过文件编辑程序,根据目前正在编辑的字或词撷取以输入字、词为首的例句,然后显示出来供用户参考。这种推荐方式只能在用户已经有写作思路时,为用户提供更多的例句参考,但对于写作无思路,无素材查询的用户,仍无法提供有效的帮助。
发明内容
针对现有技术的上述不足,本发明提供一种文稿写作辅助方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种文稿写作辅助方法,包括:
收集已写文稿并对已写文稿进行预处理,得到可输入文本;
将所述可输入文本输入预先构建的第一模型,所述第一模型输出素材库中与所述可输入文本匹配的素材文本并对所述可输入文本进行错误检测;
在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果;
基于用户调用指令调用预先构建的第二模型基于可输入文本、匹配的素材文本进行续写,并将续写内容输出至文稿显示界面。
进一步的,所述第一模型包括:
短文本相似度计算子模型,计算可输入文本与素材库中各素材文本的相似度,并筛选出相似度达到设定阈值的素材文本;
词向量计算子模型,为短文本相似度计算子模型筛选出的素材文本的每个单次构建稠密向量,基于所述稠密向量在素材文本的出现次数筛选出素材文本的关键词;
混合纠错子模型,通过构建基于文本语义表示的知识错误发现模型对可输入文本进行多层次纠错。
进一步的,所述短文本相似度计算子模型包括:
利用无监督相似度计算方法基于大规模语料库通过word2vec训练出词向量;
将短文本进行分词操作,并找出每个词对应的词向量,对短文本的所有词的词向量进行求和,获得短文本的句子向量;
对两个短文本句子向量进行距离度量,获得两者的相似度;
在具有标注预料的条件下进行有监督相似度计算,根据标注数据进行深度学习建模,通过模型的端到端学习,直接求解出两个短文本的相似度。
进一步的,所述词向量计算子模型包括:
运用Word2vec技术,固定素材库中的每个词都由一个向量表示,然后在选出的素材文本中遍历每一个位置t,素材文本有中心词c和上下文词o,使用c和o的词向量的相似度来计算给定c的o的概率;
通过不断地调整词向量来最大化这个概率;
从训练数据集中去除无意义的单词并利用所述训练数据集对词向量计算子模型进行训练;
对每个输入使用负采样以更新所有正确标签的权重,且仅更新部分不正确标签的权重。
进一步的,所述混合纠错子模型包括:
将待校对的句子集合、混淆集输入经过训练保存的CSC-BiLSTM-CRF模型,得到句子的错误标注结果;
对输出的标注结果进行判断,如果句子标注为错误的异常词出现在混淆集中,则进行混淆词替换纠错处理,如果没有错误则继续读取下一个句子,最后将混淆集中异常词的混淆词进行逐一替换;
对替换后的句子进行标注,计算替换后的词被标注为错误的概率,取混淆集中被标注为错误的最小的混淆词记为目标混淆词,如果异常词错误的概率与目标混淆词错误的概率的差值大于预设阈值,则判定异常词是错误的,目标混淆词为正确的替换词;
对异常词进行替换并将纠正后的句子输出。
进一步的,在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果,包括:
调用文稿打开工具的视图功能新建显示界面,向所述新建显示界面中输入匹配的素材文本;
调用文稿打开工具的标注功能在文稿显示界面中对错误检测结果进行标注。
进一步的,所述第二模型包括:
在编码器端给定可输入文本,通过共享的随机初始化的词嵌入层计算出单词的表示,通过单层单向的LSTM进行编码,得到编码器的编码结果和LSTM的隐状态hn;
RN网络结构把可输入文本分别以横向、纵向重写成两个N X N的矩阵,与隐状态hn扩充成的同型矩阵进行拼接,得到所有要素的三元组,所述三元组经过两次不同参数控制的多层感知机处理,得到新隐状态h’n;
将RN网络层生成新隐状态h’n在重参数(Reparameter)层取样,从新隐状态h’n中取样得到潜层表示z,取样方法包括:对新隐状态h’n分别计算μ和σ,在由μ和σ构成的正态分布中进行采样,得到用于指导解码器生成的初始隐状态hz;
将初始隐状态hz输入解码器,使用单层单向的LSTM完成续写文本的生成。
第二方面,本发明提供一种文稿写作辅助系统,包括:
文稿处理单元,用于收集已写文稿并对已写文稿进行预处理,得到可输入文本;
第一处理单元,用于将所述可输入文本输入预先构建的第一模型,所述第一模型输出素材库中与所述可输入文本匹配的素材文本并对所述可输入文本进行错误检测;
文稿显示单元,用于在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果;
第二处理单元,用于基于用户调用指令调用预先构建的第二模型基于可输入文本、匹配的素材文本进行续写,并将续写内容输出至文稿显示界面。
进一步的,所述第一模型包括:
短文本相似度计算子模型,计算可输入文本与素材库中各素材文本的相似度,并筛选出相似度达到设定阈值的素材文本;
词向量计算子模型,为短文本相似度计算子模型筛选出的素材文本的每个单次构建稠密向量,基于所述稠密向量在素材文本的出现次数筛选出素材文本的关键词;
混合纠错子模型,通过构建基于文本语义表示的知识错误发现模型对可输入文本进行多层次纠错。
进一步的,所述短文本相似度计算子模型包括:
利用无监督相似度计算方法基于大规模语料库通过word2vec训练出词向量;
将短文本进行分词操作,并找出每个词对应的词向量,对短文本的所有词的词向量进行求和,获得短文本的句子向量;
对两个短文本句子向量进行距离度量,获得两者的相似度;
在具有标注预料的条件下进行有监督相似度计算,根据标注数据进行深度学习建模,通过模型的端到端学习,直接求解出两个短文本的相似度。
进一步的,所述词向量计算子模型包括:
运用Word2vec技术,固定素材库中的每个词都由一个向量表示,然后在选出的素材文本中遍历每一个位置t,素材文本有中心词c和上下文词o,使用c和o的词向量的相似度来计算给定c的o的概率;
通过不断地调整词向量来最大化这个概率;
从训练数据集中去除无意义的单词并利用所述训练数据集对词向量计算子模型进行训练;
对每个输入使用负采样以更新所有正确标签的权重,且仅更新部分不正确标签的权重。
进一步的,所述混合纠错子模型包括:
将待校对的句子集合、混淆集输入经过训练保存的CSC-BiLSTM-CRF模型,得到句子的错误标注结果;
对输出的标注结果进行判断,如果句子标注为错误的异常词出现在混淆集中,则进行混淆词替换纠错处理,如果没有错误则继续读取下一个句子,最后将混淆集中异常词的混淆词进行逐一替换;
对替换后的句子进行标注,计算替换后的词被标注为错误的概率,取混淆集中被标注为错误的最小的混淆词记为目标混淆词,如果异常词错误的概率与目标混淆词错误的概率的差值大于预设阈值,则判定异常词是错误的,目标混淆词为正确的替换词;
对异常词进行替换并将纠正后的句子输出。
进一步的,在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果,包括:
调用文稿打开工具的视图功能新建显示界面,向所述新建显示界面中输入匹配的素材文本;
调用文稿打开工具的标注功能在文稿显示界面中对错误检测结果进行标注。
进一步的,所述第二模型包括:
在编码器端给定可输入文本,通过共享的随机初始化的词嵌入层计算出单词的表示,通过单层单向的LSTM进行编码,得到编码器的编码结果和LSTM的隐状态hn;
RN网络结构把可输入文本分别以横向、纵向重写成两个NXN的矩阵,与隐状态hn扩充成的同型矩阵进行拼接,得到所有要素的三元组,所述三元组经过两次不同参数控制的多层感知机处理,得到新隐状态h’n;
将RN网络层生成新隐状态h’n在重参数(Reparameter)层取样,从新隐状态h’n中取样得到潜层表示z,取样方法包括:对新隐状态h’n分别计算μ和σ,在由μ和σ构成的正态分布中进行采样,得到用于指导解码器生成的初始隐状态hz;
将初始隐状态hz输入解码器,使用单层单向的LSTM完成续写文本的生成。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,本发明提供的文稿写作辅助方法、系统、终端及存储介质,通过短文本匹配功能实现相关素材推荐从而引导写作思路,同时与文稿打开/编辑工具相结合,对推荐结果实时显示,此外还可将推荐素材嵌入续写文本,并对文本进行纠错。本发明有效解决用户文本写作工作量重、写作功底有限、写作素材筛选费时费力、写作遗漏、写作效率较低等问题,降低用户写作负担,提高写作效率及写作质量。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的系统的示意性框图。
图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种文稿写作辅助系统。
如图1所示,该方法包括:
步骤110,收集已写文稿并对已写文稿进行预处理,得到可输入文本;
步骤120,将所述可输入文本输入预先构建的第一模型,所述第一模型输出素材库中与所述可输入文本匹配的素材文本并对所述可输入文本进行错误检测;
步骤130,在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果;
步骤140,基于用户调用指令调用预先构建的第二模型基于可输入文本、匹配的素材文本进行续写,并将续写内容输出至文稿显示界面。
将非结构化文本数据转换为结构化数据,存入写作库进行存储,使用外观类的parseToString()方法(解析给定文件并返回提取的文本内容。为了避免不可预测的内存过量使用,返回的字符串最多只包含从输入文档中提取的第一个字符),选择适当的解析器进行内容解析,实现写作素材上传及解析。
将数据输入模型,根据模型输出结果对模型进行调整和重训练。热点分析是运用词频和逆文本频率(TF-IDF)对新闻数据进行词法分析,计算新闻文章及其内词汇信息值,检索出每篇文章的关键要义,运用加权算法对热词进行排序展现;文本推荐是采用有监督+无监督相似度计算短文本的相似度值,实现推荐操作;文本续写是使用现有BERT对电网企业常用文本进行预训练得到常用续写模型,通过构建输入文本和预训练模型的关系网络,搭建RN-WAE智能续写模型;文本纠错采用混合模型对文本进行自动纠错,该模型分别使用CSC-BiLSTM-CRF算法、DAE-Decoder算法对文本纠错,然后融合两者的结果,得到混合模型的最终纠错结果。其中,在真词错误和浅语义错误的情况下使用CSC-BiLSTM-CRF算法,当出现深语义或未登录词时使用DAE-Decoder算法。
模型处理及重训结果的用户侧实现,边写边推荐是根据用户输入的文章标题、鼠标划选一段文本内容、自动识别光标前一段文本内容等方式,智能推荐相关素材;智能纠错是自动识别文稿中音近/形近/成语/标点类型的错误,并智能更正;文本生成是对段落内容自动续写和改写。
将智能推荐、文本纠错等服务与Office办公软件集成,使用node-js渲染辅助写作模块,实现在办公软件中应用智能写作服务。
为了便于对本发明的理解,下面以本发明文稿写作辅助方法的原理,结合实施例中对文稿写作进行辅助的过程,对本发明提供的文稿写作辅助方法做进一步的描述。
具体的,以电力相关文稿写作为例,所述文稿写作辅助方法包括:
(1)数据抽取,通过解析非结构化文档,将文本转换成可输入模型的文本,当将文档传递给解析引擎时,选择适合的类型检测机制,并检测文档类型,从解析器库中选择一个合适的解析器,解析器存储库包含使用外部库的类,文档被传递以选择将解析内容的解析器,提取文本,并且还抛出不可读格式的异常。
(2)模型处理及重训,包括短文本相似度计算(B1)、词向量计算(B2)、混合纠错(B3)、RN-WAE续写模型(B4)。
模块B1:短文本相似度计算是求解两个短文本之间的相似程度,属于文本匹配任务或文本蕴含任务的一种特殊形式,返回文本之间相似程度的具体数值。具体步骤如下:
步骤B101:首先应用无监督相似度计算,使用大规模语料库通过word2vec训练出词向量。
步骤B102:将短文本进行分词操作,并找出每个词对应的词向量,对短文本的所有词的词向量进行求和,也可以根据词性或规则进行加权求和,获得该短文本的句子向量。
步骤B103:对两个短文本句子向量进行距离度量,最终获得其相似度值。
步骤B104:在具有标注预料的条件下进行有监督相似度计算,根据标注数据进行深度学习建模,通过模型的端到端学习,直接求解出短文本的相似度值。
模块B2:词向量计算是通过为素材库中文本数据的每个单词构建一个稠密的向量,以便它与出现在相似上下文中的单词向量相似。具体步骤如下:
步骤B201:运用Word2vec技术,固定文本语料库中的每个词都由一个向量表示,然后在文本中遍历每一个位置t,它有一个中心词c和上下文词o,使用c和o的词向量的相似度来计算给定c的o的概率(反之亦然)。
步骤B202:通过不断地调整词向量来最大化这个概率。
步骤B203:为有效训练Word2vec,从数据集中去除无意义(或更高频率)的单词(例如a,the,of,then...),有助于提升模型的准确性和减少训练时间。
步骤B204:对每个输入使用negative sampling,即更新所有正确标签的权重,但只更新少数不正确标签的权重。
模块B3:混合纠错是通过构建基于文本语义表示的知识错误发现模型,完善基于多层次的文本语义精细化修正模型。具体步骤如下:
步骤B301:输入为待校对的句子集合、混淆集和经过训练保存的CSC-BiLSTM-CRF模型,经过模型输出后得到句子的标注结果。
步骤B302:对输出的标注结果进行判断,如果句子标注为“W”的词X出现在混淆集中,则进行下一步混淆词替换纠错处理,如果没有错误则继续读取下一个句子,最后将混淆集中X的混淆词Xi进行逐一替换。
步骤B303:通过模型对替换后的句子进行标注,计算替换后的词被标注为“W”的概率P(Xi),其中取混淆集中为最小概率值的混淆词记为Xj,如果P(X)-P(Xj)>β(β为阈值),则认为原词X是错误的,Xj为正确的替换词。
步骤B304:对错误字进行替换后,将纠正后的句子输出。
模块B4:RN-WAE续写模型是通过构建基于预训练方法的自动续写模型,实现面向电网企业的关系网络混合训练方法。该模块在默认状态下不运行,在用户开启续写功能时运行,运行的具体步骤如下:
步骤B401:在编码器(Encoder)端给定一个输入文本X,首先通过共享的随机初始化的词嵌入层计算出单词的表示,通过一个单层单向的LSTM进行编码,得到Encoder的编码结果和LSTM的隐状态hn。
步骤B402:RN网络结构把输入文本分别以横向、纵向重写成两个NXN的矩阵,与隐状态hn扩充成的同型矩阵一起经过拼接(concat),得到所有要素的三元组,然后经过两次不同参数控制的多层感知机(Multi-layerPerceptron,MLP),得到新隐状态h’n。
步骤B403:将RN网络层生成新隐状态h’n,在重参数(Reparameter)层取样,从新隐状态h’n中取样得到潜层表示z,方法为对新隐状态h’n分别计算μ和σ,在由μ和σ构成的正态分布中进行采样,得到用于指导解码器(Decoder)生成的初始隐状态hz。
Zi=μi+σi*∈,∈~N(0,1)
步骤B404:将初始隐状态hz输入解码器(Decoder)使用单层单向的LSTM完成文本的生成。
(3)辅助写作,使用者通过文本框输入目标文本,在文本转换为字符串后,经由步骤(2)的模型处理输出至对应的文本输出框中。
(4)结果展现,使用者通过Office办公软件显示步骤(2)中模型输出的结果,形成办公软件侧的模型输出结果集。
该实施方式中提供的方法根据用户输入数据内容的关键信息,自动生成关联度较高素材展示给用户,有利于辅助用户梳理写作思路,实现便捷、高效率的完成写作。通过对推荐的文档进行参考、引用、修改,以及通过文档纠错模块,自动对文档内容、格式等进行错误查找,并给出修改方案,实现智能校稿功能,节省文档校核效率和质量,提高用户写作质量。
如图2所示,该系统200包括:
文稿处理单元210,用于收集已写文稿并对已写文稿进行预处理,得到可输入文本;
第一处理单元220,用于将所述可输入文本输入预先构建的第一模型,所述第一模型输出素材库中与所述可输入文本匹配的素材文本并对所述可输入文本进行错误检测;
文稿显示单元230,用于在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果;
第二处理单元240,用于基于用户调用指令调用预先构建的第二模型基于可输入文本、匹配的素材文本进行续写,并将续写内容输出至文稿显示界面。
可选地,作为本发明一个实施例,所述第一模型包括:
短文本相似度计算子模型,计算可输入文本与素材库中各素材文本的相似度,并筛选出相似度达到设定阈值的素材文本;
词向量计算子模型,为短文本相似度计算子模型筛选出的素材文本的每个单次构建稠密向量,基于所述稠密向量在素材文本的出现次数筛选出素材文本的关键词;
混合纠错子模型,通过构建基于文本语义表示的知识错误发现模型对可输入文本进行多层次纠错。
可选地,作为本发明一个实施例,所述短文本相似度计算子模型包括:
利用无监督相似度计算方法基于大规模语料库通过word2vec训练出词向量;
将短文本进行分词操作,并找出每个词对应的词向量,对短文本的所有词的词向量进行求和,获得短文本的句子向量;
对两个短文本句子向量进行距离度量,获得两者的相似度;
在具有标注预料的条件下进行有监督相似度计算,根据标注数据进行深度学习建模,通过模型的端到端学习,直接求解出两个短文本的相似度。
可选地,作为本发明一个实施例,所述词向量计算子模型包括:
运用Word2vec技术,固定素材库中的每个词都由一个向量表示,然后在选出的素材文本中遍历每一个位置t,素材文本有中心词c和上下文词o,使用c和o的词向量的相似度来计算给定c的o的概率;
通过不断地调整词向量来最大化这个概率;
从训练数据集中去除无意义的单词并利用所述训练数据集对词向量计算子模型进行训练;
对每个输入使用负采样以更新所有正确标签的权重,且仅更新部分不正确标签的权重。
可选地,作为本发明一个实施例,所述混合纠错子模型包括:
将待校对的句子集合、混淆集输入经过训练保存的CSC-BiLSTM-CRF模型,得到句子的错误标注结果;
对输出的标注结果进行判断,如果句子标注为错误的异常词出现在混淆集中,则进行混淆词替换纠错处理,如果没有错误则继续读取下一个句子,最后将混淆集中异常词的混淆词进行逐一替换;
对替换后的句子进行标注,计算替换后的词被标注为错误的概率,取混淆集中被标注为错误的最小的混淆词记为目标混淆词,如果异常词错误的概率与目标混淆词错误的概率的差值大于预设阈值,则判定异常词是错误的,目标混淆词为正确的替换词;
对异常词进行替换并将纠正后的句子输出。
可选地,作为本发明一个实施例,在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果,包括:
调用文稿打开工具的视图功能新建显示界面,向所述新建显示界面中输入匹配的素材文本;
调用文稿打开工具的标注功能在文稿显示界面中对错误检测结果进行标注。
可选地,作为本发明一个实施例,所述第二模型包括:
在编码器端给定可输入文本,通过共享的随机初始化的词嵌入层计算出单词的表示,通过单层单向的LSTM进行编码,得到编码器的编码结果和LSTM的隐状态hn;
RN网络结构把可输入文本分别以横向、纵向重写成两个NXN的矩阵,与隐状态hn扩充成的同型矩阵进行拼接,得到所有要素的三元组,所述三元组经过两次不同参数控制的多层感知机处理,得到新隐状态h’n;
将RN网络层生成新隐状态h’n在重参数(Reparameter)层取样,从新隐状态h’n中取样得到潜层表示z,取样方法包括:对新隐状态h’n分别计算μ和σ,在由μ和σ构成的正态分布中进行采样,得到用于指导解码器生成的初始隐状态hz;
将初始隐状态hz输入解码器,使用单层单向的LSTM完成续写文本的生成。
图3为本发明实施例提供的一种终端300的结构示意图,该终端300可以用于执行本发明实施例提供的文稿写作辅助方法。
其中,该终端300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器310可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明通过短文本匹配功能实现相关素材推荐从而引导写作思路,同时与文稿打开/编辑工具相结合,对推荐结果实时显示,此外还可将推荐素材嵌入续写文本,并对文本进行纠错。本发明有效解决用户文本写作工作量重、写作功底有限、写作素材筛选费时费力、写作遗漏、写作效率较低等问题,降低用户写作负担,提高写作效率及写作质量,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种文稿写作辅助方法,其特征在于,包括:
收集已写文稿并对已写文稿进行预处理,得到可输入文本;
将所述可输入文本输入预先构建的第一模型,所述第一模型输出素材库中与所述可输入文本匹配的素材文本并对所述可输入文本进行错误检测;
在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果;
基于用户调用指令调用预先构建的第二模型基于可输入文本、匹配的素材文本进行续写,并将续写内容输出至文稿显示界面。
2.根据权利要求1所述的方法,其特征在于,所述第一模型包括:
短文本相似度计算子模型,计算可输入文本与素材库中各素材文本的相似度,并筛选出相似度达到设定阈值的素材文本;
词向量计算子模型,为短文本相似度计算子模型筛选出的素材文本的每个单次构建稠密向量,基于所述稠密向量在素材文本的出现次数筛选出素材文本的关键词;
混合纠错子模型,通过构建基于文本语义表示的知识错误发现模型对可输入文本进行多层次纠错。
3.根据权利要求2所述的方法,其特征在于,所述短文本相似度计算子模型包括:
利用无监督相似度计算方法基于大规模语料库通过word2vec训练出词向量;
将短文本进行分词操作,并找出每个词对应的词向量,对短文本的所有词的词向量进行求和,获得短文本的句子向量;
对两个短文本句子向量进行距离度量,获得两者的相似度;
在具有标注预料的条件下进行有监督相似度计算,根据标注数据进行深度学习建模,通过模型的端到端学习,直接求解出两个短文本的相似度。
4.根据权利要求2所述的方法,其特征在于,所述词向量计算子模型包括:
运用Word2vec技术,固定素材库中的每个词都由一个向量表示,然后在选出的素材文本中遍历每一个位置t,素材文本有中心词c和上下文词o,使用c和o的词向量的相似度来计算给定c的o的概率;
通过不断地调整词向量来最大化这个概率;
从训练数据集中去除无意义的单词并利用所述训练数据集对词向量计算子模型进行训练;
对每个输入使用负采样以更新所有正确标签的权重,且仅更新部分不正确标签的权重。
5.根据权利要求2所述的方法,其特征在于,所述混合纠错子模型包括:
将待校对的句子集合、混淆集输入经过训练保存的CSC-BiLSTM-CRF模型,得到句子的错误标注结果;
对输出的标注结果进行判断,如果句子标注为错误的异常词出现在混淆集中,则进行混淆词替换纠错处理,如果没有错误则继续读取下一个句子,最后将混淆集中异常词的混淆词进行逐一替换;
对替换后的句子进行标注,计算替换后的词被标注为错误的概率,取混淆集中被标注为错误的最小的混淆词记为目标混淆词,如果异常词错误的概率与目标混淆词错误的概率的差值大于预设阈值,则判定异常词是错误的,目标混淆词为正确的替换词;
对异常词进行替换并将纠正后的句子输出。
6.根据权利要求1所述的方法,其特征在于,在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果,包括:
调用文稿打开工具的视图功能新建显示界面,向所述新建显示界面中输入匹配的素材文本;
调用文稿打开工具的标注功能在文稿显示界面中对错误检测结果进行标注。
7.根据权利要求1所述的方法,其特征在于,所述第二模型包括:
在编码器端给定可输入文本,通过共享的随机初始化的词嵌入层计算出单词的表示,通过单层单向的LSTM进行编码,得到编码器的编码结果和LSTM的隐状态hn;
RN网络结构把可输入文本分别以横向、纵向重写成两个N X N的矩阵,与隐状态hn扩充成的同型矩阵进行拼接,得到所有要素的三元组,所述三元组经过两次不同参数控制的多层感知机处理,得到新隐状态h’n;
将RN网络层生成新隐状态h’n在重参数(Reparameter)层取样,从新隐状态h’n中取样得到潜层表示z,取样方法包括:对新隐状态h’n分别计算μ和σ,在由μ和σ构成的正态分布中进行采样,得到用于指导解码器生成的初始隐状态hz;
将初始隐状态hz输入解码器,使用单层单向的LSTM完成续写文本的生成。
8.一种文稿写作辅助系统,其特征在于,包括:
文稿处理单元,用于收集已写文稿并对已写文稿进行预处理,得到可输入文本;
第一处理单元,用于将所述可输入文本输入预先构建的第一模型,所述第一模型输出素材库中与所述可输入文本匹配的素材文本并对所述可输入文本进行错误检测;
文稿显示单元,用于在文稿打开工具增设显示界面,将匹配的素材文本输出至所述显示界面,在文稿显示界面标记错误检测结果;
第二处理单元,用于基于用户调用指令调用预先构建的第二模型基于可输入文本、匹配的素材文本进行续写,并将续写内容输出至文稿显示界面。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任一项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310245528.4A CN116432611A (zh) | 2023-03-10 | 2023-03-10 | 文稿写作辅助方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310245528.4A CN116432611A (zh) | 2023-03-10 | 2023-03-10 | 文稿写作辅助方法、系统、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116432611A true CN116432611A (zh) | 2023-07-14 |
Family
ID=87078693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310245528.4A Pending CN116432611A (zh) | 2023-03-10 | 2023-03-10 | 文稿写作辅助方法、系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432611A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611424A (zh) * | 2023-07-18 | 2023-08-18 | 北京澜舟科技有限公司 | 一种写作辅助模型构建方法、写作辅助方法及存储介质 |
-
2023
- 2023-03-10 CN CN202310245528.4A patent/CN116432611A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611424A (zh) * | 2023-07-18 | 2023-08-18 | 北京澜舟科技有限公司 | 一种写作辅助模型构建方法、写作辅助方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN111125365B (zh) | 地址数据标注方法及装置、电子设备、存储介质 | |
US20170032249A1 (en) | Automatic Entity Relationship (ER) Model Generation for Services as Software | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
Zhang et al. | A multi-feature fusion model for Chinese relation extraction with entity sense | |
CN112597063A (zh) | 缺陷代码定位的方法、装置以及存储介质 | |
KR102409667B1 (ko) | 기계 번역의 학습 데이터 구축을 위한 방법 | |
CN114398899A (zh) | 预训练语言模型的训练方法、装置、计算机设备和介质 | |
CN116432611A (zh) | 文稿写作辅助方法、系统、终端及存储介质 | |
US20220229994A1 (en) | Operational modeling and optimization system for a natural language understanding (nlu) framework | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
Li et al. | Effective representation for easy-first dependency parsing | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
CN114936564A (zh) | 一种基于对齐变分自编码的多语言语义匹配方法及系统 | |
Yu et al. | Adaptive cross-lingual question generation with minimal resources | |
Xu et al. | Hierarchical cross-modal contextual attention network for visual grounding | |
US11995394B1 (en) | Language-guided document editing | |
CN117591666B (zh) | 针对桥梁管养文档的摘要抽取方法 | |
Sikos et al. | Improving multilingual frame identification by estimating frame transferability | |
CN116383883B (zh) | 一种基于大数据的数据管理权限处理方法及系统 | |
CN114238579B (zh) | 文本分析方法、装置、介质和计算设备 | |
OuYang et al. | API Misuse Detection based on Stacked LSTM | |
Boumahdi et al. | Generating an Extract Summary from a Document | |
CN116860976A (zh) | 文本属性级情感分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |