CN115809316A - 公文辅助写作方法及系统 - Google Patents

公文辅助写作方法及系统 Download PDF

Info

Publication number
CN115809316A
CN115809316A CN202211546271.8A CN202211546271A CN115809316A CN 115809316 A CN115809316 A CN 115809316A CN 202211546271 A CN202211546271 A CN 202211546271A CN 115809316 A CN115809316 A CN 115809316A
Authority
CN
China
Prior art keywords
text
document
similar
vector
official document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211546271.8A
Other languages
English (en)
Inventor
熊子奇
孔德智
薛彦凯
谭敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN202211546271.8A priority Critical patent/CN115809316A/zh
Publication of CN115809316A publication Critical patent/CN115809316A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种公文辅助写作方法及系统,该方法包括:获取用户的输入文本;确定所述输入文本的向量;利用预先构建的公文文本索引库检索所述输入文本,得到相似标题集合及对应的第一文本块集合;利用预先构建的公文向量索引库检索所述向量,得到相似向量集合及对应的第二文本块集合;根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文;将所述推荐下文推送给所述用户。利用本发明,可以更好地辅助用户完成公文的写作,提升工作效率及写作质量。

Description

公文辅助写作方法及系统
技术领域
本发明涉及信息处理技术领域,具体涉及一种公文辅助写作方法及系统。
背景技术
公文是国家机关及政府部门的主要工作方式和展示形式,公文写作对于辅助决策、指导工作、完成任务和政务公开具有重要作用。政策公文具有严格的规范要求和详实的具体内容,要求在文章结构上逻辑清晰、层次清楚,行文结构不能“乱”,要有明确的主题和主线,因此对于工作人员的公文写作能力有很高的要求。公文写作需要一个漫长的学习、训练和积累的过程,对于负责公文写作的工作人员来说,不仅要求具有业务熟悉能力、文笔表达能力,更重要的是知识储备,没有充足的知识储备和业务经验,造成“素材贫乏,资料匮乏,句子缺乏”是公文写作人员面对公文写作的一大问题。现实中更多的工作人员对于公文写作的内心反应就是“不会写、害怕写”,公文写作不仅在素材管理成本、人才培养成本和写作时间成本都是巨大的消耗,更是给工作人员在心理上和精神上造成畏难情绪,影响工作效率。
随着人工智能的兴起,自然语言处理领域的各项技术不断攀高,基于大数据的自动化技术也得到广泛的应用。对于公文写作而言,业界流行两种方法:一是提供搜索能力,即通过搜索引擎提供与写作关键词相似的公文以作参考,在智能化方面,针对关键词的搜索仅仅能够作为写作素材使用,存在公文素材过于粗糙等问题;二是提供文本生成能力,这种方案发挥了人工智能的优势,但是公文领域是一个业务与描述都相对固定、格式化的一个领域,完全基于人工智能的文本生成会导致公文文本过度自由化,仍需要大量的人工参与,在写作成本上并未真正降低。
发明内容
本发明提供一种公文辅助写作方法及系统,可以更好地辅助用户完成公文的写作,提升工作效率及写作质量。
为此,本发明提供如下技术方案:
本发明提供一种公文辅助写作方法,所述方法包括:
获取用户的输入文本;
确定所述输入文本的向量;
利用预先构建的公文文本索引库检索所述输入文本,得到相似标题集合及对应的第一文本块集合;
利用预先构建的公文向量索引库检索所述向量,得到相似向量集合及对应的第二文本块集合;
根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文;
将所述推荐下文推送给所述用户。
可选地,所述方法还包括:按照以下方式构建公文文本索引库:
收集公文资料,所述公文资料包括公文标题和正文;
对所述公文资料进行拆分处理,得到并记录所述公文标题及正文信息,所述正文信息:一个或多个文本块、以及文本块的相对位置;
对所述公文标题和所述文本块建立索引,得到公文文本索引库。
可选地,所述方法还包括:按照以下方式构建公文向量索引库:
利用对比学习模型确定各公文标题及对应的所有文本块的向量;
对所述向量建立索引,得到公文向量索引库。
可选地,所述方法还包括按照以下方式建立所述对比学习模型:
以所述文本块为单位,对所述公文标题和正文进行文本主题聚类,得到多个类别的文本主题和对应的文本数据;
根据所述多个类别的文本主题和对应的文本数据,生成对比数据集;
利用所述对比数据集建立所述对比学习模型。
可选地,建立所述对比学习模型还包括:
在对所述公文标题和正文进行文本主题聚类之前,对所述文本块进行分词得到短文本,去除所述短文本中的停用词。
可选地,所述相似标题集合中包括多个相似标题及其相似度得分;所述相似向量集合中包括多个相似向量及其相似度得分;
所述根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文包括:
根据所述相似标题集合和所述相似向量集合确定最终相似标题集合;
根据所述最终相似标题集合从所述第一文本块集合和所述第二文本块集合中选出相应的文本块作为推荐下文。
本发明还提供一种公文辅助写作系统,所述系统包括:
接收模块,用于获取用户的输入文本;
向量确定模块,用于确定所述输入文本的向量;
文本检索模块,用于利用预先构建的公文文本索引库检索所述输入文本,得到相似标题集合及对应的第一文本块集合;
向量检索模块,用于利用预先构建的公文向量索引库检索所述向量,得到相似向量集合及对应的第二文本块集合;
推荐文本确定模块,根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文;
推送模块,用于将所述推荐下文推送给所述用户。
可选地,所述系统还包括:公文文本索引库建立模块,用于构建公文文本索引库;所述公文文本索引库建立模块包括:
资料收集单元,用于收集公文资料,所述公文资料包括公文标题和正文;
拆分处理单元,用于对所述公文资料进行拆分处理,得到并记录所述公文标题及正文信息,所述正文信息:一个或多个文本块、以及文本块的相对位置;
文本索引建立单元,用于对所述公文标题和所述文本块建立索引,得到公文文本索引库。
可选地,所述系统还包括:公文向量索引库建立模块,用于构建公文向量索引库;所述公文向量索引库建立模块包括:
向量确定单元,用于利用对比学习模型确定各公文标题及对应的所有文本块的向量;
向量索引建立单元,用于对所述向量建立索引,得到公文向量索引库。
可选地,所述系统还包括模型建立模块,用于建立所述对比学习模型;所述模型建立模块包括:
聚类单元,用于以所述文本块为单位,对所述公文标题和正文进行文本主题聚类,得到多个类别的文本主题和对应的文本数据;
数据集生成单元,用于根据所述多个类别的文本主题和对应的文本数据,生成对比数据集;
模型生成单元,用于利用所述对比数据集建立所述对比学习模型。
可选地,所述模型建立模块还包括:
文本块处理单元,用于在所述聚类单元对所述公文标题和正文进行文本主题聚类之前,对所述文本块进行分词得到短文本,去除所述短文本中的停用词。
可选地,所述推荐文本确定模块包括:
计算单元,用于根据所述相似标题集合和所述相似向量集合确定最终相似标题集合;
选择单元,用于根据所述最终相似标题集合从所述第一文本块集合和所述第二文本块集合中选出相应的文本块作为推荐下文。
本发明提供的公文辅助写作方法及系统,通过对公文进行深层次语义分析,结合文本块索引和向量索引,分别检索公文文本索引库和公文向量索引库,得到与用户的输入文本相似的标题集合及对应的第一文本块集合、以及相似向量集合及对应的第二文本块集合,综合两个文本块集合得到相似文本块集合,根据相似文本块集合确定推荐下文,将推荐下文推送给用户。本发明方案通过文本检索和向量检索相结合的方式,避免了文本检索中的同义多义以及否定问题和向量中的关键词效用不明显问题,从而为用户提供有效的公文写作参考;本发明方案通过文本块推荐的方式进行公文辅助写作,避免了纯文本生成带来的主题漂移问题和关键词检索带来的推荐粗糙问题,便于用户更好地掌握行文主题走向与风格。
进一步地,通过利用短文本主题聚类来构造对比学习模型的方式,避免了构建相似数据集的人工成本,也获得了文本表示的更优效果。
进一步地,基于预训练语言模型,类比语义相似度任务,提升了系统的效果,优化了用户体验。
附图说明
图1是本发明实施例提供的公文辅助写作方法的一种流程图;
图2是本发明实施例中公文文本索引库和公文向量索引库的构建流程图;
图3是本发明实施例中建立对比学习模型的流程图;
图4是本发明实施例中对比学习模型的架构示意图;
图5是本发明实施例提供的公文辅助写作系统的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例提供的公文辅助写作方法的一种流程图,包括以下步骤:
步骤101,获取用户的输入文本。
步骤102,确定所述输入文本的向量。
具体地,可以利用预先建立的对比学习模型确定所述输入文本的向量vinput
所述对比学习模型的建立的过程将在后面详细说明。
步骤103,利用预先构建的公文文本索引库检索所述输入文本,得到相似标题集合及对应的第一文本块集合。
具体地,可以使用Elasticsearch作为所述公文文本索引库,采用Hanlp(HanLanguage Processing,汉语言处理包)作为自定义中文分词工具。所述公文文本索引库主要存储3个字段:content字段、title字段、next。其中,“content”作为全文索引对象存储,“title”字段存储对应的公文id,用于快速过滤近似公文以加速文本相似度比较,“next”存储下一个文本块用于推荐。
Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。Elasticsearch的实现原理主要分为以下几个步骤:首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据的时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。
所述公文文本索引库的构建过程将在后面详细说明。
在检索时,将用户的输入文本作为content字段,检索公文文本索引库,得到对应的“title”字段和“next”字段,其中,“title”字段存储的公文id即所述输入文本的相似标题,“next”字段存储的下一个文本块为待推荐的下一个文本块,即所述第一文本块集合中的文本块。
进一步地,在进行公文文本索引库检索时,还可得到相似标题集合中各相似标题的相似度得分。
具体地,可以采用但不限于采用Lucene(一个开放源代码的全文检索引擎工具包)的相关性评分算法进行相关标题检索,比如可以取top50检索结果形成集合形如:
Figure BDA0003979581860000071
其中,
Figure BDA0003979581860000072
表示第j个公文的第k个文本块,
Figure BDA0003979581860000073
表示该公文的下一个文本块,scoretext表示与输入计算得到的相关性评分。
相关性评分采用Lucene的相关性评分算法,即:
Figure BDA0003979581860000074
其中,q表示索引库中的文档集合,d表示待查询的文档,term表示待查文档中的一个词,idf(term)表示词term的逆文档频率,boost(term)表示词term的权重。
在本发明实施例中,tfNorm(term,d)采用BM25计算方式:
Figure BDA0003979581860000075
其中,f(term,d)表示此term在文档d中出现的次数,k1为词频饱和度,控制词频的影响,具体可以采用默认设置,b用于控制文档长度对结果的影响,具体采用默认设置,比如b=0.75,k1=1.2;|D|表示文档长度,avgdl表示包含该词的文档的平均长度。所述b和k1的默认值可以根据经验值确定。
步骤104,利用预先构建的公文向量索引库检索所述向量,得到相似向量集合及对应的第二文本块集合。
同样,在本发明实施例中,可以使用Elasticsearch作为公文向量索引库,所述公文向量索引库主要存储3个字段:vec字段、title字段、next字段。其中,“vec”存储文本块向量,“title”字段存储对应的公文id,用于快速过滤近似公文以加速文本相似度比较,“next”存储下一个文本块文本用于推荐。
对公文向量索引库的检索过程与对公文文本索引库的检索过程类似,只是输入的不再是所述用户的输入文本,而是该输入文本的向量。同样,所述相似向量集合中包含了检索公文向量索引库得到的与所述输入文本的向量相似的所有向量,所述第二文本块集合中包含了检索公文向量索引库得到的所有待推荐的下一个文本块。
类似地,在进行公文向量索引库检索时,还可得到相似向量集合中各相似向量的相似度得分。
比如,公文向量索引库采用Elasticsearch,取top50形成查询结果形如:
Figure BDA0003979581860000081
其中,
Figure BDA0003979581860000082
表示第k个文档第t个文本块对应的向量,
Figure BDA0003979581860000083
表示该公文的下一个文本块,scorev表示向量
Figure BDA0003979581860000084
与所述输入文本的向量的相似度,titlek表示该向量所属公文id。
在本发明实施例中,向量相似度的计算可以采用但不限于余弦相似度,即:
Figure BDA0003979581860000085
当然,在实际应用中,还可以采用其它算法计算向量相似度,对此本发明实施例不做限定。
步骤105,根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文。
上述第一文本块集合和第二文本块集合分别是基于用户输入的文本和所述文本对应的向量检索得到的待推荐的文本块集合。
首先,根据所述相似标题集合和所述相似向量集合计算得到最终相似标题集合,然后根据所述最终相似标题集合从所述第一文本块集合和所述第二文本块集合中选出相应的文本块作为推荐下文。
所述最终相似标题集合形如:
Figure BDA0003979581860000091
其中,score是最终相似度得分,计算公式如下:
Figure BDA0003979581860000092
其中,
Figure BDA0003979581860000093
Figure BDA0003979581860000094
是归一化参数,分别对scoretext和scorev求和得到,r,p是参数,控制两个相似度权重,比如可以设置r=0.35,p=0.65;titlek是对score排序后的对应公文id,
Figure BDA0003979581860000095
是该公文下将要推荐的第n个文本块。
需要说明的是,在进行第一次计算时(即k=0,t=0),公文id集合将会缓存,作为后续输入时对所有检索内容进行过滤,缩小计算范围,可以有效加快检索效率。
步骤106,将所述推荐下文推荐给所述用户。
需要说明的是,在实际应用中,可以重复上述步骤101至106,直至公文写作完成。
本发明提供的公文辅助写作方法,通过文本检索和向量检索相结合的方式,避免了文本检索中的同义多义以及否定问题和向量中的关键词效用不明显问题,从而为用户提供有效的公文写作参考;本发明方案通过文本块推荐的方式进行公文辅助写作,避免了纯文本生成带来的主题漂移问题和关键词检索带来的推荐粗糙问题,便于用户更好地掌握行文主题走向与风格。
如图2所示,是本发明实施例中公文文本索引库和公文向量索引库的构建流程图,包括以下步骤:
步骤201,收集公文资料,所述公文资料包括公文标题和正文。
步骤202,对所述公文资料进行拆分处理,得到并记录所述公文标题及正文信息,所述正文信息:一个或多个文本块、以及文本块的相对位置。
需要说明的是,在本发明实施例中,可以利用正则对所述公文资料进行拆分,并记录文本块的相对位置。
具体地,首先将所有文档即所述公文资料的文本切分成句子集合:
Figure BDA0003979581860000101
j∈0,1,...,N,其中
Figure BDA0003979581860000102
表示第j个公文的标题;然后将连续的句子组合成文本块:
Figure BDA0003979581860000103
Figure BDA0003979581860000104
其中,k=(1,2,...,n),i是文本块大小,比如可以取i=3。
步骤203,对所述公文标题和所述文本块建立索引,得到公文文本索引库。
步骤204,利用对比学习模型确定各公文标题及对应的所有文本块的向量。
步骤205,对所述向量建立索引,得到公文向量索引库。
如图3所示,是本发明实施例中建立对比学习模型的流程图,包括以下步骤:
步骤301,收集公文资料,所述公文资料包括公文标题和正文。
步骤302,对所述公文资料进行拆分处理,得到所述公文标题及一个或多个文本块。
步骤303,以所述文本块为单位,对所述公文标题和正文进行文本主题聚类,得到多个类别的文本主题和对应的文本数据。
需要说明的是,本发明实施例中采用短文本主题聚类。具体地,需要对所述文本块进行分词处理,进一步还需要对分词处理后得到的短文本进行去停用词处理,然后利用短文本主题模型对文本块进行聚类。
短文本主题模型一般通过假设每一篇短文本只有一个主题,而不是多个主题,且文档内部的所有词项之间主题共享,或者结合深度学习词向量等技术,缓解了主题模型在短文本上特征稀疏的问题。
所述停用词是指附加在词、短语、句子上起辅助作用的词。比如,副词、结构助词(比如,“的”“地”“得”“所”“似的”等)、语气词(比如,“的”“了”“吧”“呢”“啊”“嘛”“呗”“罢了”“也罢”“也好”“喽”“着呢”等)等无意义词汇。在实际应用中,可以利用现有的一些分词工具(比如PKUSeg等)对文本块进行分词处理,然后去掉其中的停用词。
公文标题通常由发文机关名称、事由和文种组成,其中事由即主题,是一个词组,一般公文不会就多个主题事务进行合并发文。由于短文本聚类一般假设短文本只包含一个主题,与公文中观察到的文本块主题现象一致。为此,在本发明实施例中,短文本主题模型可以采用BTM(Biterm Topic Model)。
比如,初始主题个数选择2200,主题一致性单词topn设置为1000,alpha设置为0.8,beta设置为0.07,iteration设置为50,window设置为50。最终的聚类个数可以设为1852个。
当然,上述各参数可以根据实际需要来设定,对此本发明实施例不做限定。
步骤304,根据所述多个类别的文本主题和对应的文本数据,生成对比数据集。
具体地,对于每个类别的文本主题,可以从该类别的聚类集合中选取一个文本块作为文本主题,然后从该聚类集合中选取另一个文本块作为对应该文本主题的正样本,从其它聚类集合中选取一个文本块作为对应该文本主题的负样本,这样,由一个文本主题、一个正样本、一个负样本这三个文本块组成一个对比数据集。类似地,可以得到多个这样的对比数据集。
步骤305,利用所述对比数据集建立所述对比学习模型。
所述对比学习模型可以采用三角损失对比学习模型,所需训练数据格式为(Bpos,Banchor,Bneg),其中,Banchor表示待比较文本块,称为锚文本,Bpos表示与Banchor为同一主题类的文本块,Bneg为与Banchor不同主题类的文本块。
进一步地,考虑到全量的对比数据集规模过于庞大,为了提高训练效率,可以通过采样每个主题类别的文本块来生成对比学习训练数据。比如,每个样本选择的概率设置为0.2,得到最终的训练样本规模为78W+。
图4是本发明实施例中对比学习模型的架构示意图。
其中,GOV-Albert表示通过政务公文进行增量预训练后的公文预训练语言模型,样本经过GOV-Albert,对应的向量为(vpos,vanchor,vneg),其中:
vpos=GOV-Albert(Bpos);
vanchor=GOV-Albert(Banchor);
vneg=GOV-Albert(Bneg);
经过均值pooling(池化),得到:
vppos=poolingmean(vpos);
vpanchor=poolingmean(vanchor);
vpneg=poolingmean(vneg);
最后计算损失:
Figure BDA0003979581860000121
其中,margin是超参数,比如,可以设置margin=5。
相应地,本发明实施例还提供一种公文辅助写作系统,如图5所示是本发明实施例提供的公文辅助写作系统的一种结构示意图。
该实施例的公文辅助写作系统包括以下各模块:
接收模块501,用于获取用户的输入文本;
向量确定模块502,用于确定所述输入文本的向量;
文本检索模块503,用于利用预先构建的公文文本索引库检索所述输入文本,得到相似标题集合及对应的第一文本块集合;
向量检索模块504,用于利用预先构建的公文向量索引库检索所述向量,得到相似向量集合及对应的第二文本块集合;
推荐文本确定模块505,根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文;
推送模块506,用于将所述推荐下文推送给所述用户。
其中,所述公文文本索引库和所述公文向量索引库可以分别由相应的公文文本索引库建立模块和公文向量索引库建立模块来构建,当然也可以由同一个模块来构建,对此本发明实施例不做限定。另外,相应的模型建立模块可以作为本发明系统的一部分,也可以独立于该系统,对此本发明实施例不做限定。
下面以两个独立模块,即公文文本索引库建立模块和公文向量索引库建立模块为例进行说明。
所述公文文本索引库建立模块具体可以包括以下各单元:
资料收集单元,用于收集公文资料,所述公文资料包括公文标题和正文;
拆分处理单元,用于对所述公文资料进行拆分处理,得到并记录所述公文标题及正文信息,所述正文信息:一个或多个文本块、以及文本块的相对位置;
文本索引建立单元,用于对所述公文标题和所述文本块建立索引,得到公文文本索引库。
所述公文向量索引库建立模块可以基于上述公文文本索引库建立模块收集并拆分得到的公文标题及正文信息,建立所述公文向量索引库。相应地,所述公文向量索引库建立模块具体可以包括以下各单元:
向量确定单元,用于利用对比学习模型确定各公文标题及对应的所有文本块的向量;
向量索引建立单元,用于对所述向量建立索引,得到公文向量索引库。
类似地,上述对比学习模型也可以由相应的模型建立模块来构建。同样,所述模型建立模块可以作为本发明系统的一部分,也可以独立于该系统,对此本发明实施例不做限定。
需要说明的是,在具体应用中,所述模型建立模块可以基于所述上述公文文本索引库建立模块收集并拆分得到的公文标题及正文信息,建立对比学习模型。当然,也可以不基于或者部分基于上述公文资料来建立对比学习模型,对此本发明实施例不做限定。
下面以基于上述所述上述公文文本索引库建立模块收集并拆分得到的公文标题及正文信息为例,相应地,所述模型建立模块的一种具体结构可以包括以下各单元:
聚类单元,用于以所述文本块为单位,对所述公文标题和正文进行文本主题聚类,得到多个类别的文本主题和对应的文本数据;
数据集生成单元,用于根据所述多个类别的文本主题和对应的文本数据,生成对比数据集;
模型生成单元,用于利用所述对比数据集建立所述对比学习模型。
进一步地,所述模型建立模块还可包括:文本块处理单元,用于在所述聚类单元对所述公文标题和正文进行文本主题聚类之前,对所述文本块进行分词得到短文本,去除所述短文本中的停用词。
需要说明的是,上述各索引库建立模块及模型建立模块中各单元的具体功能实现方式可参照前面本发明方法实施例中相应的描述,在此不再赘述。
在图5所示实施例中,推荐文本确定模块505具体可以包括以下各单元:
计算单元,用于根据所述相似标题集合和所述相似向量集合确定最终相似标题集合;
选择单元,用于根据所述最终相似标题集合从所述第一文本块集合和所述第二文本块集合中选出相应的文本块作为推荐下文。
本发明提供的公文辅助写作系统,通过文本块推荐的方式进行公文辅助写作,避免了纯文本生成带来的主题漂移问题和关键词检索带来的推荐粗糙问题,便于用户更好的掌握行文主题走向与风格。通过文本检索和向量检索相结合的方式,避免了文本检索中的同义多义以及否定问题和向量中的关键词效用不明显问题。进一步地,通过利用短文本主题聚类来构造对比学习模型的方式,避免了构建相似数据集的人工成本,也获得了文本表示的更优效果;另外,基于预训练语言模型,类比语义相似度任务,提升了系统的效果,优化了用户体验;
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种公文辅助写作方法,其特征在于,所述方法包括:
获取用户的输入文本;
确定所述输入文本的向量;
利用预先构建的公文文本索引库检索所述输入文本,得到相似标题集合及对应的第一文本块集合;
利用预先构建的公文向量索引库检索所述向量,得到相似向量集合及对应的第二文本块集合;
根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文;
将所述推荐下文推送给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:按照以下方式构建公文文本索引库:
收集公文资料,所述公文资料包括公文标题和正文;
对所述公文资料进行拆分处理,得到并记录所述公文标题及正文信息,所述正文信息:一个或多个文本块、以及文本块的相对位置;
对所述公文标题和所述文本块建立索引,得到公文文本索引库。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:按照以下方式构建公文向量索引库:
利用对比学习模型确定各公文标题及对应的所有文本块的向量;
对所述向量建立索引,得到公文向量索引库。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括按照以下方式建立所述对比学习模型:
以所述文本块为单位,对所述公文标题和正文进行文本主题聚类,得到多个类别的文本主题和对应的文本数据;
根据所述多个类别的文本主题和对应的文本数据,生成对比数据集;
利用所述对比数据集建立所述对比学习模型。
5.根据权利要求4所述的方法,其特征在于,建立所述对比学习模型还包括:
在对所述公文标题和正文进行文本主题聚类之前,对所述文本块进行分词得到短文本,去除所述短文本中的停用词。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述相似标题集合中包括多个相似标题及其相似度得分;所述相似向量集合中包括多个相似向量及其相似度得分;
所述根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文包括:
根据所述相似标题集合和所述相似向量集合确定最终相似标题集合;
根据所述最终相似标题集合从所述第一文本块集合和所述第二文本块集合中选出相应的文本块作为推荐下文。
7.一种公文辅助写作系统,其特征在于,所述系统包括:
接收模块,用于获取用户的输入文本;
向量确定模块,用于确定所述输入文本的向量;
文本检索模块,用于利用预先构建的公文文本索引库检索所述输入文本,得到相似标题集合及对应的第一文本块集合;
向量检索模块,用于利用预先构建的公文向量索引库检索所述向量,得到相似向量集合及对应的第二文本块集合;
推荐文本确定模块,根据所述相似标题集合及对应的第一文本块集合、相似向量集合及对应的第二文本块集合确定相似文本块集合,根据所述相似文本块集合确定推荐下文;
推送模块,用于将所述推荐下文推送给所述用户。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:公文文本索引库建立模块,用于构建公文文本索引库;所述公文文本索引库建立模块包括:
资料收集单元,用于收集公文资料,所述公文资料包括公文标题和正文;
拆分处理单元,用于对所述公文资料进行拆分处理,得到并记录所述公文标题及正文信息,所述正文信息:一个或多个文本块、以及文本块的相对位置;
文本索引建立单元,用于对所述公文标题和所述文本块建立索引,得到公文文本索引库。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括:公文向量索引库建立模块,用于构建公文向量索引库;所述公文向量索引库建立模块包括:
向量确定单元,用于利用对比学习模型确定各公文标题及对应的所有文本块的向量;
向量索引建立单元,用于对所述向量建立索引,得到公文向量索引库。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括模型建立模块,用于建立所述对比学习模型;所述模型建立模块包括:
聚类单元,用于以所述文本块为单位,对所述公文标题和正文进行文本主题聚类,得到多个类别的文本主题和对应的文本数据;
数据集生成单元,用于根据所述多个类别的文本主题和对应的文本数据,生成对比数据集;
模型生成单元,用于利用所述对比数据集建立所述对比学习模型。
11.根据权利要求10所述的系统,其特征在于,所述模型建立模块还包括:
文本块处理单元,用于在所述聚类单元对所述公文标题和正文进行文本主题聚类之前,对所述文本块进行分词得到短文本,去除所述短文本中的停用词。
12.根据权利要求7至11任一项所述的系统,其特征在于,所述推荐文本确定模块包括:
计算单元,用于根据所述相似标题集合和所述相似向量集合确定最终相似标题集合;
选择单元,用于根据所述最终相似标题集合从所述第一文本块集合和所述第二文本块集合中选出相应的文本块作为推荐下文。
CN202211546271.8A 2022-12-05 2022-12-05 公文辅助写作方法及系统 Pending CN115809316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211546271.8A CN115809316A (zh) 2022-12-05 2022-12-05 公文辅助写作方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211546271.8A CN115809316A (zh) 2022-12-05 2022-12-05 公文辅助写作方法及系统

Publications (1)

Publication Number Publication Date
CN115809316A true CN115809316A (zh) 2023-03-17

Family

ID=85485128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211546271.8A Pending CN115809316A (zh) 2022-12-05 2022-12-05 公文辅助写作方法及系统

Country Status (1)

Country Link
CN (1) CN115809316A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113961A (zh) * 2023-10-20 2023-11-24 中电数创(北京)科技有限公司 一种基于Agent的公文写作方法和系统
CN117235309A (zh) * 2023-09-14 2023-12-15 哈尔滨哈工智慧嘉利通科技股份有限公司 一种基于采集和Elasticsearch技术的城市管理相似案件推荐方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235309A (zh) * 2023-09-14 2023-12-15 哈尔滨哈工智慧嘉利通科技股份有限公司 一种基于采集和Elasticsearch技术的城市管理相似案件推荐方法
CN117113961A (zh) * 2023-10-20 2023-11-24 中电数创(北京)科技有限公司 一种基于Agent的公文写作方法和系统
CN117113961B (zh) * 2023-10-20 2024-02-09 中电数创(北京)科技有限公司 一种基于Agent的公文写作方法和系统

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
Al-Saleh et al. Automatic Arabic text summarization: a survey
Verberne et al. Evaluation and analysis of term scoring methods for term extraction
CN115809316A (zh) 公文辅助写作方法及系统
CN111523304B (zh) 一种基于预训练模型的产品描述文本的自动生成方法
Chen et al. Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features
Lynn et al. An improved method of automatic text summarization for web contents using lexical chain with semantic-related terms
JP2015045833A (ja) 発話文生成装置とその方法とプログラム
Cohen et al. Adaptability of neural networks on varying granularity IR tasks
Albeer et al. Automatic summarization of YouTube video transcription text using term frequency-inverse document frequency
Kumar et al. A Comparative Analysis of Pre-Processing Time in Summary of Hindi Language using Stanza and Spacy
Premalatha et al. Text processing in information retrieval system using vector space model
Syamili et al. Presentation slides generation from scientific papers using support vector regression
CN114297404A (zh) 一种领域评审专家行为轨迹的知识图谱构建方法
Malandrakis et al. Affective language model adaptation via corpus selection
Verberne et al. Author-topic profiles for academic search
Zhao et al. A Topical Keywords Fusion Based on Transformer For Text Summarization
Lu et al. Improving web search relevance with semantic features
Song et al. Overview of natural language processing technologies and rationales in application
Li et al. PolyU at TAC 2008.
Karunasena et al. EduEasy-Smart Learning Assistant System
Shivani et al. Study on Techniques for Analyzing Semantic Similarity in Question Answering System
Masri An innovative automatic indexing method for Arabic text
Mezghanni et al. Information retrieval from unstructured Arabic legal data
Li et al. Predicting abstract keywords by word vectors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination