CN112148857A - 一种军用公文自动生成系统和方法 - Google Patents

一种军用公文自动生成系统和方法 Download PDF

Info

Publication number
CN112148857A
CN112148857A CN202011006774.7A CN202011006774A CN112148857A CN 112148857 A CN112148857 A CN 112148857A CN 202011006774 A CN202011006774 A CN 202011006774A CN 112148857 A CN112148857 A CN 112148857A
Authority
CN
China
Prior art keywords
recommended
outline
official document
content
military
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011006774.7A
Other languages
English (en)
Inventor
干家东
杨军
钱宝生
王浪
李阜阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202011006774.7A priority Critical patent/CN112148857A/zh
Publication of CN112148857A publication Critical patent/CN112148857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种军用公文自动生成系统和方法。该军用公文自动生成系统和方法,通过采用用户输入的公文数据生成推荐提纲列表,再根据推荐提纲列表生成推荐内容,然后根据推荐提纲和所述推荐内容生成第一军用公文,最后采用用户输入的调整数据对生成的述第一军用公文进行调整,进而快速、精确的生成用户想要的军用公文,以填补现有技术中存在的不能根据用户的控制和引导自动生成军用公文的技术空白。

Description

一种军用公文自动生成系统和方法
技术领域
本发明涉及数据处理领域,特别是涉及一种军用公文自动生成系统和方法。
背景技术
近年来,人工智能的快速发展引起多个国家和政府部门的高度关注,各国政府竞相发力,希望在人工智能引领的新兴科技浪潮中占据领先地位。有人预测,人工智能的发展给人类社会带来的影响,将超越过去几十年来互联网所带来的影响。
人工智能技术在给经济社会发展带来巨大影响的同时,也对新兴科技密集的军事领域产生了巨大冲击,其不仅代表着一种高科技型的“前沿性技术”,更是一种能够改变战场规则的“颠覆性技术”。军事科学研究始终处于科技发展的最前沿,人工智能因其十分突出的技术优势,受到世界各军事大国的特别重视。人工智能技术将改变长久以来的战争形态,在情报侦察、指挥控制、自主无人武器、网络空间作战等领域形成常规武器难以弥补的强大技术优势。对各个国家来说,人工智能研究已超越经济社会发展领域,更关乎国防安全领域建设,这其中既蕴含着难得的创新发展机遇,也面临着来自对手的巨大挑战。
军事信息安全装备保障是指以物质、技术和管理手段来保持或恢复军事信息安全装备的良好状态,使之按编配标准齐全配套,按使用技术要求状况良好,达到以军事信息安全装备保障军事活动目的和措施的统称。文书是军事信息安全装备保障各项工作的联系纽带,军事信息安全装备保障要从各类相关文书 (口授、书面)中识别保障需求,经分析、决策后给出保障方案,通过命令、指示等文书由相关单位执行。在当前军事智能化发展的背景下,人工智能技术在各领域快速渗透,军事信息安全装备保障工作也将不可避免地参与到智能化发展的浪潮中。要提升军事信息安全装备保障准确率和效率,各类文书的自动处理将是其重要发展方向。
国外十分重视语言信息处理技术在军事领域中的应用,己经开发出了一些信息检索与信息提取系统,如Mckoew.nK.R的海军舰艇数据库系统,它能够根据询问自动生成舰艇的描述。但把自然语言生成技术应用于军事文本的生成少见报道。中国国内由于在自然语言生成方面的工作开展得较晚,并且自然语言生成技术本身也处于大发展时期,还远未成熟,对利用自然语言生成理论实现军用文本的自动生成也未曾进行深入、系统地研究,而且针对己经尝试的领域也远没有军用文本领域复杂。但随着语言信息处理的发展,军事文本实现自动生成将是一个重要发展方向。
由于军事文本自动生成是基于用户使用场景所提出,学术界并没有专门针对该任务进行深入详细的研究。但近年来,随着大规模无监督语料的公布和使用,体量庞大的预训练语言模型使得篇章级别的生成成为可能。传统的统计语言模型的代表为N-gram语言模型,即假设语言模型具备马尔可夫性且只与前面N-1个词相关,通过统计词与词之间的共现信息构建转移概率矩阵,在生成时根据该转移概率矩阵确定下一步生成的结果。但该方法有明显的缺陷,即依赖的语言信息过少,且转移概率矩阵随统计语料的变化而变化,普遍具备稀疏性,无法对新的字词组合进行合理的推测。
针对上述缺点,现在采用的主流方法是利用神经网络进行句子建模,其中经典的方法为基于LSTM或GRU等门控神经的单元的循环神经网络建模。此后,为了进一步解决长距离依赖问题,基于self-attention机制的Transformer-XL 与GPT系列模型进一步提升了句子建模的能力。现如今使用Transformer-XL 与GPT2模型可以产生与人类撰写媲美的“假新闻”。但该生成过程是随机采样过程,不受用户的控制和引导。
因此,提供一种能够基于用户的控制和引导自动生成军用公文的方法或系统,是本领域亟待解决的一个技术难题。
发明内容
本发明的目的是提供一种军用公文自动生成系统和方法,以能够在基于用户的控制和引导自动生成军用公文的同时,提高军用公文的生成效率和准确性。
为实现上述目的,本发明提供了如下方案:
一种军用公文自动生成系统,包括:
输入模块,用于输入公文数据和调整数据;所述公文数据包括:待生成军用公文的标题、待生成军用公文的关键词;所述调整数据包括:用户输入的用于调整推荐提纲和推荐内容的文字;
提纲推荐模块,与所述输入模块连接,用于根据所述公文数据生成推荐提纲列表;
内容推荐模块,分别与所述提纲推荐模块和所述输入模块连接,用于根据所述推荐提纲列表生成推荐内容;
军用公文生成模块,分别与所述内容推荐模块和所述推荐提纲模块连接,用于根据所述推荐提纲和所述推荐内容生成军用公文;
显示模块,分别与所述输入模块、所述提纲推荐模块、所述内容推荐模块和所述军用公文生成模块连接,用于显示所述标题、所述关键词、所述推荐提纲、所述推荐内容和生成的军用公文。
优选的,所述提纲推荐模块包括:
向量确定单元,与所述输入模块连接,用于根据所述公文数据确定公文数据向量;
提纲粗召回单元,与所述向量确定单元连接,用于根据所述公文数据向量生成第一推荐提纲列表;
提纲细召回单元,与所述提纲粗召回单元连接,用于根据所述第一推荐提纲列表生成第二推荐提纲列表;所述第二推荐提纲列表即为最终生成的推荐提纲列表;
第一输出单元,分别与所述提纲细召回单元和所述内容推荐模块连接,用于将所述第二推荐提纲列表输出至所述内容推荐模块。
优选的,所述提纲粗召回单元包括:
相似度确定子单元,与所述向量确定单元连接,用于确定所述公文数据向量与分布式向量数据库中的数据向量的相似度得分;所述分布式向量数据库中的数据向量包括:采用infersent模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向量;
关键词匹配子单元,与所述向量确定单元连接,用于对所述公文数据向量和所述分布式向量数据库中的数据向量进行关键词匹配,得到匹配得分;
排序子单元,分别与所述相似度确定子单元和所述关键词匹配子单元连接,用于根据所述相似度得分和所述匹配得分对所述分布式向量数据库中的数据向量进行降序排列,得到排列结果列表;
提纲粗召回子单元,与所述排序子单元连接,用于根据所述排列结果列表确定第一推荐提纲列表;所述第一推荐提纲列表为所述排列结果列表中的前n 条数据向量;
第一输出子单元,分别与所述提纲粗召回子单元和所述提纲细召回单元连接,用于将所述第一推荐提纲列表输出至所述提纲细召回单元中。
优选的,所述内容推荐模块包括:
内容粗召回单元,与所述提纲推荐模块模块连接,用于采用ES关键词检索技术根据所述推荐提纲列表确定第一推荐内容;
权重分配单元,与所述内容粗召回单元连接,用于采用排序打分法根据所述第一推荐内容生成权重分配结果;
内容细召回单元,与所述权重分配单元连接,用于根据所述权重分配结果生成第二推荐内容;所述第二推荐内容即为最终生成的推荐内容;
第二输出单元,分别与所述内容细召回单元和所述军用公文生成模块连接,用于将所述第二推荐内容输出给所述军用公文生成模块。
优选的,所述权重分配单元包括:
打分子单元,与所述内容粗召回单元连接,用于采用排序打分算法确定所述第一推荐内容和所述预料库中各段落内容间的匹配相关度和质量得分;
权重确定子单元,用于根据所述匹配相关度和质量得分确定权重分配结果;
第二输出子单元,分别与所述权重确定子单元和所述内容细召回单元连接,用于将所述权重分配结果输出给所述内容细召回单元。
一种军用公文自动生成方法,应用于上述的军用公文自动生成系统中;所述军用公文自动生成方法包括:
获取公文数据和调整数据;所述公文数据包括:待生成军用公文的标题、待生成军用公文的关键词;所述调整数据包括:用户输入的用于调整推荐提纲和推荐内容的文字;
根据所述公文数据生成推荐提纲列表;
根据所述推荐提纲列表生成推荐内容;
判断所述推荐内容是否为预设推荐内容,若是,则根据所述推荐提纲和所述推荐内容生成最终的军用公文,反之,则根据所述调整数据调整所述推荐提纲和所述推荐内容,根据调整后的推荐提纲和调整后的推荐内容生成军用公文。
优选的,所述根据所述公文数据生成推荐提纲列表,具体包括:
根据所述公文数据确定公文数据向量;
根据所述公文数据向量生成第一推荐提纲列表;
根据所述第一推荐提纲列表生成第二推荐提纲列表;所述第二推荐提纲列表即为最终生成的推荐提纲列表。
优选的,所述根据所述公文数据向量生成第一推荐提纲列表,具体包括:
采用排序打分法确定所述公文数据向量与分布式向量数据库中的数据向量的相似度得分;所述分布式向量数据库中的数据向量包括:采用infersent 模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向量;
对所述公文数据向量和所述分布式向量数据库中的数据向量进行关键词匹配,得到匹配得分;
根据所述相似度得分和所述匹配得分对所述分布式向量数据库中的数据向量进行降序排列,得到排列结果列表;
根据所述排列结果列表确定第一推荐提纲列表;所述第一推荐提纲列表为所述排列结果列表中的前n条数据向量。
优选的,所述根据所述推荐提纲列表生成推荐内容,具体包括:
采用ES关键词检索技术根据所述推荐提纲列表确定第一推荐内容;
采用排序打分法根据所述第一推荐内容生成权重分配结果;
根据所述权重分配结果生成第二推荐内容;所述第二推荐内容即为最终生成的推荐内容。
优选的,所述采用排序打分法根据所述第一推荐内容生成权重分配结果,具体包括:
采用排序打分算法确定所述第一推荐内容和所述预料库中各段落内容间的匹配相关度和质量得分;
根据所述匹配相关度和质量得分确定权重分配结果。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的军用公文自动生成系统和方法,通过采用用户输入的公文数据生成推荐提纲列表,再根据推荐提纲列表生成推荐内容,然后根据推荐提纲和所述推荐内容生成第一军用公文,最后采用用户输入的调整数据对生成的述第一军用公文进行调整,进而快速、精确的生成用户想要的军用公文,以填补现有技术中存在的不能根据用户的控制和引导自动生成军用公文的技术空白。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的军用公文自动生成系统的结构示意图;
图2为本发明提供的军用公文自动生成方法的第一流程图;
图3为本发明提供的军用公文自动生成方法的第二流程图;
图4为本发明实施例中提供的向量表示模型示意图;
图5为本发明实施例中提供的DRRM模型示意图;
图6为本发明实施例中提供的金字塔模型示意图;
图7为本发明实施例中提供的Grad-CAM模型图;
图8为本发明实施例中提供的HNSW示意图;
图9为本发明实施例中提供的智能生成层级模型图;
图10为本发明实施例中提供的向量数据库milvus的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种军用公文自动生成系统和方法,以能够在基于用户的控制和引导自动生成军用公文的同时,提高军用公文的生成效率和准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的军用公文自动生成系统的结构示意图,如图1所示,一种军用公文自动生成系统,包括:
输入模块1,用于输入公文数据和调整数据。公文数据包括:待生成军用公文的标题、待生成军用公文的关键词。调整数据包括:用户输入的用于调整推荐提纲和推荐内容的文字。
提纲推荐模块2,与输入模块1连接,用于根据公文数据生成推荐提纲列表。
内容推荐模块3,分别与提纲推荐模块2和输入模块1连接,用于根据推荐提纲列表生成推荐内容。
军用公文生成模块4,分别与内容推荐模块3和推荐提纲模块2连接,用于根据推荐提纲和推荐内容生成军用公文。
显示模块5,分别与输入模块1、提纲推荐模块2、内容推荐模块3和军用公文生成模块4连接,用于显示标题、关键词、推荐提纲、推荐内容和生成的军用公文。
优选的,上述提纲推荐模块2包括:
向量确定单元,与输入模块连接,用于根据公文数据确定公文数据向量。
提纲粗召回单元,与向量确定单元连接,用于根据公文数据向量生成第一推荐提纲列表。
提纲细召回单元,与提纲粗召回单元连接,用于根据第一推荐提纲列表生成第二推荐提纲列表。第二推荐提纲列表即为最终生成的推荐提纲列表。
第一输出单元,分别与提纲细召回单元和内容推荐模块连接,用于将第二推荐提纲列表输出至内容推荐模块。
优选的,上述提纲粗召回单元包括:
相似度确定子单元,与向量确定单元连接,用于确定公文数据向量与分布式向量数据库中的数据向量的相似度得分。分布式向量数据库中的数据向量包括:采用infersent模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向量。
关键词匹配子单元,与向量确定单元连接,用于对公文数据向量和分布式向量数据库中的数据向量进行关键词匹配,得到匹配得分。
排序子单元,分别与相似度确定子单元和关键词匹配子单元连接,用于根据相似度得分和匹配得分对分布式向量数据库中的数据向量进行降序排列,得到排列结果列表。
提纲粗召回子单元,与排序子单元连接,用于根据排列结果列表确定第一推荐提纲列表。第一推荐提纲列表为排列结果列表中的前n条数据向量。
第一输出子单元,分别与提纲粗召回子单元和提纲细召回单元连接,用于将第一推荐提纲列表输出至提纲细召回单元中。
优选的,上述内容推荐模块3包括:
内容粗召回单元,与提纲推荐模块模块连接,用于采用ES关键词检索技术根据推荐提纲列表确定第一推荐内容。
权重分配单元,与内容粗召回单元连接,用于采用排序打分法根据第一推荐内容生成权重分配结果。
内容细召回单元,与权重分配单元连接,用于根据权重分配结果生成第二推荐内容。第二推荐内容即为最终生成的推荐内容。
第二输出单元,分别与内容细召回单元和军用公文生成模块连接,用于将第二推荐内容输出给军用公文生成模块。
优选的,上述权重分配单元包括:
打分子单元,与内容粗召回单元连接,用于采用排序打分算法确定第一推荐内容和预料库中各段落内容间的匹配相关度和质量得分。
权重确定子单元,用于根据匹配相关度和质量得分确定权重分配结果。
第二输出子单元,分别与权重确定子单元和内容细召回单元连接,用于将权重分配结果输出给内容细召回单元。
图2为本发明提供的军用公文自动生成方法的第一流程图,图3为本发明提供的军用公文自动生成方法的第二流程图,如图2和图3所示,本发明提供的应用于上述的军用公文自动生成系统的军用公文自动生成方法,包括:
步骤100:获取公文数据和调整数据。公文数据包括:待生成军用公文的标题、待生成军用公文的关键词。调整数据包括:用户输入的用于调整推荐提纲和推荐内容的文字。
步骤101:根据公文数据生成推荐提纲列表。
该步骤具体包括:
步骤1011:根据公文数据确定公文数据向量。具体为:对公文数据根据预先准备好的词向量进行词向量映射,利用GPU计算的多样性索引结构得到输入公文数据(Inputs)的向量表示Inputs Embedding.qizhong,Inputs Embedding.qizhong即为公文数据向量。其中,词向量优选采用word2vec字粒度和词粒度构建的自定义词典库和向量表确定。所采用的向量表的词典库维度大约在50万,向量维度优选为300。
步骤1012:根据公文数据向量生成第一推荐提纲列表,具体包括:
A、采用排序打分法确定公文数据向量与分布式向量数据库中的数据向量的相似度得分。分布式向量数据库中的数据向量包括:采用infersent模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向量。其中,本发明所采用的分布式向量数据库优选为Milvus。
B、对公文数据向量和分布式向量数据库中的数据向量进行关键词匹配,得到匹配得分。
C、根据相似度得分和匹配得分对分布式向量数据库中的数据向量进行降序排列,得到排列结果列表。
D、根据排列结果列表确定第一推荐提纲列表。第一推荐提纲列表为排列结果列表中的前n条数据向量。其中n的具体数值根据用户的实际需要进行设定。
步骤1012的具体实施过程为:
将文章向量和段落向量表示存储在分布式向量数据库Milvus中,利用其支持GPU计算的多样性索引结构(如IVFLAT和HNSW)快速计算输入Inputs 的向量表示InputsEmbedding后,确定向量表示Inputs Embedding与数据库中各文章向量和段落的向量的余弦相似度。其中,余弦相似度的计算方式如下式所示:
Figure RE-GDA0002764819220000101
其中,A和B表示待计算的向量,i和n表示向量的维度。
根据ES关键词匹配得分以及余弦相似度等条件按顺序选取一定数量的得分较高的提纲,即进行提纲检索粗召回。最后根据用户特征画像获取用户行为正则规律(如常用术语等)排序特征,作为进一步过滤的条件,结合漏斗排序模型等按排序特征的匹配程度对提纲粗召回结果进行精排序,得到适配用户输入的推荐提纲输出Outlines,完成细召回过程。同时展示推荐提纲列表供用户通过输入模块手动选择和修正。其中匹配得分的阈值以及余弦相似度的阈值均是用户根据自身实际需要进行设定。
步骤1013:根据第一推荐提纲列表生成第二推荐提纲列表。第二推荐提纲列表即为最终生成的推荐提纲列表。
步骤102:根据推荐提纲列表生成推荐内容。
该过程具体包括:
步骤1021:采用ES关键词检索技术根据推荐提纲列表确定第一推荐内容。
步骤1022:采用排序打分法根据第一推荐内容生成权重分配结果,具体包括:
A、采用排序打分算法确定第一推荐内容和预料库中各段落内容间的匹配相关度和质量得分。
B、根据匹配相关度和质量得分确定权重分配结果。
步骤1023:根据权重分配结果生成第二推荐内容。第二推荐内容即为最终生成的推荐内容。
步骤102的具体实施过程为:
将推荐提纲模块输出的Outlines输入到内容推荐模块中,进而结合丰富的素材库以及相关推荐算法对用户文章的提纲进行内容推荐,主要流程是:
通过ES关键词检索对段落内容进行粗召回,即对每条提纲获得一定数量的对应的待推荐相关段落,并结合多个排序打分算法(例如使用预训练的段落质量分类器,其输出该段落为优质段落的概率P可以作为该段落的质量得分) 计算提纲推荐模块的输出Outlines和其对应段落内容间的匹配程序相关度和段落质量得分,并根据上述指标遵循"权重分配"(即在不同场景下对不同指标如质量得分和匹配程度分配不同的权重),进行精排序,对每条提纲选取排序靠前的段落作为其对应的段落内容,得到最终内容推荐模块的输出Paragraphs。
同时考虑到算力成本,军事文章生成系统并不会主动提供生成或改写服务,而是由用户自行选择是否调用句子级别的文本生成或改写服务进行精修。
步骤103:判断推荐内容是否为预设推荐内容,若是,则根据推荐提纲和推荐内容生成最终的军用公文,反之,则根据调整数据调整推荐提纲和推荐内容,根据调整后的推荐提纲和调整后的推荐内容生成军用公文。
下面提供一个具体实施案例对本发明提供的技术方案进行细化说明。
本发明提供的军用公文自动生成系统和方法的整体工作流程如下:
步骤(一):提取用户输入文章标题title和关键词keywords并组合为提纲推荐模块的输入Inputs。
步骤(二):将步骤(一)中的提纲推荐的输入Inputs传输到提纲推荐模块,对Inputs根据预先准备好的词向量(采用word2vec字粒度和词粒度构建的自定义词典库和向量表(词典库维度大约在50万,向量维度为300))进行词向量映射,得到输入Inputs的向量表示Inputs Embedding。同时采用infersent模型对语料库中的文章和段落进行向量化,并存入向量数据库(便于检索)如 Milvus等。
再根据军事素材库进行提纲推荐,主要流程是将文章和段落向量表示存储在分布式向量数据库如Milvus中,利用其支持GPU计算的多样性索引结构(如 IVFLAT和HNSW)快速计算输入Inputs的向量表示Inputs Embedding后,确定Inputs Embedding与数据库中各文章和段落的向量表示的余弦相似度,根据 ES关键词匹配得分以及余弦相似度等条件按顺序选取一定数量的得分较高的提纲,即进行提纲检索粗召回,最后根据用户特征画像获取用户行为正则规律 (如常用术语等)等排序特征,作为进一步过滤的条件,结合漏斗排序模型等按排序特征的匹配程度对提纲粗召回结果进行精排序,得到适配用户输入的推荐提纲输出Outlines。同时展示推荐提纲供用户选择和手动修正。
步骤(三):将步骤(二)中的推荐提纲输出Outlines输入到内容推荐模块,进而结合丰富的素材库以及相关推荐算法对用户文章的提纲进行内容推荐,主要流程是通过ES关键词检索对段落内容进行粗召回,即对每条提纲获得一定数量的对应的待推荐相关段落,并结合多个排序打分算法(例如使用预训练的段落质量分类器,其输出该段落为优质段落的概率P可以作为该段落的质量得分)计算提纲推荐模块的输出Outlines和其对应段落内容间的匹配程序相关度和段落质量得分,并根据上述指标遵循"权重分配"(即在不同场景下对不同指标如质量得分和匹配程度分配不同的权重),进行精排序,对每条提纲选取排序靠前的段落作为其对应的段落内容,得到最终内容推荐模块的输出 Paragraphs。
同时考虑到算力成本,军用公文自动生成系统并不会主动提供生成或改写服务,而是由用户自行选择是否调用句子级别的文本生成或改写服务进行精修。
在创作的最后阶段,本系统会提供审阅界面用于展示提纲推荐模块和内容推荐模块的输出结果,可以通过机器辅助或由用户本身进行审阅来保证创作质量,最终得到完整的匹配用户输入条件的军事文本Text。
下面对本发明提供的上述技术方案所采用的关键技术进行详细介绍,具体如下:
1、文档向量空间方法:
文档向量方法是将文本表达为可以让计算机来理解的形式也就是将文本表示成高维空间中的向量形式。文本向量化,可以分为词语的向量表达,短文本的向量表达,长文本的向量表达。关键技术难点在于所表示的向量能否捕捉到文档中的重要信息。
在向量表示中,为了解决向量保留的语义信息完整和能够快速建模生成向量表示,本发明采用基于多粒度多方法的向量表示实现对语料库中的素材数据进行向量化,采用字粒度和词粒度构建自定义的词典库和向量表(词典库大约在50万,向量维度为300),以及infersent模型对语料库中的文章和段落做向量表示,并且使用多层级多类别的保存方式进行数据存储。
为了对本发明的技术方案进行进一步优化,在该向量模型的基础上优选搭建了一组完整的文档向量化更新体系(如图4所示),以支持对实时数据的并行化向量表示,并能及时添加到线上服务。基于该模型可以构建出拥有千万级优质段落的语料库。
2、文本语义理解:
在上述步骤(三)中,存在计算提纲和粗召回段落的匹配程度的场景,即属于语义理解的范围.理解篇章或段落等长文档的语义一直是业界的难题,在本发明的系统中使用DRRM模型(如图5所示)解决长文档的语义问题,其主要是使用MatchHistogram和TermGatingNetwork技术使模型对文档的输入字数不做严格限制。
在上述步骤(二)中,涉及到使用用户特征画像对提纲粗召回结果进行精排序,由于提纲多属于短文本,为了更好地理解提纲所蕴含的语义信息,本发明使用MatchPyramid模型(如图6所示)提升理解短文档语义的准确度,目前将该项技术用在文本词的高亮显示以及提纲等短文本排序上,处理的最大文档长度限制是500词。
其中针对文本词的高亮显示使用的是Grad-CAM模型(如图7所示)的思想,模型思路流程如下:
3、高效向量检索:
为在成千上万的向量库中快速找到相似向量向用户推荐高质量的素材,采用了基于聚类数据的分布式存储方案和HNSW快速向量检索算法。
为了挖掘用户输入关键词的潜在含义以及如何利用检索结果对用户查询意图的进行进一步的完善和引导来避免不必要的计算消耗,本发明采用自研意图识别方法对用户意图做精确判断缩小检索范围,主要实现方式是通过搭建的包括意图分类、精准推荐等功能在内的意图识别框架,经过规则,分类等多种处理方式去理解整体的用户行为背后包含的语义信息,而不仅仅是输入文本。
HNSW(Hierarchical Navigable Small World)是ANN搜索领域基于图的算法,该方法是把D维空间中所有的向量构建成一张相互联通的图,并基于这张图搜索某个顶点的K个最近邻。使用文档向量化的技术构建向量数据库后,如何精准、快速召回候选数据集是一个关键性技术难题,HNSW算法很好的帮本发明解决这个问题,HNSW算法的具体架构如图8所示。
4、智能生成:
在军事领域的文本生成框架中,本发明使用上述关键技术解析和理解了文本数据,并建立起了相应的数据特征库之后,如何根据用户输入高效的生成一篇完整的文章也是一项重要技术。本发明采用的智能生成的具体架构如图9 所示,其根据用户的特征信息和输入信息,基于语义理解、高效向量检索和多路召回方法检索出高质量的候选数据。然后对召回的不同结构的数据根据语义理解分值做层级聚合得到最终生成文章。
5、技术创新性:
文本语义理解是军事文本生成的核心部分之一,在语义相似召回方式上从传统关系型数据库的点查、范围查等精确查找发展到使用矢量表示的非结构化数据的模糊检索方式,结合本发明中的海量文档场景,如何精确构建大规模文档的矢量特征以及在矢量表示的基础上快速进行检索是决定语义理解效果和应用响应速度的关键因素。
近年来,基于大规模文本语料训练的预训练语言模型如Bert和gpt-2等在文本表示领域不断取得了优秀的表现,但是涉及到计算速度和内存占用问题,本发明一方面对预训练语言模型进行了重新构建,使其能够更贴合应用任务。另外一方面因为其大规模的计算量造成的无法有效的进行线上部署的影响,对语言模型的训练和推理都进行了加速的研究,包括但不限于模型蒸馏、存向量等方式,使其能够更好的融入发明应用中,更好的为用户及社会进行服务。
同时,采用如图10所示的向量数据库milvus,可以提供标准的访问接口,降低使用门槛;并提供了高效的数据组织,检索和分析的能力。本发明引入类似faiss、milvus等向量数据库对文档向量进行高效存储、分析和检索,在步骤 (二)提纲推荐模块中负责存储语料库中文档的编码向量以及快速检索出对应向量相似度得分较高的文档,即对应图10中的文档经过深度学习模型的信息提取后在数据库中进行存储索引更新以及查询搜索等过程。同时在支持的数据规模超过传统的关系型数据库,支持可线性扩展的分布式部署,以应对海量文档场景。更为重要的是,这种交互式查询可以做到低时延和高并发,对应用部署有很好的支撑力。
发明整合了语言模型等人工智能技术以及矢量数据库技术,在一站式、一键化形态下,对外提供高效的数据操作接口和查询功能,很好地解决了办公场景下亟须解决的容量、速度和准确性等问题,其中,采用本发买那个体用的技术方案自动生成1000字的文档所需时间不超过2s。
并且,本发明还能够提供根据行文要素、关键词等信息自动生成通令、决定、通知、报告、请示、会议纪要等机关办公文书的功能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种军用公文自动生成系统,其特征在于,包括:
输入模块,用于输入公文数据和调整数据;所述公文数据包括:待生成军用公文的标题、待生成军用公文的关键词;所述调整数据包括:用户输入的用于调整推荐提纲和推荐内容的文字;
提纲推荐模块,与所述输入模块连接,用于根据所述公文数据生成推荐提纲列表;
内容推荐模块,分别与所述提纲推荐模块和所述输入模块连接,用于根据所述推荐提纲列表生成推荐内容;
军用公文生成模块,分别与所述内容推荐模块和所述推荐提纲模块连接,用于根据所述推荐提纲和所述推荐内容生成军用公文;
显示模块,分别与所述输入模块、所述提纲推荐模块、所述内容推荐模块和所述军用公文生成模块连接,用于显示所述标题、所述关键词、所述推荐提纲、所述推荐内容和生成的军用公文。
2.根据权利要求1所述的军用公文自动生成系统,其特征在于,所述提纲推荐模块包括:
向量确定单元,与所述输入模块连接,用于根据所述公文数据确定公文数据向量;
提纲粗召回单元,与所述向量确定单元连接,用于根据所述公文数据向量生成第一推荐提纲列表;
提纲细召回单元,与所述提纲粗召回单元连接,用于根据所述第一推荐提纲列表生成第二推荐提纲列表;所述第二推荐提纲列表即为最终生成的推荐提纲列表;
第一输出单元,分别与所述提纲细召回单元和所述内容推荐模块连接,用于将所述第二推荐提纲列表输出至所述内容推荐模块。
3.根据权利要求2所述的军用公文自动生成系统,其特征在于,所述提纲粗召回单元包括:
相似度确定子单元,与所述向量确定单元连接,用于确定所述公文数据向量与分布式向量数据库中的数据向量的相似度得分;所述分布式向量数据库中的数据向量包括:采用infersent模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向量;
关键词匹配子单元,与所述向量确定单元连接,用于对所述公文数据向量和所述分布式向量数据库中的数据向量进行关键词匹配,得到匹配得分;
排序子单元,分别与所述相似度确定子单元和所述关键词匹配子单元连接,用于根据所述相似度得分和所述匹配得分对所述分布式向量数据库中的数据向量进行降序排列,得到排列结果列表;
提纲粗召回子单元,与所述排序子单元连接,用于根据所述排列结果列表确定第一推荐提纲列表;所述第一推荐提纲列表为所述排列结果列表中的前n条数据向量;
第一输出子单元,分别与所述提纲粗召回子单元和所述提纲细召回单元连接,用于将所述第一推荐提纲列表输出至所述提纲细召回单元中。
4.根据权利要求1所述的军用公文自动生成系统,其特征在于,所述内容推荐模块包括:
内容粗召回单元,与所述提纲推荐模块模块连接,用于采用ES关键词检索技术根据所述推荐提纲列表确定第一推荐内容;
权重分配单元,与所述内容粗召回单元连接,用于采用排序打分法根据所述第一推荐内容生成权重分配结果;
内容细召回单元,与所述权重分配单元连接,用于根据所述权重分配结果生成第二推荐内容;所述第二推荐内容即为最终生成的推荐内容;
第二输出单元,分别与所述内容细召回单元和所述军用公文生成模块连接,用于将所述第二推荐内容输出给所述军用公文生成模块。
5.根据权利要求4所述的军用公文自动生成系统,其特征在于,所述权重分配单元包括:
打分子单元,与所述内容粗召回单元连接,用于采用排序打分算法确定所述第一推荐内容和所述预料库中各段落内容间的匹配相关度和质量得分;
权重确定子单元,用于根据所述匹配相关度和质量得分确定权重分配结果;
第二输出子单元,分别与所述权重确定子单元和所述内容细召回单元连接,用于将所述权重分配结果输出给所述内容细召回单元。
6.一种军用公文自动生成方法,其特征在于,应用于如权利要求1-5任意一项所述的军用公文自动生成系统中;所述军用公文自动生成方法包括:
获取公文数据和调整数据;所述公文数据包括:待生成军用公文的标题、待生成军用公文的关键词;所述调整数据包括:用户输入的用于调整推荐提纲和推荐内容的文字;
根据所述公文数据生成推荐提纲列表;
根据所述推荐提纲列表生成推荐内容;
判断所述推荐内容是否为预设推荐内容,若是,则根据所述推荐提纲和所述推荐内容生成最终的军用公文,反之,则根据所述调整数据调整所述推荐提纲和所述推荐内容,根据调整后的推荐提纲和调整后的推荐内容生成军用公文。
7.根据权利要求6所述的军用公文自动生成方法,其特征在于,所述根据所述公文数据生成推荐提纲列表,具体包括:
根据所述公文数据确定公文数据向量;
根据所述公文数据向量生成第一推荐提纲列表;
根据所述第一推荐提纲列表生成第二推荐提纲列表;所述第二推荐提纲列表即为最终生成的推荐提纲列表。
8.根据权利要求7所述的军用公文自动生成方法,其特征在于,所述根据所述公文数据向量生成第一推荐提纲列表,具体包括:
采用排序打分法确定所述公文数据向量与分布式向量数据库中的数据向量的相似度得分;所述分布式向量数据库中的数据向量包括:采用infersent模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向量;
对所述公文数据向量和所述分布式向量数据库中的数据向量进行关键词匹配,得到匹配得分;
根据所述相似度得分和所述匹配得分对所述分布式向量数据库中的数据向量进行降序排列,得到排列结果列表;
根据所述排列结果列表确定第一推荐提纲列表;所述第一推荐提纲列表为所述排列结果列表中的前n条数据向量。
9.根据权利要求6所述的军用公文自动生成方法,其特征在于,所述根据所述推荐提纲列表生成推荐内容,具体包括:
采用ES关键词检索技术根据所述推荐提纲列表确定第一推荐内容;
采用排序打分法根据所述第一推荐内容生成权重分配结果;
根据所述权重分配结果生成第二推荐内容;所述第二推荐内容即为最终生成的推荐内容。
10.根据权利要求9所述的军用公文自动生成方法,其特征在于,所述采用排序打分法根据所述第一推荐内容生成权重分配结果,具体包括:
采用排序打分算法确定所述第一推荐内容和所述预料库中各段落内容间的匹配相关度和质量得分;
根据所述匹配相关度和质量得分确定权重分配结果。
CN202011006774.7A 2020-09-23 2020-09-23 一种军用公文自动生成系统和方法 Pending CN112148857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011006774.7A CN112148857A (zh) 2020-09-23 2020-09-23 一种军用公文自动生成系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011006774.7A CN112148857A (zh) 2020-09-23 2020-09-23 一种军用公文自动生成系统和方法

Publications (1)

Publication Number Publication Date
CN112148857A true CN112148857A (zh) 2020-12-29

Family

ID=73897805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011006774.7A Pending CN112148857A (zh) 2020-09-23 2020-09-23 一种军用公文自动生成系统和方法

Country Status (1)

Country Link
CN (1) CN112148857A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449513A (zh) * 2021-06-17 2021-09-28 上海明略人工智能(集团)有限公司 工作总结自动生成方法、系统、计算机设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090043824A1 (en) * 2007-08-06 2009-02-12 Ronald Claghorn Document creation, linking, and maintenance system
US20140223488A1 (en) * 2011-09-08 2014-08-07 Axel Springer Digital Tv Guide Gmbh Method and apparatus for automatic generation of recommendations
US20150058309A1 (en) * 2013-08-23 2015-02-26 Naver Corporation Keyword presenting system and method based on semantic depth structure
CN104699758A (zh) * 2015-02-04 2015-06-10 中国人民解放军装甲兵工程学院 一种图文库关联的指挥文书智能生成系统与方法
CN106446070A (zh) * 2016-09-07 2017-02-22 知识产权出版社有限责任公司 一种基于专利群的信息处理装置及方法
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
KR20180075234A (ko) * 2016-12-26 2018-07-04 주식회사 카카오 컨텐츠에 대한 유입검색어 및 연관검색어 기반의 컨텐츠 추천방법 및 추천장치
CN109657223A (zh) * 2018-12-18 2019-04-19 安徽省泰岳祥升软件有限公司 一种公文自动写作方法及装置
CN109670156A (zh) * 2018-12-21 2019-04-23 福建南威软件有限公司 一种基于Libreoffice定制的离线公文方法
CN110457439A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 一站式智能写作辅助方法、装置和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090043824A1 (en) * 2007-08-06 2009-02-12 Ronald Claghorn Document creation, linking, and maintenance system
US20140223488A1 (en) * 2011-09-08 2014-08-07 Axel Springer Digital Tv Guide Gmbh Method and apparatus for automatic generation of recommendations
US20150058309A1 (en) * 2013-08-23 2015-02-26 Naver Corporation Keyword presenting system and method based on semantic depth structure
CN104699758A (zh) * 2015-02-04 2015-06-10 中国人民解放军装甲兵工程学院 一种图文库关联的指挥文书智能生成系统与方法
CN106446070A (zh) * 2016-09-07 2017-02-22 知识产权出版社有限责任公司 一种基于专利群的信息处理装置及方法
KR20180075234A (ko) * 2016-12-26 2018-07-04 주식회사 카카오 컨텐츠에 대한 유입검색어 및 연관검색어 기반의 컨텐츠 추천방법 및 추천장치
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
CN109657223A (zh) * 2018-12-18 2019-04-19 安徽省泰岳祥升软件有限公司 一种公文自动写作方法及装置
CN109670156A (zh) * 2018-12-21 2019-04-23 福建南威软件有限公司 一种基于Libreoffice定制的离线公文方法
CN110457439A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 一站式智能写作辅助方法、装置和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁海珍: "公文自动生成系统的设计与实现", 计算机时代, no. 9, pages 65 - 66 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449513A (zh) * 2021-06-17 2021-09-28 上海明略人工智能(集团)有限公司 工作总结自动生成方法、系统、计算机设备和存储介质
CN113449513B (zh) * 2021-06-17 2024-04-05 上海明略人工智能(集团)有限公司 工作总结自动生成方法、系统、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
Zhang et al. Active discriminative text representation learning
Devika et al. Sentiment analysis: a comparative study on different approaches
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN101470732B (zh) 一种辅助词库的生成方法和装置
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN111767741A (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN111523304B (zh) 一种基于预训练模型的产品描述文本的自动生成方法
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN106502979A (zh) 一种自然语言信息的数据处理方法和装置
Odeh et al. Arabic text categorization algorithm using vector evaluation method
CN107122404A (zh) 一种用户意图数据提取方法和装置
CN112434134A (zh) 搜索模型训练方法、装置、终端设备及存储介质
Yu et al. IDCNN-CRF-based domain named entity recognition method
Yan et al. Implicit emotional tendency recognition based on disconnected recurrent neural networks
Neelima et al. A comprehensive review on word embedding techniques
CN112148857A (zh) 一种军用公文自动生成系统和方法
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质
CN115758244A (zh) 一种基于sbert的中文专利ipc分类方法
Huda et al. Text Summarization of Hadits in Indonesian Language Using The Combination of Fuzzy Logic Scoring And Latent Semantic Analysis (LSA)
CN112507097A (zh) 一种提高问答系统泛化能力的方法
Popova et al. Sentiment Analysis of Short Russian Texts Using BERT and Word2Vec Embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination