CN112541337A - 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 - Google Patents

一种基于递归神经网络语言模型的文档模板自动生成方法及系统 Download PDF

Info

Publication number
CN112541337A
CN112541337A CN202011488032.2A CN202011488032A CN112541337A CN 112541337 A CN112541337 A CN 112541337A CN 202011488032 A CN202011488032 A CN 202011488032A CN 112541337 A CN112541337 A CN 112541337A
Authority
CN
China
Prior art keywords
corpus
neural network
analysis
document template
recurrent neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011488032.2A
Other languages
English (en)
Other versions
CN112541337B (zh
Inventor
倪时龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gemean Beijing Information Technology Co ltd
Original Assignee
Gemean Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gemean Beijing Information Technology Co ltd filed Critical Gemean Beijing Information Technology Co ltd
Priority to CN202011488032.2A priority Critical patent/CN112541337B/zh
Publication of CN112541337A publication Critical patent/CN112541337A/zh
Application granted granted Critical
Publication of CN112541337B publication Critical patent/CN112541337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Abstract

本发明公开一种基于递归神经网络语言模型的文档模板自动生成方法及系统。其中方法包括如下步骤:语料库建立步骤:从预设的语料库文档中抽取语料并建立语料库;根据语料库的语料,对多个相同类型的文档进行信息抽取,抽取出与文档相关的结构化文本信息,结构化文本信息包含有字符串;文本深层分析步骤:调用深层表示模型单元,对结构化文本信息进行依存句法分析和篇章级别的修辞关系分析,得到结构化文本信息的句法树和篇章关系;文档模板生成步骤:将结构化文本信息、句法树和篇章关系输入到基于递归神经网络语言模型,生成文档模板。上述技术方案通过基于深度学习和信息抽取技术实现文档模板的自动生成,提高生成效率。

Description

一种基于递归神经网络语言模型的文档模板自动生成方法及 系统
技术领域
本发明涉及软件技术领域,尤其涉及一种基于递归神经网络语言模型的文档模板自动生成方法及系统。
背景技术
文档模板包含一个标准文档所必须的各个组成部分,如报告文档则包含有标题、报告的章节、报告主要内容、听取报告的对象和时间日期等。通过这样一个模板,可以快速地做出一份符合标准的文档。当前的文档模板主要由人工制作,对于现有很多没有文档模板的文档,需要人工查阅文档,找出文档的组成部分,而后再制作出文档模板,效率低下。
发明内容
为此,需要提供一种基于递归神经网络语言模型的文档模板自动生成方法及系统,解决现有文档模板生成效率低下的问题。
为实现上述目的,本发明提供了一种基于递归神经网络语言模型的文档模板自动生成方法,包括如下步骤:
语料库建立步骤:从预设的语料库文档中抽取语料并建立语料库;根据语料库的语料,对多个相同类型的文档进行信息抽取,抽取出与文档相关的结构化文本信息,结构化文本信息包含有字符串;
文本深层分析步骤:调用深层表示模型单元,对结构化文本信息进行依存句法分析和篇章级别的修辞关系分析,得到结构化文本信息的句法树和篇章关系;
文档模板生成步骤:将结构化文本信息、句法树和篇章关系输入到基于递归神经网络语言模型,生成文档模板。
进一步地,所述深层表示模型单元包含有句法分析器,用于对输入的结构化文本信息进行句法分析。
进一步地,所述深层表示模型单元包含有篇章分析模型,用于对输入的结构化文本信息进行篇章分析。
进一步地,所述篇章分析为宾州篇章语料库篇章分析或者修辞结构篇章树库篇章分析。
进一步地,输入到基于递归神经网络语言模型中执行如下步骤:
串频统计步骤:对文档中的字符串进行串频统计,并对字符串进行过滤;
深度学习步骤:对过滤后的所述字符串输入到段落编码器、双向长短时记忆网络和解码器网络中进行处理,生成字符串的段落向量;
句型模板自动生成步骤:调用已训练好的递归神经网络生成文档字符串的重要性评分;
篇章模板自动生成步骤:根据字符串的段落向量、句法树、篇章关系和重要性评分生成文档模板。
进一步地,所述对字符串进行过滤包括对出现频率低于预设值的字符串进行过滤。
本发明提供一种基于递归神经网络语言模型的文档模板自动生成系统,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明实施例任意一项所述方法的步骤。
区别于现有技术,上述技术方案通过基于深度学习和信息抽取技术实现文档模板的自动生成,采用基于递归神经网络的文档语言关联技术,构建电力文档模板的生成算法模型,实现了公文、通知、公告、运检工单等多种类型文档的模板自动生成,提高生成效率。
附图说明
图1为具体实施方式所述的技术路线示意图;
图2为具体实施方式所述的基于监督方法的句法分析框架;
图3为具体实施方式所述的卷积神经网络;
图4为具体实施方式所述的多层注意力神经网络;
图5为具体实施方式所述的段落编码器网络示意图;
图6为具体实施方式所述的篇章依存结构示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1到图6,本实施例提供一种基于递归神经网络语言模型的文档模板自动生成方法及系统,本发明可以用于不同领域文档模板的生成,以下以电力文档模板进行说明。在进行文档的模板生成时,会通过信息抽取步骤对原始文档的信息进行抽取。下面针对信息抽取步骤做具体的说明:
信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析,至于哪些信息是相关的,由预先设定的领域范围而定。
信息抽取的关键步骤包括:命名实体识别、句法分析、篇章分析与推理、知识获取等。
1)命名实体识别
命名实体是文本中基本的信息元素,是信息抽取最为基本的任务,实现从众多信息中表示并分离出相关的命名实体,这是正确理解文本的基础。
广义上讲,命名实体不仅是指显示世界中的具体的或抽象的实体,通常用专有名词表示,如人名、组织名、公司名、地名等,而且还可以包含时间、数量表达式等。命名实体识别的任务就是要判断一个文本串是否代表一个命名实体,并确定它的类别。
命名实体识别的方法主要有基于规则的方法和基于统计的方法,一般来说,基于规则的方法性能要优于基于统计的方法,但是这些规则往往依赖于具体语言、领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的计算语言学知识,并且可以在较短的时间内容,因此这类系统在移植到新的领域时可以减少大量的难度。优选将基于规则的方法和基于统计的方法进行有机结合。
2)句法分析
句法分析是在自然语言处理领域具有十分重要的地位,通过句法分析得到输入的某种结构比奥斯,如完整的分析树或分析树片段集合,是计算机理解自然语言的基础。
因为信息抽取通常只是对某一领域中数量有限的事件或关系进行抽取,并不需要得到句子的完整结构标识,加之完全分析技术的鲁棒性和时空开销都难以满足信息抽取系统的需求,所以优选的采用浅层句法分析技术。
浅层句法分析也叫句法分析或语块分析,它是与完全句法分析相对的,完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树,而浅层句法分析分析则不要求得到完全的句法分析树,它只要求识别其中的某些结构相对简单的成分(通常称为语块),如非递归的名词短语,动词短语等,这样就使句法分析的任务在某种程度上得到简化,同时也利于句法分析在大规模真实文本处理系统中迅速得到利用。
3)篇章分析与推理
一般来说,用户关心的时间和关系往往散布于文本的不同位置,其中涉及到的实体通常可以有很多不同的表达方式,并且还有许多事实信息隐含与文本之中。为了准确且完整地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。因此篇章分析、推理能力对信息抽取系统是必不可少的。
信息抽取只识别和保存与需求相关的文本片段,从中抽取出零碎的信息。在此过程中那些用以区分不同事件、不同实体的关键信息很可能会被遗漏。因此信息抽取中的篇章分析与推理是相当困难的。
4)知识获取
信息抽取系统需要强大的知识库的支撑。领域知识获取策略通常有两种:手工+辅助工具(图形用户接口);自动/半自动+人工校对。前者相对简单一些,人工工作仍然是主体,只是为移植者提供了一些图形化的辅助工具,以方便和加快领域知识获取过程。后者采用有监督的,无监督的或间接监督的机器学习技术从文本语料中自动或半自动获取额领域知识,人工干预程度较低。这两种策略是不完全对立的,只是自动化程度高低不同而已。某种意义上讲,第一种策略仍然是一种人工编制知识库的过程,知识瓶颈问题只是得到某种程度的缓解。第二种策略才能解决信息抽取系统知识获取瓶颈问题。
本实施例提供基于递归神经网络语言模型的文档语言关联步骤,分析公司协同办公系统中的公文,调度和运检业务中的工单票据及巡检报告等类型的电力文档写作规范,自动生成相应的文档模板。
电力文档模版是基于电力语料库及公司公文写作规范,形成符合公司标准的各类公文模版。文档模板生成步骤是在文档语料库基础上,利用递归神经网络语言模型及文档生成算法,通过文档模板生成(共性)步骤、句型模板自动生成步骤以及篇章模板自动生成步骤,来开展电力文档模板生成关键步骤的实施,最终能够自动生成符合电力业务标准的各类专业文档(公告、通知、请示、工单、巡检报告等)的模板。具体内容如下:
(1)基于自然语言处理步骤,实现文档模板生成(共性)步骤,对文档进行文档分析,包括通用的串频统计步骤、分词、句法分析步骤,其中串频统计步骤可采用Nagao算法,分词采用HMM模型,句法分析基于转移的依存分析步骤;
(2)句型模板自动生成步骤,需要对概念以及概念之间的关系进行分析,通过一套新的信息抽取步骤,获得实体、事件、关系等概念,并对这些概念进行归纳分类。在具体实施中要通过概念短语的识别步骤以及概念归类步骤,并基于不同粒度的词或句子在文中的重要性,以作为模板的构成成分;
(3)篇章模板自动生成步骤,针对电力领域挑选一些典型文档,通过专家和信息抽取步骤来构建一个篇章级模板库。在此基础上,利用模板库和概念归类步骤和篇章分析步骤进一步实现模板生成方法,并加以适当的人工干预。结合概念归类、篇章分析步骤、深度学习等步骤,将重要语句的内容凝练成文档模板。
1、实施例整体路线
本发明主要实现面向电力领域的语料库构建和文档模板自动生成方法,其中涉及到语料库收集和加工、信息抽取、深度学习等过程,充分结合电力领域文档的特点,首先基于自然语言处理技术实现面向电力领域文档的术语发现、概念发现、文档语料的短语发现。实现概念归类与归纳。而后结合递归神经网络、卷积神经网络与深度学习技术,构建文本不同粒度单元的深层表示模型。实现面向电力业务领域的句型模板自动生成与篇章模板自动生成。技术路线如图1所示:
(1)采用文档特征提取、深度机器学习,同时使用统计与规则相结合的方法,实现面向电力业务领域的语料库构建。
(2)在针对文档语料不同粒度单元的深层表示模型中,本发明对当前广泛使用的两种模型——主题模型和深度学习进行实现,这两种模型都挖掘出词和文章的有效低维表达。实现文本依存句法分析与篇章级别的修辞关系分析。
(3)采用基于递归神经网络、卷积神经网络与深度学习技术,通过电力文档的语言关联步骤,实现句型模板的自动生成、实现篇章模板的自动生成。
2、实施例方案
本发明整体的技术方案主要包括语料库构建方法、文本不同粒度单元的深层表示模型、基于递归神经网络语言模型的电力文档模板生成步骤,组合形成总体技术方案。
(1)语料库构建方法
语料库的主要工作包括有a)抽样和b)语料库的加工。在抽样中,语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡,要设定每一文类、体裁、语域、主题类型等的抽样比例。
乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性。目前,计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。决定语料代表性的主要因素是样本的抽样过程和语料量的大小。语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围,再就是确定语料的分层结构,进行分层抽样,如把语料按文类(如小说、新闻报道、科学论文、法律文书、诗歌、散文等)和信道(如书面语和口语)进行分层抽样。在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽样。
而在语料库的加工中,文本输入计算机后,一般需要进行一些加工,主要包括语料的标识和语料的赋码。
料库的标识:标识主要分两类:一类是对文本的性质和特征进行标识,另一类是对文本中的符号、格式等进行标识。如CLEC语料库标注了以下主要信息,包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一类标识是必要的,因为它们可以用来对文本进行必要的分类,为灵活提取文本进行各类目的业务需求提供便利,而且它们可以标注在文本开头或者作为另一个文件保存,丝毫不破坏语料的完整性和原始性。至于第二类标识可以视业务领域和应用的目的而定。以上实施例都需要保存一份未标识的原文本。
赋码:当前,语料库的赋码主要有两类:一类是词类码,又称语法码;另一类是句法码。
词类赋码就是对文本中每一个词标注词类属性,这项工作通常是在传统语法对词类的划分的基础上进行的,只是分类适应要求做得更细。如在LOB语料库中以NN代表普通名词的单数形式,以NNP代表以大写字母开头的普通名词的单数形式,如Englishman,以NNS代表普通名词的复数形式,如desks,以VB代表动词的基本形式,如write、see,以VBD代表动词的过去式,如wrote、saw,以VBG代表动词的现在分词形式,如reading、eating,以VBN代表动词的过去分词形式,如written、seen,等等。目前自动词类赋码技术已经基本成熟,对英语基本上可以通过计算机自动赋码,且赋码正确率在96%—97%左右。
句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋码系统为例,其句法赋码系统分三个步骤:第一步,对文本中每一个词赋以可能的句法码。该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。第二步,寻找一些特殊的语法码形式和句法片断,对句法结构作必要的修改。最后,完成每一可能的句法分析,并逐一赋值,从中选出可能性最大,即值最大的句法分析作为每句的分析结果。
本实施例提供一种领域语料库构建方法,如图1所示,包括如下步骤:术语发现步骤:在自然语料库中提取与领域相关的术语;自然语料库为现有的大语料库,如清华大学中文语料库,里面包含有语料分类,可以提取包含有业务领域关键字的分类的语料,这样可以降低语料库的大小。而后是概念发现步骤:从与领域相关的公文、单据和报告中,提取与领域有关的术语;与领域相关的公文、单据和报告可以从与领域有关的公司的办公系统内获取相关的材料。单据等可以通过OCR扫描识别的方式转换为文字而后再获取与领域有关的术语。与领域有关的术语可以是通过分词后,在不同文档(公文、单据或报告)多次出现的词汇,次数可以预先设定。
短语发现步骤:从预设的大规模文档(可以是上述的与领域相关的公文、单据和报告,也可以是与领域有关的其他材料,如报道、新闻等)中采用监督机器学习算法或半监督机器学习算法获取可以表达概念的短语集合,短语集合包含有短语。概念归类步骤:对短语集合的短语进行归类,将归类后的短语和提取后的术语作为语料库的语料存到数据库中。
以业务领域为电力业务领域进行举例说明,本发明可以构建面向电力业务领域的语料库,包括电力领域的术语发现、面向电力领域的概念发现、电力领域文档语料库的短语发现及概念的归类和归纳四个步骤。
1)电力领域的术语发现步骤
术语是指在特定专业领域中一般概念的指称。面向电力这个垂直领域中,不经过处理的原始语料进行词一级的分析时,未登录词是一个很大的问题。其中未登录词大多是该领域的术语,因此术语发现是一个需要迫切解决的问题。术语首先必须作为一个完整的语言单位出现,它必须具有出现频繁、结合紧密和使用自由的特点。其次术语作为专业领域中的一般概念,本身还应该有很强的领域性。术语提取的主要任务就是通过综合考察术语的上述特征,从待处理语料中提取出术语来。术语提取是自然语言处理的主要内容之一,在信息检索、信息提取、数据挖掘等领域都有广泛的应用。
术语提取的过程主要可以分为两个步骤:第一是判断一个符号串是否一个完整的语言单位;第二是判断这个语言单位是否特定领域的一般概念,即是否术语。可以将第一个步骤称为单元度的计算,第二个步骤称为领域度的计算。
在单元度的计算方面,一般是通过统计或者规则的方法来实现单元度的计算。基本思路是首先选取N元语法模型,以N为单位对原始语料进行统计,得到语料串的位置、频率和共现信息,再利用互信息、最大似然估计、X2等方法来对统计得到的信息进行计算,并进行排序得到初步的术语候选。在此基础之上,加入适当的知识和规则,对处理结果进行过滤,最终得到作为完整语法单位出现的术语候选。
术语提取的第一阶段单元度计算的可以采用现有的单元度计算方式,现有的单元度计算方式无论是在算法的效果还是效率等方面,都已经取得了较为令人满意的结果。然而单元度是从语言完整性的角度来判定一个字符串是否完整的语言单位,还不能作为衡量是否术语的唯一指标。在电力领域语料中,一个完整的语言单位不一定是一个领域术语。因此在满足单元度的基础上,需要从领域度的角度进一步考察。
与术语领域度计算相关的工作主要有利用信息检索领域广泛采用的TF-IDF方法以及香港城市大学揭春雨博士提出的rank相减方法等。TF-IDF的基本原则是一个词语是否术语的可能性正比于它出现的频率,反比于它出现的文档数。针对每一个语言单位,统计其出现的频率和出现的文档数,作为衡量是否术语的要素。而揭博士提出的rank相减的基本思想则是词汇在不同领域语料中的rank值相差越大,说明词汇的领域性越强。对于在不同领域中出现的相同词汇,计算待处理语料和背景语料中的rank之差,并进行排序则得到候选术语列表。本发明通过综合利用领域部件信息和领域语料库的分类信息,借助机器学习方法实现了领域度的计算方法。最终实现单元度和领域度相结合的术语自动提取。
2)面向电力领域的概念发现步骤
在项目实施中,本发明首先从公司协同办公系统中的大量公文,调度和运检业务中的工单票据及巡检报告等类型的电力文,收集整理,并选用一定的格式对文档不同粒度的文本表示加上适当的标签,这个语料称为领域文档语料库。由于领域概念通常在文本中以短语形式出现,根据该领域论文库发现概念短语以及短语间的关系,存储在电力领域知识库中。
3)电力领域文档语料库的短语发现步骤
短语是概念的表现形式,关键在于如何准确地从领域语料库中获取能表达概念的短语。借鉴信息提取中的实体、事件和关系等概念,本发明主要基于发现表达实体和事件的名词短语和动词短语。目前已有一些短语获取的基础,如组块分析技术、关键词识别技术。结合科技文献的特点,从大规模文档中获取各种结构和语言特征,采用监督机器学习(如SVM(支持向量机算法)、
Figure BDA0002839902250000111
Bayes(朴素贝叶斯)、ME等)或半监督机器学习算法(如流型学习、Co-training(协同训练算法)等)获取可以表达概念的短语集合。
4)概念的归类和归纳步骤
获得概念短语之后,本发明实现对短语进行归纳分类,希望把每个短语归入某种概念类型,其中给出的可能概念类型,如Method,Data,Event,Process等,这些类型需要和领域专家进一步进行确定。面对新的领域,目前没有一套成型的概念结构定义,本发明采用聚类技术对概念短语进行聚类,并加以人工干预对概念类型进行命名。实体概念和事件概念直接出现在文本中,而实体与实体之间的关系隐含在文本之后,关系也可以看做一种概念,本发明在实体和事件概念归类之后,制定一些利用概念类型的规则,对关系概念进行归类,再加以人工调整。获得实体、事件、关系类型框架之后,对于新的语料进行信息提取时,只需要按照分类任务进行,可以参考传统信息抽取的命名实体识别、事件识别和关系识别的方法和技术。具体地,所述概念归类步骤还包括:根据预设的基于概念归类规则的正则表达式,对短语进行归类。首先预设好不同类别的不同的正则表达式,对于符合该表达式的短语,则将其归到该类别。则所述语料包括短语和每个短语对应的类别。
通过语料库的语料,可以用于文档的分类。如上述的公文、单据和报告。由于对应的不同的文档具有不同的短语以及短语类别,则对于一个输入的文档,如果具有多个语料,而后根据语料中短语的类别(文档领域),就可以对文档进行分类。实现高效的文档分类。而后分类后的文档可以进一步提取其中的短语和类别,扩充领域语料,又可以自动提高扩充的效率和准确程度。
(2)文本不同粒度单元的深层表示模型
文本不同粒度单元的深层表示模型,是从文本的依存句法分析、篇章级别的修辞关系分析两个方面对文本表示模型进行处理。
1)文本的依存句法分析
文档句子层级的分析目前常用的分析结构为依存句法分析。在依存句法中:句法结构由词汇组成,词汇之间由二元非对称关系连接起来,这些关系叫做依存关系。
通常采用的分析方法为基于监督方法的句法分析,其一般性框架为图2所示。首先,句法分析系统包含一个学习算法,其输入为一个训练集合,也就是已标注好的正确的句法树库,输出为一个句法分析模型。这个输出句法分析模型的过程通常被称为训练过程或学习过程。句法模型中包含有参数的设置、特征的模板等。学习过程是个一般性的过程,在具体应用中可以使用各种机器学习算法来完成,同时以不同的数据为输入,就会输出不同的句法分析模型。
学习到的句法分析模型是句法分析器的一部分。句法分析器包括句法模型和推理算法,有时推理算法也叫做分析算法,即使用句法模型进行句法分析。当输入一个新句子的时候,推理算法调用句法模型中的参数并进行推理以生成一个句法树。在依存句法分析的方法中,根据将依存分析过程分解方式的不同,通常分为三种方法:
基于动态规划的方法:基于动态规划的方法是句法分析中普遍采用的方法,在传统短语结构句法分析问题中通常使用的CKY算法就是一种动态规划方法。将依存句法分析问题用动态规划的方法求解的思路是:将依存图中的节点看作短语结构中的节点,从而可应用上下文无关文法中成熟的CKY算法求解。
基于决策的方法:基于决策的方法是将依存分析过程分解成决策序列。决策式句法分析方法是将分析过程看成是一步步作用于输入句子之上的分析动作的序列,分析动作主要是建立词和词之间的依存关系。由于分析动作的集合只有有限个元素,可以训练出关于分析动作的分类器。在测试时,由训练出的分类器来决定分析动作。基于决策式的方法模仿人类的认知模型,从左至右分析句子,对词间关系作出决策,并动态的建立这种关系。这种方法具有高时效和简单性的特点。
基于约束满足的方法:基于约束满足的方法是将依存句法分析过程看成是一个去除过程,也就是持续去除掉不满足约束的依存结构,直到剩下一个有效的依存结构。从非受限文本的依存句法分析的角度来说,基于约束满足的方法存在两个问题。第一个问题是对于有的输入句子,有可能不存在能够满足所有约束的依存分析树,导致分析失败,这是依存句法分析的鲁棒性问题。第二个问题是有可能存在多个依存分析树满足所有的约束,这又带来了结构消歧的问题。基于约束满足的方法总体上是一个NP完全问题,要得出正确的依存分析结果的计算量往往是难以控制的,设计快速有效的算法是这个方法面临的首要问题。
本发明在具体实施中可以尝试三种方法进行电力领域文本的句法分析,由于电力领域缺少训练文本,可以先利用通用领域的训练语料进行训练,辅以人工方法进行校对,在语料积累到一定规模之后,再进一步优化句法分析器,形成一个良性循环,提高句法分析的性能。
2)篇章级别的修辞关系分析
篇章关系分析旨在从篇章的粒度上分析自然语言文本内部文本单元之间的语义关系。篇章关系的理论试图从不同的角度对这种组合及其背后的规律进行描述。这种规律被清楚地描述出来,不管是规则还是统计方法,就可以得到更高层次的文本单元的逻辑关系,可以为自然语言处理中的其他任务提供方便,比如自动组稿、摘要等。通过篇章关系分析,可以实现句子以上各语言单位的关系的结构化,达到对文本语义更深层次的理解。相对于显式篇章关系识别,隐式篇章关系识别由于缺少可以直接作为特征的显式篇章连接词,仍然是一个富有挑战性的问题。本发明利用深度神经网络强大的表达学习能力,在对数据进行观察和分析的基础上,针对隐式篇章关系分析的任务提出了两种模型,并验证了其有效性。首先讨论了篇章关系分析中多种篇章标注体系并存的现象,如宾州篇章语料库(PDTB)和修辞结构篇章树库(RST-DT)的标注体系。通过分析这些标注体系的区别与联系,提出了使用多任务学习模型将各个篇章标注体系下的篇章关系实例建立联系的想法。这里通过PDTB的隐式和显式篇章关系分析、RST-DT的篇章关系分析、通用语料库的连接词预测四类篇章关系分类任务,并针对篇章关系分类任务的特点设计出了多任务卷积神经网络(Multi-Task Convolutional Neural Network),如图3所示。通过二维卷积神经网络建模论元对中的单词窗口对,并将其表达为特征向量。再利用多任务神经网络的共享表达和独有表达,在不带入噪声的前提下,将多个任务进行了结合,使其可以相互学习和优化。
其次,由于传统篇章关系识别系统中采用的仅通过单遍扫描文本来获取特征,复杂的语言分析任务需要多遍地阅读文本。可以通过模仿人们重复阅读(Repeated Reading)的行为模式,提出了基于重复阅读论元对来得到更深层的特征向量表示的方法。本发明设计了多层注意力神经网络(Neural Network with Multi-Level Attention),如图4所示。首先利用双向的长短期记忆力神经网络得到论元中的单词的表达,再堆叠多层的注意力层,逐渐地从论元中抽取重要的内容。同时,还引入了外部记忆来记录上一层注意力层得到的信息,并用来指导当层注意力层的行为。
(3)基于递归神经网络语言模型的电力文档模板生成步骤
基于递归神经网络语言模型的电力文档模板生成步骤,主要包括串频统计步骤、深度学习步骤、句型模板自动生成步骤、篇章模板自动生成步骤四个方面。
1)串频统计步骤
通常文档模板会集中在一些频度较高的字符串上,因此利用高效的串频统计方法挖掘重复模式。串频统计方法即为统计在文本中出现的所有字符串频率。串频统计方法的使用范围很广,所有类型的文本都可用此方法处理,而且伴随候选短语提取可得到词频,以供下一步骤特征计算使用。但其缺点也很明显,由于串频统计方法包括了文中出现的大部分字符串,具有很大的噪音。在此方法的实现中,一般采用Nagao串频统计方法。1994年东京大学的长尾真(Makoto Nagao)提出了一种串频统计算法。这种算法的核心其实就是对文本中的射串进行排序构成一个有序射串数组。算法的主要思想是将语料库中的文本C(包括字母、汉字、标点、段落分隔标识、文件分隔标识等所有字符)看成一个很长的字符串读入内存以下用Ci表示C中第i个字符。
在串频统计后,要对所有得到的字符串进行过滤。一般采用以下过滤规则:
(1)出现频率为1的字符串需过滤;
(2)以前缀停用词开头和以后缀停用词结尾的词串需过滤;
(3)字符串中标号:括号、引号、书名号不能匹配者需过滤。
2)深度学习步骤
为了通过文本的深层语义来实现相同语义的模板表示。本发明采用深度学习技术对文本进行建模,其中包括卷积神经网络模型或双向长短时记忆模型(LSTM,LongShortTerm Memory)。
近年来,以卷积神经网络为代表的深度学习模型在特征学习方面取得了良好的效果。采用了卷积神经网络来将一个文本编码成一个低维稠密向量,从另一个角度来看,卷积神经网络扮演了一个文本特征抽取器的角色。卷积神经网络的输入是一个词序列,每个词w通过矩阵运算被映射到一个词向量xw。卷积神经网络通常包含三个顺序操作:卷积、非线性变换、抽样。
抽样层是为了解决两个问题:一个是引入局部平移不变性的模型先验,输入的局部平移对于输出的影响被减弱,这对于时序数据有益,也可以减少自由参数的数量;二是处理变长输入数据的问题,文本数据通常是长度不固定的,通过最大值抽样等方式可以得到一个固定长度的输出,而不需要关心输入数据的维度。常见的抽样方式有最大值抽样、最小值抽样、平均值抽样、范数抽样、动态k最大值抽样等。由于最大值抽样有着良好的直观解释,它对应于把特征图谱中最显著的特征抽取出来,因此应用广泛。
长短时记忆网络是包含阀门机制的循环神经网络,它有许多不同的变种,常见的一个变种是只有两个门单元的门控循环神经网络(Gated Recurrent Unit,GRU)。一种比较常用的包含三个门的结构:输入门,遗忘门和输出门,同时还有一个记忆单元,其中时间戳跟序列中的位置相对应。
与上述单向的长短时记忆网络相比,双向长短时记忆网络能够有效捕捉来自序列两个方向的信息,从结构上看,双向长短时记忆网络可以视为前向长短时记忆网络和后向长短时记忆网络的层叠;从数学上看,双向长短时记忆网络的输出向量是两个单向长短时记忆网络的拼接结果。整体的网络结构如图5所示,段落编码器网络、双向长短时记忆网络和解码器网络的参数是通过联合学习得到的。段落编码器的输出对应于一个段落的向量表示,该向量作为双向长短时记忆网络输入的一部分。
3)句型模板自动生成步骤
本发明提供一种基于递归神经网络的排序框架,称为R2N2(Ranking uponRecursive Neural Networks)。R2N2将句子和词语重要性排序任务视为一个层次回归问题,可以同时评测句法树中所有非终止节点的重要性,该过程用递归神经网络建模。递归神经网络拥有强大的学习能力,在自然语言处理中得到广泛应用。通过从词到句的指导信息,递归神经网络自动学习了排序特征的合并。这就能够同时利用词级别和句子级别的指导信息。随后,以词级别的人工特征向量作为输入,使用递归神经网络自动学习句法树上每个非终结节点的排序特征。紧接着根据这些学习到的特征和其他文本特征,本发明采用了层次回归对重要性进行评分。最后,利用句子级别和词级别的重要性分数有效地组合成模板。
模型的输入是一个句子的二叉句法树。本发明使用Stanford CoreNLP来将句子解析和转换为二叉句法树。句法树提供了从词到句子的有意义的合并过程。随后,句法树上每个非终止节点的重要性s(n)由二元组的重合率(移除停用词)进行计算。对于前终止节点,由于它同一个词相关联,用词重回率(以R1表示)进行打分。由此,可以同时利用词级别和句子级别的打分,并利用贪心算法,设计出一种拥有最优解的词和句子选择方法,作为模板构造的基础。
4)篇章模板自动生成步骤
本发明针对电力领域文献定义一套篇章标注规范,请领域专家标注一定数量的文献。本发明以段落为单位,实现语句之间的篇章关系。为了直接反映篇章单元之间的关系,以及提高篇章分析效率。
下面给出篇章依存结构的形式化定义,假设文本T包括n+1个篇章单元,即:T=e0e1 e2…en。R={r1,r2,…,rm}表示两个篇章单元可能的功能关系集合。篇章依存图表示为G=<V,A>,其中V表示节点集合,A表示有向弧。则篇章依存图满足以下条件:
(1)V={e0,e1,e2,…en};
(2)
Figure BDA0002839902250000171
其中<ei,r,ej>∈A表示了一条从核心单元ei到从属单元ej的弧,关系为r;
(3)如果<ei,r,ej>∈A,则<ek,r’,
Figure BDA0002839902250000172
其中k≠i;
(4)如果<ei,r,ej>∈A,则<ei,r’,
Figure BDA0002839902250000173
其中r’≠r.
第三条保证了每个EDU有且只有一个核心,第四条说明两个EDU之间只存在一种篇章关系。图6示例了中6个句子的篇章依存结构图。采用篇章依存结构比通常使用的生成式修辞结构表达简单,不需要保留中间节点,但又基本保持了所有信息,也相对提高标注效率。可以用简单的三元组给出篇章结构的表示,如表1。
表1:篇章依存结构标注示例
语句 核心句 篇章关系
1 3 因果
2 1 对比
3 5 因果
4 3 说明
5 Root
6 5 举例
在本发明实施中,具体需要通过以下几个方面的步骤:
针对电力领域定义一套篇章关系标签,可参考现有篇章语料库RST-DT和PDTB的篇章关系,对其中的关系进行取舍,如以上的因果、对比、举例、说明是论文中常用的篇章关系。
收集和整理电力领域文献中常用的连接词,可能使用的连接词基本和普通文本的相差不多,适当进行调整,获取一个如表所示的知识库。
表2:篇章关系及连接词示例
Figure BDA0002839902250000181
利用依存分析技术进行篇章依存分析,基于最大生成树的思想利用Eisner思想和Chu-Liu-Edmonds算法进行依存分析,但该工作的问题在于特征工程,需要人工去选择合适的特征。在本发明中,将利用深度学习算法自动学习篇章分析过程中所需特征。通过篇章关系的识别,获得篇章级的文档模板。
本发明还提供一种基于递归神经网络语言模型的文档模板自动生成系统,包括存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本实施例的存储介质可以是设置在电子设备中的存储介质,电子设备可以读取存储介质的内容并实现本发明的效果。存储介质还可以是单独的存储介质,将该存储介质与电子设备连接,电子设备就可以读取存储介质里的内容并实现本发明的方法步骤。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (7)

1.一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于,包括如下步骤:
语料库建立步骤:从预设的语料库文档中抽取语料并建立语料库;根据语料库的语料,对多个相同类型的文档进行信息抽取,抽取出与文档相关的结构化文本信息,结构化文本信息包含有字符串;
文本深层分析步骤:调用深层表示模型单元,对结构化文本信息进行依存句法分析和篇章级别的修辞关系分析,得到结构化文本信息的句法树和篇章关系;
文档模板生成步骤:将结构化文本信息、句法树和篇章关系输入到基于递归神经网络语言模型,生成文档模板。
2.根据权利要求1所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于:所述深层表示模型单元包含有句法分析器,用于对输入的结构化文本信息进行句法分析。
3.根据权利要求1所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于:所述深层表示模型单元包含有篇章分析模型,用于对输入的结构化文本信息进行篇章分析。
4.根据权利要求3所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于:所述篇章分析为宾州篇章语料库篇章分析或者修辞结构篇章树库篇章分析。
5.根据权利要求1所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于,输入到基于递归神经网络语言模型中执行如下步骤:
串频统计步骤:对文档中的字符串进行串频统计,并对字符串进行过滤;
深度学习步骤:对过滤后的所述字符串输入到段落编码器、双向长短时记忆网络和解码器网络中进行处理,生成字符串的段落向量;
句型模板自动生成步骤:调用已训练好的递归神经网络生成文档字符串的重要性评分;
篇章模板自动生成步骤:根据字符串的段落向量、句法树、篇章关系和重要性评分生成文档模板。
6.根据权利要求5所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于:所述对字符串进行过滤包括对出现频率低于预设值的字符串进行过滤。
7.一种基于递归神经网络语言模型的文档模板自动生成系统,其特征在于:包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到6任意一项所述方法的步骤。
CN202011488032.2A 2020-12-16 2020-12-16 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 Active CN112541337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011488032.2A CN112541337B (zh) 2020-12-16 2020-12-16 一种基于递归神经网络语言模型的文档模板自动生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011488032.2A CN112541337B (zh) 2020-12-16 2020-12-16 一种基于递归神经网络语言模型的文档模板自动生成方法及系统

Publications (2)

Publication Number Publication Date
CN112541337A true CN112541337A (zh) 2021-03-23
CN112541337B CN112541337B (zh) 2022-05-24

Family

ID=75018247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011488032.2A Active CN112541337B (zh) 2020-12-16 2020-12-16 一种基于递归神经网络语言模型的文档模板自动生成方法及系统

Country Status (1)

Country Link
CN (1) CN112541337B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704383A (zh) * 2021-08-26 2021-11-26 北京智通云联科技有限公司 篇章语义标注的方法、系统及装置
CN114610954A (zh) * 2022-03-09 2022-06-10 上海弘玑信息技术有限公司 信息处理方法及装置、存储介质和电子设备
CN114707520A (zh) * 2022-06-06 2022-07-05 天津大学 一种面向会话的语义依存分析方法及装置
CN116432752A (zh) * 2023-04-27 2023-07-14 华中科技大学 一种隐式篇章关系识别模型的构建方法及其应用
CN117807963A (zh) * 2024-03-01 2024-04-02 之江实验室 一种指定领域的文本生成方法及装置
CN117807963B (zh) * 2024-03-01 2024-04-30 之江实验室 一种指定领域的文本生成方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170657A (zh) * 2018-01-04 2018-06-15 陆丽娜 一种自然语言长文本生成方法
EP3343460A1 (en) * 2016-12-31 2018-07-04 INTEL Corporation Hardware accelerator template and design framework for implementing recurrent neural networks
CN108959349A (zh) * 2018-04-23 2018-12-07 厦门快商通信息技术有限公司 一种财务审计询证系统
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109299442A (zh) * 2018-10-08 2019-02-01 苏州大学 汉语篇章主次关系识别方法和系统
CN109710907A (zh) * 2018-12-20 2019-05-03 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
US20190138636A1 (en) * 2017-11-03 2019-05-09 International Business Machines Corporation Performing personality profile automated measurements
CN110209838A (zh) * 2019-06-10 2019-09-06 广东工业大学 一种文本模板获取方法及相关装置
CN110795923A (zh) * 2019-11-01 2020-02-14 达而观信息科技(上海)有限公司 基于自然语言处理的技术文档自动生成系统及生成方法
US20200134009A1 (en) * 2018-10-31 2020-04-30 Microsoft Technology Licensing, Llc Writing personalized electronic messages using template-based and machine-learning approaches

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3343460A1 (en) * 2016-12-31 2018-07-04 INTEL Corporation Hardware accelerator template and design framework for implementing recurrent neural networks
US20190138636A1 (en) * 2017-11-03 2019-05-09 International Business Machines Corporation Performing personality profile automated measurements
CN108170657A (zh) * 2018-01-04 2018-06-15 陆丽娜 一种自然语言长文本生成方法
CN108959349A (zh) * 2018-04-23 2018-12-07 厦门快商通信息技术有限公司 一种财务审计询证系统
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109299442A (zh) * 2018-10-08 2019-02-01 苏州大学 汉语篇章主次关系识别方法和系统
US20200134009A1 (en) * 2018-10-31 2020-04-30 Microsoft Technology Licensing, Llc Writing personalized electronic messages using template-based and machine-learning approaches
CN109710907A (zh) * 2018-12-20 2019-05-03 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
CN110209838A (zh) * 2019-06-10 2019-09-06 广东工业大学 一种文本模板获取方法及相关装置
CN110795923A (zh) * 2019-11-01 2020-02-14 达而观信息科技(上海)有限公司 基于自然语言处理的技术文档自动生成系统及生成方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704383A (zh) * 2021-08-26 2021-11-26 北京智通云联科技有限公司 篇章语义标注的方法、系统及装置
CN114610954A (zh) * 2022-03-09 2022-06-10 上海弘玑信息技术有限公司 信息处理方法及装置、存储介质和电子设备
CN114610954B (zh) * 2022-03-09 2022-11-25 上海弘玑信息技术有限公司 信息处理方法及装置、存储介质和电子设备
CN114707520A (zh) * 2022-06-06 2022-07-05 天津大学 一种面向会话的语义依存分析方法及装置
CN114707520B (zh) * 2022-06-06 2022-09-13 天津大学 一种面向会话的语义依存分析方法及装置
CN116432752A (zh) * 2023-04-27 2023-07-14 华中科技大学 一种隐式篇章关系识别模型的构建方法及其应用
CN116432752B (zh) * 2023-04-27 2024-02-02 华中科技大学 一种隐式篇章关系识别模型的构建方法及其应用
CN117807963A (zh) * 2024-03-01 2024-04-02 之江实验室 一种指定领域的文本生成方法及装置
CN117807963B (zh) * 2024-03-01 2024-04-30 之江实验室 一种指定领域的文本生成方法及装置

Also Published As

Publication number Publication date
CN112541337B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN108287822B (zh) 一种中文相似问题生成系统与方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN110298033B (zh) 关键词语料标注训练提取系统
CN111209412B (zh) 一种循环更新迭代的期刊文献知识图谱构建方法
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN110609983B (zh) 一种政策文件结构化分解方法
CN109062904B (zh) 逻辑谓词提取方法和装置
CN111061882A (zh) 一种知识图谱构建方法
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
US20200311345A1 (en) System and method for language-independent contextual embedding
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
Behzadi Natural language processing and machine learning: A review
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN116483314A (zh) 一种自动化智能活动图生成方法
Akhter et al. A Study of Implementation of Deep Learning Techniques for Text Summarization
Sodhar et al. Chapter-1 Natural Language Processing: Applications, Techniques and Challenges
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN111241827B (zh) 一种基于句子检索模式的属性抽取方法
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Le-Hong et al. Vietnamese semantic role labelling
Shahri et al. ML REVOLUTION IN NLP: AReview OF MACHINE LEARNING TECHNIQUES IN NATURAL LANGUAGE PROCESSING
Yang Application of Event Semantic Model Analysis in Machine Translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant