CN112559734B - 简报生成方法、装置、电子设备及计算机可读存储介质 - Google Patents
简报生成方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112559734B CN112559734B CN201910919965.3A CN201910919965A CN112559734B CN 112559734 B CN112559734 B CN 112559734B CN 201910919965 A CN201910919965 A CN 201910919965A CN 112559734 B CN112559734 B CN 112559734B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- concept
- generating
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 63
- 239000013598 vector Substances 0.000 claims description 44
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000002910 structure generation Methods 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000008520 organization Effects 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000903 blocking effect Effects 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000004927 fusion Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000011160 research Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000005295 random walk Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 208000012868 Overgrowth Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002520 smart material Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例涉及信息处理技术领域,公开了一种简报生成方法、装置、电子设备及计算机可读存储介质,其中,简报生成方法包括:确定待生成简报的文本的文本特征,并根据文本特征,通过概念词分类系统确定文本的各个概念词,以及通过概念词关系分类系统,确定文本的各个概念词之间的关联关系;接着根据知识网络与文本的篇章结构,生成树状知识网络模型,知识网络是根据各个概念词以及各个概念词之间的关联关系生成的;接着基于三方深度网络表示TriDNR算法、Node2Vec算法及TransE模型,根据树状知识网络模型,生成网络表示学习模型;接着根据网络表示学习模型与树状知识网络模型,生成简报。
Description
技术领域
本申请实施例涉及信息处理技术领域,具体而言,本申请涉及一种简报生成方法、装置、电子设备及计算机可读存储介质。
背景技术
简报是传递某方面信息的简短的内部小报,具有汇报性、交流性和指导性特点的简短、灵活、快捷的书面形式。简报是信息类公文中最重要、最常用的一种形式,起到下请上报、上情下达、互通情况和交流信息的作用。
自动生成简报在情报学领域应用广泛,由于文本摘要和简报的本质都是在给定主题范围内,组织和呈现重要的内容,所以目前的简报基本都是通过文本摘要生成技术来生成简报。本申请的发明人在具体实施过程中,发现:通过文本摘要生成技术来生成简报的方式,缺乏对文本内容的深层语义挖掘,例如,如何确定文本中的大量术语概念,又例如,如何建立术语概念间的联系以及如何保证生成的简报的知识完整性等;而且,现有的简报生成方式大多都偏向于内容生成,忽略了结构生成的重要性。
发明内容
本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
一方面,提供了一种简报生成方法,包括:
确定待生成简报的文本的文本特征,并根据文本特征,通过概念词分类系统确定文本的各个概念词,以及通过概念词关系分类系统,确定文本的各个概念词之间的关联关系;
根据知识网络与文本的篇章结构,生成树状知识网络模型,知识网络是根据各个概念词以及各个概念词之间的关联关系生成的;
基于三方深度网络表示TriDNR算法、Node2Vec算法及TransE模型,根据树状知识网络模型,生成网络表示学习模型;
根据网络表示学习模型与树状知识网络模型,生成简报。
具体地,在根据文本特征,通过概念词分类系统确定文本的各个概念词之前,还包括:
根据概念词典,基于双向长短期记忆神经网络和条件随机场模型,生成概念词分类系统;
概念词分类系统包括以下至少一种类别:
组织机构类别;国家区域类别;政策类别;资金类别;专业术语类别;专业领域类别;能源词汇类别;设备信息类别;人物名称类别;产品信息类别。
具体地,根据文本特征,通过概念词关系分类系统,确定文本的各个概念词之间的关联关系,包括:
根据文本特征确定各个概念词的基本特征与句法语义特征;
基于概念词关系分类系统,通过基于主动学习的支持向量机关系分类模型,根据基本特征与句法语义特征,确定文本的各个概念词之间的关联关系;
基本特征包括以下至少一项:概念词类别;邻居词汇;与邻居概念词间的各个词的词性;与邻居概念词间的上下文信息;
句法语义特征包括依存句法分析特征与语义角色分析特征中的至少一项;
关联关系包括以下至少一种:
推进关系;融合关系;阻碍关系;包含关系;同义关系。
具体地,根据各个概念词以及各个概念词之间的关联关系生成知识网络,包括:
根据各个概念词的集合以及各个概念词之间的关联关系的集合,生成JS对象简谱JSON格式的概念词集合;
根据知识网络与文本的篇章结构,生成树状知识网络模型,包括:
根据文本的文本主题名称、各个章节的章节名称、文本主题名称与各个章节名称之间的层级关系以及各个章节名称之间的层级关系,生成文本的篇章结构;
根据JSON格式的概念词集合与文本的篇章结构,生成树状知识网络模型。
具体地,基于TriDNR算法、Node2Vec算法及TransE模型,根据树状知识网络模型,生成网络表示学习模型,包括:
基于TriDNR算法与Node2Vec算法,确定树状知识网络模型中各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息;
基于TransE模型,确定树状知识网络模型中各个概念词节点之间边的标签信息;
根据各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息以及各个概念词节点之间边的标签信息,生成网络表示学习模型。
具体地,根据网络表示学习模型与树状知识网络模型,生成简报,包括:
基于树状知识网络模型,根据Doc2vec算法,确定文本的各个章节的节点表示;
根据网络表示学习模型与各个章节的节点表示,确定文本的概念词节点网络表示向量表;
根据概念词节点网络表示向量表生成简报。
具体地,根据概念词节点网络表示向量表生成简报,包括:
根据概念词节点网络表示向量表,确定待生成的简报的篇章结构以及获取预定数量的文本内容;
将预定数量的文本内容添加到篇章结构的相应位置,生成简报。
具体地,根据概念词节点网络表示向量表,获取预定数量的文本内容,包括:
基于TextRank算法的抽取式文本生成方式与循环神经网络RNN的生成式文本生成方式,获取预定数量的文本内容。
一方面,提供了一种简报生成装置,包括:
确定模块,用于确定待生成简报的文本的文本特征,并根据文本特征,通过概念词分类系统确定文本的各个概念词,以及通过概念词关系分类系统,确定文本的各个概念词之间的关联关系;
第一生成模块,用于根据知识网络与文本的篇章结构,生成树状知识网络模型,知识网络是根据各个概念词以及各个概念词之间的关联关系生成的;
第二生成模块,基于三方深度网络表示TriDNR算法、Node2Vec算法及TransE模型,根据树状知识网络模型,生成网络表示学习模型;
第三生成模块,用于根据网络表示学习模型与树状知识网络模型,生成简报。
具体地,还包括第四生成模块;
第四生成模块,用于根据概念词典,基于双向长短期记忆神经网络和条件随机场模型,生成概念词分类系统;
概念词分类系统包括以下至少一种类别:
组织机构类别;国家区域类别;政策类别;资金类别;专业术语类别;专业领域类别;能源词汇类别;设备信息类别;人物名称类别;产品信息类别。
具体地,确定模块包括特征确定子模块与关联关系确定子模块;
特征确定子模块,用于根据文本特征确定各个概念词的基本特征与句法语义特征;
关联关系确定子模块,用于基于概念词关系分类系统,通过基于主动学习的支持向量机关系分类模型,根据基本特征与句法语义特征,确定文本的各个概念词之间的关联关系;
基本特征包括以下至少一项:概念词类别;邻居词汇;与邻居概念词间的各个词的词性;与邻居概念词间的上下文信息;
句法语义特征包括依存句法分析特征与语义角色分析特征中的至少一项;
关联关系包括以下至少一种:
推进关系;融合关系;阻碍关系;包含关系;同义关系。
具体地,第一生成模块包括篇章结构生成子模块与模型生成子模块;
第一生成模块具体用于根据各个概念词的集合以及各个概念词之间的关联关系的集合,生成JS对象简谱JSON格式的概念词集合;
篇章结构生成子模块,用于根据文本的文本主题名称、各个章节的章节名称、文本主题名称与各个章节名称之间的层级关系以及各个章节名称之间的层级关系,生成文本的篇章结构;
第一模型生成子模块,用于根据JSON格式的概念词集合与文本的篇章结构,生成树状知识网络模型。
具体地,第二生成模块包括第一确定子模块、第二确定子模块与第二模型生成子模块;
第一确定子模块,用于基于TriDNR算法与Node2Vec算法,确定树状知识网络模型中各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息;
第二确定子模块,用于基于TransE模型,确定树状知识网络模型中各个概念词节点之间边的标签信息;
第二模型生成子模块,用于根据各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息以及各个概念词节点之间边的标签信息,生成网络表示学习模型。
具体地,第三生成模块包括第三确定子模块、第四确定子模块与简报生成子模块;
第三确定子模块,用于基于树状知识网络模型,根据Doc2vec算法,确定文本的各个章节的节点表示;
第四确定子模块,用于根据网络表示学习模型与各个章节的节点表示,确定文本的概念词节点网络表示向量表;
简报生成子模块,用于根据概念词节点网络表示向量表生成简报。
具体地,简报生成子模块具体用于根据概念词节点网络表示向量表,确定待生成的简报的篇章结构以及获取预定数量的文本内容;以及用于将预定数量的文本内容添加到篇章结构的相应位置,生成简报。
具体地,简报生成子模块具体用于基于TextRank算法的抽取式文本生成方式与循环神经网络RNN的生成式文本生成方式,获取预定数量的文本内容。
一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的简报生成方法。
一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的简报生成方法。
本申请实施例提供的简报生成方法,通过文本的篇章结构、根据文本的各个概念词与各个概念词之间的关联关系生成的知识网络,生成树状知识网络模型,不仅对文本的深层语义进行了深刻挖掘,而且充分考虑了篇章结构生成的重要性,从而确保了对文本中大量术语概念的准确标引以及术语概念间的关系联系的准确建立,为后续生成知识完整的简报提供了前提保障,通过根据三方深度网络表示TriDNR算法、Node2Vec算法、TransE模型以及树状知识网络模型,生成网络表示学习模型,并根据网络表示学习模型与树状知识网络模型,生成简报,从而可以针对文本的写作特点,生成能够全面覆盖文本的原文内容的简报。
本申请实施例附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的简报生成方法的流程示意图;
图2为本申请实施例的输入信息、BI-LSTM及CRF之间的连接关系示意图;
图3为本申请实施例的依存句法分析特征的分析过程示意图;
图4为本申请实施例的语义角色分析特征的示意图;
图5为本申请实施例的JSON格式的概念词集合示意图;
图6为本申请实施例的树状知识网络模型的示意图;
图7为本申请实施例的网络表示学习模型图的示意图;
图8为本申请实施例的通过广度优先策略来获得每个节点的微观视角示意图;
图9为本申请实施例的生成科技简报的过程示意图;
图10为本申请实施例的简报生成装置的基本结构示意图;
图11为本申请实施例的简报生成装置的详细结构示意图;
图12为本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的简报生成方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请一个实施例提供了一种简报生成方法,该方法由计算机设备执行,该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。
如图1所示,该方法包括:
步骤S110,确定待生成简报的文本的文本特征,并根据文本特征,通过概念词分类系统确定文本的各个概念词,以及通过概念词关系分类系统,确定文本的各个概念词之间的关联关系;步骤S120,根据知识网络与文本的篇章结构,生成树状知识网络模型,知识网络是根据各个概念词以及各个概念词之间的关联关系生成的;步骤S130,基于三方深度网络表示TriDNR算法、Node2Vec算法及TransE模型,根据树状知识网络模型,生成网络表示学习模型;步骤S140,根据网络表示学习模型与树状知识网络模型,生成简报。
本申请实施例提供的简报生成方法,通过文本的篇章结构、根据文本的各个概念词与各个概念词之间的关联关系生成的知识网络,生成树状知识网络模型,不仅对文本的深层语义进行了深刻挖掘,而且充分考虑了篇章结构生成的重要性,从而确保了对文本中大量术语概念的准确标引以及术语概念间的关系联系的准确建立,为后续生成知识完整的简报提供了前提保障,通过根据三方深度网络表示TriDNR算法、Node2Vec算法、TransE模型以及树状知识网络模型,生成网络表示学习模型,并根据网络表示学习模型与树状知识网络模型,生成简报,从而可以针对文本的写作特点,生成能够全面覆盖文本的原文内容的简报。
具体地,简报可以分为科技文献简报、互联网情报简报、情报产品简报和专利信息简报等。其中,科技文献简报的内容可以包括科学技术研究过程、进展和结论,还可以包括研究建议以及当前存在的问题等。科技简报篇幅虽短,但可以了解某个国家的科研工作进展情况,并且可以根据该科研工作进展情况得出科研新情况、新趋势以及可能存在的新问题等科研状况,从而将科研状况及时反映给各级决策机关,以使得决策机关了解当前的科技发展情况,为其制定政策、指导工作提供参考。
下面,以根据科技文本内容生成科技文献简报为例,对本申请实施例的简报生成方法进行具体介绍:
具体地,确定待生成简报的科技文本的文本特征,并根据文本特征,通过概念词分类系统确定科技文本中的各个概念词。其中,在根据文本特征,通过概念词分类系统确定科技文本中的各个概念词之前,需要预先根据概念词典,基于双向长短期记忆神经网络和条件随机场模型,生成概念词分类系统。
其中,采用Bi-LSTM(Bi-directional Long Short-term Memory Networks,双向长短时记忆网络)模型进行概念词抽取,保留历史信息的前向序列和获取未来信息的后向序列,将不同时间的信息传递给输出层。将中文文字以字符单元进行拆分作为BI-LSTM模型的输入,采用IOB2序列标注方法区分出每个句子中概念词的边界,补充序列标注问题中输出标签的强依赖关系。其中,“B”标签代表概念词中的第一个字,“I”标签代表概念词中的其它部分,“O”标签用于概念词汇以外的字符标示。同时在Bi-LSTM神经网络最后一层添加了用以处理序列标注的CRF(Conditional Random Fields,条件随机场)模型,解决输出序列标签之间的逻辑关系。图2给出了输入信息、BI-LSTM及CRF之间的连接关系。
通过上述方法,当词汇积累到一定程度时,可以分析总结出科技简报方面的概念词分类体系中的以下至少一种类别:组织机构类别;国家区域类别;政策类别;资金类别;专业术语类别;专业领域类别;能源词汇类别;设备信息类别;人物名称类别;产品信息类别。
其中,组织机构类别(Organization),即组织名称,通常词组末尾包含“委员会”,“机构”,“研究院”,“局”等。如“基础科学研究院”、“某国委员会”、“某国国立卫生研究院”、“国防部高级研究计划局”、“国家科学基金会等词汇”等。
国家区域类别(Location)通常包含国家名、地名等,也可包含技术强国等概括性的术语,比如“A国”、“B国”、“C国”、“D国”及“E国”等。
政策类别(Policy)即颁发的科技政策,该类词组通常在写作形式上包含双引号以及书名号,比如“走向强盛的A国家”。
资金类别(Money)即某一政策或者某一技术涉及到的相关基金、投资以及资金,比如“替代货币”、“虚拟货币”等。
专业术语类别通常为技术术语,该类词组通常包含“技术”、“科学”以及符合某一领域的科技专业术语词典中的词组。比如“人类基因组测序”、“基因技术”、“光学技术”。
专业领域类别即某一个领域,通常包含“业”、“领域”或某一学科,比如“制造业”、“纺织业”、“纳米学”、“物理学”、“工程学”、“信息学”等。
能源词汇类别通常为能源类词汇,词组末尾大多包含“能”,比如“太阳能”、“风能”等。
设备信息类别即各类设备,通常这类词语会包含“设备”、“材料”二字,或者与各个领域的设备相关名词进行匹配,比如“基因测序设备”、“智能材料”等。
人物名称类别即政策中涉及到的人的总称或者特称,涉及到的人的总称包括研究员的总称,比如“学术领导”、“人才”等,涉及到的人的特称通常特指某一个人,如“张某某”。
产品信息类别即某一技术涉及到的系统、体系或者平台,通常此类词组的末尾会带有“平台”、“系统”、“体系”等,比如“创造性研发生态系统”、“产业生态系统”、“评管体系”。
除了上述类别外,还包括元素信息、描述信息、政策服务信息、产品描述信息及项目信息。
其中,元素信息通常这类术语从字面意思来看并不能确定从属于哪一类,但是从上下文语义来看,与其他类别词汇具有包含关系,通常句子中包含“包括”、“包含”等词汇,比如“计算机病毒”、“氢气”、“镍”;描述信息即描述某一科技领域的特点,此类词汇通常包含“化”,比如“老龄化”、“商业化”等;政策服务信息即国家政策的服务,通常包括养老、教育以及就业等,词组的末尾通常包含“服务”,比如“就业服务”、“养老服务”等;产品描述信息即对产品的描述,比如“柔性电子产品”;项目信息即提出的项目、方法或者方案。词组通常包含“项目”、“方法”、“方案”以及“计划”,比如“大型飞机计划”、“典型融合技术研究计划”等。
具体地,概念词间的关联关系同样具有多种类别,且概念词多为名词,常常出现于主语和宾语,或者是从句的主语和宾语中,关联关系主要是对链接概念词的核心谓语进行分析,即主要分析包含“主语+谓语+宾语”或者“主语+谓语+从句(主+谓+宾)”句式结构的句子。
对关联关系的种类进行预设,主要分为五类,分别为:
(1)推进关系,句子中通常是主语推动了宾语,主语对宾语具有积极的影响。比如一个国家提出了什么、一个技术推动了什么等。句子中谓语通常包含“提出”、“推动”、“解决”、“增长”、“发展”、“不断提升”、“成果显著”、“投入”、“构建”、“推广”、、“活跃”、“建立”、“引入”、“提供”、“出台”、“公布”、“发表”、“鼓励”、“首要任务”、“提议”等特定词汇。
(2)融合关系,句子中双主语或者主语和宾语术语并列关系,通常通过“和”、“与”等连词相连接,用来描述两个国家合作,一种技术融合了另一种技术。句子中谓语通常包含“融合”、“合作”等特定词汇。
(3)阻碍关系,句子中通常是主语限制了宾语,主语对宾语具有消极的影响。比如一种技术缺乏什么、某一个国家在哪一些方面比较薄弱等,句子中谓语通常包含“缺乏”、“薄弱”等特定词汇。
(4)包含关系,句子中主语和宾语是包含关系,即具有一个技术包含什么方面、具有什么性质,等,句子中谓语通常包含“包括”、“如”、“比如”等特定词汇。
(5)同义关系,主语和宾语语是同义词关系。该类词组通常用括号包括起来,或者包含“又称”、“相当于”等特定词汇。
除考虑句子的谓语动词之外,还考虑了句子中的“定中关系”。其中“推进关系”关系通常包含在“定中关系”中体现,例如句子“A国新推出的《纳米融合推广战略》非常重要”中,“A国”与“《纳米融合推广战略》”这两个概念的关系之间的“推进关系”关系就是通过“定中关系”揭示出来。“融合关系”在定中关系也有体现,比如“信息技术和纳米技术的融合”中“信息技术”与“纳米技术”之间的关系。
关联关系特征的提取需要考虑概念词之间的特征,其中,概念词之间的特征主要包括基本特征和句法语义特征两类,基本特征包括:
①概念词类别,即定义的概念词的各个类别,包括每个概念词的类别以及两个概念词类别的结合,结合用“-”字符进行连接。
②邻居词汇,即概念词的相邻词,即获取概念词前面的词和后面的词,如果前后没有词,用“无”来表示,
③与邻居概念词间的各个词的词性,即概念词之间的词性标注,即从一个概念词到另一个相邻概念词之间所有词的词性标注。
④与邻居概念词间的上下文信息,即两概念词间的上下文环境,包括两个概念词之间的所有词。
除基础特征外,还需要综合考虑句法语义特征,其中,句法语义特征包括依存句法分析和语义角色分析。下面通过具体示例对依存句法分析特征和语义角色分析特征进行具体介绍:
1、图3通过“纳米技术强国纷纷推进纳米技术与信息技术战略性新兴领域的融合”示出了依存句法分析特征的分析过程,其中,根据概念词分类体系,本句中含有3个概念词,其中属于“国家区域”这一概念词类别的“纳米技术强国”在“推进”之前形成“主语+谓语”句式关系,而属于“专业术语”这一概念词类别的“纳米技术”和“信息技术”这两个概念词通过“融合”相互连接,其中“纳米技术”和“融合”是定中关系,而“纳米技术”和“信息技术”是“并列关系”。基于以上分析,最终得到了三个概念词之间的关系,分别为(纳米技术强国,推进关系,纳米技术),(纳米技术强国,推进关系,信息技术),(纳米技术,融合关系,信息技术)。
2、图4通过“A国知识经济部专门出台《纳米融合推广战略》”示出了语义角色分析特征的语义角色标注结果,其中,灰色圆角矩形框内是语义角色标注的结果,主要包含三个部分,其中A0为施事部分,A1为受事部分,ADV是附加标记。根据概念词分类体系,本句中共含有两个概念词实体,即“A国知识经济部”和“《纳米融合推广战略》”,二者围绕着核心谓语“出台”展开,其中“A国知识经济部”是施事部分,而“《纳米融合推广战略》”是受事部分。
对以上六个特征(即概念词类别、邻居词汇、与邻居概念词间的各个词的词性、与邻居概念词间的上下文信息、依存句法分析特征与语义角色分析特征)采用TF-IDF(termfrequency–inverse document frequency,词频-逆文本频率)向量化方法对特征进行向量化处理,最后拼接得到3400维的向量,由于数据量相对较小,特征维度高,采用主成分分析(Principal Component Analysis,PCA)降维方法对特征进行处理,对不同的主成分数量的原数据还原率进行分析,主成分选取360能够保证原数据的还原率大于90%,最后特征维度确定为360维。
采用SVM(Support Vector Machine,支持向量机)主动学习关系分类。SVM分类算法大体包含四个步骤,即特征提取、特征表示、归一化处理以及训练分类器,在关系标引中采用SVM分类器来对概念间的链接关系进行分类和预测。对关系分类采用了主动学习的方法,即分类器在学习的过程中根据学习进程,选择最有利于分类器性能的样本进行下一步分类器的训练,这样需要的实际训练样本数量会大大减少,从而有效减少评价样本的数量。
知识网络的构建包含两个具体过程,一个是概念词集合构建,一个是概念词关联关系集合构建。概念词集合构建就是遍历所有的概念实体对,收集所有的概念,并删除重复概念,最终形成概念集合。概念词关联关系集合构建就是遍历概念之间的关系,每个概念都会有5个类别的关系,如果一个概念和另一个概念相连,那么将另一个概念放到这个概念的相应类别的关系下,这两个过程同时进行,存储成JSON(JavaScript Object Notation,JS对象简谱)格式的概念词集合,如图5所示。
对于每一篇科技文本来说,提取出来的概念词和概念词间的关联关系所形成的知识网络相对松散,需要文本的篇章结构对其结构进行组织。文本的篇章结构包括文章题目以及各个章节,通常,文章的章节结构呈树状结构。
抽取出的概念词及概念词间的关联关系隶属于各个章节。每个章节下都会有一个知识网络子图。当把篇章结构和知识网络结合起来,每篇科技政策文本就是一个上层为含篇章结构的树状结构,底层为含有知识网络的树状知识网络模型,如图6所示。其中,文章的题目作为根节点,每章的标题作为第一层网络,而每章下的小标题是第二层,如果有更深的层次,以此类推(通常不超过三层)。每个小标题下包含相应的概念词及概念词之间的关联关系作为底层,概念词能够跨章节连接,其中每个概念词根据自身带有的类别信息分类表示。
树状知识网络构模型建后,在自然语言处理任务中,不仅仅要考虑节点之间的拓扑结构信息,还需要考虑如文本信息、节点标签信息,借鉴TriDNR(tri-party deepnetwork representation,三方深度网络表示)算法将树状知识网络构模型中的概念词节点语义信息、概念词节点拓扑结构信息以及概念词节点标签信息三者相互结合,作为每个概念词的节点表示。
根据树状知识网络模型的定义G=(V,E,D,L),其中,D={w1,w2..,wN}表示每个节点的文本信息,由于概念词都是科技政策类术语,通常是由两到三个简单词汇组成,所以将每个概念词进行分词,获取节点表示的网络表示学习模型图,如图7所示,其中,图7中的w是分词后的词汇。
树状知识网络模型由两层skip-gram(连续跳跃元语法)神经网络模型组成,上层为节点的拓扑结构信息建模,下层为文本内容和文本标签建模。而标签无法与节点间关系建模的原因是我们很难获取随机游走序列的标签集合。上层结构采用Deepwalk算法将随机游走策略映射到每个节点表示中,该表示经过随机排序后传入下层结构。下层结构的目标函数为:
从这个公式可以看出,节点内容和节点标签类似于Doc2vec算法,所以总体来说,通过Deepwalk算法和Doc2vec算法将节点拓扑结构,节点标签和节点内容三方面信息结合起来。整体模型的目标函数是求以下公式的最大似然估计。
式中,α是平衡节点拓扑结构,节点文本内容和节点标签信息的权重,b是窗口。其中第一个子式是计算给定一个节点,出现在这个节点周围的其他节点,可以通过softmax激励函数来得到,如下式:
其中vv和v′v指的是节点v的输入和输出。给定节点v,可以得到词的概率,如下式:
同样,可以得出标签的概率,如下式:
式4和式5共同影响节点wj的向量表示而通过反向传播影响输入vi,最终实现了将节点的拓扑结构、文本内容和标签三者信息共同融合的效果。
TriDNR网络表示学习模型是是通过DeepWalk算法来获取网络节点之间的拓扑结构表示。采用Node2vec算法来代替DeepWalk算法获取概念节点间的拓扑结构信息。通过深度优先和广度优先策略,对直接邻近节点进行多次采样,即通过广度优先策略来获得每个节点的微观视角,如图8所示。
Node2vec设计了一种能够在深度优先和广度优先平衡的方法。即给定一个节点,记作c0=u,随机游走选择下一个节点的公式为:
即若图E存在边(v,x),则以概率选择下一节点x,其中πvx是非正则化的v到x的转移概率,Z是正则化常数。随机游走中获取偏差最简单的方法是者之一个静态边权重wvx来抽样下一个节点,然而这种方法不能指导探索不同类型的相似节点,而且真实网络中,不同于深度优先或者广度优先这种两者选其一这样极端的情况,而是两者兼容,相互混合。所以Node2vec算法定义了两个参数p,q来指导随机游走的转移概率πvx,即为π=αp,q(t,x)·wv,x,其中
dtx表示从节点t和x的最短距离,当下一个节点x与前一个节点t和当前节点v等距时,则α=1;当下一个节点x是上一个节点时,在其他情况下,
网络表示学习方法只考虑了节点之间的拓扑结构信息,没有将节点边的标签信息考虑进去。借鉴Trans系列的知识表示学习模型中TransE模型。与拓扑结构信息一样,概念之间的推理关系同样可以嵌入到节点的表示中,其核心思想是把嵌入空间看作翻译模型,给定一个三元组(h,l,t),其中h是主体嵌入向量表示,t是客体嵌入向量表示,l表示主体和客体之间的关系向量表示,来求:
h+l=t (式8)
如果三元组确实存在,那么主体向量和关系向量之和将与客体向量相近。损失函数为:
d(h+l,t)=|lh+l-lt|L1/L2 (式9)
通过计算h+l和t之间的距离来表示三元组的置信度,损失函数越小,说明三元组的置信度就越高。距离可以通过L1距离(曼哈顿距离)或者L2距离(欧几里得距离)求得。
在优化模型的时候,除了考虑正确的三元组,还需要考虑错误的三元组。正确的三元组(h,l,t),希望越小越好,相反对于一个错误的三元组(h′,l,t′),希望越大越好。负样本的产生方法是对于正样本(h,l,t),随机用知识库的h′代替h,或者用t′代替t,这样就可以得到两个负样本(h′,L,t)和(h,l,t′)。基于此,给出了目标函数为:
其中,Δ代表正确的三元组,Δ’代表错误的三元组,γ代表正负样本之间的距离,是一个常数,[x]+代表0与x中的最大者,即max(0,x)。
其中,TransE具体算法如下表:
知识网络表示学习模型能够同时获取节点表示和节点的边表示,通常,被应用在实例链接任务中。将关系标签映射到节点表示中,从节点的拓扑结构,文本语义以及节点标签获得的节点表示进行向量结合,最后得到的概念节点向量作为知识网络中每个概念的向量表示。
具体地,在生成简报的过程,首先生成科技简报篇章结构,再生成相应结构下的文本内容。其中,可以采用以下步骤自动生成基于单篇科技政策文本的科技简报的结构:
步骤①:首先需要保留原科技政策文本结构,然后依次按章节生成内容。
步骤②:如果遇到三级标题,把三级标题下的内容归在其相对应二级标题下。
步骤③:所有结构生成之后,添加内容在相应结构下,并计算科技简报的字数,如果字数远远超过3000字,则从后面的章节开始删除内容,直到最终简报的字数控制在3000字至4000字这一预定数量的文本内容。精简后的科技简报作优先推荐,但是未精简之前的科技简报仍需保存。
将知识网络信息映射到每一个概念的节点表示中,作为TextRank算法的输入,来重点比较每个句子中涵盖的概念以及概念之间的关系信息,改进公式为:
其中,tkv表示每个句子涵盖的概念节点向量表示。
融合网络表示学习模型的TextRank算法不仅将文本的知识网络信息考虑在内,还能够解决Word2vec出现的在特定领域中词向量稀疏的情况,且基于网络表示学习的概念节点表示融合了概念的拓扑结构、语义内容、类别标签以及概念间的推理信息,从多方面弥补了词向量稀疏的问题。
将抽取式文本生成技术应用在基于单篇科技政策文本生成中,即从一个特定的科技政策文本的相应章节中抽取关键句。将得到的基于网络表示学习的节点表示应用在TextRank算法中,使抽取出的关键句不仅包含原文知识网络中的重要节点,还使其尽可能地涵盖原文中包含的概念与概念间的关系。将知识网络信息映射到每一个概念的节点表示中,作为TextRank算法的输入,来重点比较每个句子中涵盖的概念以及概念之间的关系信息,改进公式为:
其中tkv表示每个句子涵盖的概念节点向量表示。
融合网络表示学习模型的TextRank算法不仅将文本的知识网络信息考虑在内,还能够解决Word2vec出现的在特定领域中词向量稀疏的情况,获取的基于网络表示学习的概念节点表示融合了概念的拓扑结构、语义内容、类别标签以及概念间的推理信息,从多方面弥补了词向量稀疏的问题。
基于多篇科技政策文本的科技简报的结构生成无法参照某一特定的科技政策文本的结构,而是需要分析评估同一主题下多篇科技政策文本之间结构的关系。
步骤①:采用TextRank算法为n篇科技政策文本的根节点表示进行排序,选取前k个根节点。
步骤②:再次使用TextRank算法这k个根节点的下层节点表示进行排序,选取前m个节点作为科技简报的一级标题。
步骤③:如果m个节点中含有二级标题,那么这些二级标题也将保留。
步骤④:所有结构生成之后,添加内容在相应结构下,同样计算科技简报的字数,使最终优先推荐的科技简报内容字数控制在3000字至4000字这一预定数量。
将Seq2seq(序列到序列)文本生成框架和LSTM深度学习模型应用在基于多篇科技政策文本的科技简报生成中。采用词汇级别的文本生成,将概念的网络表示作为生成式模型的部分输入,并通过实验探索网络表示学习在生成式文本生成中的应用。
采用编码器-解码器架构,对多篇科技政策文本相关部分除概念词以外的词进行分词,然后概念词通过标识信息(例如ID)从网络表示学习向量表中获得该词的向量表示,其他词通过预训练词向量Glove模型获取词向量,两类向量表示作为解码器的输入。
解码器读取输入文本对应向量X={x1,…,xT},Bi-LSTM在t时刻的隐藏状态为:
ht=f(ht-1,xt) (式12)
其中,f为非线性激活函数。知道输入句子最后一个词xt,然后得到整个句子的语义向量C。
解码器根据语义向量C和已生成的词语序列{y1,…,yt-1}预测t时刻所要生成的单词。t时刻输出yt由隐层状态ht、yt-1及C共同决定,如下所示:
p(yt|yt-1,yt-2,…,y1,C)=g(ht,yt-1,C) (式13)
其中,g为激活函数。模型的目标函数如下:
其中,θ为模型参数。
在此之上,使用了Attention机制,使得模型能更好的生成在概念里出现的词。Attention的计算方式有使用全连接层、内积、双线性(Bilinear)以及余弦相似度等。为了兼顾计算效率,采用双线性的方式,即:
oj=Wo[c;zj] (式18)
其中,hi表示编码器第i个词的隐藏状态,zj表示解码器第j步的隐藏状态,ai,j表示attention Score,c是上下文向量,oj是最终解码器在j步的输出。
模型训练采用的目标函数是编码器-解码器框架常使用的交叉熵损失函数,其中每个单个样本的训练损失函数为:
其中,t是词汇的的长度,yi是第i个词的标识信息(例如ID)的网络表示和词向量,pi表示模型预测的所有词的概率。
模型中的RNN(Recurrent Neural Network,循环神经网络)都采用Bi-LSTM单元。训练所采用的优化方法是Adam,初始学习率为0.001。为了防止训练时局部梯度过大所导致的梯度震荡,采用了梯度裁剪(Gradient Clip)。为了防止过拟合,使用了dropout(随机失活)。
其中,根据本申请实施的简报生成方法,来生成科技简报的过程具体如图9所示,在图9中:
获取待生成简报的科技政策文本,首先,对获取到的科技政策文本进行概念间关联关系的标引,该概念间关联关系的标引,具体包括:根据获取到的文本特征,通过Bi-LSTM模型和CRF模型对科技政策文本进行概念标引,接着根据概念标引进行概念之间的关联关系的特征提取,接着基于主动学习的SVM关系分类器进行概念之间的关联关系的分类,接着生成包括概念和概念间关联关系的JSON文件;其次,在对获取到的科技政策文本进行概念间关联关系的标引之后,构建树状知识网络模型及网络表示学习模型,具体构建过程包括:根据JSON文件构建概念词知识网络以及带有篇章结构的知识网络模型,通过TriDNR网络表示学习模型和Node2vec网络表示学习模型,对构建的概念词知识网络模型进行改进,得到融入知识推理的网络表示学习模型,同时通过Doc2vec对带有篇章结构的知识网络模型进行章节节点表示,接着根据融入知识推理的网络表示学习模型与章节节点表示生成概念节点网络表示向量表;最后是科技简报的自动生成,在科技简报的自动生成过程中,包括:科技简报的结构生成和科技简报的内容生成,其中,通过重要章节节点获取来生成科技简报的结构,通过基于TextRank抽取式生成以及基于RNN生成式文本生成,来生成科技简报。
图10为本申请又一实施例提供的一种简报生成装置的结构示意图,如图10所示,该装置1000可以包括确定模块1001、第一生成模块1002、第二生成模块1003与第三生成模块1004,其中:
确定模块1001,用于确定待生成简报的文本的文本特征,并根据文本特征,通过概念词分类系统确定文本的各个概念词,以及通过概念词关系分类系统,确定文本的各个概念词之间的关联关系;
第一生成模块1002,用于根据知识网络与文本的篇章结构,生成树状知识网络模型,知识网络是根据各个概念词以及各个概念词之间的关联关系生成的;
第二生成模块1003,基于三方深度网络表示TriDNR算法、Node2Vec算法及TransE模型,根据树状知识网络模型,生成网络表示学习模型;
第三生成模块1004,用于根据网络表示学习模型与树状知识网络模型,生成简报。
具体地,还包括第四生成模块,如图11所示,其中:
第四生成模块1005,用于根据概念词典,基于双向长短期记忆神经网络和条件随机场模型,生成概念词分类系统;
概念词分类系统包括以下至少一种类别:
组织机构类别;国家区域类别;政策类别;资金类别;专业术语类别;专业领域类别;能源词汇类别;设备信息类别;人物名称类别;产品信息类别。
具体地,确定模块1001包括特征确定子模块10011与关联关系确定子模块10012,如图11所示,其中:
特征确定子模块10011,用于根据文本特征确定各个概念词的基本特征与句法语义特征;
关联关系确定子模块10012,用于基于概念词关系分类系统,通过基于主动学习的支持向量机关系分类模型,根据基本特征与句法语义特征,确定文本的各个概念词之间的关联关系;
基本特征包括以下至少一项:概念词类别;邻居词汇;与邻居概念词间的各个词的词性;与邻居概念词间的上下文信息;
句法语义特征包括依存句法分析特征与语义角色分析特征中的至少一项;
关联关系包括以下至少一种:
推进关系;融合关系;阻碍关系;包含关系;同义关系。
具体地,第一生成模块1002包括篇章结构生成子模块10021与模型生成子模块10022,如图11所示,其中:
第一生成模块1002,具体用于根据各个概念词的集合以及各个概念词之间的关联关系的集合,生成JS对象简谱JSON格式的概念词集合;
篇章结构生成子模块10021,用于根据文本的文本主题名称、各个章节的章节名称、文本主题名称与各个章节名称之间的层级关系以及各个章节名称之间的层级关系,生成文本的篇章结构;
第一模型生成子模块10022,用于根据JSON格式的概念词集合与文本的篇章结构,生成树状知识网络模型。
具体地,第二生成模块1003包括第一确定子模块10031、第二确定子模块10032与第二模型生成子模块10033,如图11所示,其中:
第一确定子模块10031,用于基于TriDNR算法与Node2Vec算法,确定树状知识网络模型中各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息;
第二确定子模块10032,用于基于TransE模型,确定树状知识网络模型中各个概念词节点之间边的标签信息;
第二模型生成子模块10033,用于根据各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息以及各个概念词节点之间边的标签信息,生成网络表示学习模型。
具体地,第三生成模块1004包括第三确定子模块10041、第四确定子模块10042与简报生成子模块10043,如图11所示,其中:
第三确定子模块10041,用于基于树状知识网络模型,根据Doc2vec算法,确定文本的各个章节的节点表示;
第四确定子模块10042,用于根据网络表示学习模型与各个章节的节点表示,确定文本的概念词节点网络表示向量表;
简报生成子模块10043,用于根据概念词节点网络表示向量表生成简报。
具体地,简报生成子模块10043具体用于根据概念词节点网络表示向量表,确定待生成的简报的篇章结构以及获取预定数量的文本内容;以及用于将预定数量的文本内容添加到篇章结构的相应位置,生成简报。
具体地,简报生成子模块10043具体用于基于TextRank算法的抽取式文本生成方式与循环神经网络RNN的生成式文本生成方式,获取预定数量的文本内容。
本申请实施例提供的装置,通过文本的篇章结构、根据文本的各个概念词与各个概念词之间的关联关系生成的知识网络,生成树状知识网络模型,不仅对文本的深层语义进行了深刻挖掘,而且充分考虑了篇章结构生成的重要性,从而确保了对文本中大量术语概念的准确标引以及术语概念间的关系联系的准确建立,为后续生成知识完整的简报提供了前提保障,通过根据三方深度网络表示TriDNR算法、Node2Vec算法、TransE模型以及树状知识网络模型,生成网络表示学习模型,并根据网络表示学习模型与树状知识网络模型,生成简报,从而可以针对文本的写作特点,生成能够全面覆盖文本的原文内容的简报。
需要说明的是,本实施例为与上述的方法项实施例相对应的装置项实施例,本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在上述方法项实施例中。
本申请另一实施例提供了一种电子设备,如图12所示,图12所示的电子设备1200包括:处理器1201和存储器1203。其中,处理器1201和存储器1203相连,如通过总线1202相连。进一步地,电子设备1200还可以包括收发器1204。需要说明的是,实际应用中收发器1204不限于一个,该电子设备1200的结构并不构成对本申请实施例的限定。
其中,处理器1201应用于本申请实施例中,用于实现图10与图11所示的确定模块、第一生成模块、第二生成模块及第三生成确定模块的功能,以及图11所示的第四生成模块的功能。
处理器1201可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1201也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1202可包括一通路,在上述组件之间传送信息。总线1202可以是PCI总线或EISA总线等。总线1202可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1203可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器1203用于存储执行本申请方案的应用程序代码,并由处理器1201来控制执行。处理器1201用于执行存储器1203中存储的应用程序代码,以实现图10或图11所示实施例提供的简报生成装置的动作。
本申请实施例提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,可实现:通过文本的篇章结构、根据文本的各个概念词与各个概念词之间的关联关系生成的知识网络,生成树状知识网络模型,不仅对文本的深层语义进行了深刻挖掘,而且充分考虑了篇章结构生成的重要性,从而确保了对文本中大量术语概念的准确标引以及术语概念间的关系联系的准确建立,为后续生成知识完整的简报提供了前提保障,通过根据三方深度网络表示TriDNR算法、Node2Vec算法、TransE模型以及树状知识网络模型,生成网络表示学习模型,并根据网络表示学习模型与树状知识网络模型,生成简报,从而可以针对文本的写作特点,生成能够全面覆盖文本的原文内容的简报。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一所示的方法。可实现:通过文本的篇章结构、根据文本的各个概念词与各个概念词之间的关联关系生成的知识网络,生成树状知识网络模型,不仅对文本的深层语义进行了深刻挖掘,而且充分考虑了篇章结构生成的重要性,从而确保了对文本中大量术语概念的准确标引以及术语概念间的关系联系的准确建立,为后续生成知识完整的简报提供了前提保障,通过根据三方深度网络表示TriDNR算法、Node2Vec算法、TransE模型以及树状知识网络模型,生成网络表示学习模型,并根据网络表示学习模型与树状知识网络模型,生成简报,从而可以针对文本的写作特点,生成能够全面覆盖文本的原文内容的简报。
本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种简报生成方法,其特征在于,包括:
确定待生成简报的文本的文本特征,并根据所述文本特征,通过概念词分类系统确定所述文本的各个概念词,以及通过概念词关系分类系统,确定所述文本的各个概念词之间的关联关系;
根据知识网络与所述文本的篇章结构,生成树状知识网络模型,所述知识网络是根据各个概念词以及各个概念词之间的关联关系生成的;
基于三方深度网络表示TriDNR算法、Node2Vec算法及TransE模型,根据所述树状知识网络模型,生成网络表示学习模型;
根据所述网络表示学习模型与所述树状知识网络模型,生成简报;
根据各个概念词以及各个概念词之间的关联关系生成知识网络,包括:
根据各个概念词的集合以及各个概念词之间的关联关系的集合,生成JS对象简谱JSON格式的概念词集合;
根据知识网络与所述文本的篇章结构,生成树状知识网络模型,包括:
根据所述文本的文本主题名称、各个章节的章节名称、文本主题名称与各个章节名称之间的层级关系以及各个章节名称之间的层级关系,生成所述文本的篇章结构;
根据所述JSON格式的概念词集合与所述文本的篇章结构,生成树状知识网络模型;
基于TriDNR算法、Node2Vec算法及TransE模型,根据所述树状知识网络模型,生成网络表示学习模型,包括:
基于TriDNR算法与Node2Vec算法,确定所述树状知识网络模型中各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息;
基于TransE模型,确定所述树状知识网络模型中各个概念词节点之间边的标签信息;
根据各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息以及各个概念词节点之间边的标签信息,生成网络表示学习模型。
2.根据权利要求1所述的方法,其特征在于,在根据所述文本特征,通过概念词分类系统确定所述文本的各个概念词之前,还包括:
根据概念词典,基于双向长短期记忆神经网络和条件随机场模型,生成概念词分类系统;
所述概念词分类系统包括以下至少一种类别:
组织机构类别;国家区域类别;政策类别;资金类别;专业术语类别;专业领域类别;能源词汇类别;设备信息类别;人物名称类别;产品信息类别。
3.根据权利要求1所述的方法,其特征在于,根据所述文本特征,通过概念词关系分类系统,确定所述文本的各个概念词之间的关联关系,包括:
根据所述文本特征确定各个概念词的基本特征与句法语义特征;
基于概念词关系分类系统,通过基于主动学习的支持向量机关系分类模型,根据所述基本特征与所述句法语义特征,确定所述文本的各个概念词之间的关联关系;
所述基本特征包括以下至少一项:概念词类别;邻居词汇;与邻居概念词间的各个词的词性;与邻居概念词间的上下文信息;
所述句法语义特征包括依存句法分析特征与语义角色分析特征中的至少一项;
所述关联关系包括以下至少一种:
推进关系;融合关系;阻碍关系;包含关系;同义关系。
4.根据权利要求1所述的方法,其特征在于,根据所述网络表示学习模型与所述树状知识网络模型,生成简报,包括:
基于所述树状知识网络模型,根据Doc2vec算法,确定所述文本的各个章节的节点表示;
根据网络表示学习模型与所述各个章节的节点表示,确定所述文本的概念词节点网络表示向量表;
根据所述概念词节点网络表示向量表生成所述简报。
5.根据权利要求4所述的方法,其特征在于,根据所述概念词节点网络表示向量表生成所述简报,包括:
根据所述概念词节点网络表示向量表,确定待生成的简报的篇章结构以及获取预定数量的文本内容;
将所述预定数量的文本内容添加到所述篇章结构的相应位置,生成所述简报。
6.根据权利要求5所述的方法,其特征在于,根据所述概念词节点网络表示向量表,获取预定数量的文本内容,包括:
基于TextRank算法的抽取式文本生成方式与循环神经网络RNN的生成式文本生成方式,获取预定数量的文本内容。
7.一种简报生成装置,其特征在于,包括:
确定模块,用于确定待生成简报的文本的文本特征,并根据所述文本特征,通过概念词分类系统确定所述文本的各个概念词,以及通过概念词关系分类系统,确定所述文本的各个概念词之间的关联关系;
第一生成模块,用于根据知识网络与所述文本的篇章结构,生成树状知识网络模型,所述知识网络是根据各个概念词以及各个概念词之间的关联关系生成的;
第二生成模块,基于三方深度网络表示TriDNR算法、Node2Vec算法及TransE模型,根据所述树状知识网络模型,生成网络表示学习模型;
第三生成模块,用于根据所述网络表示学习模型与所述树状知识网络模型,生成简报;
所述第一生成模块包括篇章结构生成子模块与第一模型生成子模块,其中:
所述第一生成模块,具体用于根据各个概念词的集合以及各个概念词之间的关联关系的集合,生成JS对象简谱JSON格式的概念词集合;
所述篇章结构生成子模块,具体用于根据所述文本的文本主题名称、各个章节的章节名称、文本主题名称与各个章节名称之间的层级关系以及各个章节名称之间的层级关系,生成所述文本的篇章结构;
所述第一模型生成子模块,具体用于根据所述JSON格式的概念词集合与所述文本的篇章结构,生成树状知识网络模型;
所述第二生成模块包括第一确定子模块、第二确定子模块与第二模型生成子模块,其中:
所述第一确定子模块,具体用于基于TriDNR算法与Node2Vec算法,确定所述树状知识网络模型中各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息;
所述第二确定子模块,具体用于基于TransE模型,确定所述树状知识网络模型中各个概念词节点之间边的标签信息;
所述第二模型生成子模块,具体用于根据各个概念词节点的语义信息、各个概念词节点之间的拓扑结构信息以及各个概念词节点之间边的标签信息,生成网络表示学习模型。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6任一项所述的简报生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-6任一项所述的简报生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910919965.3A CN112559734B (zh) | 2019-09-26 | 2019-09-26 | 简报生成方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910919965.3A CN112559734B (zh) | 2019-09-26 | 2019-09-26 | 简报生成方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559734A CN112559734A (zh) | 2021-03-26 |
CN112559734B true CN112559734B (zh) | 2023-10-17 |
Family
ID=75030318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910919965.3A Active CN112559734B (zh) | 2019-09-26 | 2019-09-26 | 简报生成方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559734B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064971A (zh) * | 2021-04-12 | 2021-07-02 | 苏州城方信息技术有限公司 | 一种基于交互式图结构的政策文本关系的挖掘与表达方法 |
CN113407668B (zh) * | 2021-06-11 | 2022-10-11 | 武夷学院 | 一种针对认知关联能力训练的数据处理方法及装置 |
CN113761891B (zh) * | 2021-08-31 | 2024-08-20 | 国网冀北电力有限公司 | 电网文本数据实体识别方法、系统、设备及介质 |
CN114896359A (zh) * | 2022-05-13 | 2022-08-12 | 国网江苏省电力有限公司信息通信分公司 | 一种知识本体信息的搜索方法 |
CN115952292B (zh) * | 2023-03-14 | 2023-05-16 | 中国医学科学院医学信息研究所 | 多标签分类方法、装置及计算机可读介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234706A (ja) * | 2004-02-17 | 2005-09-02 | Denso Corp | 知識ルール抽出方法及び装置、ファジィ推論型ニューラルネットワーク |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区系统 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN104536950A (zh) * | 2014-12-11 | 2015-04-22 | 北京百度网讯科技有限公司 | 生成文本摘要的方法及装置 |
CN106021226A (zh) * | 2016-05-16 | 2016-10-12 | 中国建设银行股份有限公司 | 一种文本摘要生成方法及装置 |
CN106294639A (zh) * | 2016-08-01 | 2017-01-04 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
CN106919674A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种基于Wiki语义网络构建的知识问答系统及智能检索方法 |
CN106940726A (zh) * | 2017-03-22 | 2017-07-11 | 山东大学 | 一种基于知识网络的创意自动生成方法与终端 |
CN108228728A (zh) * | 2017-12-11 | 2018-06-29 | 北京航空航天大学 | 一种参数化的论文网络节点表示学习方法 |
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11853903B2 (en) * | 2017-09-28 | 2023-12-26 | Siemens Aktiengesellschaft | SGCNN: structural graph convolutional neural network |
-
2019
- 2019-09-26 CN CN201910919965.3A patent/CN112559734B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234706A (ja) * | 2004-02-17 | 2005-09-02 | Denso Corp | 知識ルール抽出方法及び装置、ファジィ推論型ニューラルネットワーク |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区系统 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN104536950A (zh) * | 2014-12-11 | 2015-04-22 | 北京百度网讯科技有限公司 | 生成文本摘要的方法及装置 |
CN106021226A (zh) * | 2016-05-16 | 2016-10-12 | 中国建设银行股份有限公司 | 一种文本摘要生成方法及装置 |
CN106294639A (zh) * | 2016-08-01 | 2017-01-04 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
CN106919674A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种基于Wiki语义网络构建的知识问答系统及智能检索方法 |
CN106940726A (zh) * | 2017-03-22 | 2017-07-11 | 山东大学 | 一种基于知识网络的创意自动生成方法与终端 |
CN108228728A (zh) * | 2017-12-11 | 2018-06-29 | 北京航空航天大学 | 一种参数化的论文网络节点表示学习方法 |
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
Non-Patent Citations (5)
Title |
---|
Application-Layer Traffic Optimization (ALTO) Problem Statement;J. Seedorf et al.;《IETF 》;1-14 * |
Contextualized possibilistic networks with temporal framework for knowledge base reliability improvement;Grasso, M et al.;《APPLICATION OF FUZZY SETS THEORY》;45-77 * |
Modelling Objects using Distribution and Topology of Multiscale Region Pairs;Himanshu Arora et al.;《2007 IEEE Conference on Computer Vision and Pattern Recognition》;1063-6919 * |
咨询服务项目本体知识表示模型研究;孟中来;《中国优秀硕士学位论文全文数据库 (经济与管理科学辑)》(第8期);J166-6 * |
文本摘要的建构渗透度特征模型;任立园 等;《中文信息学报》(第7期);79-86 * |
Also Published As
Publication number | Publication date |
---|---|
CN112559734A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
Berry et al. | Supervised and unsupervised learning for data science | |
CN108182295B (zh) | 一种企业知识图谱属性抽取方法及系统 | |
Ahmad et al. | A hybrid deep learning technique for personality trait classification from text | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
Jiang et al. | An LSTM-CNN attention approach for aspect-level sentiment classification | |
CN112667813B (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
CN114428862A (zh) | 基于油气管道的知识图谱构建方法及处理器 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
Chandra et al. | Utilizing gated recurrent units to retain long term dependencies with recurrent neural network in text classification | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN115129807A (zh) | 基于自注意的社交媒体主题评论的细粒度分类方法及系统 | |
CN117150436B (zh) | 多模态自适应融合的主题识别方法及系统 | |
Barbalau et al. | A generic and model-agnostic exemplar synthetization framework for explainable AI | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
Feng | Misreporting and fake news detection techniques on the social media platform | |
Hsu et al. | An interpretable generative adversarial approach to classification of latent entity relations in unstructured sentences | |
CN111723301B (zh) | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
TS et al. | Fake news detection on social media using Adaptive Optimization based Deep Learning Approach | |
Sharma et al. | Deep learning Applications to classify Cross-Topic Natural Language Texts Based on Their Argumentative Form | |
Nayak et al. | Knowledge graph from informal text: architecture, components, algorithms and applications | |
Zhou et al. | Nested causality extraction on traffic accident texts as question answering | |
Le et al. | A multi-filter BiLSTM-CNN architecture for vietnamese sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |