CN112612869A - 基于指数概率模型的文档结构学习与生成方法及装置 - Google Patents

基于指数概率模型的文档结构学习与生成方法及装置 Download PDF

Info

Publication number
CN112612869A
CN112612869A CN202011331607.XA CN202011331607A CN112612869A CN 112612869 A CN112612869 A CN 112612869A CN 202011331607 A CN202011331607 A CN 202011331607A CN 112612869 A CN112612869 A CN 112612869A
Authority
CN
China
Prior art keywords
topic
feature
document structure
information related
probability model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011331607.XA
Other languages
English (en)
Inventor
龚隽鹏
吕锐
曹娟
宋卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202011331607.XA priority Critical patent/CN112612869A/zh
Publication of CN112612869A publication Critical patent/CN112612869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于指数概率模型的文档结构学习与生成方法及装置,其中,获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。该方法将文档结构看作本体中话题的次序结构,使用场景描述中的话题顺序来捕获文章的局部连贯信息,提供一个自动学习文档结构的方法。

Description

基于指数概率模型的文档结构学习与生成方法及装置
技术领域
本发明涉及自动学习技术领域,特别涉及一种基于指数概率模型的文档结构学习与生成方法及装置。
背景技术
不同场景、不同领域对文档结构有不同的要求,如何通过目标场景直接得到特定领域的文档结构是本领域亟待解决的问题,相关技术中,没有一种高效的通过语料库自动学习特定领域文档结构的方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于指数概率模型的文档结构学习与生成方法,该方法将文档结构看作本体中话题的次序结构,使用场景描述中的话题顺序来捕获文章的局部连贯信息,提供一个自动学习文档结构的方法,可以高效的根据语料库自动学习特定领域文档结构。
本发明的另一个目的在于提出一种基于指数概率模型的文档结构学习与生成装置。
为达到上述目的,本发明一方面实施例提出了一种基于指数概率模型的文档结构学习与生成方法,包括:
获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;
构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;
通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。
本发明实施例的基于指数概率模型的文档结构学习与生成方法,通过获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。由此,通过语料库自动学习特定领域文档结构,提供了一种自动学习文档结构的方法。
另外,根据本发明上述实施例的基于指数概率模型的文档结构学习与生成方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述带有标注语料的数据库为由多个话题的序列组成。
进一步地,在本发明的一个实施例中,所述与结构相关的特征信息包括:
Figure BDA0002795988270000021
Figure BDA0002795988270000022
Figure BDA0002795988270000023
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征F1用于捕获当前话题和前一个话题的相关信息,特征F2用于捕获当前话题和前两个话题之间的相关信息,特征F3用于描述当前话题与之前的出现过的话题类型之间的关系。
进一步地,在本发明的一个实施例中,所述与节点及其取值相关的特征信息包括:
Figure BDA0002795988270000024
Figure BDA0002795988270000025
Figure BDA0002795988270000026
Figure BDA0002795988270000027
其中,特征F4用于描述话题本身的重要程度,特征F5用于描述话题本身类型的重要程度,特征F6用于描述话题所包含的属性和关系的类型,特征F7用于描述话题所包含的属性和关系的取值。
进一步地,在本发明的一个实施例中,所述文档结构的指数概率概率模型为:
Figure BDA0002795988270000031
其中,f(xi,yi)为特征信息,λ从语料库学习的参数。
为达到上述目的,本发明另一方面实施例提出了一种基于指数概率模型的文档结构学习与生成装置,包括:
处理模块,用于获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;
训练模块,用于构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;
生成模块,用于通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。
本发明实施例的基于指数概率模型的文档结构学习与生成装置,通过获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。由此,通过语料库自动学习特定领域文档结构,提供了一种自动学习文档结构的方法。
另外,根据本发明上述实施例的基于指数概率模型的文档结构学习与生成装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述带有标注语料的数据库为由多个话题的序列组成。
进一步地,在本发明的一个实施例中,所述与结构相关的特征信息包括:
Figure BDA0002795988270000032
Figure BDA0002795988270000033
Figure BDA0002795988270000034
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征F1用于捕获当前话题和前一个话题的相关信息,特征F2用于捕获当前话题和前两个话题之间的相关信息,特征F3用于描述当前话题与之前的出现过的话题类型之间的关系。
进一步地,在本发明的一个实施例中,所述与节点及其取值相关的特征信息包括:
Figure BDA0002795988270000041
Figure BDA0002795988270000042
Figure BDA0002795988270000043
Figure BDA0002795988270000044
其中,特征F4用于描述话题本身的重要程度,特征F5用于描述话题本身类型的重要程度,特征F6用于描述话题所包含的属性和关系的类型,特征F7用于描述话题所包含的属性和关系的取值。
进一步地,在本发明的一个实施例中,所述文档结构的指数概率概率模型为:
Figure BDA0002795988270000045
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于指数概率模型的文档结构学习与生成方法流程图;
图2为根据本发明一个实施例的基于概率模型的文档结构学习算法框架图;
图3为根据本发明一个实施例的基于次序的输出的文档结构的实例示意图;
图4为根据本发明一个实施例的基于指数概率模型的文档结构学习与生成装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于指数概率模型的文档结构学习与生成方法及装置。
首先将参照附图描述根据本发明实施例提出的基于指数概率模型的文档结构学习与生成方法。
图1为根据本发明一个实施例的基于指数概率模型的文档结构学习与生成方法流程图。
如图1所示,该基于指数概率模型的文档结构学习与生成方法包括以下步骤:
步骤S1,获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息。
结合图2所示,本发明的方法主要思想为:首先根据数据集进行知识图谱结构的映射,得到基于知识图谱描述的场景描述,在场景描述上计算知识图谱上的结构特征,并训练相应的分类器。最后,对于特定场景,可通过分类器得到最终结果。
对语料库进行分析,选择的特征分为如下两类:与结构相关的特征信息和与节点及其取值相关的特征信息。
首先,与结构相关的特征信息与语言模型类似,定义如下:
Figure BDA0002795988270000051
Figure BDA0002795988270000052
Figure BDA0002795988270000053
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征F1实际上就是二元模型指数概率模型下的表现形式,捕获当前话题和前一个话题的相关信息;特征F2为三元模型指数概率模型下的表现形式,捕获当前话题和前两个话题之间的相关信息。特征F3描述了当前话题与之前的出现过的话题类型之间的关系。
其次,与节点及其取值的特征,定义如下:
Figure BDA0002795988270000061
Figure BDA0002795988270000062
Figure BDA0002795988270000063
Figure BDA0002795988270000064
其中,特征F4描述了话题本身的重要程度,可以认为是一元模型在指数模型下的表现形式;特征F5描述了话题本身类型的重要程度;特征F6描述了话题所包含的属性和关系的类型;特征F7描述了话题所包含的属性和关系的取值。
步骤S2,构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练。
如图3所示,展示了一个基于次序的输出的文档结构的实例。其中,图3(a)是场景描述中被选择出的topic集合,出现的概念实体包括温度、风速、风向、天空遮蔽情况和阵风;图3(b)即为基于次序的文档结构的输出内容,表明对于概念实体的生成次序应为天空遮蔽情况、温度、风速、风向、风速、阵风。图3(c)是最终自然语言生成系统根据文档结构所生成的文本,在本发明的方法中暂时不对从文档结构到最终文本的过程进行研究。
具体地,在本文发明的实施例中,假设有标注语料库C,语料库由一系列话题的序列组成,如图3(b)。其语言模型定义如下。
定义T为某领域内本体中的所有话题,假设T为有限集,则文档结构的顺序描述可表示为:
t0t1t2...tn
n是整数,对于n≥1,有ti∈T,{1...(n-1)},并假定t0和tn是特殊符号。t0代表符号START,表示文档的开始。tn代表符号STOP,表示文档的结束。
则图3(b)可表示为:START,4,1,2,3,5,STOP。
定义T*是由T中的元素组合而成的序列集。
则文档结构模型可定义为包括一个有限集V和一个函数p(t1,t2,...tn),有:
对于任意的<t1,t2...tn>∈V*,p(t1,t2,...tn)≥0
Figure BDA0002795988270000071
p(t1,t2,...tn)是文档在V*上的概率分布。
那么,生成文档结构的顺序可看作是求t1,t2,…tn的顺序使得:
argmaxp(t1,t2,...tn)
为进一步求解p(t1,t2,...tn),进行以下假设:假设文档结构服从m阶的马尔可夫过程,有:
Figure BDA0002795988270000072
其中,m是指当前话题受前m-1个话题的影响。
并定义:T为所有话题的集合;
X为ti-1,ti-2,...ti-m+1所有可能出现的话题序列的集合,tj∈T,j∈{i-1,i-2,...,i-m+1};
Y为ti中所有可能出现的话题的集合,Y与T等价;
定义
Figure BDA0002795988270000073
为(x,y)对映射到特征向量f(x,y),即根据ti-1,ti-2,...ti-m+1计算出的多种特征。
Figure BDA0002795988270000074
是模型的参数,需要根据语料库训练估计得到。
则对于x∈X,y∈Y,有
Figure BDA0002795988270000075
其中,
Figure BDA0002795988270000076
是归一化分母,exp(x)=ex
Figure BDA0002795988270000077
是参数矢量v和特征矢量f(x,y)的内积。
则文档结构的指数概率模型定义如下:
Figure BDA0002795988270000081
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数
相较lapata的模型,本发明的模型可以通过定义特征矢量f(x,y),进一步将多种特征整合到模型中,采用的特征集合在上述已经进行了详细介绍,此处不进行赘述。
步骤S3,通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。
通过训练好的模型,可以实现通过语料库自动学习特定领域文档结构。在理想的数据集上进行文档结构生成的学习,训练集对某一场景中出现的话题顺序N进行了标记,N∈{1,2,...n}为有限集,标记定义了话题在最终文本中出现的顺序。
根据本发明实施例提出的基于指数概率模型的文档结构学习与生成方法,通过获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。由此,通过语料库自动学习特定领域文档结构,提供了一种自动学习文档结构的方法。
其次参照附图描述根据本发明实施例提出的基于指数概率模型的文档结构学习与生成装置。
图4为根据本发明一个实施例的基于指数概率模型的文档结构学习与生成装置结构示意图。
如图4所示,该基于指数概率模型的文档结构学习与生成装置包括:处理模块401、训练模块402和生成模块403。
处理模块401,用于获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息。训练模块402,用于构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练。生成模块403,用于通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。该装置文档结构看作本体中话题的次序结构,使用场景描述中的话题顺序来捕获文章的局部连贯信息,提供一种自动学习文档结构的方法。
进一步地,在本发明的一个实施例中,带有标注语料的数据库为由多个话题的序列组成。
进一步地,在本发明的一个实施例中,与结构相关的特征信息包括:
Figure BDA0002795988270000091
Figure BDA0002795988270000092
Figure BDA0002795988270000093
其中,特征F1用于捕获当前话题和前一个话题的相关信息,特征F2用于捕获当前话题和前两个话题之间的相关信息,特征F3用于描述当前话题与之前的出现过的话题类型之间的关系。
进一步地,在本发明的一个实施例中,与节点及其取值相关的特征信息包括:
Figure BDA0002795988270000094
Figure BDA0002795988270000095
Figure BDA0002795988270000096
Figure BDA0002795988270000097
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征F4用于描述话题本身的重要程度,特征F5用于描述话题本身类型的重要程度,特征F6用于描述话题所包含的属性和关系的类型,特征F7用于描述话题所包含的属性和关系的取值。
进一步地,在本发明的一个实施例中,文档结构的指数概率概率模型为:
Figure BDA0002795988270000098
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于指数概率模型的文档结构学习与生成装置,通过获取带有标注语料的数据库,对数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;构建文档结构的指数概率概率模型,通过与结构相关的特征信息和与节点及其取值相关的特征信息对文档结构的指数概率概率模型进行训练;通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到目标场景对应的文档结构。由此,通过语料库自动学习特定领域文档结构,提供了一种自动学习文档结构的方法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于指数概率模型的文档结构学习与生成方法,其特征在于,包括以下步骤:
获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;
构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;
通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。
2.根据权利要求1所述的方法,其特征在于,所述带有标注语料的数据库为由多个话题的序列组成。
3.根据权利要求1所述的方法,其特征在于,所述与结构相关的特征信息包括:
F1:
Figure FDA0002795988260000011
F2:
Figure FDA0002795988260000012
F3:
Figure FDA0002795988260000013
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征F1用于捕获当前话题和前一个话题的相关信息,特征F2用于捕获当前话题和前两个话题之间的相关信息,特征F3用于描述当前话题与之前的出现过的话题类型之间的关系。
4.根据权利要求3所述的方法,其特征在于,所述与节点及其取值相关的特征信息包括:
F4:
Figure FDA0002795988260000014
F5:
Figure FDA0002795988260000015
F6:
Figure FDA0002795988260000016
F7:
Figure FDA0002795988260000021
其中,特征F4用于描述话题本身的重要程度,特征F5用于描述话题本身类型的重要程度,特征F6用于描述话题所包含的属性和关系的类型,特征F7用于描述话题所包含的属性和关系的取值。
5.根据权利要求1所述的方法,其特征在于,所述文档结构的指数概率概率模型为:
Figure FDA0002795988260000022
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数。
6.一种基于指数概率模型的文档结构学习与生成装置,其特征在于,包括:
处理模块,用于获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;
训练模块,用于构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;
生成模块,用于通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。
7.根据权利要求6所述的装置,其特征在于,所述带有标注语料的数据库为由多个话题的序列组成。
8.根据权利要求6所述的装置,其特征在于,所述与结构相关的特征信息包括:
F1:
Figure FDA0002795988260000023
F2:
Figure FDA0002795988260000024
F3:
Figure FDA0002795988260000025
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征F1用于捕获当前话题和前一个话题的相关信息,特征F2用于捕获当前话题和前两个话题之间的相关信息,特征F3用于描述当前话题与之前的出现过的话题类型之间的关系。
9.根据权利要求6所述的装置,其特征在于,所述与节点及其取值相关的特征信息包括:
F4:
Figure FDA0002795988260000031
F5:
Figure FDA0002795988260000032
F6:
Figure FDA0002795988260000033
F7:
Figure FDA0002795988260000034
其中,特征F4用于描述话题本身的重要程度,特征F5用于描述话题本身类型的重要程度,特征F6用于描述话题所包含的属性和关系的类型,特征F7用于描述话题所包含的属性和关系的取值。
10.根据权利要求6所述的装置,其特征在于,所述文档结构的指数概率概率模型为:
Figure FDA0002795988260000035
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数。
CN202011331607.XA 2020-11-24 2020-11-24 基于指数概率模型的文档结构学习与生成方法及装置 Pending CN112612869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011331607.XA CN112612869A (zh) 2020-11-24 2020-11-24 基于指数概率模型的文档结构学习与生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011331607.XA CN112612869A (zh) 2020-11-24 2020-11-24 基于指数概率模型的文档结构学习与生成方法及装置

Publications (1)

Publication Number Publication Date
CN112612869A true CN112612869A (zh) 2021-04-06

Family

ID=75225064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011331607.XA Pending CN112612869A (zh) 2020-11-24 2020-11-24 基于指数概率模型的文档结构学习与生成方法及装置

Country Status (1)

Country Link
CN (1) CN112612869A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
US20150310096A1 (en) * 2014-04-29 2015-10-29 International Business Machines Corporation Comparing document contents using a constructed topic model
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
US20150310096A1 (en) * 2014-04-29 2015-10-29 International Business Machines Corporation Comparing document contents using a constructed topic model
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
应文豪;李素建;穗志方;: "一种话题敏感的抽取式多文档摘要方法", 中文信息学报, no. 06, 15 November 2017 (2017-11-15) *

Similar Documents

Publication Publication Date Title
US8645123B2 (en) Image-based semantic distance
CN102112987B (zh) 大规模图像注释的统计方法
CN106973244A (zh) 使用弱监督为图像配字幕
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN106570162B (zh) 基于人工智能的谣言识别方法及装置
CN108985370B (zh) 图像标注语句自动生成方法
CN114943960A (zh) 一种文本识别方法、系统、电子设备及存储介质
Dao et al. Multi-label image classification with contrastive learning
CN112052689A (zh) 跨媒体知识图谱构建方法及系统、计算机设备及可读存储介质
CN109446423A (zh) 一种新闻以及文本的情感判断系统及方法
CN113837233A (zh) 基于样本自适应语义引导的自注意力机制的图像描述方法
CN116805368A (zh) 一种基于特征分离与重组的小样本图像语义分割方法
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
Siddiqui et al. A survey on automatic image annotation and retrieval
CN113761270A (zh) 视频召回方法、装置、电子设备以及存储介质
CN112612869A (zh) 基于指数概率模型的文档结构学习与生成方法及装置
CN110210572B (zh) 图像分类方法、装置、存储介质及设备
CN116662656A (zh) 一种基于协同增强和图注意力神经网络的电影推荐方法
CN116432660A (zh) 一种情感分析模型的预训练方法、装置和电子设备
CN115546496A (zh) 一种主动探测场景下的物联网设备识别方法及装置
CN112214683B (zh) 基于异构信息网络的混合推荐模型处理方法、系统和介质
Zhang et al. Effectively leveraging multi-modal features for movie genre classification
Kane et al. Bayesian network structure learning and inference in indoor vs. outdoor image classification
Yanagisawa et al. Automatic classification of manga characters using density-based clustering
JP2007172616A (ja) 文書検索方法及び装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination