CN109062937A - 训练描述文本生成模型的方法、生成描述文本的方法及装置 - Google Patents
训练描述文本生成模型的方法、生成描述文本的方法及装置 Download PDFInfo
- Publication number
- CN109062937A CN109062937A CN201810622437.7A CN201810622437A CN109062937A CN 109062937 A CN109062937 A CN 109062937A CN 201810622437 A CN201810622437 A CN 201810622437A CN 109062937 A CN109062937 A CN 109062937A
- Authority
- CN
- China
- Prior art keywords
- description text
- probability distribution
- entity
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000009826 distribution Methods 0.000 claims description 138
- 239000013598 vector Substances 0.000 claims description 137
- 238000012545 processing Methods 0.000 claims description 37
- 230000007246 mechanism Effects 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 241000283153 Cetacea Species 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 241000282376 Panthera tigris Species 0.000 description 3
- 241000283070 Equus zebra Species 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000283074 Equus asinus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Optimization (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种训练描述文本生成模型的方法、生成描述文本的方法及装置,其中训练描述文本生成模型的方法包括:获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。本发明得到的描述文本生成模型能够实现通过深度理解的方式生成针对实体词的精简描述文本。
Description
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种训练描述文本生成模型的方法、生成描述文本的方法及装置。
【背景技术】
在搜索引擎的各种应用中,往往存在这样的需求,对于一个实体词的源描述文本,需要从中抽取出对该实体词的更精简的描述,所谓精简可以体现在更短、更准确和更个性化上。例如,在搜索引擎中若用户输入搜索关键词(query),则在该query对应的搜索结果页中会包含该query对应的相关实体,这些相关实体可以在搜索结果页的右侧区域显示。相关实体中每个实体词的附近(例如下方)可以存在针对该实体词的一句简短的描述,该描述可以形象地被称为“实体亮点”。如图1中所示,当用户输入query“渡渡鸟”,则可以在搜索结果页显示如图1中所示的相关实体。相关实体中,实体词“斑驴”的下方存在“已经灭绝的斑马亚种”的实体亮点。
目前尚没有很好的方法能够通过深度理解的方式实现上述描述文本的生成。
【发明内容】
有鉴于此,本发明提供了一种训练描述文本生成模型的方法、生成描述文本的方法及装置,以便于实现通过深度理解的方式生成针对实体词的描述文本。
具体技术方案如下:
一方面,本发明提供了一种训练描述文本生成模型的方法,该方法包括:
获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;
将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。
根据本发明一具体实施方式,所述获取训练数据包括:
将百科词条作为实体名;
从该百科词条的百科页面的信息盒子或摘要首句中抽取所述实体名的第二描述文本;
利用抽取的第二描述文本从百科页面正文中抽取对所述第二描述文本满足预设覆盖状况要求的句子作为所述实体名的第一描述文本。
根据本发明一具体实施方式,所述从该百科词条的百科页面的信息盒子中抽取所述实体名的第二描述文本包括:
依据预先设置的规则,从所述信息盒子中特定信息属性中抽取属性值作为所述第二描述文本。
根据本发明一具体实施方式,将所述实体词和实体词的第一描述文本作为seq2seq模型的输入包括:
将所述实体词的第一描述文本输入seq2seq模型的编码部分,获取所述编码部分输出的所述第一描述文本的隐含向量;
将所述实体词的向量表示、所述第一描述文本的隐含向量以及预设的初始预测词输入seq2seq模型的解码部分。
根据本发明一具体实施方式,在所述编码部分中,所述实体词的第一描述文本所包含的词语经过双向循环神经网络RNN的处理,得到所述第一描述文本的隐含向量。
根据本发明一具体实施方式,在所述解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot;
利用实体词的向量表示ve、当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct;
利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布;
利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt;
依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成所述第二描述文本。
根据本发明一具体实施方式,所述利用实体词的向量表示ve、当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理包括:
利用实体词的向量表示ve和解码部分在当前时刻生成的隐含向量st,生成当前时刻新的隐含向量set,利用所述set以及所述第一描述文本的隐含向量进行注意力机制的处理。
根据本发明一具体实施方式,利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布包括:
利用所述ot和所述ct,生成预定义的词表所包含词的概率分布作为当前时刻的第一预测概率分布。
根据本发明一具体实施方式,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布包括:
利用所述注意力机制的结果,生成所述第一描述文本所包含词的概率分布作为当前时刻的第二预测概率分布。
根据本发明一具体实施方式,利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt包括:
依据所述st,从所述第一预测概率分布和所述第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt;或者,
将所述第一预测概率分布和所述第二预测概率分布进行联合,得到新的概率分布,从所述新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
另一方面,本发明提供了一种自动生成描述文本的方法,该方法包括:
获取实体词和实体词的第一描述文本;
将所述实体词和实体词的第一描述文本输入描述文本生成模型,获取所述描述文本生成模型输出的第二描述文本;
其中,所述描述文本生成模型是采用上述方法预先训练得到的。
根据本发明一具体实施方式,所述实体词作为输入搜索引擎的搜索关键词query的相关实体在所述query的搜索结果页中进行展现,且所述第二描述文本展现于所述相关实体的附近。
再一方面,本发明还提供了一种训练描述文本生成模型的装置,该装置包括:
第一获取单元,用于获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;
模型训练单元,用于将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。
根据本发明一具体实施方式,所述第一获取单元,具体用于:
将百科词条作为实体名;
从该百科词条的百科页面的信息盒子或摘要首句中抽取所述实体名的第二描述文本;
利用抽取的第二描述文本从百科页面正文中抽取对所述第二描述文本满足预设覆盖状况要求的句子作为所述实体名的第一描述文本。
根据本发明一具体实施方式,所述模型训练单元,具体用于:
将所述实体词的第一描述文本输入seq2seq模型的编码部分,获取所述编码部分输出的所述第一描述文本的隐含向量;
将所述实体词的向量表示、所述第一描述文本的隐含向量以及预设的初始预测词输入seq2seq模型的解码部分。
根据本发明一具体实施方式,所述模型训练单元,具体用于:
在所述解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot;
利用实体词的向量表示ve和当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct;
利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布;
利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt;
依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成所述第二描述文本。
根据本发明一具体实施方式,所述模型训练单元在利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt时,具体执行:
依据所述st,从所述第一预测概率分布和所述第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt;或者,
将所述第一预测概率分布和所述第二预测概率分布进行联合,得到新的概率分布,从所述新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
再一方面,本发明还提供了一种自动生成描述文本的装置,该装置包括:
第二获取单元,用于获取实体词和实体词的第一描述文本;
文本生成单元,用于将所述实体词和实体词的第一描述文本输入描述文本生成模型,获取所述描述文本生成模型输出的第二描述文本;
其中,所述描述文本生成模型是采用上述装置预先训练得到的。
本发明还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
本发明还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述的方法。
由以上技术方案可以看出,本发明基于seq2seq模型实现描述文本的生成,seq2seq模型从训练数据通过深度理解的方式学习到第二描述文本的生成方式,基于该方式训练得到的描述文本生成模型能够实现通过深度理解的方式生成针对实体词的精简描述文本。
【附图说明】
图1为搜索结果页中实体亮点的示例图;
图2为本发明实施例提供的训练描述文本生成模型的方法流程图;
图3a为本发明实施例提供的一百科页面的截图;
图3b为本发明实施例提供的另一百科页面的截图;
图4为本发明实施例提供的seq2seq模型的示意图;
图5a为本发明实施例提供的seq2seq模型的解码部分的示意图;
图5b为本发明实施例提供的seq2seq模型的解码部分的另一示意图;
图6为本发明实施例提供的自动生成描述文本的方法流程图;
图7为本发明实施例提供的训练描述文本生成模型的装置;
图8为本发明实施例提供的自动生成描述文本的装置结构图;
图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中,将实体词的源描述文本称为第一描述文本,将生成的更精简的描述文本称为第二描述文本,即第二描述文本是第一描述文本的精简表述。利用实体词的第一描述文本生成第二描述文本,通常需要达到以下几点:
1)从第一描述文本中找到重要的词。首先在第一描述文本中各词的重要程度是不同的,需要从中抽取出对于实体词而言重要的词来生成第二描述文本。
2)从源描述文本中找到对于实体词而言,有特色的词,这些词有可能是高频词,也有可能是低频词。
3)利用确定的词生成一段流畅的描述文本,且生成的第二描述文本是与实体词相关的。
目前文本摘要的方法可以划分为抽取式摘要和抽象式摘要。其中,抽取式摘要从原始文本中抽取重要的句子或短语,并将它们进行拼接来组成摘要。抽取式摘要无法在摘要中生成源文本中未出现的词。抽象式摘要将更多的精力放在了对源文本的深度理解以及文本生成中,因此在本发明中采用抽象式摘要的方式,具体基于seq2seq模型实现描述文本生成模型的训练以及描述文本的生成。
在本发明提供的方法主要包括两个阶段的实现:其一是模型训练阶段,其二是描述文本的生成阶段。下面结合实施例对这两个阶段提供的方法进行详述。
图2为本发明实施例提供的训练描述文本生成模型的方法流程图,如图2中所示,该方法可以包括以下步骤:
在201中,获取训练数据。
其中训练数据包括实体词、实体词的第一描述文本和第二描述文本。
作为一种实现方式,可以预先获取实体词以及实体词的第一描述文本,然后人工标注第二描述文本。
但上面所述的方式比较耗费人力,在此提供一种优选的实现方式以实现训练样本的自动获取:可以利用百科页面自动获取训练样本。具体地,可以包括以下步骤:
步骤S1:将百科词条作为实体名。例如,在百科词条“虎鲸”,可以将其作为训练数据中的实体名。
步骤S2:从该百科词条的百科页面的信息盒子或摘要首句中抽取所述实体名的第二描述文本。具体地,依据预先设置的规则,从所述信息盒子中特定信息属性中抽取属性值作为所述第二描述文本。也可以依据预先设置的规则,例如,将摘要首句中冒号“:”之后的第一句话作为第二描述文本。
举个例子,在百科词条“奥巴马”的百科页面中存在如图3a所示的信息盒子,可以依据预先设置的规则,将其“主要成就”的属性中的属性值“第44任美国总统”作为实体词“奥巴马”的第二描述文本。
再举个例子,在百科词条“虎鲸”的页面中,存在如图3b所示的摘要部分,其中将摘要中冒号后面的首句“是一种大型齿鲸”作为实体词“虎鲸”的第二描述文本。
步骤S3:利用抽取的第二描述文本从百科页面正文中抽取对所述第二描述文本满足预设覆盖状况要求的句子作为所述实体名的第一描述文本。
举个例子,在“奥巴马”的百科页面正文中,存在句子“当选第44任(第56届)美国总统已成定局,并成为美国历史上首位非洲裔总统”对“第44任美国总统”的覆盖率超过80%,则可以将该句子作为实体词“奥巴马”的第一描述文本。
上述训练样本中,每个第二描述文本的末尾均设置预设的结束符,用于在模型训练过程中作为词语预测的结束。
通过上述方式获取一定规模的训练数据后,开始进行描述文本生成模型的训练。继续参见图1,在202中,将实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练seq2seq模型,得到描述文本生成模型。
seq2seq模型主要包括两部分:编码部分(encoder)和解码部分(decoder),其中编码部分用于对输入的第一描述文本进行建模并得到一系列隐含向量,解码部分用于根据隐含向量生成预测词序列从而构成第二描述文本。
在本发明实施例中,如图4中所示,可以将所述实体词的第一描述文本输入seq2seq模型的编码部分,获取所述编码部分输出的第一描述文本的隐含向量。将实体词的向量表示、第一描述文本的隐含向量、预设的初始预测词输入seq2seq模型的解码部分。
具体地,在编码部分中,实体词的第一描述文本所包含的词语可以经过双向循环神经网络RNN的处理,得到第一描述文本的隐含向量。若第一描述文本包含M个词语,则经过编码部分可以得到第一描述文本的隐含向量由(h1,h2,…,hM)构成。本发明中沿用现有seq2seq模型中编码部分的结构。
本发明对seq2seq模型中解码部分的结构进行了改进,提供了一种增强型的解码部分。下面结合图5a对解码部分的结构进行详述:
在解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和ot,表示为:
st=f(st-1,yt-1,ct-1) (1)
其中,编码部分输出的最后一个隐含向量作为解码部分初始时刻的隐含向量。初始预测词可以采用预设的词。
利用实体词的向量表示ve和当前时刻生成的隐含向量st以及编码单元输出的第一描述文本的隐含向量进行注意力(Attention)机制的处理,得到当前时刻的上下文向量ct。
具体地,可以利用实体词的向量表示ve和解码部分在当前时刻生成的隐含向量st,生成当前时刻新的隐含向量set:
set=linear([ve;st]) (2)
其中,linear代表线性变换。
再利用set对编码单元输出的第一描述文本的隐含向量进行注意力机制的处理。例如可以表示为:
其中,αtj为权重,表示在解码时刻t在编码单元的第j个隐含向量hj上放多少注意力,其计算方式可以如下:
etj=vTtanh(Whj+Uset+wcovcovt+battn) (5)
其中,v,W,U,wcov,battn均为模型参数,covt为覆盖向量,其是之前所有解码过程中注意力分布的总和,计算方式可以如下:
然后,利用ot和ct进行第一归一化指数函数Softmax(Generate Softmax)处理得到当前时刻的第一预测概率分布,和/或,利用上述的注意力机制进行第二Softmax(CopySoftmax)处理得到当前时刻的第二预测概率分布。利用第一预测概率分布和/或第二预测概率分布,获得当前时刻的预测词yt。
其中,在Generate Softmax处理时,可以利用ot和ct,生成预定义的词表所包含词的概率分布作为当前时刻的第一预测概率分布。在Copy Softmax处理时,可以利用上述注意力机制的结果,生成第一描述文本所包含词的概率分布作为当前时刻的第二预测概率分布。
若Generate Softmax和Copy Softmax仅执行其一,则可以利用执行的GenerateSoftmax或Copy Softmax得到的第一预测概率分布或第二预测概率分布,直接将其中概率值最大的词作为当前时刻的预测词。
若Generate Softmax和Copy Softmax均执行,则可以采用但不限于以下两种方式确定当前时刻的预测词:
第一种方式:依据st,从第一预测概率分布和第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
具体地,图中gate生成一个0或1的值,其所生成的值ygt的计算方式如下:
ygt=argmaxsoftmax(linear(st)) (7)
当ygt的值为1时,当前时刻的预测词yt可以根据第二预测概率分布生成,即根据copy softmax生成的概率分布从第一描述文本中选择一个词。当ygt的值为0时,当前时刻的预测词yt可以根据第一预测概率分布生成,即根据generate softmax生成的概率分布从预设的词表中选择一个词。
第二种方式:将第一预测概率分布和第二预测概率分布进行联合,得到新的概率分布,从新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
具体地,图中gate生成的值为概率,可以如图5b中所示,其生成的概率Pgate的计算方式如下:
其中,σ为sigmoid函数,wc,ws,wy和b为模型参数,为当前时刻输入解码单元的预测词的词向量。
根据gate的输出概率Pgate可以将generate softmax得到的概率分布Pgenerate以及copy softmax得到的概率分布相结合,得到一个总的概率分布P(w),即计算公式如下:
其中,Pgenerate=softmax(linear([ot;ct])
如果词w不是预设词表中的词,则Pgenerate为0。如果词w不是第一描述文本中的词,则(为copy softmax针对w输出的概率)的值为0。解码部分针对预设词表和第一描述文本所包含的词中的每一个分别计算出对应的P(w),根据P(w)来确定输出哪个词,即输出P(w)最大的词作为当前时刻的预测词。
按照上述方式依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成第一描述文本对应的预测文本。在训练过程中,seq2seq模型的训练目标为:最小化第一描述文本对应的预测文本和样本中对应的第二描述文本的差异。
可以体现为最小化预设的损失函数,例如损失函数可以为:
模型训练的损失函数Losst定义如下:
其中,为t时刻的目标预测词,λ为预设参数值。
经过上述训练结束后,得到的seq2seq模型作为描述文本生成模型。该描述文本生成模型用于在输入实体词和实体词的第一描述文本后,输出实体词的第二描述文本。
图6为本发明实施例提供的自动生成描述文本的方法流程图,本方法的实现基于上述得到的描述文本生成模型,如图6中所示,该方法可以包括以下步骤:
在601中,获取实体词和实体词的第一描述文本。
本步骤中获取的实体词和实体词的第一描述文本为待从中抽取针对该实体词的第二描述文本的文本。
在602中,将所述实体词和实体词的第一描述文本输入描述文本生成模型,获取描述文本生成模型输出的第二描述文本。
将该实体词和实体词的第一描述文本输入采用如图2所示的流程预先训练得到的描述文本生成模型后,就能够得到第二描述文本。该描述文本生成模型基于seq2seq模型实现。
实现原理与模型训练的过程类似:
将实体词的第一描述文本输入seq2seq模型的编码部分,获取编码部分输出的第一描述文本的隐含向量。将实体词的向量表示、第一描述文本的隐含向量以及预设的初始预设词输入seq2seq模型的解码部分,由解码部分循环预测各时刻的预测词,直至得到结束符,将各时刻的预测词构成第二描述文本。
在解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和ot。其中,编码部分输出的最后一个隐含向量作为解码部分初始时刻的隐含向量。初始预测词可以采用预设的词。
利用实体词的向量表示ve和当前时刻生成的隐含向量st,以及编码单元输出的第一描述文本的隐含向量,得到当前时刻的上下文向量ct。具体地,可以利用实体词的向量表示ve和解码部分在当前时刻生成的隐含向量st,生成当前时刻新的隐含向量set。再利用set对编码单元输出的第一描述文本的隐含向量进行注意力机制的处理。
利用ot和ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用上述的注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布。其中,在进行第一softmax处理时,可以利用ot和ct,生成预定义的词表所包含词的概率分布作为当前时刻的第一预测概率分布。在第二Softmax处理时,可以利用上述注意力机制的结果,生成第一描述文本所包含词的概率分布作为当前时刻的第二预测词。
利用第一预测概率分布和/或第二预测概率分布,获得当前时刻的预测词yt。
若第一Softmax和第二Softmax仅执行其一,则可以利用执行的第一Softmax或第二Softmax得到的第一预测概率分布或第二预测概率分布,直接将其中概率值最大的词作为当前时刻的预测词。
若第一Softmax和第二Softmax均执行,则可以采用但不限于以下两种方式确定当前时刻的预测词:
第一种方式:依据st,从第一预测概率分布和第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
第二种方式:将第一预测概率分布和第二预测概率分布进行联合,得到新的概率分布,从新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
上述两种方式的具体实现可以参见图2所示实施例中的详细描述,在此不做赘述。
依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成第二描述文本。
以上是对本发明所提供的方法进行的详细描述,下面结合实施例对本发明提供的装置进行详细描述。
图7为本发明实施例提供的训练描述文本生成模型的装置,如图7所示,该装置可以包括:第一获取单元01和模型训练单元02。各组成单元的主要功能包括:
第一获取单元01负责获取训练数据,训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中第二描述文本为第一描述文本的精简表述。
具体地,第一获取单元01可以将百科词条作为实体名;从该百科词条的百科页面的信息盒子或摘要首句中抽取实体名的第二描述文本;利用抽取的第二描述文本从百科页面正文中抽取对第二描述文本满足预设覆盖状况要求的句子作为实体名的第一描述文本。
模型训练单元02,用于将实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练seq2seq模型,得到描述文本生成模型。
具体地,模型训练单元02可以将实体词的第一描述文本输入seq2seq模型的编码部分,获取编码部分输出的第一描述文本的隐含向量。在编码部分中,实体词的第一描述文本所包含的词语经过RNN的处理,得到第一描述文本的隐含向量。
模型训练单元02可以将实体词的向量表示、第一描述文本的隐含向量以及预设的初始预测词输入seq2seq模型的解码部分。
在解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot。
利用实体词的向量表示ve和当前时刻生成的隐含向量st以及编码单元输出的第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct。例如,可以利用实体词的向量表示ve和解码部分在当前时刻生成的隐含向量st,生成当前时刻新的隐含向量set,利用所述set对编码单元输出的第一描述文本的隐含向量进行注意力机制的处理。
利用ot和ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率,和/或,利用上述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率。例如,可以利用ot和ct,从预定义的词表中选择一个概率最大的词作为当前时刻的第一预测词。可以利用上述注意力机制,从第一描述文本中选择一个概率最大的词作为当前时刻的第二预测词。
利用第一预测概率分布和/或第二预测概率分布,获得当前时刻的预测词yt。
若第一Softmax和第二Softmax仅执行其一,则可以利用执行的第一Softmax或第二Softmax得到的第一预测概率分布或第二预测概率分布,直接将其中概率值最大的词作为当前时刻的预测词。
若第一Softmax和第二Softmax均执行,则可以采用但不限于以下两种方式确定当前时刻的预测词:
第一种方式:依据st,从第一预测概率分布和第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
第二种方式:将第一预测概率分布和第二预测概率分布进行联合,得到新的概率分布,从新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成第一描述文本对应的预测文本。其中,seq2seq模型的训练目标为:最小化第一描述文本对应的预测文本和样本中对应的第二描述文本的差异。
图8为本发明实施例提供的自动生成描述文本的装置结构图,该装置的实现基于图7所示装置预先建立的描述文本生成模型。如图8所示,该装置可以包括:第二获取单元11和文本生成单元12。各组成单元的主要功能如下:
第二获取单元11负责获取实体词和实体词的第一描述文本。
文本生成单元12将实体词和实体词的第一描述文本输入描述文本生成模型,获取描述文本生成模型输出的第二描述文本。
文本生成单元12将实体词的第一描述文本输入seq2seq模型的编码部分,获取编码部分输出的第一描述文本的隐含向量。将实体词的向量表示、第一描述文本的隐含向量以及预设的初始预设词输入seq2seq模型的解码部分,由解码部分循环预测各时刻的预测词,直至得到结束符,将各时刻的预测词构成第二描述文本。
在解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot。其中,编码部分输出的最后一个隐含向量作为解码部分初始时刻的隐含向量。初始预测词可以采用预设的词。
利用实体词的向量表示ve和当前时刻生成的隐含向量st以及编码单元输出的第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct。具体地,可以利用实体词的向量表示ve和解码部分在当前时刻生成的隐含向量st,生成当前时刻新的隐含向量set。再利用set对编码单元输出的第一描述文本的隐含向量进行注意力机制的处理。
利用ot和ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用上述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布。其中,在进行第一softmax处理时,可以利用ot和ct,生成预定义的词表所包含词的概率分布作为当前时刻的第一预测概率分布。在第二Softmax处理时,可以利用上述注意力机制的结果,生成第一描述文本所包含词的概率分布作为当前时刻的第二预测概率分布。
利用第一预测概率分布和/或第二预测概率分布,获得当前时刻的预测词yt。
若第一Softmax和第二Softmax仅执行其一,则可以利用执行的第一Softmax或第二Softmax得到的第一预测概率分布或第二预测概率分布,直接将其中概率值最大的词作为当前时刻的预测词。
若第一Softmax和第二Softmax均执行,则可以采用但不限于以下两种方式确定当前时刻的预测词:
第一种方式:依据st,从第一预测概率分布和第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
第二种方式:将第一预测概率分布和第二预测概率分布进行联合,得到新的概率分布,从新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
上述两种方式的具体实现可以参见图2所示实施例中的详细描述,在此不做赘述。
依次循环获取各时刻的预测词,直至得到预设的结束符,文本生成单元12预测得到的各时刻的预测词构成第二描述文本。
本发明上述实施例提供的自动生成描述文本的方式可以应用于多种应用场景,在此仅列举以下几种应用场景:
应用场景一、
从实体词的第一描述文本中抽取第二描述文本,当该实体词作为某query的相关实体在搜索结果页中被推荐展现时,该实体词的第二描述文本可以作为该相关实体的“实体亮点”,并在该相关实体的附近(例如下方)进行展现。该“实体亮点”可以看做是该相关实体被推荐的理由,用户通过该“实体亮点”可以对该相关实体进行直观地了解。
应用场景二、
若用户在搜索引擎中输入的query为实体词,则可以搜索结果中各相关网页的标题作为第一描述文本,将该query作为实体词输入描述文本生成模型,生成的第二描述文本可以作为该相关网页的语义扩充展现在搜索结果页中该相关网页的附近。以便用户能够对该相关网页的内容有一个直观的了解,以决定是否点击该相关网页并跳转到落地页进行详细浏览。
应用场景三、
可以采用本发明提供的上述方式预先针对知识库中的各实体词生成“实体亮点”。当用户输入的query为实体词或包含实体词,且该实体词可能包含多个含义时,获取该实体词的上下文的向量表示,例如可以是由该query的历史query序列构成的上下文对应的向量表示,也可以是该query中包含的实体词前后的其他词语构成的上下文对应的向量表示。将该实体词的上下文向量表示与知识库中对应的相同实体词的“实体亮点”的向量表示进行相似度计算,依据相似度确定出该实体词在知识图谱中对应的实体词,从而帮助query中的实体词进行辅助消岐。
图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图9显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图9中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
由以上描述可以看出,本发明实施例提供的方法、装置、设备和计算机存储介质可以具备以下优点:
1)本发明基于seq2seq模型实现描述文本的生成,seq2seq模型从训练数据通过深度理解的方式学习到第二描述文本的生成方式,基于该方式训练得到的描述文本生成模型能够实现通过深度理解的方式生成针对实体词的精简描述文本。
2)本发明提出了一种增强的seq2seq模型,将实体名信息融入到模型中来指导解码过程,从而使得训练的描述文本生成模型更好地理解第一描述文本的核心含义,并据此生成实体词的第二描述文本,使得生成的第二描述文本对实体词的描述更加精准。
3)本申请在seq2seq模型中融入注意力机制、拷贝机制等,经过实验表明本申请提供的增强的seq2seq模型对第一描述文本的理解效果明显优于传统seq2seq模型,提高了生成第二描述文本的有效性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种训练描述文本生成模型的方法,其特征在于,该方法包括:
获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;
将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。
2.根据权利要求1所述的方法,其特征在于,所述获取训练数据包括:
将百科词条作为实体名;
从该百科词条的百科页面的信息盒子或摘要首句中抽取所述实体名的第二描述文本;
利用抽取的第二描述文本从百科页面正文中抽取对所述第二描述文本满足预设覆盖状况要求的句子作为所述实体名的第一描述文本。
3.根据权利要求2所述的方法,其特征在于,所述从该百科词条的百科页面的信息盒子中抽取所述实体名的第二描述文本包括:
依据预先设置的规则,从所述信息盒子中特定信息属性中抽取属性值作为所述第二描述文本。
4.根据权利要求1所述的方法,其特征在于,将所述实体词和实体词的第一描述文本作为seq2seq模型的输入包括:
将所述实体词的第一描述文本输入seq2seq模型的编码部分,获取所述编码部分输出的所述第一描述文本的隐含向量;
将所述实体词的向量表示、所述第一描述文本的隐含向量以及预设的初始预测词输入seq2seq模型的解码部分。
5.根据权利要求4所述的方法,其特征在于,在所述编码部分中,所述实体词的第一描述文本所包含的词语经过双向循环神经网络RNN的处理,得到所述第一描述文本的隐含向量。
6.根据权利要求4所述的方法,其特征在于,在所述解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot;
利用实体词的向量表示ve、当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct;
利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布;
利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt;
依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成所述第二描述文本。
7.根据权利要求6所述的方法,其特征在于,所述利用实体词的向量表示ve、当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理包括:
利用实体词的向量表示ve和解码部分在当前时刻生成的隐含向量st,生成当前时刻新的隐含向量set,利用所述set以及所述第一描述文本的隐含向量进行注意力机制的处理。
8.根据权利要求6所述的方法,其特征在于,利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布包括:
利用所述ot和所述ct,生成预定义的词表所包含词的概率分布作为当前时刻的第一预测概率分布。
9.根据权利要求6所述的方法,其特征在于,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布包括:
利用所述注意力机制的结果,生成所述第一描述文本所包含词的概率分布作为当前时刻的第二预测概率分布。
10.根据权利要求6所述的方法,其特征在于,利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt包括:
依据所述st,从所述第一预测概率分布和所述第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt;或者,
将所述第一预测概率分布和所述第二预测概率分布进行联合,得到新的概率分布,从所述新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
11.一种自动生成描述文本的方法,其特征在于,该方法包括:
获取实体词和实体词的第一描述文本;
将所述实体词和实体词的第一描述文本输入描述文本生成模型,获取所述描述文本生成模型输出的第二描述文本;
其中,所述描述文本生成模型是如权利要求1至10任一权项所述方法预先训练得到的。
12.根据权利要求11所述的方法,其特征在于,所述实体词作为输入搜索引擎的搜索关键词query的相关实体在所述query的搜索结果页中进行展现,且所述第二描述文本展现于所述相关实体的附近。
13.一种训练描述文本生成模型的装置,其特征在于,该装置包括:
第一获取单元,用于获取训练数据,所述训练数据包括:实体词、实体词的第一描述文本和第二描述文本,其中所述第二描述文本为所述第一描述文本的精简表述;
模型训练单元,用于将所述实体词和实体词的第一描述文本作为seq2seq模型的输入,将实体词的第二描述文本作为seq2seq模型的输出,训练所述seq2seq模型,得到描述文本生成模型。
14.根据权利要求13所述的装置,其特征在于,所述第一获取单元,具体用于:
将百科词条作为实体名;
从该百科词条的百科页面的信息盒子或摘要首句中抽取所述实体名的第二描述文本;
利用抽取的第二描述文本从百科页面正文中抽取对所述第二描述文本满足预设覆盖状况要求的句子作为所述实体名的第一描述文本。
15.根据权利要求13所述的装置,其特征在于,所述模型训练单元,具体用于:
将所述实体词的第一描述文本输入seq2seq模型的编码部分,获取所述编码部分输出的所述第一描述文本的隐含向量;
将所述实体词的向量表示、所述第一描述文本的隐含向量以及预设的初始预测词输入seq2seq模型的解码部分。
16.根据权利要求15所述的装置,其特征在于,所述模型训练单元,具体用于:
在所述解码部分中,利用上一时刻的上下文向量ct-1、上一时刻的隐含向量st-1以及上一时刻的预测词yt-1,生成当前时刻的隐含向量st和输出向量ot;
利用实体词的向量表示ve和当前时刻生成的隐含向量st以及所述第一描述文本的隐含向量进行注意力机制的处理,得到当前时刻的上下文向量ct;
利用所述ot和所述ct进行第一归一化指数函数Softmax处理得到当前时刻的第一预测概率分布,和/或,利用所述注意力机制进行第二Softmax处理得到当前时刻的第二预测概率分布;
利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt;
依次循环获取各时刻的预测词,直至得到预设的结束符,预测得到的各时刻的预测词构成所述第二描述文本。
17.根据权利要求16所述的装置,其特征在于,所述模型训练单元在利用所述第一预测概率分布和/或所述第二预测概率分布,获得当前时刻的预测词yt时,具体执行:
依据所述st,从所述第一预测概率分布和所述第二预测概率分布中选择一个概率分布,从选择的概率分布中选择概率值最大的词作为当前时刻的预测词yt;或者,
将所述第一预测概率分布和所述第二预测概率分布进行联合,得到新的概率分布,从所述新的概率分布中选择概率值最大的词作为当前时刻的预测词yt。
18.一种自动生成描述文本的装置,其特征在于,该装置包括:
第二获取单元,用于获取实体词和实体词的第一描述文本;
文本生成单元,用于将所述实体词和实体词的第一描述文本输入描述文本生成模型,获取所述描述文本生成模型输出的第二描述文本;
其中,所述描述文本生成模型是如权利要求13至17任一权项所述装置预先训练得到的。
19.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
20.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-12中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810622437.7A CN109062937B (zh) | 2018-06-15 | 2018-06-15 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
US16/176,783 US11157698B2 (en) | 2018-06-15 | 2018-10-31 | Method of training a descriptive text generating model, and method and apparatus for generating descriptive text |
EP18206520.1A EP3582114A1 (en) | 2018-06-15 | 2018-11-15 | Method of training a descriptive text generating model, and method and apparatus for generating descriptive text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810622437.7A CN109062937B (zh) | 2018-06-15 | 2018-06-15 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109062937A true CN109062937A (zh) | 2018-12-21 |
CN109062937B CN109062937B (zh) | 2019-11-26 |
Family
ID=64331789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810622437.7A Active CN109062937B (zh) | 2018-06-15 | 2018-06-15 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11157698B2 (zh) |
EP (1) | EP3582114A1 (zh) |
CN (1) | CN109062937B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597884A (zh) * | 2018-12-28 | 2019-04-09 | 北京百度网讯科技有限公司 | 对话生成的方法、装置、存储介质和终端设备 |
CN109992771A (zh) * | 2019-03-13 | 2019-07-09 | 北京三快在线科技有限公司 | 一种文本生成的方法及装置 |
CN110362823A (zh) * | 2019-06-21 | 2019-10-22 | 北京百度网讯科技有限公司 | 描述文本生成模型的训练方法和装置 |
CN110377910A (zh) * | 2019-07-22 | 2019-10-25 | 北京大学 | 一种表格描述的处理方法、装置、设备及存储介质 |
CN110377902A (zh) * | 2019-06-21 | 2019-10-25 | 北京百度网讯科技有限公司 | 描述文本生成模型的训练方法和装置 |
CN111222320A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种字符预测模型训练方法及装置 |
CN111274776A (zh) * | 2020-01-21 | 2020-06-12 | 中国搜索信息科技股份有限公司 | 一种基于关键词的文章生成方法 |
WO2020134154A1 (zh) * | 2018-12-29 | 2020-07-02 | 平安科技(深圳)有限公司 | 基于人工智能的文本数据增强方法、装置、设备及存储介质 |
CN111460109A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 摘要及对话摘要生成方法和装置 |
CN111581923A (zh) * | 2020-04-29 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 文案生成方法、装置、设备和计算机可读存储介质 |
WO2020173133A1 (zh) * | 2019-02-27 | 2020-09-03 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN111753536A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种专利申请文本的自动撰写方法和装置 |
CN111783422A (zh) * | 2020-06-24 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 一种文本序列生成方法、装置、设备和介质 |
CN111984783A (zh) * | 2020-08-28 | 2020-11-24 | 达闼机器人有限公司 | 文本生成模型的训练方法、文本生成方法及相关设备 |
CN112818082A (zh) * | 2019-11-15 | 2021-05-18 | 北京沃东天骏信息技术有限公司 | 评价文本推送方法和装置 |
CN113590858A (zh) * | 2021-06-30 | 2021-11-02 | 北京百度网讯科技有限公司 | 目标对象的生成方法、装置、电子设备以及存储介质 |
CN113761173A (zh) * | 2020-07-20 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 一种文本摘要生成方法和装置 |
CN113762523A (zh) * | 2021-01-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法、装置、存储介质及电子设备 |
CN114491209A (zh) * | 2022-01-24 | 2022-05-13 | 南京中新赛克科技有限责任公司 | 基于互联网信息抓取的企业业务标签挖掘的方法和系统 |
CN114840499A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种表描述信息的生成方法、相关装置、设备及存储介质 |
CN114840563A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种字段描述信息的生成方法、装置、设备及存储介质 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428508A (zh) * | 2018-12-24 | 2020-07-17 | 微软技术许可有限责任公司 | 风格可定制的文本生成 |
CN111091011B (zh) * | 2019-12-20 | 2023-07-28 | 科大讯飞股份有限公司 | 领域预测方法、领域预测装置及电子设备 |
CN111078865B (zh) * | 2019-12-24 | 2023-02-21 | 北京百度网讯科技有限公司 | 文本标题生成方法和装置 |
CN111026319B (zh) * | 2019-12-26 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种智能文本处理方法、装置、电子设备及存储介质 |
CN111428467B (zh) * | 2020-02-19 | 2024-05-07 | 平安科技(深圳)有限公司 | 生成阅读理解的问题题目的方法、装置、设备及存储介质 |
CN111428448B (zh) * | 2020-03-02 | 2024-05-07 | 平安科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及可读存储介质 |
CN113553815A (zh) * | 2020-04-26 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 基于层次注意力指针生成网络的智能报表描述自动生成的方法及装置 |
CN111475635B (zh) * | 2020-05-18 | 2023-04-18 | 支付宝(杭州)信息技术有限公司 | 语义补全方法、装置和电子设备 |
CN111723196B (zh) * | 2020-05-21 | 2023-03-24 | 西北工业大学 | 基于多任务学习的单文档摘要生成模型构建方法及装置 |
CN111709248B (zh) * | 2020-05-28 | 2023-07-11 | 北京百度网讯科技有限公司 | 文本生成模型的训练方法、装置及电子设备 |
CN113297828B (zh) * | 2020-07-22 | 2024-09-24 | 阿里巴巴(上海)有限公司 | 一种文本生成方法、装置、计算机设备及存储介质 |
CN113762459A (zh) * | 2021-01-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种模型训练方法、文本生成方法、装置、介质及设备 |
CN112862672B (zh) * | 2021-02-10 | 2024-04-16 | 厦门美图之家科技有限公司 | 刘海生成方法、装置、计算机设备和存储介质 |
CN113377914A (zh) * | 2021-06-10 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 推荐文本生成方法、装置、电子设备和计算机可读介质 |
US11755637B2 (en) * | 2021-08-20 | 2023-09-12 | Salesforce, Inc. | Multi-attribute control for text summarization using multiple decoder heads |
CN114154513B (zh) * | 2022-02-07 | 2022-07-26 | 杭州远传新业科技股份有限公司 | 一种领域语义网自动构建方法及系统 |
CN114691858B (zh) * | 2022-03-15 | 2023-10-03 | 电子科技大学 | 一种基于改进的unilm摘要生成方法 |
CN114861640A (zh) * | 2022-04-11 | 2022-08-05 | 阿里巴巴(中国)有限公司 | 文本摘要模型的训练方法及装置 |
CN115169227B (zh) * | 2022-07-04 | 2023-07-07 | 四川大学 | 设计概念生成网络构建方法及概念方案自动生成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN107784099A (zh) * | 2017-10-24 | 2018-03-09 | 济南浪潮高新科技投资发展有限公司 | 一种自动生成中文新闻摘要的方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN107943792A (zh) * | 2017-11-24 | 2018-04-20 | 腾讯科技(深圳)有限公司 | 一种语句分析方法、装置及终端设备、存储介质 |
CN108090070A (zh) * | 2016-11-22 | 2018-05-29 | 北京高地信息技术有限公司 | 一种中文实体属性抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9665643B2 (en) * | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
US10540446B2 (en) * | 2018-01-31 | 2020-01-21 | Jungle Disk, L.L.C. | Natural language generation using pinned text and multiple discriminators |
-
2018
- 2018-06-15 CN CN201810622437.7A patent/CN109062937B/zh active Active
- 2018-10-31 US US16/176,783 patent/US11157698B2/en active Active
- 2018-11-15 EP EP18206520.1A patent/EP3582114A1/en not_active Ceased
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN108090070A (zh) * | 2016-11-22 | 2018-05-29 | 北京高地信息技术有限公司 | 一种中文实体属性抽取方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN107784099A (zh) * | 2017-10-24 | 2018-03-09 | 济南浪潮高新科技投资发展有限公司 | 一种自动生成中文新闻摘要的方法 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN107943792A (zh) * | 2017-11-24 | 2018-04-20 | 腾讯科技(深圳)有限公司 | 一种语句分析方法、装置及终端设备、存储介质 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597884A (zh) * | 2018-12-28 | 2019-04-09 | 北京百度网讯科技有限公司 | 对话生成的方法、装置、存储介质和终端设备 |
WO2020134154A1 (zh) * | 2018-12-29 | 2020-07-02 | 平安科技(深圳)有限公司 | 基于人工智能的文本数据增强方法、装置、设备及存储介质 |
CN111460109A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 摘要及对话摘要生成方法和装置 |
CN111460109B (zh) * | 2019-01-22 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 摘要及对话摘要生成方法和装置 |
WO2020173133A1 (zh) * | 2019-02-27 | 2020-09-03 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN109992771A (zh) * | 2019-03-13 | 2019-07-09 | 北京三快在线科技有限公司 | 一种文本生成的方法及装置 |
CN109992771B (zh) * | 2019-03-13 | 2020-05-05 | 北京三快在线科技有限公司 | 一种文本生成的方法及装置 |
CN110362823A (zh) * | 2019-06-21 | 2019-10-22 | 北京百度网讯科技有限公司 | 描述文本生成模型的训练方法和装置 |
CN110377902A (zh) * | 2019-06-21 | 2019-10-25 | 北京百度网讯科技有限公司 | 描述文本生成模型的训练方法和装置 |
CN110377910A (zh) * | 2019-07-22 | 2019-10-25 | 北京大学 | 一种表格描述的处理方法、装置、设备及存储介质 |
CN110377910B (zh) * | 2019-07-22 | 2024-03-05 | 北京大学 | 一种表格描述的处理方法、装置、设备及存储介质 |
CN112818082A (zh) * | 2019-11-15 | 2021-05-18 | 北京沃东天骏信息技术有限公司 | 评价文本推送方法和装置 |
CN111222320A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种字符预测模型训练方法及装置 |
CN111274776B (zh) * | 2020-01-21 | 2020-12-15 | 中国搜索信息科技股份有限公司 | 一种基于关键词的文章生成方法 |
CN111274776A (zh) * | 2020-01-21 | 2020-06-12 | 中国搜索信息科技股份有限公司 | 一种基于关键词的文章生成方法 |
CN111753536A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种专利申请文本的自动撰写方法和装置 |
CN111581923A (zh) * | 2020-04-29 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 文案生成方法、装置、设备和计算机可读存储介质 |
CN111783422A (zh) * | 2020-06-24 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 一种文本序列生成方法、装置、设备和介质 |
US11669679B2 (en) | 2020-06-24 | 2023-06-06 | Beijing Byledance Network Technology Co., Ltd. | Text sequence generating method and apparatus, device and medium |
CN111783422B (zh) * | 2020-06-24 | 2022-03-04 | 北京字节跳动网络技术有限公司 | 一种文本序列生成方法、装置、设备和介质 |
CN113761173A (zh) * | 2020-07-20 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 一种文本摘要生成方法和装置 |
CN111984783A (zh) * | 2020-08-28 | 2020-11-24 | 达闼机器人有限公司 | 文本生成模型的训练方法、文本生成方法及相关设备 |
CN111984783B (zh) * | 2020-08-28 | 2024-04-02 | 达闼机器人股份有限公司 | 文本生成模型的训练方法、文本生成方法及相关设备 |
CN113762523A (zh) * | 2021-01-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法、装置、存储介质及电子设备 |
CN114840499A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种表描述信息的生成方法、相关装置、设备及存储介质 |
CN114840563A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种字段描述信息的生成方法、装置、设备及存储介质 |
CN114840563B (zh) * | 2021-02-01 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 一种字段描述信息的生成方法、装置、设备及存储介质 |
CN114840499B (zh) * | 2021-02-01 | 2024-07-09 | 腾讯科技(深圳)有限公司 | 一种表描述信息的生成方法、相关装置、设备及存储介质 |
CN113590858B (zh) * | 2021-06-30 | 2023-10-03 | 北京百度网讯科技有限公司 | 目标对象的生成方法、装置、电子设备以及存储介质 |
CN113590858A (zh) * | 2021-06-30 | 2021-11-02 | 北京百度网讯科技有限公司 | 目标对象的生成方法、装置、电子设备以及存储介质 |
CN114491209A (zh) * | 2022-01-24 | 2022-05-13 | 南京中新赛克科技有限责任公司 | 基于互联网信息抓取的企业业务标签挖掘的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109062937B (zh) | 2019-11-26 |
EP3582114A1 (en) | 2019-12-18 |
US20190384810A1 (en) | 2019-12-19 |
US11157698B2 (en) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109062937B (zh) | 训练描述文本生成模型的方法、生成描述文本的方法及装置 | |
Yao et al. | An improved LSTM structure for natural language processing | |
Young et al. | Recent trends in deep learning based natural language processing | |
CN110032633B (zh) | 多轮对话处理方法、装置和设备 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US11544474B2 (en) | Generation of text from structured data | |
US20210342552A1 (en) | Natural language text generation from a set of keywords using machine learning and templates | |
CN109635197B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN108595629B (zh) | 用于答案选择系统的数据处理方法及应用 | |
CN109918568B (zh) | 个性化学习方法、装置、电子设备及存储介质 | |
CN112668338B (zh) | 澄清问题生成方法、装置和电子设备 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
Liu et al. | DialogueCSE: Dialogue-based contrastive learning of sentence embeddings | |
CN111144093B (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
WO2021001517A1 (en) | Question answering systems | |
Liu et al. | A hybrid neural network RBERT-C based on pre-trained RoBERTa and CNN for user intent classification | |
CN115309994A (zh) | 地点检索方法、电子设备以及存储介质 | |
Ostendorf | Continuous-space language processing: Beyond word embeddings | |
Wang et al. | Data augmentation for internet of things dialog system | |
Wang et al. | Semantic-aware conditional variational autoencoder for one-to-many dialogue generation | |
Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding | |
Jin et al. | A BiLSTM-CRF based approach to word segmentation in Chinese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |