CN111523304B - 一种基于预训练模型的产品描述文本的自动生成方法 - Google Patents

一种基于预训练模型的产品描述文本的自动生成方法 Download PDF

Info

Publication number
CN111523304B
CN111523304B CN202010342927.9A CN202010342927A CN111523304B CN 111523304 B CN111523304 B CN 111523304B CN 202010342927 A CN202010342927 A CN 202010342927A CN 111523304 B CN111523304 B CN 111523304B
Authority
CN
China
Prior art keywords
product description
word
model
product
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010342927.9A
Other languages
English (en)
Other versions
CN111523304A (zh
Inventor
高明
高宝丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010342927.9A priority Critical patent/CN111523304B/zh
Publication of CN111523304A publication Critical patent/CN111523304A/zh
Application granted granted Critical
Publication of CN111523304B publication Critical patent/CN111523304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预训练模型的产品描述文本的自动生成方法,其特点是采用框架预训练模型方法,通过引入辅助数据库以及预训练的BERT模型权重,根据给定的产品功能类属性特征,自动生成产品描述文本,具体包括:词典、共现关系库和检索数据库的构建,以及模型和文本的生成。本发明与现有技术相比具有根据给定的产品功能类属性特征来生成一段通顺可读、信息量丰富的产品描述文本,有效解决了数据量少、生成文本长度控制以及功能类属性特征可控三大问题,提高了产品描述文本的生成质量和文本多样性。

Description

一种基于预训练模型的产品描述文本的自动生成方法
技术领域
本发明涉及自然语言处理技术领域,尤其是一种基于预训练模型的产品描述文本的自动生成方法。
背景技术
产品描述的自动生成是一项根据给定的产品属性特征,自动生成一段包含给定特征信息、通顺可读且文本长度可控的描述性文本的技术。以空调为例,给出属性特征“静音、除霜、5匹”,会自动生成一段包含以上特征的描述文本。撰写产品描述对人而言是一项乏味、耗时的工作,但产品描述无疑又是重要的,因为它是消费者了解产品的一项重要途径,在一定程度上决定着消费者购买产品与否。自动生成技术可以辅助人类写作,给人以灵感,因此,自动的产品描述生成技术受到了学术界和工业界的颇多关注。目前,产品的属性特征大体分为两类,一类是规格类属性特征,如“5匹”,用来描述产品的规格大小;一类是功能类属性特征,如“除霜”、“健康”,用来描述产品的功能或者某一功能带来的使用效果。
Wang J,Hou Y,Liu J,et al.A statistical framework for productdescription generation[C]//Proceedings of the Eighth International JointConference on Natural Language Processing(Volume 2:Short Papers).2017:187-192.其工作通过模板的方式来生成产品描述,但主要解决的是给定规格类属性的产品描述。
Chen Q,Lin J,Zhang Y,et al.Towards Knowledge-Based PersonalizedProduct Description Generation in E-commerce[C]//Proceedings of the 25th ACMSIGKDD International Conference on Knowledge Discovery&Data Mining.ACM,2019:3040-3050.公开的产品描述技术,是将产品分为“外表、手感和功能”三个属性,在构造数据集时,用了复杂的启发式算法来对每一条数据标注相应的产品属性,其标注方法注定了无法细分产品的具体功能是什么,因此该工作虽然能生成产品描述,但是可控性不高。
Feng X,Liu M,Liu J,et al.Topic-to-Essay Generation with NeuralNetworks[C]//IJCAI.2018:4078-4084.和Yang P,Li L,Luo F,et al.Enhancing Topic-to-Essay Generation with External Commonsense Knowledge[C]//Proceedings ofthe 57th Annual Meeting of the,公开了产品描述的相关技术,其生成的产品描述难以保证覆盖全部的给定属性特征。
Miao N,Zhou H,Mou L,et al.Cgmh:Constrained sentence generation bymetropolis-hastings sampling[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2019,33:6834-6842.公开了一种产品描述的技术,它虽然能覆盖所有给定的产品属性特征词,但长度往往过短。
现有技术的产品描述的自动生成,其工作都是从零开始训练模型,需要大量的数据以及良好的硬件资源,存在着以下问题:
1)数据量少易导致欠拟合,影响文本生成质,数据的获取,尤其是高质量数据的获取是需要成本的,如何在数据量较少的情况下,生成通顺可读且信息量丰富的产品描述。
2)文本长度控制,如何生成可控长度的产品描述,过短的文本长度表达的信息不充分,过长的文本长度会降低消费者的阅读欲望。
3)功能类产品属性特征的可控,因为即使是同一产品,如空调,不同品牌、不同型号的产品功能是有差异的,如何根据给定的产品功能特征生成包含所有给定属性特征的通顺可读的产品。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于预训练模型的产品描述文本的自动生成方法,采用检索加生成的框架预训练模型方法,通过引入共现关系库、检索数据库等辅助数据库,以及预训练的BERT模型权重,可根据给定的产品功能类属性特征,生成一段通顺可读、信息量丰富的产品描述文本,有效解决了数据量少易导致欠拟合,影响文本生成质量的问题,使文本长度控制在指定产品描述所含字符数的范围内,给定属性特征的通顺可读,进而提高了产品描述文本的生成质量和文本多样性。
实现本发明目的的具体技术方案是:一种基于预训练模型的产品描述文本的自动生成方法,其特点是采用框架预训练模型方法,通过引入辅助数据库以及预训练的BERT模型权重,根据给定的产品功能类属性特征,自动生成产品描述文本,其具体生成过程包括如下步骤:
(一)词典的构建
步骤A1:采用Jieba分词工具对语料库的数据进行分词,所述语料库可通过爬虫从合适的数据源中爬取众多在线的、通顺可读的产品描述,或通过其他途径获取,如空调的产品描述数据可以在58空调网上爬取。
步骤A2:加载停止词表,对步骤A1得到的每个词进行词频统计,去除词频为1或出现在停止词表中的词,所剩的词为构建的词典。
(二)共现关系库的构建
步骤B1:将语料库中的每段产品描述按句号或分号进行分割。
步骤B2:为了降低复杂度,只保留句子中的重要成分。
对步骤B1得到的每个句子,保留动词、名词、动名词、机构名、地名、人名,以及专有名词和形容词的词性词。
步骤B3:遍历每一个句子,对步骤B2得到的各词性词统计前向共现关系库和后向共现关系库,构建如下哈希表实现共现关系库的结构:
{center:{context:count,…},…};
其中,count表示中心词center和上下文词context的共现次数,如果是前向共现关系库,那么在句子中上下文词context出现在中心词center的后面;如果是后向共现关系库,那么上下文词context出现在中心词center的前面;
(三)检索数据库的构建
根据步骤(二)得到的结果,去语料库中检索合适的句子以进一步扩充产品特征词,为了提高检索效率,采用倒排索引技术构建检索数据库,其具体步骤如下:
步骤C1:给语料库的每条数据一个文件ID,给词典中的每个词一个单词ID。
步骤C2:检索数据库实际上是一个倒排文件,并用哈希表存储,所有的倒排列表构成的文件叫做倒排文件,也就是检索数据库。
遍历语料库中的每条数据,记录倒排项,最终形成如下结构的倒排列表:
{search_token:[IDF,[(DocID,TF),…]]};
其中,IDF表示检索词search_token出现在多少个不同的文件中,DocID是文件编号,TF为该检索词search_token在文件DocID中出现的频次;
(四)产品描述模型的生成
产品描述模型的生成,其输入是有序关键词,输出是一段产品描述,训练产品描述生成模型的具体步骤如下:
步骤D1:准备数据集
对语料库的每条数据,抽取名词、动词词性的词作为关键词,并按在数据中出现的顺序对关键词排序作为UNILM模型的输入建立数据集。数据集包括关键词列和产品描述列,根据UNILM模型能够处理的最大字符长度,应尽可能保证产品描述和关键词的字符数总和小于510。
步骤D2:将上述数据集划分为训练集、验证集和测试集,划分的三个数据集其数据不能有重叠。
步骤D3:采用Keras深度学习框架构建模型,其模型采用UNILM,加载了中文预训练BERT模型(12-layer,768-hidden,12-heads)的权重。
步骤D4:利用训练集对加载中文预训练BERT模型的权重,在此基础上进行微调权重参数,损失函数是交叉熵损失函数,由此训练BERT模型,并利用验证集训练至模型收敛,最终得到产品描述模型;
步骤D5:利用测试集测试产品描述模型的性能;
(五)产品描述文本的生成的具体应用步骤如下:
步骤E1:扩词
对于用户给定的每个产品特征词w进行扩词,得到若干个出现在特征词w后面的词和若干个出现在特征词w前面的词。在这一步,优先选择共现次数高的词,因为共现次数太低的很可能是噪音。
步骤E2:检索
根据给定的产品特征词w以及由步骤E1得到的所有扩充词,在检索数据库中检索。
步骤E3:有序关键词
对于步骤E2检索到的每条数据,抽取关键词,抽取关键词的方式与步骤D1相同,即把句子中名词、动词词性的词作为关键词,即给定产品特征词的最终扩展结果。
步骤E4:生成描述
把步骤E3得到的有序关键词,输入到训练好的产品描述模型中,即可得到通顺流畅、长度可控的产品描述文本。其中产品描述模型在得到下一个的预测词时,采用核采样(Nucleus Sampling)方法。
本发明与现有技术相比具有根据给定的产品功能类属性特征生成一段通顺可读、信息量丰富的产品描述文本,方法简单,使用方便,有效解决了在数据量较少的情况下仍能有不错的精度,可使文本长度控制在指定产品描述所含字符数的范围内,以及功能类属性特征可控问题。
附图说明
图1为产品描述自动生成流程图。
具体实施方式
下面以空调产品的属性特征为例对本发明作进一步的详细说明。
实施例1
本发明根据给定的产品功能类属性特征,自动生成一段通顺可读、信息量丰富的产品描述文本,其具体生成步骤如下:
(一)词典的构建
步骤A1:采用Jieba分词工具对语料库的数据进行分词,在58空调网上爬取的空调数据见下表1示例:
表1空调语料库示例
Figure BDA0002469089700000061
步骤A2:加载停止词表,对得到的每个词进行词频统计,去掉词频为1或者出现在停止词表中的词,构建的词典见下表2示例:
表2空调词典示例
Figure BDA0002469089700000062
(二)共现关系库的构建
步骤B1:将语料库中的每段产品描述按句号或分号进行分割。
步骤B2:为了降低复杂度,只保留句子中的重要成分,对步骤B1得到的每个句子,只保留动词、名词、动名词、机构名、地名、人名,以及专有名词和形容词的词性词。
步骤B3:遍历每一个句子,对步骤B2得到的各词性词进行统计,构建由前向共现关系库和后向共现关系库组成的共现关系库,其前向共现关系库见下表3示例:
表3前向共现关系库示例
Figure BDA0002469089700000071
后向共现关系库见下表4示例:
表4后向共现关系库示例
Figure BDA0002469089700000072
(三)检索数据库的构建
根据上述步骤(二)得到的结果,去语料库中检索合适的句子以进一步扩充产品特征词。为了提高检索效率,需要用倒排索引技术构建检索数据库,其具体步骤如下:
步骤C1:给语料库的每条数据一个文件ID,给词典中的每个词一个单词ID。
步骤C2:遍历语料库中的每条数据并记录倒排项,将其形成的所有倒排列表构成的倒排文件组建为检索数据库,所有的倒排列表构成的文件叫做倒排文件,也就是检索数据库见下表5示例:
表5检索数据库示例
Figure BDA0002469089700000073
(四)产品描述模型的生成
步骤D1:抽取语料库中每条数据中的名词和动词作为关键词,并将其在数据中出现的顺序进行关键词排序后作为UNILM模型的输入,建立由关键词列和产品描述列组成的数据集。
步骤D2:将上述数据集划分为三个数据各不重叠的训练集、验证集和测试集。
步骤D3:采用Keras深度学习框架构建UNILM模型,并加载中文预训练BERT模型的权重。
步骤D4:利用训练集对加载中文预训练BERT模型的权重进行微调,其损失函数是交叉熵损失函数,由此训练UNILM模型,并利用验证集训练至模型收敛,最终得到产品描述模型。
步骤D5:利用测试集测试产品描述模型的性能。
上述训练模型时,Batch size为16,学习率为1×10-5,优化器采用Adam。
(五)产品描述文本的生成
参阅附图1,产品描述文本生成具体包括:扩词、检索、提取有序关键词和产品描述生成等步骤,所述扩词是根据用户给定的产品属性特征通过共现关系库得到的扩充词;所述检索是通过检索数据库(倒排文件)和产品描述语料库得到的描述句子;所述有序关键词是将检索到的描述句子抽取关键词,得到最终得扩展结果;所述产品描述生成是通过产品描述生成模型得到通顺流畅、长度可控的产品描述文本,其具体过程包括下述步骤:
步骤E1:对于用户给定的每个产品特征词w进行扩词,得到若干个出现在特征词w后面的词和若干个出现在特征词w前面的词。在这一步,优先选择共现次数高的词,因为共现次数太低的很可能是噪音。
步骤E2:在检索数据库中将给定的产品特征词w,以及由步骤E1得到的所有扩充词进行检索,得到指定数量且符合要求的描述句子。
步骤E3:将步骤E2检索到的描述句子中抽取的名词和动词作为关键词(即给定产品特征词的最终扩展结果),并按出现的顺序排序为有序关键词。
步骤E4:将步骤E3得到的有序关键词输入到训练好的产品描述生成模型(产品描述模型)中,即可得到通顺流畅、长度可控的产品描述文本。其中生成模型在得到下一个的预测词时,采用核采样(Nucleus Sampling)方法。
上述步骤E2的具体实施方式为:是先根据给定词及其扩充词计算语料库中每条数据的检索得分,然后,对于每一个给定词,按得分从高到低遍历包含该给定词的产品描述,根据正则表达式抽取句子,如果抽取的句子没有被抽取过,则存储起来,直至得到指定数量的产品描述句。该方法中的变量para是一个自定义参数,其值越大,对长文本的惩罚越大,更倾向于检索较短的句子,其检索模型的实现过程见下述表6:
表6检索模型实现示例
Figure BDA0002469089700000091
Figure BDA0002469089700000101
上述步骤E4的具体实施方式为:即对每个给定词在步骤E3得到的扩充关键词,输入生成模型,得到该关键词下的产品描述,最后将各个关键词的产品描述合在一起得到最终的产品描述。Nucleus Sampling函数中的maxn是一个自定义参数,表示由单个产品特征词生成的产品描述文本的最大长度,top probs也是一个自定义参数,其值越大,生成句子的质量越高,但同时句子的多样性会降低,其检索模型的实现过程见下述表7:
表7产品描述生成实现示例
Figure BDA0002469089700000102
Figure BDA0002469089700000111
本发明有效解决了数据量、文本长度控制以及功能类属性特征可控的问题,其数据量问题的解决方案为:在预训练的中文BERT模型(12-layer,768-hidden,12-heads)的权重基础上进一步微调参数来做产品描述生成。因为该模型已经用大规模通用语料训练过,其模型参数中蕴含了通用知识,所以,只要用少量的领域数据(比如空调的产品描述生成,领域数据就是空调描述数据)来微调模型就能得到不错的精度。
文本长度控制问题的解决方案为:文本长度不同代表了文本含有的信息量不同,通常用户给出的功能类特征词很少,无法提供足够的信息来生成较长的产品描述。为了解决这个问题,本发明借助在线产品描述文本来扩展产品特征词,产品特征词越多,生成的产品描述长度越长,即通过改变产品特征词的数量来控制产品描述文本的长度。
功能类属性特征可控问题的解决方案为:在保证包含所有给定的功能类属性特征方面,本发明在训练产品描述生成模型时,输入是有序词,输出是包含所有输入词的产品描述文本。这样做可以让模型容易地学到一种模式——按顺序、不遗漏的包含输入词。因此,将给定的功能类属性特征词及其扩展词作为模型输入时,生成的描述文本中一定包含给定的产品特征词。在保证生成文本通顺可读和多样性等特点方面,在模型推断阶段采用了核采样(Nucleus Sampling)方法。
以上各实施例只是对本发明做进一步说明,并非用以限制本发明专利,凡为本发明等效实施,均应包含于本发明专利的权利要求范围之内。

Claims (3)

1.一种基于预训练模型的产品描述文本的自动生成方法,其特征在于采用框架预训练模型方法,通过引入辅助数据库以及预训练的BERT模型权重,根据给定的产品功能类属性特征,自动生成产品描述文本,其具体生成过程包括如下步骤:
(一)词典的构建
步骤A1:采用Jieba分词工具对语料库的数据进行分词;
步骤A2:加载停止词表,对步骤A1得到的每个词进行词频统计,去除词频为1或出现在停止词表中的词,所剩的词为构建的词典;
(二)共现关系库的构建
步骤B1:将语料库中的每段产品描述按句号或分号进行分割;
步骤B2:对步骤B1得到的每个句子,保留动词、名词、动名词、机构名、地名、人名,以及专有名词和形容词的词性词;
步骤B3:遍历每一个句子,对步骤B2得到的各词性词统计前向共现关系库和后向共现关系库,构建如下哈希表实现共现关系库的结构:
{center:{context:count,…},…};
其中,count表示中心词center和上下文词context的共现次数,如果是前向共现关系库,那么在句子中上下文词context出现在中心词center的后面;如果是后向共现关系库,那么上下文词context出现在中心词center的前面;
(三)检索数据库的构建
步骤C1:给语料库的每条数据一个文件ID,给词典中的每个词一个单词ID;
步骤C2:遍历语料库中的每条数据并记录倒排项,将其形成的所有倒排列表构成的倒排文件组建为检索数据库,所述倒排列表的结构如下:
{search_token:[IDF,[(DocID,TF),…]]};
其中,IDF表示检索词search_token出现在多少个不同的文件中,DocID是文件编号,TF为该检索词search_token在文件DocID中出现的频次;
(四)产品描述模型的生成
步骤D1:抽取语料库中每条数据中的名词和动词作为关键词,并按其在数据中出现的顺序对关键词进行排序,建立由关键词列和产品描述列组成的数据集,其中关键词列是UNILM模型的输入;
步骤D2:将上述数据集划分为三个数据各不重叠的训练集、验证集和测试集;
步骤D3:采用Keras深度学习框架构建UNILM模型,并加载中文预训练BERT模型的权重;
步骤D4:利用训练集对加载的中文预训练BERT模型的权重进行微调,其损失函数是交叉熵损失函数,并利用验证集来判断收敛与否,由此训练UNILM模型直至模型收敛,最终得到产品描述模型;
步骤D5:利用测试集测试产品描述模型的性能;
(五)产品描述文本的生成
步骤E1:对于用户给定的每个产品特征词w进行扩词,得到若干个出现在特征词w后面的词和若干个出现在特征词w前面的词;
步骤E2:在检索数据库中将给定的产品特征词w,以及由步骤E1得到的所有扩充词进行检索;
步骤E3:将步骤E2检索到的描述句子中抽取的名词和动词作为关键词,并按出现的顺序排序为有序关键词;
步骤E4:将步骤E3得到的有序关键词输入产品描述模型,即可得到通顺流畅、长度可控的产品描述文本。
2.根据权利要求1所述基于预训练模型的产品描述文本的自动生成方法,其特征在于所述步骤D1中的产品描述与关键词的字符和<510。
3.根据权利要求1所述基于预训练模型的产品描述文本的自动生成方法,其特征在于所述框架由词典、共现关系库、检索数据库、产品描述生成模型和产品描述文本生成五个阶段性结构组成,所述词典是根据语料库构建;所述共现关系库是根据词的共现关系构建;所述检索数据库采用倒排索引技术和扩充产品特征词构建;所述产品描述生成模型由训练UNILM模型后形成,训练产品描述生成模型时,输入是有序词,输出是包含所有输入词的产品描述文本;所述产品描述文本生成为产品描述自动生成技术的应用流水线。
CN202010342927.9A 2020-04-27 2020-04-27 一种基于预训练模型的产品描述文本的自动生成方法 Active CN111523304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010342927.9A CN111523304B (zh) 2020-04-27 2020-04-27 一种基于预训练模型的产品描述文本的自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010342927.9A CN111523304B (zh) 2020-04-27 2020-04-27 一种基于预训练模型的产品描述文本的自动生成方法

Publications (2)

Publication Number Publication Date
CN111523304A CN111523304A (zh) 2020-08-11
CN111523304B true CN111523304B (zh) 2022-08-02

Family

ID=71911118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010342927.9A Active CN111523304B (zh) 2020-04-27 2020-04-27 一种基于预训练模型的产品描述文本的自动生成方法

Country Status (1)

Country Link
CN (1) CN111523304B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置
CN112257393B (zh) 2020-12-22 2021-04-13 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
CN112818652A (zh) * 2021-01-26 2021-05-18 深圳市房多多网络科技有限公司 房源描述文本生成方法、装置、设备及计算机存储介质
US11636267B2 (en) 2021-01-29 2023-04-25 Walmart Apollo, Llc Methods and apparatus to generate textual data using machine learning processes
CN113139575B (zh) * 2021-03-18 2022-03-01 杭州电子科技大学 一种基于条件嵌入预训练语言模型的图像标题生成方法
CN114330251B (zh) * 2022-03-04 2022-07-19 阿里巴巴达摩院(杭州)科技有限公司 文本生成方法、模型的训练方法、设备及存储介质
CN114862493A (zh) * 2022-04-07 2022-08-05 北京中科深智科技有限公司 一种基于轻量微调的生成个性化商品描述的生成模型

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4942526A (en) * 1985-10-25 1990-07-17 Hitachi, Ltd. Method and system for generating lexicon of cooccurrence relations in natural language
CN108334497A (zh) * 2018-02-06 2018-07-27 北京航空航天大学 自动生成文本的方法和装置
CN109584013A (zh) * 2018-11-30 2019-04-05 北京字节跳动网络技术有限公司 生成物品描述信息的方法和装置
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110196901A (zh) * 2019-06-28 2019-09-03 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110309267A (zh) * 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和系统
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN110674252A (zh) * 2019-08-26 2020-01-10 银江股份有限公司 一种面向司法领域的高精度语义搜索系统
CN110737768A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110750616A (zh) * 2019-10-16 2020-02-04 网易(杭州)网络有限公司 检索式聊天方法、装置以及计算机设备
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
US10607598B1 (en) * 2019-04-05 2020-03-31 Capital One Services, Llc Determining input data for speech processing

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3790825B2 (ja) * 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4942526A (en) * 1985-10-25 1990-07-17 Hitachi, Ltd. Method and system for generating lexicon of cooccurrence relations in natural language
CN108334497A (zh) * 2018-02-06 2018-07-27 北京航空航天大学 自动生成文本的方法和装置
CN109584013A (zh) * 2018-11-30 2019-04-05 北京字节跳动网络技术有限公司 生成物品描述信息的方法和装置
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法
US10607598B1 (en) * 2019-04-05 2020-03-31 Capital One Services, Llc Determining input data for speech processing
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110196901A (zh) * 2019-06-28 2019-09-03 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN110309267A (zh) * 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和系统
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN110674252A (zh) * 2019-08-26 2020-01-10 银江股份有限公司 一种面向司法领域的高精度语义搜索系统
CN110737768A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110750616A (zh) * 2019-10-16 2020-02-04 网易(杭州)网络有限公司 检索式聊天方法、装置以及计算机设备
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products;Haoran Li 等;《The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20)》;20200403;第1-8页 *
ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation;Dongling Xiao 等;《arXiv》;20200204;第1-8页 *
On Improving Text Generation Via Integrating Text Coherence;Lisi Ai 等;《Proceedings of CCIS2019》;20200423;第1-5页 *
抽取式自动文本生成算法;艾丽斯 等;《华东师范大学学报(自然科学版)》;20180731;第1-10页 *

Also Published As

Publication number Publication date
CN111523304A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111523304B (zh) 一种基于预训练模型的产品描述文本的自动生成方法
CN109858028B (zh) 一种基于概率模型的短文本相似度计算方法
Al-Saleh et al. Automatic Arabic text summarization: a survey
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类系统
US7685118B2 (en) Method using ontology and user query processing to solve inventor problems and user problems
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
US20080168056A1 (en) On-line iterative multistage search engine with text categorization and supervised learning
JP6225012B2 (ja) 発話文生成装置とその方法とプログラム
CN113268995A (zh) 中文学术关键词抽取方法、装置和存储介质
CN107315734A (zh) 一种基于时间窗口和语义的变体词规范化的方法和系统
WO2022183923A1 (zh) 短语生成方法、装置和计算机可读存储介质
CN115809316A (zh) 公文辅助写作方法及系统
CN116821377A (zh) 基于知识图谱和大模型的小学语文自动评测系统
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
JP2008243024A (ja) 情報取得装置、そのプログラム及び方法
CN113127627B (zh) 基于lda主题模型结合诗词知识图谱的诗词推荐方法
Zulkhazhav et al. Kazakh text summarization using fuzzy logic
CN112507097A (zh) 一种提高问答系统泛化能力的方法
Boonpa et al. Relationship extraction from Thai children's tales for generating illustration
CN116226677B (zh) 平行语料构建方法及装置、存储介质及电子设备
Wang A study of the tasks and models in machine reading comprehension
CN113486155B (zh) 一种融合固定短语信息的中文命名方法
CN113222772B (zh) 本土人格词典构建方法、系统、存储介质以及电子设备
CN111898343B (zh) 一种基于短语结构树的相似题目识别方法和系统
Althobaiti Minimally-supervised Methods for Arabic Named Entity Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant