CN109919721A - 一种实时自动生成商品描述文本的方法 - Google Patents
一种实时自动生成商品描述文本的方法 Download PDFInfo
- Publication number
- CN109919721A CN109919721A CN201910143793.5A CN201910143793A CN109919721A CN 109919721 A CN109919721 A CN 109919721A CN 201910143793 A CN201910143793 A CN 201910143793A CN 109919721 A CN109919721 A CN 109919721A
- Authority
- CN
- China
- Prior art keywords
- text
- descriptive labelling
- commodity
- real time
- automatically generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种实时自动生成商品描述文本的方法,包括以下步骤:步骤s1:爬取商品特征数据的步骤;步骤s2:对爬取到的特征数据进行预处理提取有效商品信息的步骤;步骤s3:根据提取到的商品信息自动生成商品描述文本的步骤。本发明利用网络爬虫以及深度学习技术,解决现阶段电子商务中商品描述文本人工原创写作效率低、成本高、难以批量生成的不足。
Description
【技术领域】
本发明涉及电子商务技术领域,具体涉及一种实时自动生成商品描述文本的方法。
【背景技术】
随着互联网技术的飞速发展,网上购物变得越来越普遍已经成为大众的一种日常行为习惯。现有的自然语言处理技术还没有应用到时尚领域,对商品的相关描述大多都是人工原创写作,靠人力创作不仅效率低下而且成本极高很难满足批量生成的需求。迫切需要自动生成商品描述文本以便让消费者更快地对商品有所了解、更好地服务于消费者。
网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。深度学习(Deep Learning)是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。专利权人阿里巴巴集团控股有限公司,申请号201210279081.4,发明名称《在商品图片中提取商品主体的方法和装置》,公开了能够更准确获取图片中商品主体位置的方法和装置;专利权人阿里巴巴集团控股有限公司,申请号201410597626.5,发明名称《商品图片的分割方法及其装置》,公开了商品图片的分割方法及其装置,图片分类之后优化了分割结果;申请人广州悦鸿方生物科技有限公司,申请号201710806047.0,发明名称《基于售卖设备用户信息进行信息采集和/或推送的系统》,公开了能够实现通过自动售卖设备的信息收集并进行推送,使得推送应用更为广泛;申请人武汉大学,申请号201710572175.3,发明名称《一种基于卷积神经网络的商品评论数据情感分类方法》,公开了具有简单、快速的特点,能够较好地提高评论数据情感分类的分类性能的分类方法;
申请人广州华企联信息科技有限公司,申请号201710271969.6,发明名称《一种基于深度学习的商品推荐方法及系统》,公开了一种基于深度学习的商品推荐方法,包括以下步骤:S1:通过爬虫抓取商品的评论数据;S2:对评论数据进行数据预处理;S3:对数据进行特征提取;S4:对商品评论进行细粒度分析;S5:对商品评论进行量化打分;S6:结合协同过滤进行商品推荐;相比于现有技术。该发明结合深度学习的方法对文本进行细化处理,并将其通过模糊隶属函数进行量化,可将用户的评论转化为对商品各项属性的打分情况,再结合协同过滤方法进行推荐,可达到较好的推荐效果。
本发明利用将网络爬虫以及深度学习技术应用到电子商务,对商品描述文本的生成进行了设计改进。
【发明内容】
本发明的目的是,利用网络爬虫以及深度学习技术,解决现阶段电子商务中商品描述文本人工原创写作效率低、成本高、难以批量生成的不足,提供一种实时自动生成商品描述文本的方法。
为实现上述目的,本发明采取的技术方案是一种实时自动生成商品描述文本的方法,包括以下步骤:
步骤s1:爬取商品特征数据的步骤;
步骤s2:对爬取到的特征数据进行预处理提取有效商品信息的步骤;
步骤s3:根据提取到的商品信息自动生成商品描述文本的步骤。
进一步的优选技术方案上述步骤s1:上述的爬取商品特征数据使用的网络爬虫技术是分布式爬虫、JAVA爬虫、非JAVA爬虫的任意一种。
进一步的优选技术方案上述步骤s2:上述的对爬取到的特征数据进行预处理包括通过文本分析的方法提取商品详情数据,和/或通过图像识别的方法提取商品图片中包含的商品信息。
进一步的优选技术方案上述步骤s3:上述的自动生成商品描述文本基于深度学习的文本生成器,上述文本生成器事先经过海量数据训练得到。
进一步的优选技术方案还包括以下步骤:
步骤s0:用户输入商品需求的步骤;
步骤s4:将自动生成的商品描述文本展现给用户的步骤。
进一步的优选技术方案上述步骤s0:上述的用户输入商品需求包括输入商品链接,和/或者输入商品图片,和/或输入商品文字。
进一步的优选技术方案上述步骤s4:上述的将自动生成的商品描述文本展现给用户是通过网页页面模板以不同的图文结合风格展现。
本发明有如下有益效果:用户只需输入一个商品需求,系统通过一个系统插件就能获取相应商品的详细信息,经过图像识别和文本分析最后经由文本生成模块就能对相应商品实现实时自动生成商品描述文本,从而克服了人工原创写作商品描述文本效率低、成本高、难以批量生成的不足。
【附图说明】
图1是一种实时自动生成商品描述文本的方法步骤图。
图2是一种实时自动生成商品描述文本的方法系统架构图。
图3是一种实时自动生成商品描述文本的方法系统插件工作流程图。
【具体实施方式】
下面结合实施例并参照附图对本发明作进一步描述。下述实施例提供的一种实时自动生成商品描述文本的方法系统遵循有关国际标准、国家标准和相关的行业标准,并且对外提供标准接口以利于方法系统向上接入。技术标准为业界成熟、通用的开发技术标准、规范,包括:J2EE、SOAP、XML、WFMC、XPDL等。通讯协议、标准包括:TCP/IP、HTTP、HTTPS、SOAP等。服务标准采用统一的Web Service服务标准,可实现与其他应用系统的协作与集成。
实施例1
本实施例实现一种实时自动生成商品描述文本的方法。
附图1所述一种实时自动生成商品描述文本的方法步骤图,本实施例一种实时自动生成商品描述文本的方法,包括以下步骤:
步骤s1:爬取商品特征数据的步骤;
步骤s2:对爬取到的特征数据进行预处理提取有效商品信息的步骤;
步骤s3:根据提取到的商品信息自动生成商品描述文本的步骤。
进一步的优选技术方案上述步骤s1:上述的爬取商品特征数据使用的网络爬虫技术是分布式爬虫、JAVA爬虫、非JAVA爬虫的任意一种。
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector。上面说的爬虫,基本可以分3类:
(1)分布式爬虫:Nutch;
(2)JAVA爬虫:Crawler4j、WebMagic、WebCollector;
(3)非JAVA爬虫:scrapy(基于Python语言开发)。
从功能上来讲,网络爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
进一步的优选技术方案上述步骤s2:上述的对爬取到的特征数据进行预处理包括通过文本分析的方法提取商品详情数据,和/或通过图像识别的方法提取商品图片中包含的商品信息。
进一步的优选技术方案上述步骤s3:上述的自动生成商品描述文本基于深度学习的文本生成器,上述文本生成器事先经过海量数据训练得到。
上述预处理过程以及商品描述文本生成过程涉及深度学习方法,深度学习的概念源于人工神经网络的研究,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。包括但不限于深度监督学习(监督学习应用在当数据标记、分类器分类或数值预测的情况。)、深度无监督学习(当输入数据没有标记时,可应用无监督学习方法从数据中提取特征并对其进行分类或标记。)、深度强化学习(强化学习使用奖惩系统预测学习模型的下一步。)
进一步的优选技术方案还包括以下步骤:
步骤s0:用户输入商品需求的步骤;
步骤s4:将自动生成的商品描述文本展现给用户的步骤。
进一步的优选技术方案上述步骤s0:上述的用户输入商品需求包括输入商品链接,和/或者输入商品图片,和/或输入商品文字。
进一步的优选技术方案上述步骤s4:上述的将自动生成的商品描述文本展现给用户是通过网页页面模板以不同的图文结合风格展现。
实施例2
本实施例实现一种实时自动生成商品描述文本的方法。
附图2所述一种实时自动生成商品描述文本的方法系统架构图,本实施例的整体系统架构如图2所示,用于实现一种实时自动生成商品描述文本的方法,系统包括系统页面模块、系统插件模块、图像识别模块、文本分析模块以及文本生成模块。
本实施例一种商品描述文本自动生成的方法,该技术方法包括以下步骤:
a)步骤一、系统页面模块接收用户输入的商品需求,包括商品链接、商品图片、商务文字中的任意一种。
b)步骤二、系统插件模块爬取商品的特征数据,包括图片以及商品详情等数据。
c)步骤三、图像识别模块、文本分析模块对爬取到的特征数据进行预处理提取有效商品信息。
d)步骤四、文本生成模块根据提取到的商品信息自动生成商品描述文本。
e)步骤五、系统页面模块将自动生成的商品描述文本在系统页面展现给用户。
上述的步骤一具体包括:系统页面模块接收用户输入的一个商品链接(或者是相关商品的图片,文字)。
上述步骤二:系统插件模块利用网络爬虫技术到相应的商品页面对相关的待描述商品进行数据采集,采集的数据内容包括但不限于商品标题、商品图片、商品详情等数据,进而完成商品信息的初步提取。
上述的步骤二具体包括:通过图像识别和文本分析两个模块对步骤二采集到的数据进行进一步的分析。通过图像识别模块对商品图片细节信息进行识别,该模块基于深度学习,能对商品图片进行检测和识别,从而实现对商品图片的款式、衣长、袖长、领型、颜色、图案、纹理等细节信息的提取;文本分析模块主要是对步骤二采集到的文本数据进行分析处理,实现数据的清洗和提取,包括提取标题、商品详情中包含的深层信息,从而进一步的丰富了商品信息为步骤四自动生成文本做准备。
所述的步骤四具体包括:在步骤三提取到的商品详细信息的基础上,通过一个事先训练好的文本生成模块自动生成相应的商品描述文本,包括但不限于商品的设计亮点、搭配指南等相关商品描述。该步骤涉及到的文本生成模块是基于深度学习事先经过海量数据训练得到的文本生成器,可以生成多种风格,不同长度的文本。
所述的步骤五具体包括:将步骤四文本生成模块得到的商品描述在系统页面模块展现给用户,可以通过不同的图文结合的页面风格(如左图右文、上图下文等不同的页面风格)展现给用户。
附图3所述一种实时自动生成商品描述文本的方法系统插件工作流程图,这个系统插件主要基于数据网络爬取的基本原理,它的工作流程如图3所示;系统插件包括系统插件模块、图像识别模块、文本分析模块以及文本生成模块。首先根据用户输入的商品链接(或者是图片、文本)调用插件方法,接着发送相应的指令到后台,然后对商品页面进行数据爬取并解析数据,最后将事件和数据返回到系统后台。
本实施例创造性的将大数据处理技术与自然语言处理相结合,利用网络爬虫技术和深度学习技术通过一个系统插件获取商品的相关信息,然后由文本生成模块生成商品描述从而实现了商品描述文本的实时自动生成。本实施例所涉及的自动生成商品描述文本的方法能让用户对所描述的商品有更深的了解,有利于消费者购买,另外本方法能有效克服本领域现有生成商品描述方法存在的缺陷,大大降低了人工成本,能够批量生成满足不同的用户需求。
本领域普通技术人员可以理解,实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAcess Memory,RAM)等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
Claims (7)
1.一种实时自动生成商品描述文本的方法,其特征在于包括以下步骤:
步骤s1:爬取商品特征数据的步骤;
步骤s2:对爬取到的特征数据进行预处理提取有效商品信息的步骤;
步骤s3:根据提取到的商品信息自动生成商品描述文本的步骤。
2.根据权利要求1所述的一种实时自动生成商品描述文本的方法,其特征在于所述步骤s1:所述的爬取商品特征数据使用的网络爬虫技术是分布式爬虫、JAVA爬虫、非JAVA爬虫的任意一种。
3.根据权利要求1所述的一种实时自动生成商品描述文本的方法,其特征在于所述步骤s2:所述的对爬取到的特征数据进行预处理包括通过文本分析的方法提取商品详情数据,和/或通过图像识别的方法提取商品图片中包含的商品信息。
4.根据权利要求1所述的一种实时自动生成商品描述文本的方法,其特征在于所述步骤s3:所述的自动生成商品描述文本基于深度学习的文本生成器,所述文本生成器事先经过海量数据训练得到。
5.根据权利要求1所述的一种实时自动生成商品描述文本的方法,其特征在于还包括以下步骤:
步骤s0:用户输入商品需求的步骤;
步骤s4:将自动生成的商品描述文本展现给用户的步骤。
6.根据权利要求5所述的一种实时自动生成商品描述文本的方法,其特征在于所述步骤s0:所述的用户输入商品需求包括输入商品链接,和/或者输入商品图片,和/或输入商品文字。
7.根据权利要求5所述的一种实时自动生成商品描述文本的方法,其特征在于所述步骤s4:所述的将自动生成的商品描述文本展现给用户是通过网页页面模板以不同的图文结合风格展现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143793.5A CN109919721A (zh) | 2019-02-27 | 2019-02-27 | 一种实时自动生成商品描述文本的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143793.5A CN109919721A (zh) | 2019-02-27 | 2019-02-27 | 一种实时自动生成商品描述文本的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109919721A true CN109919721A (zh) | 2019-06-21 |
Family
ID=66962472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910143793.5A Pending CN109919721A (zh) | 2019-02-27 | 2019-02-27 | 一种实时自动生成商品描述文本的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919721A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080399A (zh) * | 2019-11-22 | 2020-04-28 | 汉口北进出口服务有限公司 | 一种商品信息处理方法和装置 |
CN111311385A (zh) * | 2020-05-15 | 2020-06-19 | 成都晓多科技有限公司 | 一种基于商品卖点的商品推荐话术生成方法及系统 |
CN113688604A (zh) * | 2020-05-18 | 2021-11-23 | 北京沃东天骏信息技术有限公司 | 文本生成方法、装置、电子设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126697A (zh) * | 2016-06-30 | 2016-11-16 | 广州市皓轩软件科技有限公司 | 一种基于Web动态信息抓取技术的详情页面自动生成方法 |
US20170213147A1 (en) * | 2016-01-26 | 2017-07-27 | International Business Machines Corporation | Generating description text for applications |
CN107038609A (zh) * | 2017-04-24 | 2017-08-11 | 广州华企联信息科技有限公司 | 一种基于深度学习的商品推荐方法及系统 |
CN108959271A (zh) * | 2018-08-10 | 2018-12-07 | 广州太平洋电脑信息咨询有限公司 | 描述文本生成方法、装置、计算机设备和可读存储介质 |
-
2019
- 2019-02-27 CN CN201910143793.5A patent/CN109919721A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213147A1 (en) * | 2016-01-26 | 2017-07-27 | International Business Machines Corporation | Generating description text for applications |
CN106126697A (zh) * | 2016-06-30 | 2016-11-16 | 广州市皓轩软件科技有限公司 | 一种基于Web动态信息抓取技术的详情页面自动生成方法 |
CN107038609A (zh) * | 2017-04-24 | 2017-08-11 | 广州华企联信息科技有限公司 | 一种基于深度学习的商品推荐方法及系统 |
CN108959271A (zh) * | 2018-08-10 | 2018-12-07 | 广州太平洋电脑信息咨询有限公司 | 描述文本生成方法、装置、计算机设备和可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080399A (zh) * | 2019-11-22 | 2020-04-28 | 汉口北进出口服务有限公司 | 一种商品信息处理方法和装置 |
CN111311385A (zh) * | 2020-05-15 | 2020-06-19 | 成都晓多科技有限公司 | 一种基于商品卖点的商品推荐话术生成方法及系统 |
CN111311385B (zh) * | 2020-05-15 | 2020-08-04 | 成都晓多科技有限公司 | 一种基于商品卖点的商品推荐话术生成方法及系统 |
CN113688604A (zh) * | 2020-05-18 | 2021-11-23 | 北京沃东天骏信息技术有限公司 | 文本生成方法、装置、电子设备和介质 |
CN113688604B (zh) * | 2020-05-18 | 2024-04-16 | 北京沃东天骏信息技术有限公司 | 文本生成方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104834668B (zh) | 基于知识库的职位推荐系统 | |
CN103823844B (zh) | 社区问答服务中基于主客观上下文的问题转发系统和方法 | |
US20220148063A1 (en) | System and method for online shopping based on facial emotional state analysis | |
CN106599022A (zh) | 基于用户访问数据的用户画像形成方法 | |
CN109919721A (zh) | 一种实时自动生成商品描述文本的方法 | |
Alikhani et al. | Clue: Cross-modal coherence modeling for caption generation | |
CN108764268A (zh) | 一种基于深度学习的图文多模态情感识别方法 | |
CN107818105A (zh) | 应用程序的推荐方法及服务器 | |
CN107967267A (zh) | 一种知识图谱构建方法、装置及系统 | |
CN102650999B (zh) | 一种从网页中抽取对象属性值信息的方法和系统 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN113495959B (zh) | 一种基于文本数据的金融舆情识别方法及系统 | |
CN106779921A (zh) | 推荐方法及装置 | |
CN107729900A (zh) | 一种利用图片属性提取完成录入信息补全的方法及设备 | |
CN110532912A (zh) | 一种手语翻译实现方法及装置 | |
CN110427480A (zh) | 个性化文本智能推荐方法、装置及计算机可读存储介质 | |
CN107861970A (zh) | 一种商品图片搜索方法和装置 | |
CN106909573A (zh) | 一种评价问答对质量的方法和装置 | |
Galli et al. | A draw-and-guess game to segment images | |
CN106934049A (zh) | 一种新闻选题分析方法及装置 | |
Miyai et al. | Zero-shot in-distribution detection in multi-object settings using vision-language foundation models | |
CN110069686A (zh) | 用户行为分析方法、装置、计算机装置及存储介质 | |
CN106779923A (zh) | 推荐方法及装置 | |
CN115759110A (zh) | 基于多特征融合的恶意信息检测方法、装置及系统 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190621 |