CN110264315A - 介绍信息生成方法和装置 - Google Patents

介绍信息生成方法和装置 Download PDF

Info

Publication number
CN110264315A
CN110264315A CN201910536679.9A CN201910536679A CN110264315A CN 110264315 A CN110264315 A CN 110264315A CN 201910536679 A CN201910536679 A CN 201910536679A CN 110264315 A CN110264315 A CN 110264315A
Authority
CN
China
Prior art keywords
sentence
target object
comment
recommended information
comment data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910536679.9A
Other languages
English (en)
Other versions
CN110264315B (zh
Inventor
卞东海
蒋帅
陈思姣
罗雨
陈奇石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910536679.9A priority Critical patent/CN110264315B/zh
Publication of CN110264315A publication Critical patent/CN110264315A/zh
Application granted granted Critical
Publication of CN110264315B publication Critical patent/CN110264315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出一种介绍信息生成方法和装置,方法包括:根据目标对象的类型,获取介绍需求和介绍信息模板;从目标对象的评论数据中获取与介绍需求相关的候选语句,评论数据中包括多个评论语句;根据候选语句和介绍信息模板,生成目标对象的介绍信息。本发明实施例通过挖掘目标对象的评论数据和介绍需求,能够快速的生成对目标对象整体情况进行准确描述的介绍信息。

Description

介绍信息生成方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种介绍信息生成方法和装置。
背景技术
网购已经成为了人们生活中最不可缺少的部分,人们在网上选择东西时会根据不同商家或产品的种类、领域等进行选择。而目前的网上的商家和产品繁多。为了确认一个商家或产品的整体情况,用户往往需要进入到相关详情页面中进行相关评论的一系列查看操作,才能够确认该商家或产品是否符合用户的需求。这种方式不仅浪费了用户大量的时间,而且商家或产品也不能很好的向用户展示自己的特色。
发明内容
本发明实施例提供一种介绍信息生成方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种介绍信息生成方法,包括:
根据目标对象的类型,获取介绍需求和介绍信息模板;
从所述目标对象的评论数据中获取与所述介绍需求相关的候选语句;
根据候选语句和所述介绍信息模板,生成所述目标对象的介绍信息。
在一种实施方式中,还包括:
根据所述目标对象的类型,获取关键词表;
根据所述关键词表,从所述评论数据中获取初始推荐语句,所述初始推荐语句中包括所述关键词表中含有的关键词;
根据预设抽取规则,对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句;
将所述目标对象的推荐理由语句加入所述目标对象的介绍信息中。
在一种实施方式中,根据预设抽取规则,对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句,包括:
根据句式规则对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句;或,
抽取所述初始推荐语句中的关键词,以及与所述关键词对应的主语和谓语,并将抽取出的关键词、主语和谓语重新组合,生成所述目标对象的推荐理由语句;或,
根据预设模型,抽取所述初始推荐语句中具有观点信息的句子。
在一种实施方式中,还包括:
获取所述目标对象的图片集;
根据图片集中各图片的图片描述信息和/或图片内容信息,获取多张候选图片;
根据图片质量,从所述多张候选图片中选取一张作为展示图;
将所述展示图加入所述目标对象的介绍信息中。
在一种实施方式中,还包括:
对所述评论数据进行预处理,得到数据优化的评论数据。
在一种实施方式中,对所述评论数据进行预处理,得到数据优化的评论数据,包括:
对所述评论数据中的各评论语句进行词频统计,获取词频大于阈值的第一词语;
从所述评论数据中筛选出具有第一词语的多个评论语句;
对所述具有第一词语的多个评论语句进行文本归一处理,得到所述数据优化的评论数据。
第二方面,本发明实施例提供了一种介绍信息生成装置,包括:
第一获取模块,用于根据目标对象的类型,获取介绍需求和介绍信息模板;
第二获取模块,用于从所述目标对象的评论数据中获取与所述介绍需求相关的候选语句;
第一生成模块,用于根据候选语句和所述介绍信息模板,生成所述目标对象的介绍信息。
在一种实施方式中,还包括:
第三获取模块,用于根据所述目标对象的类型,获取关键词表;
第四获取模块,用于根据所述关键词表,从所述评论数据中获取初始推荐语句,所述初始推荐语句中包括所述关键词表中含有的关键词;
抽取模块,用于根据预设抽取规则,对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句;
第一结合模块,用于将所述目标对象的推荐理由语句加入所述目标对象的介绍信息中。
在一种实施方式中,抽取模块包括:
抽取子模块,用于根据句式规则对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句;或,用于抽取所述初始推荐语句中的关键词,以及与所述关键词对应的主语和谓语,并将抽取出的关键词、主语和谓语重新组合,生成所述目标对象的推荐理由语句;或,用于根据预设模型,抽取所述初始推荐语句中具有观点信息的句子。
在一种实施方式中,还包括:
第五获取模块,用于获取所述目标对象的图片集;
筛选模块,用于根据图片集中各图片的图片描述信息和/或图片内容信息,获取多张候选图片;
选取模块,用于根据图片质量,从所述多张候选图片中选取一张作为展示图;
第二结合模块,用于将所述展示图加入所述目标对象的介绍信息中。
在一种实施方式中,还包括:
优化模块,用于对所述评论数据进行预处理,得到数据优化的评论数据。
在一种实施方式中,优化模块包括:
统计子模块,用于对所述评论数据中的各评论语句进行词频统计,获取词频大于阈值的第一词语;
筛选子模块,用于从所述评论数据中筛选出具有第一词语的多个评论语句;
处理子模块,用于对所述具有第一词语的多个评论语句进行文本归一处理,得到所述数据优化的评论数据。
第三方面,本发明实施例提供了一种介绍信息生成终端,所述介绍信息生成终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述介绍信息生成终端的结构中包括处理器和存储器,所述存储器用于存储支持所述介绍信息生成终端执行上述介绍信息生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述介绍信息生成终端还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储介绍信息生成终端所用的计算机软件指令,其包括用于执行上述介绍信息生成方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例通过挖掘目标对象的评论数据和介绍需求,能够快速的生成对目标对象整体情况进行准确描述的介绍信息。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的介绍信息生成方法的流程图。
图2示出根据本发明另一实施例的介绍信息生成方法的流程图。
图3示出根据本发明实施例的介绍信息生成方法生成推荐理由语句的具体流程图。
图4示出根据本发明另一实施例的介绍信息生成方法的流程图。
图5示出根据本发明另一实施例的介绍信息生成方法的流程图。
图6示出根据本发明实施例的介绍信息生成方法的步骤S1200的具体流程图。
图7示出根据本发明实施例的介绍信息生成方法的一个应用示例的流程框图。
图8示出根据本发明实施例的数据清洗模块的流程框图。
图9示出根据本发明实施例的推荐理由挖掘模块的流程框图。
图10示出根据本发明实施例的图片选择模块的流程框图。
图11示出根据本发明实施例的正文句子候选模块的流程框图。
图12示出根据本发明实施例的正文介绍信息生成模块的流程框图。
图13示出根据本发明实施例的介绍信息生成装置的结构框图。
图14示出根据本发明另一实施例的介绍信息生成装置的结构框图。
图15示出根据本发明另一实施例的介绍信息生成装置的结构框图。
图16示出根据本发明另一实施例的介绍信息生成装置的结构框图。
图17示出根据本发明实施例的介绍信息生成装置的优化模块的结构框图。
图18示出根据本发明实施例的介绍信息生成终端的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的介绍信息生成方法的流程图。如图1所示,该介绍信息生成方法包括:
S100:根据目标对象的类型,获取介绍需求和介绍信息模板。
目标对象可以包括商家或产品。目标对象的类型可以包括目标对象所属的领域。例如,目标对象的类型可以包括餐饮类、购物类、生活用品类、电子产品类等。介绍需求用于指引或规定介绍信息内容的描述思路或描述侧重点。根据目标对象的类型可以获取一个或多个介绍需求。当介绍需求为多个时,各介绍需求可以从不同的维度来反应目标对象的特征。例如,当目标对象为餐饮类商家时,多个介绍需求可以包括餐厅环境、菜品口味、服务态度、送餐速度等多个维度的介绍需求。这些介绍需求均可以用来描述商家的特点。介绍信息模板可以根据目标对象的类型以及介绍需求进行模板内容大纲的构建。不同类型的目标对象对应的介绍信息模板可以不同。
需要说明的是,各类型目标对象的介绍需求和介绍信息模板可以预先进行配置。且在使用过程中介绍需求和介绍信息模板可被编辑和更新。
S200:从目标对象的评论数据中获取与介绍需求相关的候选语句。
目标对象的评论数据中可以包括若干评论语句,候选语句来自于评论语句。评论语句可以包括与目标对象有关的正面评论语句、与目标对象有关的负面评论语句、与目标对象强关联的评论语句或与目标对象弱关联的评论语句。每个介绍需求至少需要获取对应的一个候选语句。一个候选语句中可以包含多个介绍需求。
在一个示例中,当评论数据中的评论语句较多时,同一个介绍需求可能会对应有较多的候选语句。因此,需要对候选语句进行筛选。其中,筛选候选语句的规则可根据需要进行选择和调整。例如,过滤掉句子较长的候选语句、过滤掉一句话中关联较多介绍需求的候选语句。
在一个示例中,根据介绍需求,从目标对象的评论数据中获取候选语句的具体过程可以包括:通过获取与介绍需求相关的关键词表对评论数据中各评论语句进行内容挖掘。将包含有关键词表中的关键词的评论语句作为候选语句。具体的,可以对评论数据中的各评论语句按照标点符号进行句子切分,然后识别切分后的每个句子中是否包含有关键词表中的关键词,若包含有关键词表中的关键词,则筛选出作为候选语句。或,
通过语义识别对评论数据中的各评论语句进行内容挖掘。将语义信息与介绍需求相关的评论语句作为候选语句。
在一个示例中,在获取候选语句之前,可以通过感情分析工具将评论数据中的负面评论语句进行过滤。
S300:根据候选语句和介绍信息模板,生成目标对象的介绍信息。
在一个示例中,根据候选语句和介绍信息模板,生成目标对象的介绍信息,可以包括:将候选语句中的部分内容添加到介绍信息模板的对应待填充位置、将介绍信息模板中的某一句子整体替换为候选语句、或将候选语句整体添加到介绍信息模板的对应待填充位置。目标对象的介绍信息由于是基于与目标对象关联的评论数据生成的,因此能够从用户的角度更加准确的介绍目标对象,使得其他用户根据介绍信息快速获取到目标对象的相关信息。并且还能够通过介绍信息更好的展示目标对象自己。
在一个示例中,当每个介绍需求对应多个候选语句时,将候选语句和介绍信息模板结合,生成目标对象的介绍信息,包括:
确定每个介绍需求在介绍信息模板中对应的位置。
选取第一介绍需求对应的一个候选语句,并填入介绍信息模板的对应位置。
选取第二介绍需求对应的一个候选语句,计算该候选语句与已生成的介绍信息的内容相似度,若相似度大于阈值,则计算第二介绍需求对应的另一个候选语句与已生成的介绍信息的内容相似度,直至填入的候选语句满足阈值要求。
以此类推,将各介绍需求对应的候选语句分别填入介绍信息模板的对应位置,以生成目标对象的初始介绍信息。
判断初始介绍信息中相邻两个句子的首尾衔接是否通顺。若不通顺,则在相邻两句子间加衔接词语,以得到能够通顺阅读的目标对象的介绍信息。
在一种实施方式中,如图2所示,介绍信息生成方法还包括:
S400:根据目标对象的类型,获取关键词表。关键词表中包含有能够体现对应特色的词语。关键词表可以根据目标对象的类型预先进行配置。且在使用过程中关键词表可被编辑和更新。
S500:根据关键词表,从评论数据中获取初始推荐语句,初始推荐语句中包括关键词表中含有的关键词。初始推荐语句中可以包括关键词表中的一个或多个关键词。初始推荐语句来自于评论数据中的评论语句。
S600:根据预设抽取规则,对初始推荐语句进行抽取,生成目标对象的推荐理由语句。由于评论数据中的各评论语句是以往用户根据自己语言习惯撰写的,因此句子中可能会含有无用的信息,通过预设抽取规则可以对句子进行精简。在一个示例中,可以通过预设的规则对抽取结果进行筛选,从中筛选出一句作为推荐理由语句。
S700:将目标对象的推荐理由语句加入目标对象的介绍信息中。需要说明的是,推荐理由语句可以融入到介绍信息的正文内容中,也可以分别位于介绍信息的不同位置或段落中。
在一个示例中,当目标对象为餐饮类商家时,其对应的关键词表中的关键词可以包括:菜量大、上菜速度快、色香味俱全、环境小清新等。根据该关键词表,从评论数据中获取的初始推荐语句为“这家餐厅太赞了,餐厅环境是我喜欢的风格,非常的小清新”。根据预设抽取规则对该初始推荐语句进行抽取,生成最终的推荐理由语句“餐厅环境非常小清新”。
在一种实施方式中,如图3所示,根据预设抽取规则,对初始推荐语句进行抽取,生成目标对象的推荐理由语句,包括:
S610:根据句式规则对初始推荐语句进行抽取,生成目标对象的推荐理由语句。句式规则可以包括固定的语言表述方式。例如,初始推荐语句为“这家餐厅太赞了,餐厅环境是我喜欢的风格,非常的小清新”。句式规则为“这家餐厅的XX很XX,强烈推荐!”。其中,“XX”可以为初始推荐语句中的关键词。根据句式规则进行抽取后,得到的推荐理由语句为“这家餐厅的环境很小清新”。
或,
S620:抽取初始推荐语句中的关键词,以及与关键词对应的主语和谓语,并将抽取出的关键词、主语和谓语重新组合,生成目标对象的推荐理由语句。需要说明的是,可以根据初始推荐语句的句子成分或最终需要生成的推荐理由语句的句子成分,决定所需提取的内容。即,除了主语和谓语之外,还可以提取宾语、定语或状语等。
或,
S630:根据预设模型,抽取初始推荐语句中具有观点信息的句子。预设模型可以采用已有的评论观点模型,能够识别出包含有观点信息的句子即可。观点信息可以包括“我认为”、“我觉得”、“不错”、“好吃”、“好看”等用于表示用户观点的词语。
在一种实施方式中,如图4所示,介绍信息生成方法还包括:
S800:获取目标对象的图片集。图片集可以包括存储在于目标对象关联的数据库中的所有图片。这些图片可以包括商家提供的官方图片,也可以包括以往用户拍照上传的图片。
S900:根据图片集中各图片的图片描述信息和/或图片内容信息,获取多张候选图片。图片描述信息可以包括与图片关联的文字内容。例如,图片配图说明或图片标题等,均可作为图片描述信息。图片内容信息可以包括通过图像识别技术从图片中获取到的表征图片的相关信息。
S1000:根据图片质量,从多张候选图片中选取一张作为展示图。具体的,可以将水印、图片像素、图片尺寸等作为评判图片质量的标准。
S1100:将展示图加入目标对象的介绍信息中。
在一个示例中,最终生成的目标对象的介绍信息中可以包括由步骤S100-S300得到的介绍信息正文,由步骤S400-S700得到的推荐理由语句,以及由步骤S800-S1100得到的展示图。
在一种实施方式中,如图5所示,介绍信息生成方法还包括:
S1200:对评论数据进行预处理,得到数据优化的评论数据。需要说明的是,该步骤可以在获取初始推荐语句以及获取候选语句之前进行。即,获取初始推荐语句和获取候选语句所利用的目标对象的评论数据,均是经过数据优化后的评论数据。
当获取到的评论数据是来自网络时,由于网络的开放性,使得获取到的评论数据比较杂乱,包括各式各样的评论。因此为了保证最终生成的介绍信息能够更加规范化,需要进行评论数据的数据清洗和归一。
在一种实施方式中,如图6所示,对评论数据进行预处理,得到数据优化的评论数据,包括:
S1210:对评论数据中的各评论语句进行词频统计,获取词频大于阈值的第一词语。具体的,对评论数据中的各评论语句进行分词处理,基于分词处理后的各评论语句,进行句子中每个词的词频统计。并选出出现频率大于阈值的N个词作为第一词语。例如,选取出现频率排名前一千的词作为第一词语。
S1220:从评论数据中筛选出具有第一词语的多个评论语句。若得到的具有第一词语的评论语句较多,则可以进行语句筛选。例如,将字数少于10个字的句子作为无意义句子进行过滤。又如,通过配置的广告类关键词规则,将包含有广告语的句子进行过滤。
S1230:对具有第一词语的多个评论语句进行文本归一处理,得到数据优化的评论数据。文本归一主要用于将繁体字、表情或缩写等文本数据转换为规范的表示格式。
在一个示例中,在对评论数据中的各评论语句进行词频统计,获取词频大于阈值的第一词语之前,还可以包括:
根据评论内容质量,过滤掉评论数据中的低质量评论语句。低质量评论语句可以包括字数少于10个字、标点符号或外文占比大于50%、表情符号大于5个、按标点进行切分后的句子长度小于15个字的语句。
本发明上述实施例的介绍信息生成方法可应用于网络订餐和网络购物等应用场景中。
例如,当应用场景为网络购物时,可从所需购买的商品的点评网页中获取已有的用户评论作为商品的评论数据。还可从点评网页中获取随已有用户评论一同展示的各图片作为图片集。根据评论数据和图片集生成该商品的介绍信息。介绍信息中包括有该商品的推荐理由、商品展示图以及商品介绍信息正文。当其他用户再次查看该商品时,可以通过商品的介绍信息快速的对商品进行了解,节省了翻看买家评论的时间。并且也能够快速准确的展示商家的特色,提高买家的购买体验。
当应用场景为网络订餐时,可从所需订餐商家的点评网页中获取已有的顾客评论作为订餐商家的评论数据。还可从点评网页中获取随已有顾客评论一同展示的各菜品图片作为图片集。根据评论数据和图片集生成该订餐商家的介绍信息。介绍信息中包括有该订餐商家的推荐理由、订餐商家的菜品展示图以及订餐商家的介绍信息正文。当其他顾客再次进入该商家订餐时,可以通过介绍信息快速的对订餐商家的菜品特色和质量进行了解,节省了翻看顾客评论的时间。并且也能够快速准确的展示订餐商家的菜品特色,提高顾客的购买体验。
在一个实施方式中,如图7所示,商家介绍信息生成的大体流程可以包括:获取商家相关信息,对商家相关信息进行数据清洗得到评论数据。基于评论数据中的图片集,选择封面图。基于评论数据进行评论句子候选,基于候选句子和介绍信息模板生成商家介绍。基于评论数据进行推荐理由挖掘。最终将挖掘的推荐理由、选择的封面图以及生成的上架介绍结合,形成最终商家介绍。
在一个实施方式中,上述介绍信息生成方法可由以下模块实现。数据清洗模块:对网上评论数据进行初步数据清洗归一。推荐理由挖掘模块:挖掘能够体现商家特色的句子。图片选择模块:通过对给定的多张图片进行分析判别,选择质量最高的图片,作为封面图。正文句子候选模块:从用户评论的数据中挖掘出包含商家相关信息的候选句子。正文介绍信息生成模块:该模块为核心模块,通过挖掘评论中的句子来生成商家介绍信息。
如图8所示,数据清洗模块主要用于:1、低质评论过滤,主要包括字数少于20的、标点符号或外文占比大于50%的、表情符号数大于5的、按照标点切分后的句子集最大长度小于15的等。2、无意义句子过滤,对语料库中分词后的句子统计每个词的词频,然后根据词频选择top1000个词,并找到评论中包含该词的句子,如果该句子字数少于10就认为是无意义的句子。3、广告语过滤,针对评论中的每个句子,通过配置的广告类关键词规则进行判断,如果命中则过滤。4、文字表示归一,将繁体字、表情、一些缩写等文本数据转化为规范的表示。
如图9所示,推荐理由挖掘模块主要用于:1、包含特色句子的评论识别:首先对评论进行分词,然后使用人工配置的特色关键词表选取评论信息。2、特色句子抽取:该部分使用了3种不同的方法。第一种基于模板的方法,使用人工配置的模板规则进行句子抽取。第二种基于句子主成分分析的方法,该方法首先对句子进行成分划分,然后找到特色关键词所以的位置及其对应的主谓宾等信息,最后组合成句子。第三种基于评论观点抽取的方法,该方法首先通过评论观点模型获取评论中用户的观点信息,然后抽取观点所在的句子作为特色句子使用。3、基于抽取的特色句子生成推荐理由。
如图10所示,图片选择模块功能是获取商家展示的封面图,图片内容可以包括商家内部装饰、产品信息。图片选择模块主要用于:1、相关性图片选择,从商家相关数据中获取图片集,根据图片集中图片的描述信息或识别图片内容,判断图片的描述是否和商家相关。2、低质图片过滤,将存在水印、图片模糊和图片尺寸过小的低质量图片过滤掉。3、图片选择,对上述过滤剩下的图片排序,选择排序最靠前的一张作为封面图片。
如图11所示,正文句子候选模块主要用于:1、负面评论过滤,通过使用评论情感分析工具将评论数据中的负面评论数据进行过滤。2、商家介绍内容大纲构建,主要是分析不同类型的商家(如美食、购物等)需要介绍的侧重点,然后根据侧重点确定商家介绍主要内容。3、商家侧重点相关评论内容挖掘,通过构建一个侧重点关键词规则从评论数据中挖掘讲述该侧重点的内容,首先需要对评论按照标点符号进行切分,然后逐个句子对比,标出每个句子可能对应的介绍需求。4、选择描述侧重点的句子,一个侧重点可能对应多个句子,需要选择最佳的句子作为最终使用。该过程首先会过滤掉过长的句子,然后按照该句子包含的侧重点数量进行排序,越少越靠前,最后选择前3个句子作为该侧重点最终生成文章的候选。
如图12所示,正文介绍信息生成模块主要功能是使用上述各模块产生的结果作为输入源,配合文章模板生成和文章话术生成文章。正文介绍信息生成模块主要用于:1、模板选择,针对不同的商家类型选择不同的生成模板。2、文章侧重点填充,针对每个侧重点选择3个句子作为候选,这里主要考虑到存在句子冗余的问题,在生成文章时按照模板从前到后依次填充侧重点,每次使用第一个候选句子作为填充句子,如果该句子与前面句子相比,冗余较多,那就选择第2个候选句子,直至选到第3个候选句子为止,最后填充完毕。3、文章润色,上述各个侧重点填充的句子连起来读可能存在不通顺的问题,该步骤通过判断前一个侧重点的结尾跟后一个侧重点的开头是否匹配进行加关键词衔接。4、生成商家介绍信息。
图13示出根据本发明实施例的介绍信息生成装置的结构框图。如图13所示,该介绍信息生成装置包括:
第一获取模块10,用于根据目标对象的类型,获取介绍需求和介绍信息模板。
第二获取模块20,用于根据介绍需求,从目标对象的评论数据中获取候选语句,候选语句中包括与介绍需求相关的内容,评论数据包括多个评论语句。
第一生成模块30,用于将候选语句和介绍信息模板结合,生成目标对象的介绍信息。
在一种实施方式中,如图14所示,介绍信息生成装置还包括:
第三获取模块40,用于根据目标对象的类型,获取关键词表。
第四获取模块50,用于根据关键词表,从评论数据中获取初始推荐语句,初始推荐语句中包括关键词表中含有的关键词。
抽取模块60,用于根据预设抽取规则,对初始推荐语句进行抽取,生成目标对象的推荐理由语句。
第一结合模块70,用于将目标对象的推荐理由语句加入目标对象的介绍信息中。
在一种实施方式中,抽取模块60包括:
抽取子模块,用于根据句式规则对初始推荐语句进行抽取,生成目标对象的推荐理由语句;或,用于抽取初始推荐语句中的关键词,以及与关键词对应的主语和谓语,并将抽取出的关键词、主语和谓语重新组合,生成目标对象的推荐理由语句;或,用于根据预设模型,抽取初始推荐语句中具有观点信息的句子。
在一种实施方式中,如图15所示,介绍信息生成装置还包括:
第五获取模块80,用于获取目标对象的图片集。
筛选模块90,用于根据图片集中各图片的图片描述信息和/或图片内容信息,获取多张候选图片。
选取模块100,用于根据图片质量,从多张候选图片中选取一张作为展示图。
第二结合模块110,用于将展示图加入目标对象的介绍信息中。
在一种实施方式中,如图16所示,介绍信息生成装置还包括:
优化模块120,用于对评论数据进行预处理,得到数据优化的评论数据。
在一种实施方式中,如图17所示,优化模块120包括:
统计子模块121,用于对第一评论数据中的评论语句进行词频统计,获取词频大于阈值的词语。
筛选子模块122,用于从第一评论数据中筛选具有词频大于阈值的词语的评论语句,得到第二评论数据。
处理子模块123,用于对第二评论数据中的评论语句进行文本归一处理,得到数据优化的评论数据。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图18示出根据本发明实施例的介绍信息生成终端的结构框图。如图18所示,该终端包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的介绍信息生成方法。所述存储器910和处理器920的数量可以为一个或多个。
该终端还包括:
通信接口930,用于与外界设备进行通信,进行数据介绍信息生成传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图18中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种介绍信息生成方法,其特征在于,包括:
根据目标对象的类型,获取介绍需求和介绍信息模板;
从所述目标对象的评论数据中获取与所述介绍需求相关的候选语句;
根据候选语句和所述介绍信息模板,生成所述目标对象的介绍信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述目标对象的类型,获取关键词表;
根据所述关键词表,从所述评论数据中获取初始推荐语句,所述初始推荐语句中包括所述关键词表中含有的关键词;
根据预设抽取规则,对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句;
将所述目标对象的推荐理由语句加入所述目标对象的介绍信息中。
3.根据权利要求2所述的方法,其特征在于,根据预设抽取规则,对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句,包括:
根据句式规则对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句;或,
抽取所述初始推荐语句中的关键词,以及与所述关键词对应的主语和谓语,并将抽取出的关键词、主语和谓语重新组合,生成所述目标对象的推荐理由语句;或,
根据预设模型,抽取所述初始推荐语句中具有观点信息的句子。
4.根据权利要求1或2所述的方法,其特征在于,还包括:
获取所述目标对象的图片集;
根据图片集中各图片的图片描述信息和/或图片内容信息,获取多张候选图片;
根据图片质量,从所述多张候选图片中选取一张作为展示图;
将所述展示图加入所述目标对象的介绍信息中。
5.根据权利要求1或2所述的方法,其特征在于,还包括:
对所述评论数据进行预处理,得到数据优化的评论数据。
6.根据权利要求5所述的方法,其特征在于,对所述评论数据进行预处理,得到数据优化的评论数据,包括:
对所述评论数据中的各评论语句进行词频统计,获取词频大于阈值的第一词语;
从所述评论数据中筛选出具有第一词语的多个评论语句;
对所述具有第一词语的多个评论语句进行文本归一处理,得到所述数据优化的评论数据。
7.一种介绍信息生成装置,其特征在于,包括:
第一获取模块,用于根据目标对象的类型,获取介绍需求和介绍信息模板;
第二获取模块,用于从所述目标对象的评论数据中获取与所述介绍需求相关的候选语句;
第一生成模块,用于根据候选语句和所述介绍信息模板,生成所述目标对象的介绍信息。
8.根据权利要求7所述的装置,其特征在于,还包括:
第三获取模块,用于根据所述目标对象的类型,获取关键词表;
第四获取模块,用于根据所述关键词表,从所述评论数据中获取初始推荐语句,所述初始推荐语句中包括所述关键词表中含有的关键词;
抽取模块,用于根据预设抽取规则,对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句;
第一结合模块,用于将所述目标对象的推荐理由语句加入所述目标对象的介绍信息中。
9.根据权利要求8所述的装置,其特征在于,抽取模块包括:
抽取子模块,用于根据句式规则对所述初始推荐语句进行抽取,生成所述目标对象的推荐理由语句;或,用于抽取所述初始推荐语句中的关键词,以及与所述关键词对应的主语和谓语,并将抽取出的关键词、主语和谓语重新组合,生成所述目标对象的推荐理由语句;或,用于根据预设模型,抽取所述初始推荐语句中具有观点信息的句子。
10.根据权利要求7或8所述的装置,其特征在于,还包括:
第五获取模块,用于获取所述目标对象的图片集;
筛选模块,用于根据图片集中各图片的图片描述信息和/或图片内容信息,获取多张候选图片;
选取模块,用于根据图片质量,从所述多张候选图片中选取一张作为展示图;
第二结合模块,用于将所述展示图加入所述目标对象的介绍信息中。
11.根据权利要求7或8所述的装置,其特征在于,还包括:
优化模块,用于对所述评论数据进行预处理,得到数据优化的评论数据。
12.根据权利要求11所述的装置,其特征在于,优化模块包括:
统计子模块,用于对所述评论数据中的各评论语句进行词频统计,获取词频大于阈值的第一词语;
筛选子模块,用于从所述评论数据中筛选出具有第一词语的多个评论语句;
处理子模块,用于对所述具有第一词语的多个评论语句进行文本归一处理,得到所述数据优化的评论数据。
13.一种介绍信息生成终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述方法。
14.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述方法。
CN201910536679.9A 2019-06-20 2019-06-20 介绍信息生成方法和装置 Active CN110264315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910536679.9A CN110264315B (zh) 2019-06-20 2019-06-20 介绍信息生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910536679.9A CN110264315B (zh) 2019-06-20 2019-06-20 介绍信息生成方法和装置

Publications (2)

Publication Number Publication Date
CN110264315A true CN110264315A (zh) 2019-09-20
CN110264315B CN110264315B (zh) 2023-04-11

Family

ID=67919774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910536679.9A Active CN110264315B (zh) 2019-06-20 2019-06-20 介绍信息生成方法和装置

Country Status (1)

Country Link
CN (1) CN110264315B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143546A (zh) * 2019-11-15 2020-05-12 北京星选科技有限公司 一种获得推荐语的方法、装置及电子设备
CN111178953A (zh) * 2019-12-20 2020-05-19 贝壳技术有限公司 信息生成方法和装置、电子设备和存储介质
CN111177542A (zh) * 2019-12-20 2020-05-19 贝壳技术有限公司 介绍信息的生成方法和装置、电子设备和存储介质
CN113595860A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN114428905A (zh) * 2022-01-25 2022-05-03 支付宝(杭州)信息技术有限公司 一种基于场景的应用推广方法、装置、设备及可读介质
CN115080845A (zh) * 2022-05-27 2022-09-20 北京百度网讯科技有限公司 推荐理由的生成方法、装置、电子设备及可读存储介质
CN116611417A (zh) * 2023-05-26 2023-08-18 浙江兴旺宝明通网络有限公司 一种文章自动生成方法、系统、计算机设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150676B1 (en) * 2008-11-25 2012-04-03 Yseop Sa Methods and apparatus for processing grammatical tags in a template to generate text
CN102495847A (zh) * 2011-11-16 2012-06-13 浙江盘石信息技术有限公司 一种网络商品信息抽取方法
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
CN104731873A (zh) * 2015-03-05 2015-06-24 北京汇行科技有限公司 一种评价信息生成方法和装置
CN107423356A (zh) * 2017-05-31 2017-12-01 北京京东尚科信息技术有限公司 评价信息的处理方法及装置、计算机可读介质、电子设备
CN107423279A (zh) * 2017-04-11 2017-12-01 美林数据技术股份有限公司 一种金融信贷短信的信息抽取和分析方法
CN107609960A (zh) * 2017-10-18 2018-01-19 口碑(上海)信息技术有限公司 推荐理由生成方法及装置
CN108256968A (zh) * 2018-01-12 2018-07-06 湖南大学 一种电商平台商品专家评论生成方法
US20190050929A1 (en) * 2017-08-09 2019-02-14 Msc Services Corp. System and method for alternative product selection and profitability indication

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150676B1 (en) * 2008-11-25 2012-04-03 Yseop Sa Methods and apparatus for processing grammatical tags in a template to generate text
CN102495847A (zh) * 2011-11-16 2012-06-13 浙江盘石信息技术有限公司 一种网络商品信息抽取方法
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
CN104731873A (zh) * 2015-03-05 2015-06-24 北京汇行科技有限公司 一种评价信息生成方法和装置
CN107423279A (zh) * 2017-04-11 2017-12-01 美林数据技术股份有限公司 一种金融信贷短信的信息抽取和分析方法
CN107423356A (zh) * 2017-05-31 2017-12-01 北京京东尚科信息技术有限公司 评价信息的处理方法及装置、计算机可读介质、电子设备
US20190050929A1 (en) * 2017-08-09 2019-02-14 Msc Services Corp. System and method for alternative product selection and profitability indication
CN107609960A (zh) * 2017-10-18 2018-01-19 口碑(上海)信息技术有限公司 推荐理由生成方法及装置
CN108256968A (zh) * 2018-01-12 2018-07-06 湖南大学 一种电商平台商品专家评论生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋梦华等: "《电子商务网站建设与管理》", 30 November 2010, 对外经济贸易大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143546A (zh) * 2019-11-15 2020-05-12 北京星选科技有限公司 一种获得推荐语的方法、装置及电子设备
CN111178953A (zh) * 2019-12-20 2020-05-19 贝壳技术有限公司 信息生成方法和装置、电子设备和存储介质
CN111177542A (zh) * 2019-12-20 2020-05-19 贝壳技术有限公司 介绍信息的生成方法和装置、电子设备和存储介质
CN111177542B (zh) * 2019-12-20 2021-07-20 贝壳找房(北京)科技有限公司 介绍信息的生成方法和装置、电子设备和存储介质
CN111178953B (zh) * 2019-12-20 2023-10-31 贝壳技术有限公司 信息生成方法和装置、电子设备和存储介质
CN113595860A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN113595860B (zh) * 2020-04-30 2023-06-13 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN114428905A (zh) * 2022-01-25 2022-05-03 支付宝(杭州)信息技术有限公司 一种基于场景的应用推广方法、装置、设备及可读介质
CN115080845A (zh) * 2022-05-27 2022-09-20 北京百度网讯科技有限公司 推荐理由的生成方法、装置、电子设备及可读存储介质
CN116611417A (zh) * 2023-05-26 2023-08-18 浙江兴旺宝明通网络有限公司 一种文章自动生成方法、系统、计算机设备和存储介质
CN116611417B (zh) * 2023-05-26 2023-11-21 浙江兴旺宝明通网络有限公司 一种文章自动生成方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110264315B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN110264315A (zh) 介绍信息生成方法和装置
US20210065569A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
KR102119868B1 (ko) 홍보용 미디어 콘텐츠 제작 시스템 및 그 방법
CN111897967A (zh) 一种基于知识图谱和社交媒体的医疗问诊推荐方法
CN105243129A (zh) 商品属性特征词聚类方法
CN105205699A (zh) 基于酒店点评的用户标签和酒店标签匹配方法及装置
CN109144954A (zh) 编辑文档的资源推荐方法、装置及电子设备
CN109710841A (zh) 评论推荐方法和装置
CN109582945A (zh) 文章生成方法、装置及存储介质
CN109086340A (zh) 基于语义特征的评价对象识别方法
CN110297906B (zh) 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110222654A (zh) 文本分割方法、装置、设备及存储介质
CN113360608B (zh) 人机结合的中文作文批改系统和方法
CN114580405A (zh) 商品评论文本的分析方法、装置、电子设备及存储介质
Carrió-Pastor Multimodal metadiscourse in digital academic journals on linguistics, engineering and medicine
KR20200090572A (ko) 작품 이미지와 텍스트를 매칭하여 도서를 제작하는 도서 제작 시스템
CN109657043A (zh) 自动生成文章的方法、装置、设备及存储介质
US11487837B2 (en) Method for summarizing multimodal content from webpages
CN117436414A (zh) 演示文稿生成方法、装置、电子设备和存储介质
CN106528764A (zh) 基于人工智能的提问型检索词的检索方法及装置
CN112434568A (zh) 一种画作识别方法、装置、存储介质及计算设备
Ahmed et al. Resource-size matters: Improving neural named entity recognition with optimized large corpora
KR102028356B1 (ko) 코멘트 기반의 광고 추천 장치 및 방법
CN115659961A (zh) 用于提取文本观点的方法、装置以及计算机存储介质
CN115618871A (zh) 商户文本的识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant