CN110750975B - 介绍文本生成方法及装置 - Google Patents

介绍文本生成方法及装置 Download PDF

Info

Publication number
CN110750975B
CN110750975B CN201911001104.3A CN201911001104A CN110750975B CN 110750975 B CN110750975 B CN 110750975B CN 201911001104 A CN201911001104 A CN 201911001104A CN 110750975 B CN110750975 B CN 110750975B
Authority
CN
China
Prior art keywords
template
candidate
text
product
introduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911001104.3A
Other languages
English (en)
Other versions
CN110750975A (zh
Inventor
张�杰
付骁弈
陈栋
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911001104.3A priority Critical patent/CN110750975B/zh
Publication of CN110750975A publication Critical patent/CN110750975A/zh
Application granted granted Critical
Publication of CN110750975B publication Critical patent/CN110750975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了介绍文本生成方法及装置,涉及信息自动生成领域,本申请提供的介绍文本生成方法,包括:根据目标产品的属性信息和其他产品的属性信息的相似度,从目标知识图谱中查找与目标产品的相关度超过预定阈值的候选产品;而后,根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板;第一评价值用于表征每个第一候选模板与候选产品的关联程度;而后,根据目标产品的属性信息对第一候选模板进行填写;并将填写后的第一候选模板拼接成介绍文本。采用本申请所提供的介绍文本生成方法能够提高生成文本的灵活性和准确度。

Description

介绍文本生成方法及装置
技术领域
本申请涉及信息自动生成领域,具体而言,涉及介绍文本生成方法及装置。
背景技术
产品的介绍文本一定程度上影响了产品的推广情况,因此,商家对产品介绍文章的重视程度也越来越高,进而,越来越多的公司专门设立新媒体运营岗位,聘请专职人员撰写文章用以推广营销其产品。
然而,对于很多公司来讲,一方面,公司所要推广的产品的体系非常庞杂而且变化速度很快;另一方面,撰写介绍类文章需要了解大量的网络信息,因此,有限的新媒体运营人员通常难以在这两方面的要求下不断撰写出合格的产品介绍文章。
发明内容
本申请的目的在于提供介绍文本生成方法及装置。
在一些实施例中,一种介绍文本生成方法,包括:
根据目标产品的属性信息和其他产品的属性信息的相似度,从目标知识图谱中查找与目标产品的相关度超过预定阈值的候选产品;
根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板;第一评价值用于表征每个第一候选模板与候选产品的关联程度;
根据目标产品的属性信息对第一候选模板进行填写;
将填写后的第一候选模板拼接成介绍文本。
在一些实施例中,候选产品的文字模板的第一评价值是根据以下任意一个或多个信息确定的:
目标产品与候选产品的产品相似度、文字模板的使用情况、文字模板的来源的可信度、文字模板的内容丰富程度、与该文字模板语义相似度超过预定数值的其他模板的数量、介绍文本的投放信息和文字模板的投放信息的匹配度。
在一些实施例中,将填写后的第一候选模板拼接成介绍文本,包括:
根据以下任意一个或多个信息,确定每个填写后的第一候选模板在介绍文本中的出现位置;填写后的第一候选模板在其原文中的出现位置、预设的第一候选模板所对应的属性信息的介绍文字的出现位置,和可信度超过预设数值的网络文章中第一候选模板所对应的属性信息的介绍文字的出现位置;
根据每个填写后的第一候选模板在介绍文本中的出现位置,将填写后的第一候选模板拼接成介绍文本。
在一些实施例中,还包括:
从目标知识图谱中进行关键词提取,以确定搜索关键词;
使用搜索关键词在网络文本数据库中查找与目标知识图谱相关的语料文本;查找到的语料文本是完整的描述性语句;
针对每个语料文本,根据目标知识图谱中的节点内容,将该语料文本中与节点内容相对应的说明性内容进行删除,以生成关于该语料文本的参考模板;节点内容包括:属性类型和属性值;
将生成的参考模板作为文字模板存储到模板数据库中。
在一些实施例中,还包括:
每隔预定时间,根据以下任意一种或多种信息分别确定每个文字模板的第二评价值:文字模板的使用情况、文字模板的来源情况、文字模板的内容丰富程度、文字模板与其他模板的语义相似度;
根据每个文字模板的第二评价值的大小,将模板数据库中评价值不符合预设要求文字进行删除。
在一些实施例中,还包括按照如下方式构建目标知识图谱:
根据预设的目标知识图谱所对应的核心实体的参考类型,在网络文本数据库中进行搜索,以确定预定数量的属于参考类型的实体的介绍文本;
根据确定的介绍文本,构建目标知识图谱。
在一些实施例中,目标产品的属性信息包括以下的任意一种或多种:
目标产品在目标知识图谱中的属性类型和属性值;
其他产品的属性信息包括以下的任意一种或多种:
其他产品在目标知识图谱中的属性类型和属性值。
在一些实施例中,根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板,包括:
针对目标产品所涉及到的每个属性类型,根据存储于模板数据库中该属性类型所对应的候选产品的文字模板的第一评价值,确定用于表述该属性类型的第二候选模板;
根据每个第二候选模板的来源,分别为每个属性类型确定一个第二候选模板作为第一候选模板。
在一些实施例中,还包括:
将介绍文本在目标网站进行投放。
在一些实施例中,一种介绍文本生成装置,包括:
第一查找模块,用于根据目标产品的属性信息和其他产品的属性信息的相似度,从目标知识图谱中查找与目标产品的相关度超过预定阈值的候选产品;
第一确定模块,用于根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板;第一评价值用于表征每个第一候选模板与候选产品的关联程度;
填写模块,用于根据目标产品的属性信息对第一候选模板进行填写;
拼接模块,用于将填写后的第一候选模板拼接成介绍文本。
本申请实施例提供的介绍文本生成方法,包括:根据目标产品的属性信息和其他产品的属性信息的相似度,从目标知识图谱中查找与目标产品的相关度超过预定阈值的候选产品;而后,根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板;第一评价值用于表征每个第一候选模板与候选产品的关联程度;而后,根据目标产品的属性信息对第一候选模板进行填写;并将填写后的第一候选模板拼接成介绍文本。采用本申请所提供的介绍文本生成方法能够提高生成文本的灵活性和准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的介绍文本生成方法的基本流程图;
图2示出了本申请实施例所提供的介绍文本生成方法的第一个细节优化流程图;
图3示出了本申请实施例所提供的介绍文本生成方法的第二个细节优化流程图;
图4示出了本申请实施例所提供的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,在为某一个产品生成介绍文本的时候,通常有两种方式,第一种方式是纯人工手写。也就是工作人员在阅读了大量的网络文献之后,结合被介绍的产品的特性写一篇介绍性的文本。但这种方式效率较低,并且不同水平的人员写出来的文本的差异较大,经验较多的人写出的文本质量远高于新人写出的文本质量。后续为了提高效率,产生了第二中方式,即模板化处理的方式,也就是预先为这一类产品设定好一种介绍文字模板,其中的某些个性化内容省略掉,工作人员在为产品写介绍文本的时候,只需要采用填空的方式,在介绍文字模板的个性化内容中填上和被介绍的产品相关的内容即可。这种生成介绍文本的方式效率较高,但产出的介绍文本千篇一律,介绍的准确性较差。
针对上述情况,本申请提供了一种介绍文本生成方法,如图1所示,包括如下步骤:
S101,根据目标产品的属性信息和其他产品的属性信息的相似度,从目标知识图谱中查找与目标产品的相关度超过预定阈值的候选产品;
S102,根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板;
S103,根据目标产品的属性信息对第一候选模板进行填写;
S104,将填写后的第一候选模板拼接成介绍文本。
步骤S101中,目标产品就是期望被介绍的产品,步骤S104中所生成的介绍文本就是用于介绍该目标产品的。
步骤S101中,属性信息大致可以分为两种,分别是属性类别和属性值。属性类别和属性值都是在知识图谱中有直接体现的,二者都是属于节点内容的具体分支。一般来说,属性类别可以有很多种,以目标产品为手机(或者是某个品牌的手机)为例,属性类别可以有:待机时间(续航时间)、电池电量、屏幕尺寸等手机某一个方面的属性。以目标产品为电视为例,属性类别可以有:屏幕尺寸、物理接口数量、发售时间等。属性值指的是目标产品在某个属性类别下的数值,比如,以目标产品为手机(或者是某个品牌的手机)为例,属性类别为待机时间(续航时间)的属性值可以是36小时,属性类别为屏幕尺寸的属性值可以是7.9寸。由此可见,属性类别和属性值实际上的关联的,属性值是用于描述目标产品在某一个属性类别下的具体数值。
更具体来说,目标产品的属性信息包括以下的任意一种或多种:
目标产品在目标知识图谱中的属性类型和属性值;
其他产品的属性信息包括以下的任意一种或多种:
其他产品在目标知识图谱中的属性类型和属性值。
也就是只有体现在知识图谱中的属性信息才是步骤S101中所要使用到的属性信息。
此处,需要对知识图谱进行一定的说明,知识图谱通常是为某一类产品而设计的,也就是,知识图谱应当反映出某一类产品下的每个具体产品的情况,进而,目标产品和其他产品应当是同类型的产品,比如,目标产品和其他产品都是手机,那么目标知识图谱就是针对手机这一产品类型而建立的知识图谱;又比如,目标产品和其他产品都是电脑,那么目标知识图谱就是针对电脑这一产品类型而建立的知识图谱。进而,目标产品和其他产品的属性信息就都能够在同一个知识图谱(目标知识图谱)中体现出来了。当然,在某些情况下,也可以是分别为每个产品(如A型号的手机、B型号的手机)建立一个知识图谱,这样,目标知识图谱就是指同一类产品(如手机)下的所有知识图谱了。属性类型指的是用于评价目标产品的一个属性的词汇,如果目标产品是手机,那么属性类型可以是待机时间,对应的,属性值就可以是待机时间的具体数值(如36小时)。
目标产品的属性信息和其他产品的属性信息的相似度反映了两个产品的近似程度。具体在分析属性信息相似度的可以采用语义识别的方式来进行比较。与目标产品的相关度超过预定阈值的候选产品通常就是与目标产品的产品类型相同的产品中(如都是手机),性能/特性(通过属性信息可以反映出性能/特性)与目标产品较为接近的产品。进而,步骤S101的目的就是从所有的同类型产品中进行一次精细的筛选。
步骤S102中,第一评价值是用来表征每个第一候选模板与候选产品的关联程度。此处,文字模板是与候选产品相挂钩的,也就是每个文字模板都是从某一个候选产品的介绍文本中提炼出来的,进而,每个文字模板就必然归属于某一个候选产品了。通过第一评价值来从文字模板中选择第一候选模板的过程也可以认为是依次筛选的行为。进而,步骤S101和步骤S102中各反应了一次筛选的行为,通过这两个步骤中所进行的筛选使得拼接目标产品的介绍文本所使用的内容更加准确。
此处,第一候选模板中保留有待填写的项目,比如属性类型和属性值是可以填写的,进而,步骤S103中,可以根据目标产品的属性信息来填写第一候选模板。具体来说,未填写的第一候选模板可以有两部分组成,分别是未填写处(需要针对目标产品进行临时性填写的位置)和规范化内容(不用临时性填写的位置)。具体来说,第一候选模板可以是:XXX手机的YYY大小为ZZZ。其中XXX是手机的类型、YYY是属性类型,ZZZ为YYY属性类型下的属性值,XXX、YYY和ZZZ即代表了未填写处,其余位置就是规范化内容。比如,XXX可以填写为“华为”,YYY可以填写为“屏幕”,ZZZ可以填写为“7.9寸”。最终填写后的第一候选模板就是“华为手机的屏幕大小为7.9寸”。需要说明的是,目标产品的属性信息都是预先确定好的(如可以是从目标产品的生产厂家处获取到的),因此,直接按照格式化的方式在第一候选模板的未填写处填写即可。
最后,步骤S104中,直接将填写完的一个或多个第一候选模板进行拼接,即可形成关于目标产品的介绍文本。而后,就可以直接将介绍文本在目标网站进行投放。
如前文中的说明,第一评价值是用来表征每个第一候选模板与候选产品的关联程度。为了提高第一评价值的准确性,第一评价值优选根据以下任意一个或多个信息确定的:
目标产品与候选产品的产品相似度、文字模板的使用情况、文字模板的来源的可信度、文字模板的内容丰富程度、该文字模板语义相似度超过预定数值的其他模板的数量、介绍文本的投放信息和文字模板的投放信息的匹配度。
其中,目标产品与候选产品的产品相似度可以通过语义分析的方式来确定。具体来说,可以对目标产品的基本文字资料(并不是步骤S104中的介绍文本)进行语义分析,以确定目标产品的第一语义分析结果,同时,对候选产品的基本文字资料(可以是在网上直接爬取到的介绍资料)进行语义分析,以确定候选产品的第二语义分析结果。而后,将第一语义分析结果和第二语义分析结果均进行向量化之后,进行对比,就可以确定出这两个语义分析结果的相似程度,进而,可以直接将该分析结果的相似程度作为目标产品与候选产品的产品相似度。
文字模板的使用情况指的是文字模板用来生成介绍文本的次数。这主要是考虑到文字模板是存储在数据库中,可以被反复使用的,因此使用频率越高,则说明该模板受欢迎的程度就越高。此处,生成介绍文本的次数可以是使用本申请所提供的方法生成介绍文本的次数,也可以是其他人员利用文字模板人工生成某些介绍文章的次数。
本申请中,文字模板是从某个文章(如语料文本)中截取到的,因此,该文章的可信度也就反映了文字模板的可信度。此处,文章的可信度主要是受该文章的评分(某些用户看过该文章之后进行的评价),发布该文章的网站的权威度影响。
文字模板的内容丰富程度主要是指文字模板的内容是否足够多,一般来说内容越丰富越好。此处的丰富可以是指文字模板中与被描述物(某个候选产品)具有足够相关性的词汇的数量,或者是这些词汇的出现频率。
该文字模板语义相似度超过预定数值的其他模板的数量,反映了与该文字模板相似度足够高的存储于数据库中的其他模板的刷领。一般来说,与该文字模板相似度超过预定阈值的其他模板(其他模板也是文字模板)数量越多,则说明该文字模板越能代表大众化的使用习惯,越应当被使用(越应当形成介绍文本)。
介绍文本的投放信息和文字模板的投放信息的匹配度中,介绍文本的投放信息反映了步骤S104所生成的介绍文本计划投放的信息,计划投放的信息如投放网站、投放时间、投放对象等等。相对应的文字模板的投放信息也反映了文字模板的投放网站、投放时间、投放对象等等。介绍文本的投放信息和文字模板的投放信息的匹配度越高,则说明文字模板用来形成介绍文本的价值越大,就越应当使用该文字模板。
步骤S104在执行时,应当注意不同候选模板在介绍文本中的出现位置,否则顺序颠倒会导致用户阅读出现障碍。进而,本申请所提供的方案中,步骤S104优选按照如下方式实现:
步骤1041,根据以下任意一个或多个信息,确定每个填写后的第一候选模板在介绍文本中的出现位置;填写后的第一候选模板在其原文中的出现位置、预设的第一候选模板所对应的属性信息的介绍文字的出现位置,和可信度超过预设数值的网络文章中第一候选模板所对应的属性信息的介绍文字的出现位置;
步骤1042,根据每个填写后的第一候选模板在介绍文本中的出现位置,将填写后的第一候选模板拼接成介绍文本。
步骤1041中,填写后的第一候选模板在其原文中的出现位置指的是第一候选模板所对应的文字模板在其来源文章(来源文章中记载有文字模板)中的位置,该位置可以通过第几句话、第几段的方式进行表征,也可以通过该位置前有多少文字,该位置之后有多少文字的方式进行表征。
预设的第一候选模板所对应的属性信息的介绍文字的出现位置指的是属性信息的文字在所有文章中的一般位置,该位置通常是预设的(由工作人员设置的)。
可信度超过预设数值的网络文章中第一候选模板所对应的属性信息的介绍文字的出现位置指的是,在优秀的网络文章(通过网络文章的评价值和网络文章所在的网站的权威度可以确定该网络文章的优秀程度)中,第一候选模板所对应的属性信息的介绍文字是在哪出现的。
预设的第一候选模板所对应的属性信息的介绍文字的出现位置,和可信度超过预设数值的网络文章中第一候选模板所对应的属性信息的介绍文字的出现位置相比,预设的第一候选模板所对应的属性信息的介绍文字的出现位置是指一个设置好的数值,该数值和外界的环境没有关系。而可信度超过预设数值的网络文章中第一候选模板所对应的属性信息的介绍文字的出现位置则是受到外界欢迎的影响而变化的,具体来说,可以每隔预定时间更新一次可信度超过预设数值的网络文章中第一候选模板所对应的属性信息的介绍文字的出现位置。
在步骤1041确定了每个填写后的第一候选模板在介绍文本中的出现位置后,步骤1042中就可以直接按照确定好的出现位置来将各个填写后的第一候选模板进行拼接,以形成介绍文本了。
下面,对生成文字模板的过程进行说明,如图2所示,文字模板可以按照如下方式存储到模板数据库中:
S201,从目标知识图谱中进行关键词提取,以确定搜索关键词;
S202,使用搜索关键词在网络文本数据库中查找与目标知识图谱相关的语料文本;查找到的语料文本是完整的描述性语句;
S203,针对每个语料文本,根据目标知识图谱中的节点内容,将该语料文本中与节点内容相对应的说明性内容进行删除,以生成关于该语料文本的参考模板;节点内容包括:属性类型和属性值;
S204,将生成的参考模板作为文字模板存储到模板数据库中。
其中,如前文中的描述,目标知识图谱是一个已经建立好的知识图谱,在目标知识图谱建立完成之后,就可以直接将目标知识图谱中所出现的关键词作为搜索关键词了。一般来说,目标知识图谱中的节点名称、属性、属性值等具有实际意义的词汇都可以作为搜索关键词。
步骤S202中,可以直接使用确定的搜索关键词在网络文本数据库中进行查找、检索,以确定目标知识图谱相关的语料文本。此处的语料文本通常是指某一个文章,或者一段关于某个对象的评价内容、留言等。
步骤S203中,所要进行的是生成空模板。比如,语料文本为“华为手机的屏幕大小为7.9寸”,目标知识图谱中出现的节点内容有华为、屏幕、7.9寸,在按照步骤S203的方式将节点内容删除之后得到的参考模板就是“___手机的___大小为___”,其中“___”是可以后续进行填写的内容。
最后,步骤S204中,就可以将删除与节点内容相对应的说明性后所得到的参考模板作为文字模板存储到模板数据库中,以便于后续使用的时候调用该模板。
在将文字模板存储到模板数据库中之后,还可以通过定时的清理(删除价值较低的文字模板)的方式来保证数据库中所存储模板的质量。也就是,如图3所示,本申请所提供的方法还包括如下步骤:
S301,每隔预定时间,根据以下任意一种或多种信息分别确定每个文字模板的第二评价值:文字模板的使用情况、文字模板的来源情况、文字模板的内容丰富程度、文字模板与其他模板的语义相似度;
S302,根据每个文字模板的第二评价值的大小,将模板数据库中评价值不符合预设要求文字进行删除。
步骤S301中,文字模板的使用情况、文字模板的来源情况、文字模板的内容丰富程度、文字模板与其他模板的语义相似度在前文中已经介绍过,此处不再重复说明。通过这几个信息可以确定出文字模板的存在价值(通过第二评价值进行表征),进而,在步骤S302中,如果某个文字模板的第二评价值过低,就可以将该文字模板从模板数据库中删除。
在具体实现的时候,构建知识图谱的方式有两种,分别是人工构建和自动构建,如果是自动构建的话,本申请所提供的方法中,可以按照如下方式构建目标知识图谱:
步骤401,根据预设的目标知识图谱所对应的核心实体的参考类型,在网络文本数据库中进行搜索,以确定预定数量的属于参考类型的实体的介绍文本;
步骤402,根据确定的介绍文本,构建目标知识图谱。
步骤401中,核心实体指的是指定的一个词汇,如华为手机、苹果手机就可以作为一个核心实体,与该核心实体相对应的就是一般实体,一般实体主要是指与核心实体类型相同的其他实体,比如,当核心实体是华为手机的时候,一般实体就可以是其他各种品牌的手机。
步骤401中所进行的搜索主要是为了扩充形成知识图谱所需要的文字内容,也就是,使用核心实体的词汇作为搜索词,在网络文本数据库中查找与该核心实体相关的文字内容,即属于参考类型(核心实体所在的类型)的实体的介绍文本。
在步骤401进行检索之后,在步骤402中就可以根据检索到的介绍文本构建目标知识图谱了。在具体构建目标知识图谱的时候,需要从非结构化的介绍文本中抽取相关信息,经过关键词识别、关系抽取、实体消歧与链接等步骤后,自动构建起知识图谱。
在具体实现时,考虑到目标产品相关的属性会有多个,因此,应当是每个属性都匹配一个第一候选模板,以保证目标产品的每个属性都有被介绍到。进而,步骤S102可以按照如下方式实现:
步骤1021,针对目标产品所涉及到的每个属性类型,根据存储于模板数据库中该属性类型所对应的候选产品的文字模板的第一评价值,确定用于表述该属性类型的第二候选模板;
步骤1022,根据每个第二候选模板的来源,分别为每个属性类型确定一个第二候选模板作为第一候选模板。
步骤1021,反映了针对目标产品的每个属性类型都分别确定第二候选模板,确定的方式还是依据第一评价值来确定。步骤1022中,则是根据第二候选模板的来源(主要是第二候选模板的来源文章的可信度),为每个属性类型确定一个第二候选模板作为第一候选模板。来源文章的可信度主要是受该文章的评分(某些用户看过该文章之后进行的评价),发布该文章的网站的权威度影响。
与上述方法相对应的,本申请还提供了一种介绍文本生成装置,包括:
第一查找模块,用于根据目标产品的属性信息和其他产品的属性信息的相似度,从目标知识图谱中查找与目标产品的相关度超过预定阈值的候选产品;
第一确定模块,用于根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板;第一评价值用于表征每个第一候选模板与候选产品的关联程度;
填写模块,用于根据目标产品的属性信息对第一候选模板进行填写;
拼接模块,用于将填写后的第一候选模板拼接成介绍文本。
在一些实施例中,候选产品的文字模板的第一评价值是根据以下任意一个或多个信息确定的:
目标产品与候选产品的产品相似度、文字模板的使用情况、文字模板的来源的可信度、文字模板的内容丰富程度、与该文字模板语义相似度超过预定数值的其他模板的数量、介绍文本的投放信息和文字模板的投放信息的匹配度。
在一些实施例中,拼接模块,包括:
第一确定单元,用于根据以下任意一个或多个信息,确定每个填写后的第一候选模板在介绍文本中的出现位置;填写后的第一候选模板在其原文中的出现位置、预设的第一候选模板所对应的属性信息的介绍文字的出现位置,和可信度超过预设数值的网络文章中第一候选模板所对应的属性信息的介绍文字的出现位置;
拼接单元,用于根据每个填写后的第一候选模板在介绍文本中的出现位置,将填写后的第一候选模板拼接成介绍文本。
在一些实施例中,该装置还包括:
第一搜索模块,用于从目标知识图谱中进行关键词提取,以确定搜索关键词;
第二查找模块,用于使用搜索关键词在网络文本数据库中查找与目标知识图谱相关的语料文本;查找到的语料文本是完整的描述性语句;
第一删除模块,用于针对每个语料文本,根据目标知识图谱中的节点内容,将该语料文本中与节点内容相对应的说明性内容进行删除,以生成关于该语料文本的参考模板;节点内容包括:属性类型和属性值;
存储模块,用于将生成的参考模板作为文字模板存储到模板数据库中。
在一些实施例中,该装置还包括:
第二确定模块,用于每隔预定时间,根据以下任意一种或多种信息分别确定每个文字模板的第二评价值:文字模板的使用情况、文字模板的来源情况、文字模板的内容丰富程度、文字模板与其他模板的语义相似度;
第二删除模块,用于根据每个文字模板的第二评价值的大小,将模板数据库中评价值不符合预设要求文字进行删除。
在一些实施例中,该装置还包括:
第二搜索模块,用于根据预设的目标知识图谱所对应的核心实体的参考类型,在网络文本数据库中进行搜索,以确定预定数量的属于参考类型的实体的介绍文本;
构建模块,用于根据确定的介绍文本,构建目标知识图谱。
在一些实施例中,目标产品的属性信息包括以下的任意一种或多种:
目标产品在目标知识图谱中的属性类型和属性值;
其他产品的属性信息包括以下的任意一种或多种:
其他产品在目标知识图谱中的属性类型和属性值。
在一些实施例中,第一确定模块,包括:
第二确定单元,用于针对目标产品所涉及到的每个属性类型,根据存储于模板数据库中该属性类型所对应的候选产品的文字模板的第一评价值,确定用于表述该属性类型的第二候选模板;
第三确定单元,用于根据每个第二候选模板的来源,分别为每个属性类型确定一个第二候选模板作为第一候选模板。
在一些实施例中,该装置还包括:
投放模块,用于将介绍文本在目标网站进行投放。
与上述方法相对应的,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如介绍文本生成方法的步骤。
如图4所示,为本申请实施例所提供的电子设备示意图,该电子设备1000包括:处理器1001、存储器1002和总线1003,存储器1002存储有执行指令,当电子设备运行时,处理器1001与存储器1002之间通过总线1003通信,处理器1001执行存储器1002中存储的介绍文本生成方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种介绍文本生成方法,其特征在于,包括:
根据目标产品的属性信息和其他产品的属性信息的相似度,从目标知识图谱中查找与目标产品的相关度超过预定阈值的候选产品;
根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板;所述第一评价值用于表征每个第一候选模板与候选产品的关联程度;
根据目标产品的属性信息对第一候选模板进行填写;
将填写后的第一候选模板拼接成所述介绍文本;
候选产品的文字模板的第一评价值是根据以下任意一个或多个信息确定的:
目标产品与候选产品的产品相似度、文字模板的使用情况、文字模板的来源的可信度、文字模板的内容丰富程度、与该文字模板语义相似度超过预定数值的其他模板的数量、介绍文本的投放信息和文字模板的投放信息的匹配度;
所述根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板,包括:
针对目标产品所涉及到的每个属性类型,根据存储于模板数据库中该属性类型所对应的候选产品的文字模板的第一评价值,确定用于表述该属性类型的第二候选模板;
根据每个第二候选模板的来源,分别为每个属性类型确定一个第二候选模板作为所述第一候选模板;
所述将填写后的第一候选模板拼接成所述介绍文本,包括:
根据每个填写后的第一候选模板在所述介绍文本中的出现位置,将填写后的第一候选模板拼接成所述介绍文本。
2.根据权利要求1所述的方法,其特征在于,根据以下任意一个或多个信息,确定每个填写后的第一候选模板在所述介绍文本中的出现位置;填写后的第一候选模板在其原文中的出现位置、预设的第一候选模板所对应的属性信息的介绍文字的出现位置,和可信度超过预设数值的网络文章中第一候选模板所对应的属性信息的介绍文字的出现位置。
3.根据权利要求1所述的方法,其特征在于,还包括:
从所述目标知识图谱中进行关键词提取,以确定搜索关键词;
使用搜索关键词在网络文本数据库中查找与所述目标知识图谱相关的语料文本;所述查找到的语料文本是完整的描述性语句;
针对每个语料文本,根据目标知识图谱中的节点内容,将该语料文本中与所述节点内容相对应的说明性内容进行删除,以生成关于该语料文本的参考模板;所述节点内容包括:属性类型和属性值;
将所述生成的参考模板作为所述文字模板存储到模板数据库中。
4.根据权利要求3所述的方法,其特征在于,还包括:
每隔预定时间,根据以下任意一种或多种信息分别确定每个文字模板的第二评价值:文字模板的使用情况、文字模板的来源情况、文字模板的内容丰富程度、文字模板与其他模板的语义相似度;
根据每个文字模板的第二评价值的大小,将所述模板数据库中评价值不符合预设要求文字进行删除。
5.根据权利要求3所述的方法,其特征在于,还包括按照如下方式构建目标知识图谱:
根据预设的目标知识图谱所对应的核心实体的参考类型,在网络文本数据库中进行搜索,以确定预定数量的属于所述参考类型的实体的介绍文本;
根据所述确定的介绍文本,构建所述目标知识图谱。
6.根据权利要求1所述的方法,其特征在于,目标产品的属性信息包括以下的任意一种或多种:
目标产品在目标知识图谱中的属性类型和属性值;
其他产品的属性信息包括以下的任意一种或多种:
其他产品在目标知识图谱中的属性类型和属性值。
7.根据权利要求1所述的方法,其特征在于,还包括:
将所述介绍文本在目标网站进行投放。
8.一种介绍文本生成装置,其特征在于,包括:
第一查找模块,用于根据目标产品的属性信息和其他产品的属性信息的相似度,从目标知识图谱中查找与目标产品的相关度超过预定阈值的候选产品;
第一确定模块,用于根据存储于模板数据库中候选产品的文字模板的第一评价值,确定为目标产品生成介绍文本所使用的第一候选模板;所述第一评价值用于表征每个第一候选模板与候选产品的关联程度;
填写模块,用于根据目标产品的属性信息对第一候选模板进行填写;
拼接模块,用于将填写后的第一候选模板拼接成所述介绍文本;
候选产品的文字模板的第一评价值是根据以下任意一个或多个信息确定的:
目标产品与候选产品的产品相似度、文字模板的使用情况、文字模板的来源的可信度、文字模板的内容丰富程度、与该文字模板语义相似度超过预定数值的其他模板的数量、介绍文本的投放信息和文字模板的投放信息的匹配度;
所述第一确定模块,包括:
第二确定单元,用于针对目标产品所涉及到的每个属性类型,根据存储于模板数据库中该属性类型所对应的候选产品的文字模板的第一评价值,确定用于表述该属性类型的第二候选模板;
第三确定单元,用于根据每个第二候选模板的来源,分别为每个属性类型确定一个第二候选模板作为第一候选模板
所述拼接模块,包括:
拼接单元,用于根据每个填写后的第一候选模板在介绍文本中的出现位置,将填写后的第一候选模板拼接成介绍文本。
CN201911001104.3A 2019-10-21 2019-10-21 介绍文本生成方法及装置 Active CN110750975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911001104.3A CN110750975B (zh) 2019-10-21 2019-10-21 介绍文本生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911001104.3A CN110750975B (zh) 2019-10-21 2019-10-21 介绍文本生成方法及装置

Publications (2)

Publication Number Publication Date
CN110750975A CN110750975A (zh) 2020-02-04
CN110750975B true CN110750975B (zh) 2023-03-21

Family

ID=69279104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911001104.3A Active CN110750975B (zh) 2019-10-21 2019-10-21 介绍文本生成方法及装置

Country Status (1)

Country Link
CN (1) CN110750975B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414735B (zh) * 2020-03-11 2024-03-22 北京明略软件系统有限公司 文本数据的生成方法和装置
CN111930959B (zh) * 2020-07-14 2024-02-09 上海明略人工智能(集团)有限公司 用于图谱知识生成文本的方法与装置
CN112232052A (zh) * 2020-10-23 2021-01-15 中国平安人寿保险股份有限公司 文本拼接方法、装置、计算机设备及存储介质
CN113673966B (zh) * 2021-09-03 2024-03-08 卡奥斯数字科技(青岛)有限公司 信息安全建设方案生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833555A (zh) * 2009-03-12 2010-09-15 富士通株式会社 信息提取方法和装置
CN108932220A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 文章生成方法和装置
CN109542916A (zh) * 2018-10-15 2019-03-29 平安科技(深圳)有限公司 平台商品入驻方法、装置、计算机设备及存储介质
CN109558580A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 一种文本分析方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5238418B2 (ja) * 2008-09-09 2013-07-17 株式会社東芝 情報推薦装置および情報推薦方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833555A (zh) * 2009-03-12 2010-09-15 富士通株式会社 信息提取方法和装置
CN109558580A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 一种文本分析方法及装置
CN108932220A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 文章生成方法和装置
CN109542916A (zh) * 2018-10-15 2019-03-29 平安科技(深圳)有限公司 平台商品入驻方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110750975A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110750975B (zh) 介绍文本生成方法及装置
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN109726274B (zh) 问题生成方法、装置及存储介质
US11176142B2 (en) Method of data query based on evaluation and device
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN101167075B (zh) 专有表现抽取装置、方法以及程序
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN110888990A (zh) 文本推荐方法、装置、设备及介质
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN104133877A (zh) 软件标签的生成方法和装置
CN104598439A (zh) 信息对象的标题修正方法及装置和推送信息对象的方法
US10860666B2 (en) Method and system for providing alternative result for an online search previously with no result
US20170228378A1 (en) Extracting topics from customer review search queries
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN106168961A (zh) 一种项目搜索方法、装置及电子设备
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
CN114328983A (zh) 文档碎化方法、数据检索方法、装置及电子设备
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN110110218A (zh) 一种身份关联方法及终端
CN111488510A (zh) 小程序相关词的确定方法、装置、处理设备及搜索系统
CN110347922A (zh) 基于相似度的推荐方法、装置、设备和存储介质
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN112288510A (zh) 物品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant