CN113763024A - 物品属性挖掘方法、装置及存储介质 - Google Patents

物品属性挖掘方法、装置及存储介质 Download PDF

Info

Publication number
CN113763024A
CN113763024A CN202110297356.6A CN202110297356A CN113763024A CN 113763024 A CN113763024 A CN 113763024A CN 202110297356 A CN202110297356 A CN 202110297356A CN 113763024 A CN113763024 A CN 113763024A
Authority
CN
China
Prior art keywords
information
evaluation
articles
article
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110297356.6A
Other languages
English (en)
Inventor
朱禹
邓旺文
刘苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110297356.6A priority Critical patent/CN113763024A/zh
Publication of CN113763024A publication Critical patent/CN113763024A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种物品属性挖掘方法、装置及存储介质,通过在多个平台中获取多个物品对应的多源数据,对多源数据进行结构化筛选处理,得到结构化信息;基于结构化信息中的识别信息,确定出属于多个实体的多个同类物品,并将多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;基于聚合评价数据中的每个评价信息的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;基于目标物品信息,从属性数据库中查找到目标负属性数据对,并发送给客户端进行展示。本发明可以在提高物品缺陷的挖掘效率的同时挖掘出更加全面的缺陷数据。

Description

物品属性挖掘方法、装置及存储介质
技术领域
本发明实施例涉及电商及互联网技术领域,尤其涉及一种物品属性挖掘方法、装置及存储介质。
背景技术
随着互联网信息的爆炸式增长和电子商务的快速发展,网络上存在海量的物品信息,包括结构化和非结构化的数据。
现阶段物品缺陷挖掘主要通过基于物品的评价信息,进行情感分析的粗粒度数据挖掘方法。此外,现有的物品缺陷挖掘主要是基于单一数据源,进行物品缺陷挖掘,即仅从单一数据源进行缺陷评价观点挖掘;另外,现有技术的粗粒度数据挖掘方法所针对的评价信息中杂糅了好评和差评观点,难以进行有效区分,挖掘效率低。并且只通过单一数据源进行物品缺陷挖掘,得到的物品缺陷不够全面。
现有技术的技术问题是:挖掘效率低且挖掘数据不够全面。
发明内容
本发明实施例提供的一种物品属性挖掘方法、装置及存储介质,可以在提高物品缺陷的挖掘效率的同时挖掘出更加全面的缺陷数据。
本发明的技术方案是这样实现的:
本发明实施例提供了一种物品属性挖掘方法,包括:
在多个平台中获取多个物品对应的多源数据,对所述多源数据进行结构化筛选处理,得到所述多个物品中的多个中间物品分别对应的结构化信息;所述结构化信息表征对应的中间物品的不同描述内容的信息;
基于所述结构化信息中的识别信息,在所述多个中间物品中确定出属于多个实体的多个同类物品,并将所述多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;
基于分析所述聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;所述多个评价关键词对为对应多个评价信息中表征用户观点的词语对;
基于接收的客户端发送的目标物品信息,从所述属性数据库中查找到与所述目标物品信息对应的一个同类物品对应的目标负属性数据对,并发送给所述客户端进行展示。
上述方案中,所述基于所述多个结构化信息中的识别信息,在所述多个中间物品中确定出属于多个实体的多个同类物品,并将所述多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据,包括:
计算每个结构化信息中的多个识别信息分别与种子物品对应的种子识别信息的相似度;所述种子物品为所述中间物品中属于所述多个实体中的任一个实体中的一个物品;
基于所述相似度,在所述多个中间物品中确定出与每个实体对应的所述种子物品属于同一类的至少一个中间物品对应的每个同类物品;
将所述每个同类物品对应的至少一个中间物品的结构化信息中的评价信息进行融合,得到由所述每个实体对应的所述每个同类物品组成的所述多个同类物品分别对应的所述聚合评价信息。
上述方案中,所述计算每个结构化信息中的多个识别信息分别与种子物品对应的种子识别信息的相似度,包括:
对所述每个结构化信息中的每个识别信息进行分词处理,得到所述每个识别信息对应的至少一个关键词;
对每个种子识别信息进行分词处理,得到所述每个种子识别信息对应的至少一个种子关键词;
对所述至少一个关键词和所述至少一个种子关键词分别进行转化,得到对应所述至少一个关键词的词向量和对应所述至少一个种子关键词的词向量;
将所述至少一个关键词的所述词向量进行融合,得到所述每个识别信息的第一相似信息,以及将所述至少一个种子关键词的所述词向量进行融合,得到对应的所述每个种子识别信息的第二相似信息;
将所述每个识别信息的所述第一相似信息与对应的所述种子识别信息的所述第二相似信息进行相似计算,得到对应所述每个结构化信息中的所述多个识别信息与对应的种子识别信息之间的相似度。
上述方案中,所述基于所述相似度,在所述多个中间物品中确定出与每个实体对应的所述种子物品属于同一类的至少一个中间物品对应的每个同类物品,包括:
确定出所述每个结构化信息中的所述多个识别信息与对应的种子识别信息之间的相似度中,高于相似度阈值的目标相似度;
将所述多个中间物品中的与所述目标相似度对应的所述至少一个中间物品,确定为与所述每个实体对应的所述种子物品属于同一类的所述每个同类物品。
上述方案中,所述基于分析所述聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库,包括:
分析所述聚合评价数据中的每个评价信息,确定出多个评价关键词对;
基于所述多个评价关键词对中的评价关键词的词性,在所述多个评价关键词对中提取出表征每个同类物品负面属性的负属性数据对,从而得到包括了多个同类物品对应的负属性数据对的属性数据库。
上述方案中,所述分析所述聚合评价数据中的每个评价信息,确定出多个评价关键词对,包括:
将所述每个评价信息进行分词处理,得到对应所述每个评价信息的多个评价关键词;
分析得到所述每个评价信息中的所述多个评价关键词的词性,以及所述每个评价信息的文本结构;
基于所述每个评价信息的所述多个评价关键词的词性和所述文本结构,在所述每个评价信息对应的所述多个评价关键词中,提取出分别包括主题词和观点词的所述多个评价关键词对。
上述方案中,所述基于所述多个评价关键词对中的评价关键词的词性,在所述多个评价关键词对中提取出表征每个同类物品负面属性的负属性数据对,从而得到包括多个同类物品对应的负属性数据对的属性数据库,包括:
基于所述多个评价关键词对中的观点词的词性,确定所述多个评价关键词对中的多个负面评价关键词对;
基于所述多个负面评价关键词对中的主题词,确定所述多个负面评价关键词对中的每个同类物品的所述负属性数据对;
确定所述多个同类物品分别对应的所述负属性数据对与,对应的同类物品的识别信息之间的对应关系,并将所述负属性数据对及对应的所述对应关系存储在所述属性数据库中。
上述方案中,所述基于所述多个评价关键词对中的观点词的词性,确定所述多个评价关键词中的多个负面评价关键词对,包括:
在所述多个评价关键词对中,确定出所述观点词的词性为负面的所述多个负面评价关键词对。
上述方案中,所述基于所述多个负面评价关键词对中的主题词,确定所述多个负面评价关键词对中的每个同类物品的所述负属性数据对,包括:
将所述多个负面评价关键词对中的主题词与每个同类物品对应的属性词进行匹配,确定出与所述每个同类物品对应的属性词匹配的主题词对应的所述负属性数据对。
上述方案中,所述将所述多个负面评价关键词对中的主题词与每个同类物品对应的属性词进行匹配,确定出与所述每个同类物品对应的属性词匹配的主题词对应的所述负属性数据对之前,所述方法还包括:
基于所述聚合评价数据中的评价关键词扩充所述多个同类物品分别对应的物品知识图谱;
在所述多个同类物品分别对应的物品知识图谱中获取每个同类物品对应的属性词。
上述方案中,所述基于接收的客户端发送的目标物品信息,从所述属性数据库中查找到与所述目标物品信息对应的一个同类物品对应的目标负属性数据对,并发送给所述客户端进行展示,包括:
遍历所述属性数据库中的多个同类物品的对应关系,找到与所述目标物品信息匹配的一个同类物品对应的目标识别信息;
在所述对应关系中确定所述目标识别信息对应的目标负属性数据对,并将所述目标负属性数据对发送给所述客户端进行展示。
上述方案中,所述在多个平台中获取多个物品对应的多源数据,对所述多源数据进行结构化筛选处理,得到所述多个物品中的多个中间物品分别对应的结构化信息,包括:
在本地平台的数据库中获取多个本地物品分别对应的本地多源数据;
利用网络爬虫在多个第三方平台中爬取,多个第三方物品分别对应的第三方多源数据;
将所述本地多源数据和所述第三方多源数据合并,得到所述多个物品分别对应的多源数据;所述多个物品包括:所述多个本地物品和所述多个第三方物品;
在所述多源数据中筛选出所述多个物品对应的多个文本信息,并将所述多个文本信息进行分类筛选处理,得到所述多个中间物品分别对应的结构化信息;每个结构化信息中至少包括:对应的中间物品的描述物品标题、物品品牌和物品类别的多个识别信息和评价信息。
上述方案中,所述在所述多源数据中筛选出所述多个物品对应的多个文本信息,并将所述多个文本信息进行分类筛选处理,得到所述多个中间物品分别对应的结构化信息,包括:
在所述多源数据中提取对应所述多个物品的所述多个文本信息;
将所述多个文本信息按照分别对应所述多个物品的多个识别信息及评价信息进行分类,得到多个初始结构化信息;
将多个初始结构化信息,在查缺模型中进行过滤,得到识别信息完整的所述多个中间物品分别对应的所述多个结构化信息;所述查缺模型用于删除缺少关键识别信息的物品及对应的初始结构化信息。
本发明实施例还提供了一种物品属性挖掘装置,包括:
数据预处理单元,用于在多个平台中获取多个物品对应的多源数据,对所述多源数据进行结构化筛选处理,得到所述多个物品中的多个中间物品分别对应的结构化信息;
融合单元,用于基于所述结构化信息中的识别信息,在所述多个中间物品中确定出属于多个实体的多个同类物品,并将所述多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;
挖掘单元,用于基于分析所述聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;
交互单元,用于基于接收的客户端发送的目标物品信息,从所述属性数据库中查找到与所述目标物品信息对应的一个同类物品对应的目标负属性数据对,并发送给所述客户端进行展示。
本发明实施例还提供了一种物品属性挖掘装置,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
本发明实施例中,通过在多个平台中获取多个物品对应的多源数据,对多源数据进行结构化筛选处理,得到多个物品中的多个中间物品分别对应的结构化信息;基于结构化信息中的识别信息,在多个中间物品中确定出属于多个实体的多个同类物品,并将多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;基于分析聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;基于目标物品信息,从属性数据库中查找到目标负属性数据对,并发送给客户端进行展示。由于服务器将多源数据筛选得到的评价信息进行细化处理,得到了对应的评价关键词的词性,进而根据词性确定出多个同类物品对应的负属性数据对,所以服务器可以准确高效的识别出评价信息中的物品缺陷数据,又由于多源数据来自多个平台,进而服务器可以在提高物品缺陷的挖掘效率的同时挖掘出更加全面的缺陷数据。
附图说明
图1为本发明实施例提供的物品属性挖掘模型的结构示意图;
图2为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图3为本发明实施例提供的物品属性挖掘方法的一个可选的效果示意图;
图4为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图5为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图6为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图7为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图8为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图9为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图10为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图11为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图12为本发明实施例提供的物品属性挖掘方法的一个可选的效果示意图;
图13为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图14为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图15为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图16为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图;
图17为本发明实施例提供的物品属性挖掘装置的结构示意图;
图18为本发明实施例提供的物品属性挖掘装置的一种硬件实体示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明的技术方案进一步详细阐述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果发明文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
请参阅图1,为本发明实施例提供的物品属性挖掘模型的结构示意图。
本发明实施例中,服务器构建出物品属性挖掘模型物品属性挖掘模型可以包括:数据预处理模块101、实体融合模块102、缺陷观点挖掘模块103和应用模块104。
本发明实施例中,服务器在多个平台中获取多个物品分别对应的多源数据。其中多源数据包括:在本地平台获取的数据仓库结构化数据和在多个第三方平台中爬虫抓取的数据。
本发明实施例中,服务器将多源数据传输给数据预处理模块101。数据预处理模块101对多源数据进行数据字段清洗。得到了清洗之后的对应多个物品的多个文本信息,然后将多个文本信息进行数据对齐处理,得到了多个文本信息对应的结构化数据。其中,数据预处理模块101将多个文本信息进行数据对齐处理包括:将多个物品的多个文本信息按照对应物品的识别信息以及评价信息进行分类。
本发明实施例中,数据预处理模块101将结构化数据发送给实体融合模块102。实体融合模块102用于将结构化数据中描述同一物品的评价信息进行融合。实体融合模块102计算每两个物品对应的结构化数据中的字段之间的相似度。其中,字段为每个物品对应的结构化数据中的识别信息。实体融合模块102确定对应的识别信息之间的相似度大于相似度阈值的两个物品属于同一类。实体融合模块102进而可以确定出属于多个实体的多个同类物品。实体融合模块102将每个同类物品中的多个物品对应的结构化数据进行实体链接,将每个同类物品中的多个物品对应的评价信息进行融合得到聚合数据。
本发明实施例中,实体融合模块102将聚合数据发送给缺陷观点挖掘模块103。缺陷观点挖掘模块103通过对聚合数据分词,词性分析和句法分析处理。抽取出表征用户对产品属性的观点的数据对。缺陷观点挖掘模块103通过分类模型对数据对进行观点情感分类,确定出其中的负面观点数据对。缺陷观点挖掘模块103再通过物品知识图谱中的物品属性词过滤出多个同类物品的属性观点数据对作为物品缺陷观点数据。缺陷观点挖掘模块103将多个同类物品对应的物品缺陷观点数据存储在属性数据库中。
本发明实施例中,应用模块104接收到了厂商或者用户发送的目标物品信息。应用模块104通过目标物品信息在属性数据库中查找到目标物品信息对应的物品缺陷观点数据,并将物品缺陷观点数据发送给厂商或者用户,供厂商进行改进或者提供用户购物决策。
由于物品属性挖掘模型将聚合数据中的评价信息进行细化处理,得到了对应的评价关键词的词性,进而根据词性确定出多个同类物品对应的负属性数据对,所以服务器可以准确高效的识别出评价信息中的物品缺陷观点数据,又由于多源数据来自多个平台,进而物品属性挖掘模型可以在提高物品缺陷的挖掘效率的同时挖掘出更加全面的缺陷数据。
图2为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,将结合图2示出的步骤进行说明。
S101、在多个平台中获取多个物品对应的多源数据,对多源数据进行结构化筛选处理,得到多个物品中的多个中间物品分别对应的结构化信息。
本发明实施例中,服务器可以通过多个物品对应的物品信息在多个平台中获取多个物品对应的多源数据。服务器可以在多个物品对应的多源数据中提取多个物品对应的文本信息。服务器按照对应多个物品的识别信息以及评价信息将对应的文本信息进行分类,并删除其中信息不全的物品及对应的文本信息,进而得到了剩余的多个中间物品分别对应的结构化信息。结构化信息表征对应的中间物品的不同描述内容的信息。
本发明实施例中,服务器携带对应多个物品的识别信息向多个平台发送获取指令。多个数据平台响应该获取指令,向服务器反馈该多个物品的识别信息对应的多源数据。服务器在多个物品分别对应的多源数据中提取出多个物品分别对应的评价信息及识别信息,并删除缺失识别信息的物品及对应的多源数据。服务器按照将对应每个物品的识别信息及评价信息进行分类,进而得到了剩余的多个中间物品分别对应的结构化信息。
本发明实施例中,服务器可以在服务器的本地平台中获取多个物品对应的多源数据,同时服务器将携带有多个物品的识别信息的获取指令发送给多个第三方平台,多个第三方平台响应获取指令向服务器反馈多个物品的识别信息对应的多个物品的多源数据。服务器将本地平台中获取的多个物品对应的多源数据和多个第三方平台中获取的多个物品对应的多源数据进行合并进而得到了分别对应多个物品的多源数据。服务器可以过滤掉多个物品分别对应的多源数据中的音频信息、视频信息和图片信息。服务器只保留多个物品分别对应的文本信息,服务器将多个物品分别对应的文本信息按照对应物品识别信息及评价信息进行分类,进而得到了多个中间物品分别对应的结构化信息。
本发明实施例中,多源数据可以为多个平台中对应物品所在的网页界面的所有相关信息。
示例性的,多个物品中的一个物品的识别信息可以为:“黑色5G**型号手机”。服务器可以在三个平台中通过爬虫爬取“黑色5G**型号手机”对应的1万个物品的多源数据。服务器在1万个物品分别对应的多源数据中提取出每个物品对应的文本信息。其中,文本信息可以包括:“手机屏幕做工好”、“手机反应速度快”、“手机音响声音不好”和“发货速度慢”等。服务器按照对应每个物品的识别信息以及评价信息对该物品的文本信息进行分类,进而得到了多个中间物品分别对应的结构化信息。
本发明实施例中,服务器将多个平台中爬取的多源数据通过数据预处理模块101进行筛选处理得到了多个物品对应的文本信息。数据预处理模块101将多个物品对应文本信息按照对应识别信息以及评价信息进行分类,再删除识别信息缺失的物品及对应的文本信息,进而得到了剩余的多个中间物品及对应的结构化信息。
S102、基于结构化信息中的识别信息,在多个中间物品中确定出属于多个实体的多个同类物品,并将多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据。
本发明实施例中,服务器可以在多个中间物品中确定出识别信息都对应相同的物品属于一个实体。属于同一实体的多个中间物品为一个同类物品。进而服务器可以确定出属于多个实体的多个同类物品。服务器将每个同类物品对应的多个中间物品的结构化信息中的评价信息进行叠加,得到了对应每个同类物品的聚合评价数据。也就是得到了多个同类物品的聚合评价数据。
本发明实施例中,服务器可以计算每个中间物品与每个中间物品对应的每个识别信息之间的相似度。服务器将对应的每个识别信息之间的相似度大于相似阈值的两个中间物品确定为同一类。进而服务器可以按照相似的方法可以确定出多个实体的多个同类物品。服务器将每个同类物品对应的多个中间物品的结构化信息中的评价信息进行叠加,得到了对应每个同类物品的聚合评价数据。
其中,识别信息可以包括:对应中间物品的物品品牌信息、物品中英文名称信息、物品所属类别信息、物品品牌商信息、物品主题信息和物品编码信息中的至少一个。
S103、基于分析聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库。
本发明实施例中,服务器可以对每个同类物品的聚合评价数据中的每个评价信息分别进行分词处理,得到分别对应每个评价信息的至少一个评价关键词。服务器分析每个评价关键词的词性。服务器根据词性,在多个评价信息分别对应的至少一个关键词中提取出形容对应的物品属性的评价关键词对。服务器在多个评价关键词对中提取出对物品属性负面评价的负属性数据对,作为每个同类物品的负属性数据对。服务器构建每个同类物品及对应的负属性数据对之间的对应关系并存储在属性数据库中。多个评价关键词对为对应多个评价信息中表征用户观点的词语对。
本发明实施例中,服务器可以对每个同类物品的聚合评价数据中的每个评价信息分别进行分词处理,得到分别对应每个评价信息的至少一个评价关键词。服务器分别在每个评价信息的至少一个关键词中提取出一个名词和对应的形容词,进而组成对应评价信息评价关键词对。服务器也可以在每个评价信息分别对应的至少一个关键词中提取出一个动词和对应的副词作为对应评价信息的评价关键词对。本发明实施例中,服务器还可以在多个评价关键词对中提取出用户负面评价的多个负面评价关键词对。服务器再在多个负面评价关键词对中再提取出表征每个同类物品负面属性的负属性数据对。服务器构建每个同类物品及对应的负属性数据对之间的对应关系,服务器将每个同类物品对应的负属性数据对及对应关系存储在属性数据库中。
示例性的,一个评价信息可以为:“手机屏幕做工不好”。服务器将“手机屏幕做工不好”进行分词处理得到:“手机”、“屏幕”、“做工”和“不好”四个评价关键词。服务器分析上述四个关键词的词性,服务器根据四个关键词的词性在该四个关键词中提取出“屏幕”和“不好”作为该评价信息对应的中间物品所属一个同类物品的负属性数据对。
本发明实施例中,服务器还可以将聚合评价数据的多个评价关键词对输入预先训练好的分类模型,通过分类模型对多个评价关键词对进行分类处理。进而服务器得到了多个评价关键词对中表征对应的一个同类物品负面属性的负属性数据对。
S104、基于接收的客户端发送的目标物品信息,从属性数据库中查找到与目标物品信息对应的一个同类物品对应的目标负属性数据对,并发送给客户端进行展示。
在本发明实施例中,服务器通过预先与客户端建立的通信线路,接收到客户端发送的目标物品信息。服务器基于目标物品信息在属性数据库遍历查到目标物品信息对应的一个同类物品。进而服务器可以在属性数据库中提取出该同类物品对应的目标负属性数据对,服务器将目标负属性数据对通过与客户端预先建立的通信线路发送给客户端。客户端以文本的形式展示目标负属性数据对。
本发明实施例中,服务器通过预先与客户端建立的通信线路,接收到客户端发送的目标物品信息。服务器基于目标物品信息在属性数据库遍历查到与目标物品信息匹配的一个同类物品的识别信息。服务器在属性数据库中提取该一个同类物品对应的目标负属性数据对,进而服务器将目标负属性数据对发送给客户端。
其中,目标物品识别信息可以为客户端上一个物品的属性信息。示例性的,客户端可以为物品厂家的客户端,也可以为购买目标物品的用户客户端。若客户端为购买目标物品的用户客户端,结合图3。用户在客户端打开了目标物品手机105的购物界面。该购物界面中配置有获取缺陷按钮110。用户点击该获取缺陷按钮110,客户端将该手机105的目标物品信息通过预先与服务器建立的通信线路发送给服务器。服务器在属性数据库中查找到了目标负属性数据对,服务器将目标负属性数据对发送给客户端。客户端可以在手机105的显示界面的下端显示出该型号的手机的缺陷数据106。其中缺陷数据106可以包括三个缺陷数据106,分别可以为:“手机屏幕做工不好107”、“手机反应速度慢108”和“手机音响声音不好109”。
本发明实施例中,通过在多个平台中获取多个物品对应的多源数据,对多源数据进行结构化筛选处理,得到多个物品中的多个中间物品分别对应的结构化信息;基于结构化信息中的识别信息,在多个中间物品中确定出属于多个实体的多个同类物品,并将多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;基于分析聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;基于目标物品信息,从属性数据库中查找到目标负属性数据对,并发送给客户端进行展示。由于服务器将多源数据筛选得到的评价信息进行细化处理,得到了对应的评价关键词的词性,进而根据词性确定出多个同类物品对应的负属性数据对,所以服务器可以准确高效的识别出评价信息中的物品缺陷数据,又由于多源数据来自多个平台,进而服务器可以在提高物品缺陷的挖掘效率的同时挖掘出更加全面的缺陷数据。
在一些实施例中,参见图4,图4为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图2示出的S102可以通过S105至S107实现,将结合各步骤进行说明。
S105、计算每个结构化信息中的多个识别信息分别与种子物品对应的种子识别信息的相似度。
本发明实施例中,服务器可以对每个中间物品对应的结构化信息中的多个识别信息与种子物品对应的种子识别信息进行相似计算,进而得到相似度。种子物品为中间物品中属于多个实体中的任一个实体中的一个物品。
本发明实施例中,服务器可以处理得到每个结构化文本信息中的多个识别信息对应的相似信息。服务器也可以处理得到每个识别信息对应的种子识别信息的相似信息。服务器再计算出每个结构化信息中的多个识别信息与对应的种子识别信息之间的欧式距离或者余弦距离,得到多个识别信息与种子物品对应的种子识别信息之间的相似度。
本发明实施例中,服务器可以通过向量转化模型将每个结构化信息中的多个识别信息转化为对应的相似信息。向量转化模型可以为:word2vec模型。其中,word2vec模型包括:(Continuous Bag-of-Word Model,CBOW Model)和skip-gram模型)。同样的,服务器也可以通过word2vec模型将对应的种子识别信息转化成对应的相似信息。
S106、基于相似度,在多个中间物品中确定出与每个实体对应的种子物品属于同一类的至少一个中间物品对应的每个同类物品。
本发明实施例中,服务器在多个中间物品中确定出,每个实体对应的种子物品中每个种子识别信息与其中N个中间物品对应每个识别信息之间的相似度都大于相似度阈值,则该N个中间物品为与该种子物品属于一个类的每个同类物品。进而服务器可以通过类似的方法确定出剩余的其他几个实体对应的种子物品对应的同类物品。N为大于等于1的正整数。
示例性的,多个实体的个数可以为2。多个中间物品的个数可以为10。若3个中间物品对应的识别信息与第1个实体对应的种子物品对应的每个种子识别信息间的相似度都大于相似阈值,则服务器在多个中间物品中确定该3个中间物品为与第1个实体对应的种子物品属于同一类第1个同类物品。若剩余的7个中间物品对应的识别信息与第2个实体对应的种子物品对应的每个种子识别信息间的相似度都大于相似阈值,则服务器在多个中间物品中确定该7个中间物品为与第2个实体对应的种子物品属于同一类第2个同类物品。
S107、将每个同类物品对应的至少一个中间物品的结构化信息中的评价信息进行融合,得到由每个实体对应的每个同类物品组成的多个同类物品分别对应的聚合评价信息。
本发明实施例中,每个同类物品又可以分别包括至少一个中间物品。服务器将每个同类物品对应的至少一个中间物品中对应的评价信息进行叠加,得到了对应每个同类物品的聚合评价信息。进而得到了多个同类物品分别对应的聚合评价信息。
本发明实施例中,服务器将每个同类物品对应的至少一个中间物品中对应的评价信息以及多个识别信息进行叠加,得到了对应每个同类物品的聚合评价信息。其中每个同类物品的聚合评价信息中包括了不同中间物品的识别信息以及评价信息。
示例性的,一个同类物品中包括7个中间物品。其中7个中间物品都为手机。服务器将该7个手机对应的结构化信息中的评价信息进行叠加,得到了该7个手机的聚合评价信息,也就是得到了该一个同类物品的聚合评价信息。
本发明实施例中,服务器通过多个中间物品的识别信息与对应的种子识别信息的相似度,可以在多个中间物品中确定出多个实体对应的多个同类物品,进而获取了多个同类物品分别对应的聚合评价信息,由于将多个中间物品的品类通过相似度进行区分,进而可以获取到更加准确的物品缺陷数据。
在一些实施例中,参见图5,图5为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图4示出的S105可以通过S108至S112实现,将结合各步骤进行说明。
S108、对每个结构化信息中的每个识别信息进行分词处理,得到每个识别信息对应的至少一个关键词。
本发明实施例中,服务器将每个中间物品对应的每个识别信息通过分词模型进行分词处理得到了,每个识别信息对应的至少一个关键词。
本发明实施例中,服务器可以通过机械分词算法将每个中间物品对应的每个识别信息进行分词处理得到了,每个识别信息对应的至少一个关键词。服务器也可以通过马尔可夫模型分词算法将每个中间物品对应的识别信息进行分词处理得到了,每个识别信息对应的至少一个关键词。在其他实施例中,服务器也可以采用其他的分词算法将识别信息分词成对应的至少一个关键词,本发明实施例中不做限制。
其中,至少一个关键词的可以包括:名词、动词和形容词中的至少一个。
S109、对每个种子识别信息进行分词处理,得到每个种子识别信息对应的至少一个种子关键词。
本发明实施例中,服务器将每个种子识别信息通过分词模型进行分词处理得到了,种子识别信息对应的至少一个种子关键词。
本发明实施例中,服务器可以通过机械分词算法将每个种子识别信息进行分词处理得到了,每个种子识别信息对应的至少一个种子关键词。服务器也可以通过马尔可夫模型分词算法将每个种子识别信息进行分词处理得到了,每个种子识别信息对应的至少一个种子关键词。在其他实施例中,服务器也可以采用其他的分词算法将种子识别信息分词成对应的至少一个种子关键词,本发明实施例中不做限制。
其中,至少一个种子关键词可以包括:名词、动词和形容词中的至少一个。
S110、对至少一个关键词和至少一个种子关键词分别进行转化,得到对应至少一个关键词的词向量和对应至少一个种子关键词的词向量。
本发明实施例中,服务器将识别信息对应的至少一个关键词通过向量转化得到了至少一个关键词中每个关键词的词向量。同时,服务器将种子识别信息对应的至少一个种子关键词通过向量转化得到了至少一个种子关键词中每个种子关键词对应的词向量。
本发明实施例中,服务器可以通过word2vec模型将至少一个关键词中的每个关键词转化为词向量。服务器可以通过word2vec模型将至少一个种子关键词中的每个种子关键词转化为词向量。服务器还可以通过其他转化模型将关键词转化为词向量,本发明实施例中不做限制。
示例性的,词向量也可以为一个字符串。
S111、将至少一个关键词的词向量进行融合,得到每个识别信息的第一相似信息,以及将至少一个种子关键词的词向量进行融合,得到对应的每个种子识别信息的第二相似信息。
本发明实施例中,服务器将每个识别信息的至少一个关键词中每个关键词对应的词向量相叠加,得到了该识别信息对应的第一相似信息。同时,服务器将每个种子识别信息的至少一个种子关键词中的每个种子关键词对应的词向量相叠加,得到了该种子识别信息对应的第二相似信息。
本发明实施例中,服务器可以通过词频-逆向文件频率算法(term frequenc y–inverse document frequency,TF-IDF)将每个关键词对应的词向量进行融合,得到对应识别信息的第一相似信息。种子识别信息对应的第二相似信息同理可得。服务器还可以通过其他算法将关键词的词向量进行融合,本发明实施例不做限制。
S112、将每个识别信息的第一相似信息与对应的种子识别信息的第二相似信息进行相似计算,得到对应每个结构化信息中的多个识别信息与对应的种子识别信息之间的相似度。
本发明实施例中,服务器通过对每个中间物品的每个识别信息对应的第一相似信息与对应的第二相似信息之间进行相似计算,得到了每二个中间物品的每个识别信息与对应的种子识别信息之间的相似度。
本发明实施例中,服务器还可以计算每个中间物品的每个识别信息对应的第一相似信息与对应的第二相似信息之间的余弦距离或者欧式距离,得到了每个中间物品的每个识别信息与对应的种子识别信息的相似度。
示例性的,服务器可以通过公式(1)计算得到识别信息的第一相似信息和对应第二相似信息的相似度。
1-cos(A,B)(1)
其中,其中第一相似信息为A,第二相似信息为B。服务器可以将第一相似信息和第二相似信息相乘,再比上第一相似信息的模长和第二相似信息的模长的乘积。得到了中间值,服务器将1减去该中间值可以得到第一相似信息与第二相似信息之间的相似度。
本发明实施例中,服务器通过对识别信息和对应种子识别信息进行分词处理,再计算出识别信息的第一相似信息和对应种子识别信息的第二相似信息,然后通过计算出第一相似信息与对应的第二相似信息之间的相似度,进而服务器可以准确的确定出该物品与种子物品是否属于同一实体。
在一些实施例中,参见图6,图6为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图4示出的S106可以通过S113至S114实现,将结合各步骤进行说明。
S113、确定出每个结构化信息中的多个识别信息与对应的种子识别信息之间的相似度中,高于相似度阈值的目标相似度。
本发明实施例中,服务器确定出多个中间物品的多个识别信息与每个种子物品对应的种子识别信息间的相似度中,大于相似阈值的相似度为目标相似度。
本发明实施例中,若一个中间物品的三个识别信息与对应的种子识别信息间的相似度都大于相似度阈值,则可以确定三个识别信息对应的三个相似度都为目标相似度。
其中,相似度阈值可以包括:分别对应多个识别信息的相似度阈值。示例性的,识别信息可以包括:物品品牌信息、物品主题信息和物品编码信息。物品品牌信息对应的相似度阈值可以为10,物品主题信息对应的相似度阈值可以为11,物品编码信息对应的相似度阈值可以为12。
S114、将多个中间物品中的与目标相似度对应的至少一个中间物品,确定为与每个实体对应的种子物品属于同一类的每个同类物品。
本发明实施例中,若多个中间物品中的至少一个中间物品的多个识别信息与对应一个实体对应的种子物品的种子识别信息间的相似度都大于对应的相似度阈值,则服务器可以确定该至少一个中间物品为与该种子物品属于同一类的同类物品。
示例性的,若100个中间物品中有10个中间物品的多个识别信息与对应的种子识别信息间的相似度都为目标相似度,则服务器可以确定该10个物品为与该种子物品属于同一类的同类物品。
为了说明多个中间物品中的一个中间物品是否和种子物品属于同一类。结合图7,为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图。
首先,服务器可以先计算出一个物品标题信息、物品品牌信息和物品类别信息分别对应的种子识别信息的相似度。其次,服务器在分别检测物品标题信息、物品品牌信息和物品类别信息分别对应的相似度是否大于对应的阈值。将结合步骤进行说明。
S201、品牌相似度是否大于品牌阈值。
本发明实施例中,服务器首先判断该物品品牌信息对应的相似度是否大于品牌相似阈值。若是,说明该物品的物品品牌信息和种子识别信息中的品牌信息相似,则执行S202。否则,该物品的文本信息将被删除,执行S203、物品文本信息不融合。
其中,品牌阈值可以为一个数值,例如5或10。
S202、类别相似度是否大于类别阈值。
本发明实施例中,服务器判断物品类别信息对应的相似度是否大于对应的类别阈值,若是,说明该物品的物品类别信息和种子识别信息中的类别信息相似,则执行S203。否则,该物品的文本信息将被删除,执行S203、物品文本信息不融合。
S203、标题相似度是否大于标题阈值。
本发明实施例中,服务器判断物品标题信息对应的相似度是否大于对应的标题,若是,说明该物品的物品标题信息和种子识别信息中的标题信息相似,则执行S204,物品文本信息融合。服务器将该物品对应的评价信息和其他通过与种子物品属于同一实体的物品的评价信息进行融合,形成对应该种子物品的一个实体的聚合评价信息。否则,该物品的文本信息将被删除,执行S203、该物品和种子物品不属于一个实体。服务器不会将该物品对应的评价信息和其他通过与种子物品属于同一实体的物品的评价信息进行融合。
其中,品牌阈值、标题阈值和类别阈值都可以为一个数值,例如5或10。
在一些实施例中,参见图8,图8为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图2示出的S103可以通过S115至S116实现,将结合各步骤进行说明。
S115、分析聚合评价数据中的每个评价信息,确定出多个评价关键词对。
本发明实施例中,服务器可以分析每个同类物品对应的聚合评价数据中的每个评价信息,得到了对应每个评价信息的分析结果。进而服务器可以基于每个评价信息的分析结果在每个评价信息中提取出表征用户观点的评价关键词对。进而确定出多个评价关键词对。
其中,评价关键词对可以由评价信息中的主题词和观点词组成。
本发明实施例中,服务器可以将每个评价信息进行分词,得到了对应每个评价信息的至少一个评价关键词。服务器分析得到了每个评价关键词的词性。服务器基于词性在多个评价信息对应的至少一个评价关键词中提取出对应的多个评价关键词对。
S116、基于多个评价关键词对中的评价关键词的词性,在多个评价关键词对中提取出表征每个同类物品负面属性的负属性数据对,从而得到包括了多个同类物品对应的负属性数据对的属性数据库。
本发明实施例中,由于服务器已经获取到了多个评价关键词对中的主题词的词性和对应的观点词的词性。服务器可以根据多个评价关键词中的主题词的词性和观点词的词性,在多个评价关键词对中挑选出表征对应的同类物品负面属性的负属性数据对。进而,服务器构建负属性数据对与对应的同类物品的识别信息之间的对应关系,并将对应多个同类物品的负属性数据对及对应关系存储在属性数据库中,方便客户端获取目标负属性数据对。
本发明实施例中,服务器在多个同类物品分别对应的多个评价关键词对中,挑选出观点词是负面形容信息的评价关键词对,作为多个同类物品分别对应的多个负面评价关键词对。服务器在多个负面评价关键词对中挑选出多个同类物品分别对应的形容物品属性的负属性数据对。
本发明实施例中,服务器首先在聚合评价数据获取多个评价关键词对,再在多个评价关键词对中根据关键词的词性提取出负属性数据对,由于对聚合数据进行了多次精细化加工得到了负属性数据对,所以服务器提取出的负属性数据对更加准确。
在一些实施例中,参见图9,图9为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图8示出的S115可以通过S117至S119实现,将结合各步骤进行说明。
S117、将每个评价信息进行分词处理,得到对应每个评价信息的多个评价关键词。
本发明实施例中,服务器可以通过分词模型将多个同类物品分别对应的每个评价信息进行分词处理,得到了对应每个评价信息的多个评价关键词。
本发明实施例中,服务器可以通过机械分词算法或者马尔可夫模型分词算法将每个评价信息进行分词处理,得到了对应每个评价信息的多个评价关键词。
S118、分析得到每个评价信息中的多个评价关键词的词性,以及每个评价信息的文本结构。
本发明实施例中,服务器将多个同类物品的多个评价信息的评价关键词通过文本分析模型分析得到每个评价关键词的词性以及该评价信息的文本结构。
本发明实施例中,服务器可以通过斯坦福NLP句法分析模型,分析得到每个评价信息对应的多个评价关键词的词性和该评价信息的文本结构。服务器还可以通过其他分析模型分析得到每个评价信息对应的多个评价关键词的词性和该评价信息的文本结构,本发明实施例不做限制。
其中,文本结构可以包括:主谓结构、动宾结构、偏正结构和补充结构中的任意一个。
S119、基于每个评价信息的多个评价关键词的词性和文本结构,在每个评价信息对应的多个评价关键词中,提取出分别包括主题词和观点词的多个评价关键词对。
本发明实施例中,服务器根据每个评价信息的评价关键词的词性以及评价信息的文本结构,在多个评价信息的多个评价关键词中提取出包括名词和对应形容词的多个评价关键词对。也就是说,服务器在多个评价关键词中抽取出主题词和对应的观点修饰词作为该评价信息对应的评价关键词对。
本发明实施例中,服务器在多个评价信息的多个评价关键词中提取出词性为名词以及该名词对应的形容词或者副词,并将该名词和对应的形容词或者副词组成对应评价信息的评价关键词对。
需要说明的是,每个评价信息可以对应多个数据对,每个同类物品对应多个评价信息。
本发明实施例中,服务器将聚合评价数据中的多个评价信息进行分词处理,再分析出多个评价关键词的词性,提取出词性分别为主题词和观点词的多个评价关键词对。由于服务器是基于评价信息中的评价关键词的词性获取的评价关键词对,所以每个评价关键词对更加贴近用户的评价观点。
在一些实施例中,参见图10,图10为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图8示出的S116可以通过S120至S122实现,将结合各步骤进行说明。
S120、基于多个评价关键词对中的观点词的词性,确定多个评价关键词对中的多个负面评价关键词对。
本发明实施例中,服务器在多个评价关键词对中,挑选出观点词是负面形容信息的评价关键词对,作为对应同类物品的多个负面评价关键词对。
本发明实施例中,服务器基于简体中文极性词典分析判断得到了多个评价关键词对中观点词的词极性。若观点的极性为反,则说明该观点词是负面形容信息,并提取出该观点词对应的评价关键词对作为负面评价关键词对。
需要说明的是,如果评价关键词对中有否定副词,则确定该评价关键词对为负面评价关键词对。
S121、基于多个负面评价关键词对中的主题词,确定多个负面评价关键词对中的每个同类物品的负属性数据对。
本发明实施例中,服务器在每个同类物品对应的多个负面评价关键词对中挑选出形容物品属性的负属性数据对。
本发明实施例中,由于负面评价关键词对中可能存在对物品客服等交易过程中的情况的负面评价,所以服务器需要在负面评价关键词对中确定出形容物品属性的负属性数据对。
S122、确定多个同类物品分别对应的负属性数据对与,对应的同类物品的识别信息之间的对应关系,并将负属性数据对及对应的对应关系存储在属性数据库中。
本发明实施例中,服务器构建出多个同类物品与分别对应的负属性数据对之间的对应关系。进而,服务器将多个同类物品对应的负属性数据对及相应的对应关系存储在属性数据库中。
本发明实施例中,服务器也可以构建每个同类物品与对应的负属性数据对之间的对应关系。进而,服务器将每个同类物品对应的负属性数据对及相应的对应关系存户在该同类物品对应的属性数据库中。
本发明实施例中,服务器首先在多个评价关键词对中提取表征用户负面评价的多个负面评价关键词对,再在多个负面评价关键词对中提取出包括了物品属性的负属性数据对,所以服务器提取出的负属性数据对更加准确。
在一些实施例中,参见图11,图11为本发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图10示出的S120至S121可以通过S123至S124实现,将结合各步骤进行说明。
S123、在多个评价关键词对中,确定出观点词的词性为负面的多个负面评价关键词对。
本发明实施例中,服务器根据多个评价关键词对中的观点词的词性,在多个评价关键词对中挑选出观点词的词性为负面的负面评价关键词对
示例性的,两个评价关键词对分别为:“屏幕-好”和“信号-差”。服务器根据两个评价关键词中的观点词的词性,挑选出“信号-差”为负面评价关键词对。
S124、将多个负面评价关键词对中的主题词与每个同类物品对应的属性词进行匹配,确定出与每个同类物品对应的属性词匹配的主题词对应的负属性数据对。
本发明实施例中,服务器将每个同类物品对应的多个负面评价关键词对中的主题词与对应同类物品的属性词进行匹配。若主题词能够与对应同类物品的属性词匹配上,则确定该主题词对应的负面评价关键词对为对应同类物品的负属性数据对。
其中,一个同类物品的属性词可以从对应同类物品知识图谱中获取。示例性的,结合图12,某一同类物品的物品标题信息可以为:A7000游戏笔记本。物品的类别信息可以为:A商务笔记本。物品的品牌名中文可以为:B。物品的品牌名英文可以为:A。物品的属性词可以包括:硬盘(D数据)、键盘(背光键盘)、显卡(C显卡)和系统(E)。
在一些实施例中,参见图13,13发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图11出的S124之前还包括S125至S126,将结合各步骤进行说明。
S125、基于聚合评价数据中的评价关键词扩充多个同类物品分别对应的物品知识图谱。
本发明实施例中,服务器可以提取出对应多个同类物品的多个聚合评价数据中的评价关键词中的物品属性词。进而,服务器可以将提取出的物品属性词补充进对应的同类物品的物品知识图谱中。
S126、在多个同类物品分别对应的物品知识图谱中获取每个同类物品对应的属性词。
本发明实施例中,服务器在多个同类物品分别对应的物品知识图谱中提取出多个同类物品分别对应的属性词。
示例性的,结合图12,服务器可以提取出A7000游戏笔记本对应的一类同类物品的属性词包括:内存、硬盘、键盘显卡和系统。
本发明实施例中,服务器通过扩充物品知识图谱,进而可以在每个同类物品对应的物品知识图谱中提取到更加全面的物品属性词。
在一些实施例中,参见图14,14发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图11出的S104可以通过S127至S128实现,将结合各步骤进行说明。
S127、遍历属性数据库中的多个同类物品的对应关系,找到与目标物品信息匹配的一个同类物品对应的目标识别信息。
本发明实施例中,服务器遍历属性数据库中的多个同类物品相应的对应关系,在多个对应关系中查找了与目标物品信息匹配的一个同类物品的目标识别信息。
示例性的,目标物品信息为:“黑色5G**型号手机”,对应的目标识别信息可以为:“白色5G**型号手机”。
S128、在对应关系中确定目标识别信息对应的目标负属性数据对,并将目标负属性数据对发送给客户端进行展示。
本发明实施例中,服务器在该目标识别信息相应的对应关系中找到目标识别信息所属一个同类物品的目标负属性数据对。服务器通过与客户端预先建立的通信线路将目标负属性数据对发送给客户端进行展示。
本发明实施例中,服务器将客户端发送的目标物品信息对应的目标负属性数据对发送给客户端,可以方便客户端的用户更加了解目标物品的缺陷,进而帮助用户对目标物品进行改进或者给用户提供交易指导。
在一些实施例中,参见图15,15发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图2出的S101可以通过S129至S132实现,将结合各步骤进行说明。
S129、在本地平台的数据库中获取多个本地物品分别对应的本地多源数据。
本发明实施例中,服务器在与自身关联的本地平台中通过多个本地物品对应的识别信息获取到本地平台中多个物品分别对应的本地多源数据。
本发明实施例中,本地平台中存储有每个本地物品和每个本地物品对应多源数据的对应关系。服务器基于多个物品的识别信息,计算多个物品的识别信息与对应关系中的每个本地物品的识别信息的相似度。服务器确定出相似度大于相似度阈值对应本地物品的多源数据为本地多源数据。
其中,本地平台可以为某购物平台。
S130、利用网络爬虫在多个第三方平台中爬取,多个第三方物品分别对应的第三方多源数据。
本发明实施例中,服务器将多个物品的识别信息携带在网络爬虫中。服务器通过网络爬虫在多个第三方平台中爬取多个第三方物品分别对应的第三方多源数据。
示例性的,第三方平台可以为百度数据库或者万维网数据库等。
S131、将本地多源数据和第三方多源数据合并,得到多个物品分别对应的多源数据。
本发明实施例中,服务器将分别对应多个本地物品的本地多源数据好分别对应多个第三方物品的第三方多源数据叠加,得到了分别对应多个物品的多源数据。
其中,多个物品包括:多个本地物品和多个第三方物品。
S132、在多源数据中筛选出多个物品对应的多个文本信息,并将多个文本信息进行分类筛选处理,得到多个中间物品分别对应的结构化信息。
本发明实施例中,服务器可以在多个物品分别对应的多源数据中提取出多个物品分别对应的文本信息。服务器可以将多个物品分别对应的多个文本信息,按照描述内容的不同进行分类。得到对应每个物品的分类后的初始结构化信息。服务器再在分类后的初始结构化信息中删除文本信息缺失的物品及对应的初始结构化信息。进而得到剩余的多个中间物品分别对应的结构化信息。
本发明实施例中,服务器可以在多个物品分别对应的多源数据中删除图片信息、视频信息和音频信息,得到了对应多个物品的多个文本信息。服务器再按照评价内容、物品标题、物品品牌、物品类别的分类规则,将对应每个物品的多个文本信息进行分类,得到了对应每个物品分类后的初始结构化。若某几个物品对应的初始结构化信息中缺失了一项文本信息,则服务器将该物品及对应的初始结构化信息删除,得到了分别对应多个中间物品的结构化信息。
示例性的,物品一的多个文本信息可以包括:手机屏幕不好、ab牌、5G黑色ab手机和电子产品。物品二的多个文本信息可以包括:手机信号好、ab牌、5G黑色ab手机和电子产品。服务器对该物品的多个文本信息进行分类后得到了表1。由于物品一的文本信息没有缺失,则表1中的文本信息就是物品一和物品二的对应的结构化信息。
Figure BDA0002984846320000271
Figure BDA0002984846320000281
表1,为物品一和物品二的多个文本信息分类处理后的结构化信息表。
在一些实施例中,参见图16,16发明实施例提供的物品属性挖掘方法的一个可选的流程示意图,图15出的S132可以通过S133至S135实现,将结合各步骤进行说明。
S133、在多源数据中提取对应多个物品的多个文本信息。
本发明实施例中,服务器删除多个物品对应的多源数据中的视频信息、音频信息和图片信息,提取出多个物品分别对应的多个文本信息。
本发明实施例中,服务器可以通过训练好的模型,在多个物品分别对应的多源数据中提取出多个物品分别对应的多个文本信息。
S134、将多个文本信息按照分别对应多个物品的多个识别信息及评价信息进行分类,得到多个初始结构化信息。
本发明实施例中,服务器将多个物品分别对应的多个文本信息按照对应该物品的多个识别信息和评价信息进行分类,得到了多个物品分别对应的初始结构化信息。
其中,多个物品分别对应的初始结构化信息中可以包括:多个物品分别对应的评价信息以及物品标题信息、物品品牌信息和物品类别信息。
S135、将多个初始结构化信息,在查缺模型中进行过滤,得到识别信息完整的多个中间物品分别对应的多个结构化信息。
本发明实施例中,服务器对多个物品对应的初始结构化信息输入查缺模型进行筛选处理。若多个物品中的一个或者几个物品对应的初始结构化信息中缺少了一个或者多个关键识别信息,则查缺模型将删除该一个或者几个物品及对应的初始结构化信息。得到了剩余的多个中间物品分别对应的结构化信息。
其中,关键识别信息可以为:物品标题信息、物品品牌信息和物品类别信息中的至少一个。
本发明实施例中,服务器通过在多个物品分别对应的多源数据中提取多个物品分别对应的文本信息,然后再进行筛选处理,得到数据全面的多个中间物品分别对应的结构化信息,进而缩小的服务器处理的数据范围,所以服务器可以快速的确定出物品缺陷数据。
请参阅图17为本发明实施例提供的物品属性挖掘装置的结构示意图。
本发明实施例提供了一种物品属性挖掘装置800,包括:数据预处理单元803、融合单元804、挖掘单元805和交互单元806。
数据预处理单元803,用于在多个平台中获取多个物品对应的多源数据,对多源数据进行结构化筛选处理,得到多个物品中的多个中间物品分别对应的结构化信息;
融合单元804,用于基于结构化信息中的识别信息,在多个中间物品中确定出属于多个实体的多个同类物品,并将多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;
挖掘单元805,用于基于分析聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;
交互单元806,用于基于接收的客户端发送的目标物品信息,从属性数据库中查找到与目标物品信息对应的一个同类物品对应的目标负属性数据对,并发送给客户端进行展示。
本发明实施例中,物品属性挖掘装置800中的融合单元804用于计算每个结构化信息中的多个识别信息分别与种子物品对应的种子识别信息的相似度;种子物品为中间物品中属于多个实体中的任一个实体中的一个物品;基于相似度,在多个中间物品中确定出与每个实体对应的种子物品属于同一类的至少一个中间物品对应的每个同类物品;将每个同类物品对应的至少一个中间物品的结构化信息中的评价信息进行融合,得到由每个实体对应的每个同类物品组成的多个同类物品分别对应的聚合评价信息。
本发明实施例中,物品属性挖掘装置800中的融合单元804用于对每个结构化信息中的每个识别信息进行分词处理,得到每个识别信息对应的至少一个关键词;对每个种子识别信息进行分词处理,得到每个种子识别信息对应的至少一个种子关键词;对至少一个关键词和至少一个种子关键词分别进行转化,得到对应至少一个关键词的词向量和对应至少一个种子关键词的词向量;将至少一个关键词的词向量进行融合,得到每个识别信息的第一相似信息,以及将至少一个种子关键词的词向量进行融合,得到对应的每个种子识别信息的第二相似信息;将每个识别信息的第一相似信息与对应的种子识别信息的第二相似信息进行相似计算,得到对应每个结构化信息中的多个识别信息与对应的种子识别信息之间的相似度。
本发明实施例中,物品属性挖掘装置800中的融合单元804用于确定出每个结构化信息中的多个识别信息与对应的种子识别信息之间的相似度中,高于相似度阈值的目标相似度;将多个中间物品中的与目标相似度对应的至少一个中间物品,确定为与每个实体对应的种子物品属于同一类的每个同类物品。
本发明实施例中,物品属性挖掘装置800中的挖掘单元805用于分析聚合评价数据中的每个评价信息,确定出多个评价关键词对;基于多个评价关键词对中的评价关键词的词性,在多个评价关键词对中提取出表征每个同类物品负面属性的负属性数据对,从而得到包括了多个同类物品对应的负属性数据对的属性数据库。
本发明实施例中,物品属性挖掘装置800中的挖掘单元805用于将每个评价信息进行分词处理,得到对应每个评价信息的多个评价关键词;分析得到每个评价信息中的多个评价关键词的词性,以及每个评价信息的文本结构;基于每个评价信息的多个评价关键词的词性和文本结构,在每个评价信息对应的多个评价关键词中,提取出分别包括主题词和观点词的多个评价关键词对。
本发明实施例中,物品属性挖掘装置800中的挖掘单元805用于基于多个评价关键词对中的观点词的词性,确定多个评价关键词对中的多个负面评价关键词对;基于多个负面评价关键词对中的主题词,确定多个负面评价关键词对中的每个同类物品的负属性数据对;确定多个同类物品分别对应的负属性数据对与,对应的同类物品的识别信息之间的对应关系,并将负属性数据对及对应的对应关系存储在属性数据库中。
本发明实施例中,物品属性挖掘装置800中的挖掘单元805用于在多个评价关键词对中,确定出观点词的词性为负面的多个负面评价关键词对。
本发明实施例中,物品属性挖掘装置800中的挖掘单元805用于将多个负面评价关键词对中的主题词与每个同类物品对应的属性词进行匹配,确定出与每个同类物品对应的属性词匹配的主题词对应的负属性数据对。
本发明实施例中,物品属性挖掘装置800中的挖掘单元805用于基于聚合评价数据中的评价关键词扩充多个同类物品分别对应的物品知识图谱;在多个同类物品分别对应的物品知识图谱中获取每个同类物品对应的属性词。
本发明实施例中,物品属性挖掘装置800中的交互单元806用于遍历属性数据库中的多个同类物品的对应关系,找到与目标物品信息匹配的一个同类物品对应的目标识别信息;在对应关系中确定目标识别信息对应的目标负属性数据对,并将目标负属性数据对发送给客户端进行展示。
本发明实施例中,物品属性挖掘装置800中的数据预处理单元803用于在本地平台的数据库中获取多个本地物品分别对应的本地多源数据;利用网络爬虫在多个第三方平台中爬取,多个第三方物品分别对应的第三方多源数据;将本地多源数据和第三方多源数据合并,得到多个物品分别对应的多源数据;多个物品包括:多个本地物品和多个第三方物品;在多源数据中筛选出多个物品对应的多个文本信息,并将多个文本信息进行分类筛选处理,得到多个中间物品分别对应的结构化信息;每个结构化信息中至少包括:对应的中间物品的描述物品标题、物品品牌和物品类别的多个识别信息和评价信息。
本发明实施例中,物品属性挖掘装置800中的数据预处理单元803用于在多源数据中提取对应多个物品的多个文本信息;将多个文本信息按照分别对应多个物品的多个识别信息及评价信息进行分类,得到多个初始结构化信息;将多个初始结构化信息,在查缺模型中进行过滤,得到识别信息完整的多个中间物品分别对应的多个结构化信息;查缺模型用于删除缺少关键识别信息的物品及对应的初始结构化信息。
本发明实施例中,通过数据预处理单元在多个平台中获取多个物品对应的多源数据,对多源数据进行结构化筛选处理,得到多个物品中的多个中间物品分别对应的结构化信息;通过融合单元基于结构化信息中的识别信息,在多个中间物品中确定出属于多个实体的多个同类物品,并将多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;再通过挖掘单元基于分析聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;交互单元基于目标物品信息,从属性数据库中查找到目标负属性数据对,并发送给客户端进行展示。由于服务器将多源数据筛选得到的评价信息进行细化处理,得到了对应的评价关键词的词性,进而根据词性确定出多个同类物品对应的负属性数据对,所以服务器可以准确高效的识别出评价信息中的物品缺陷数据,又由于多源数据来自多个平台,进而服务器可以在提高物品缺陷的挖掘效率的同时挖掘出更加全面的缺陷数据。
需要说明的是,本发明实施例中,如果以软件功能模块的形式实现上述的物品属性挖掘方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台物品属性挖掘装置(可以是个人计算机等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
对应地,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
对应地,本发明实施例提供一种物品属性挖掘装置800,包括存储器802和处理器801,所述存储器802存储有可在处理器801上运行的计算机程序,所述处理器801执行所述程序时实现上述方法中的步骤。
这里需要指出的是:以上存储介质和装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明存储介质和装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
需要说明的是,图18为本发明实施例提供的物品属性挖掘装置的一种硬件实体示意图,如图18所示,该物品属性挖掘装置800的硬件实体包括:处理器801和存储器802,其中;
处理器801通常控制物品属性挖掘装置800的总体操作。
存储器802配置为存储由处理器801可执行的指令和应用,还可以缓存待处理器801以及物品属性挖掘装置800中各模块待处理或已经处理的数据(例如,图像数据、音频信息、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(RandomAccess Memory,RAM)实现。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储装置、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器、或者网络装置等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储装置、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种物品属性挖掘方法,其特征在于,包括:
在多个平台中获取多个物品对应的多源数据,对所述多源数据进行结构化筛选处理,得到所述多个物品中的多个中间物品分别对应的结构化信息;所述结构化信息表征对应的中间物品的不同描述内容的信息;
基于所述结构化信息中的识别信息,在所述多个中间物品中确定出属于多个实体的多个同类物品,并将所述多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;
基于分析所述聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;所述多个评价关键词对为对应多个评价信息中表征用户观点的词语对;
基于接收的客户端发送的目标物品信息,从所述属性数据库中查找到与所述目标物品信息对应的一个同类物品对应的目标负属性数据对,并发送给所述客户端进行展示。
2.根据权利要求1所述的物品属性挖掘方法,其特征在于,所述基于所述多个结构化信息中的识别信息,在所述多个中间物品中确定出属于多个实体的多个同类物品,并将所述多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据,包括:
计算每个结构化信息中的多个识别信息分别与种子物品对应的种子识别信息的相似度;所述种子物品为所述中间物品中属于所述多个实体中的任一个实体中的一个物品;
基于所述相似度,在所述多个中间物品中确定出与每个实体对应的所述种子物品属于同一类的至少一个中间物品对应的每个同类物品;
将所述每个同类物品对应的至少一个中间物品的结构化信息中的评价信息进行融合,得到由所述每个实体对应的所述每个同类物品组成的所述多个同类物品分别对应的所述聚合评价信息。
3.根据权利要求2所述的物品属性挖掘方法,其特征在于,所述计算每个结构化信息中的多个识别信息分别与种子物品对应的种子识别信息的相似度,包括:
对所述每个结构化信息中的每个识别信息进行分词处理,得到所述每个识别信息对应的至少一个关键词;
对每个种子识别信息进行分词处理,得到所述每个种子识别信息对应的至少一个种子关键词;
对所述至少一个关键词和所述至少一个种子关键词分别进行转化,得到对应所述至少一个关键词的词向量和对应所述至少一个种子关键词的词向量;
将所述至少一个关键词的所述词向量进行融合,得到所述每个识别信息的第一相似信息,以及将所述至少一个种子关键词的所述词向量进行融合,得到对应的所述每个种子识别信息的第二相似信息;
将所述每个识别信息的所述第一相似信息与对应的所述种子识别信息的所述第二相似信息进行相似计算,得到对应所述每个结构化信息中的所述多个识别信息与对应的种子识别信息之间的相似度。
4.根据权利要求2或3所述的物品属性挖掘方法,其特征在于,所述基于所述相似度,在所述多个中间物品中确定出与每个实体对应的所述种子物品属于同一类的至少一个中间物品对应的每个同类物品,包括:
确定出所述每个结构化信息中的所述多个识别信息与对应的种子识别信息之间的相似度中,高于相似度阈值的目标相似度;
将所述多个中间物品中的与所述目标相似度对应的所述至少一个中间物品,确定为与所述每个实体对应的所述种子物品属于同一类的所述每个同类物品。
5.根据权利要求1-4任一项所述的物品属性挖掘方法,其特征在于,所述基于分析所述聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库,包括:
分析所述聚合评价数据中的每个评价信息,确定出多个评价关键词对;
基于所述多个评价关键词对中的评价关键词的词性,在所述多个评价关键词对中提取出表征每个同类物品负面属性的负属性数据对,从而得到包括了多个同类物品对应的负属性数据对的属性数据库。
6.根据权利要求5所述的物品属性挖掘方法,其特征在于,所述分析所述聚合评价数据中的每个评价信息,确定出多个评价关键词对,包括:
将所述每个评价信息进行分词处理,得到对应所述每个评价信息的所述多个评价关键词;
分析得到所述每个评价信息中的所述多个评价关键词的词性,以及所述每个评价信息的文本结构;
基于所述每个评价信息的所述多个评价关键词的词性和所述文本结构,在所述每个评价信息对应的所述多个评价关键词中,提取出分别包括主题词和观点词的所述多个评价关键词对。
7.根据权利要求5或6所述的物品属性挖掘方法,其特征在于,所述基于所述多个评价关键词对中的评价关键词的词性,在所述多个评价关键词对中提取出表征每个同类物品负面属性的负属性数据对,从而得到包括多个同类物品对应的负属性数据对的属性数据库,包括:
基于所述多个评价关键词对中的观点词的词性,确定所述多个评价关键词对中的多个负面评价关键词对;
基于所述多个负面评价关键词对中的主题词,确定所述多个负面评价关键词对中的每个同类物品的所述负属性数据对;
确定所述多个同类物品分别对应的所述负属性数据对与,对应的同类物品的识别信息之间的对应关系,并将所述负属性数据对及对应的所述对应关系存储在所述属性数据库中。
8.根据权利要求7所述的物品属性挖掘方法,其特征在于,所述基于所述多个评价关键词对中的观点词的词性,确定所述多个评价关键词中的多个负面评价关键词对,包括:
在所述多个评价关键词对中,确定出所述观点词的词性为负面的所述多个负面评价关键词对。
9.根据权利要求7或8所述的物品属性挖掘方法,其特征在于,所述基于所述多个负面评价关键词对中的主题词,确定所述多个负面评价关键词对中的每个同类物品的所述负属性数据对,包括:
将所述多个负面评价关键词对中的主题词与每个同类物品对应的属性词进行匹配,确定出与所述每个同类物品对应的属性词匹配的主题词对应的所述负属性数据对。
10.根据权利要求9所述的物品属性挖掘方法,其特征在于,所述将所述多个负面评价关键词对中的主题词与每个同类物品对应的属性词进行匹配,确定出与所述每个同类物品对应的属性词匹配的主题词对应的所述负属性数据对之前,所述方法还包括:
基于所述聚合评价数据中的评价关键词扩充所述多个同类物品分别对应的物品知识图谱;
在所述多个同类物品分别对应的物品知识图谱中获取每个同类物品对应的属性词。
11.根据权利要求7-9任一项所述的物品属性挖掘方法,其特征在于,所述基于接收的客户端发送的目标物品信息,从所述属性数据库中查找到与所述目标物品信息对应的一个同类物品对应的目标负属性数据对,并发送给所述客户端进行展示,包括:
遍历所述属性数据库中的多个同类物品的对应关系,找到与所述目标物品信息匹配的一个同类物品对应的目标识别信息;
在所述对应关系中确定所述目标识别信息对应的目标负属性数据对,并将所述目标负属性数据对发送给所述客户端进行展示。
12.根据权利要求1-11任一项所述的物品属性挖掘方法,其特征在于,所述在多个平台中获取多个物品对应的多源数据,对所述多源数据进行结构化筛选处理,得到所述多个物品中的多个中间物品分别对应的结构化信息,包括:
在本地平台的数据库中获取多个本地物品分别对应的本地多源数据;
利用网络爬虫在多个第三方平台中爬取,多个第三方物品分别对应的第三方多源数据;
将所述本地多源数据和所述第三方多源数据合并,得到所述多个物品分别对应的多源数据;所述多个物品包括:所述多个本地物品和所述多个第三方物品;
在所述多源数据中筛选出所述多个物品对应的多个文本信息,并将所述多个文本信息进行分类筛选处理,得到所述多个中间物品分别对应的结构化信息;每个结构化信息中至少包括:对应的中间物品的描述物品标题、物品品牌和物品类别的多个识别信息和评价信息。
13.根据权利要求12所述的物品属性挖掘方法,其特征在于,所述在所述多源数据中筛选出所述多个物品对应的多个文本信息,并将所述多个文本信息进行分类筛选处理,得到所述多个中间物品分别对应的结构化信息,包括:
在所述多源数据中提取对应所述多个物品的所述多个文本信息;
将所述多个文本信息按照分别对应所述多个物品的多个识别信息及评价信息进行分类,得到多个初始结构化信息;
将多个初始结构化信息,在查缺模型中进行过滤,得到识别信息完整的所述多个中间物品分别对应的所述多个结构化信息;所述查缺模型用于删除缺少关键识别信息的物品及对应的初始结构化信息。
14.一种物品属性挖掘装置,其特征在于,包括:
数据预处理单元,用于在多个平台中获取多个物品对应的多源数据,对所述多源数据进行结构化筛选处理,得到所述多个物品中的多个中间物品分别对应的结构化信息;所述结构化信息表征对应的中间物品的不同描述内容的信息;
融合单元,用于基于所述结构化信息中的识别信息,在所述多个中间物品中确定出属于多个实体的多个同类物品,并将所述多个同类物品分别对应的结构化信息中的评价信息融合得到聚合评价数据;
挖掘单元,用于基于分析所述聚合评价数据中的每个评价信息确定出的多个评价关键词对中的词性,提取出表征每个同类物品负面属性的负属性数据对,从而得到多个同类物品对应的属性数据库;所述多个评价关键词对为对应多个评价信息中表征用户观点的词语对;
交互单元,用于基于接收的客户端发送的目标物品信息,从所述属性数据库中查找到与所述目标物品信息对应的一个同类物品对应的目标负属性数据对,并发送给所述客户端进行展示。
15.一种物品属性挖掘装置,其特征在于,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至13任一项所述方法中的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至13任一项所述方法中的步骤。
CN202110297356.6A 2021-03-19 2021-03-19 物品属性挖掘方法、装置及存储介质 Pending CN113763024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110297356.6A CN113763024A (zh) 2021-03-19 2021-03-19 物品属性挖掘方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110297356.6A CN113763024A (zh) 2021-03-19 2021-03-19 物品属性挖掘方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113763024A true CN113763024A (zh) 2021-12-07

Family

ID=78786775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110297356.6A Pending CN113763024A (zh) 2021-03-19 2021-03-19 物品属性挖掘方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113763024A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034803A (zh) * 2022-04-13 2022-09-09 北京京东尚科信息技术有限公司 新物品挖掘方法和装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787073A (zh) * 2016-03-02 2016-07-20 上海源庐加佳信息科技有限公司 一种基于大数据挖掘技术的企业信用评价方法
CN106127507A (zh) * 2016-06-13 2016-11-16 四川长虹电器股份有限公司 一种基于用户评价信息的商品舆情分析方法及系统
CN106484802A (zh) * 2016-09-22 2017-03-08 中国标准化研究院 一种针对汽车缺陷发布的信息的数据处理方法及装置
CN108388556A (zh) * 2018-02-02 2018-08-10 北京云知声信息技术有限公司 同类实体的挖掘方法及系统
CN109976993A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种基于文本挖掘的缺陷模式确定方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787073A (zh) * 2016-03-02 2016-07-20 上海源庐加佳信息科技有限公司 一种基于大数据挖掘技术的企业信用评价方法
CN106127507A (zh) * 2016-06-13 2016-11-16 四川长虹电器股份有限公司 一种基于用户评价信息的商品舆情分析方法及系统
CN106484802A (zh) * 2016-09-22 2017-03-08 中国标准化研究院 一种针对汽车缺陷发布的信息的数据处理方法及装置
CN109976993A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种基于文本挖掘的缺陷模式确定方法及系统
CN108388556A (zh) * 2018-02-02 2018-08-10 北京云知声信息技术有限公司 同类实体的挖掘方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张嵩;吴剑云;樊卫国;刘树坤;: "基于社交媒体分析的手机缺陷识别", 计算机集成制造系统, vol. 22, no. 09, pages 1 - 3 *
梁若愚;张凌浩;: "面向产品设计迭代的缺陷信息挖掘方法研究", 包装工程, no. 24 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034803A (zh) * 2022-04-13 2022-09-09 北京京东尚科信息技术有限公司 新物品挖掘方法和装置及存储介质

Similar Documents

Publication Publication Date Title
CN109359244B (zh) 一种个性化信息推荐方法和装置
US11715315B2 (en) Systems, methods and computer readable media for identifying content to represent web pages and creating a representative image from the content
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
Fang et al. Dynamic knowledge graph based fake-review detection
CN112148889A (zh) 一种推荐列表的生成方法及设备
JP5711674B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
CN112100396B (zh) 一种数据处理方法和装置
CN103309886A (zh) 一种基于交易平台的结构化信息搜索方法和装置
CN105518661A (zh) 经由挖掘的超链接文本的片段来浏览图像
CN112100513A (zh) 基于知识图谱的推荐方法、装置、设备及计算机可读介质
CN106933878B (zh) 一种信息处理方法及装置
CN112528042A (zh) 一种多模态商品知识图谱构建方法
CN104933171A (zh) 兴趣点数据关联方法和装置
Vu et al. Rumor detection by propagation embedding based on graph convolutional network
CN113127669B (zh) 广告配图方法、装置、设备和存储介质
CN115982473A (zh) 一种基于aigc的舆情分析编排系统
Wei et al. Online education recommendation model based on user behavior data analysis
Fernandes et al. Analysis of product Twitter data though opinion mining
CN113763024A (zh) 物品属性挖掘方法、装置及存储介质
Bitarafan et al. Spgd_hin: Spammer group detection based on heterogeneous information network
CN111988668B (zh) 一种视频推荐方法、装置、计算机设备及存储介质
CN111752922A (zh) 一种建立知识数据库、实现知识查询的方法及装置
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN114022233A (zh) 一种新型的商品推荐方法
CN113763084A (zh) 产品推荐的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination