CN112529627B - 商品隐式属性抽取方法、装置、计算机设备及存储介质 - Google Patents

商品隐式属性抽取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112529627B
CN112529627B CN202011484158.2A CN202011484158A CN112529627B CN 112529627 B CN112529627 B CN 112529627B CN 202011484158 A CN202011484158 A CN 202011484158A CN 112529627 B CN112529627 B CN 112529627B
Authority
CN
China
Prior art keywords
commodity
explicit
implicit
emotion
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011484158.2A
Other languages
English (en)
Other versions
CN112529627A (zh
Inventor
霍慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202011484158.2A priority Critical patent/CN112529627B/zh
Publication of CN112529627A publication Critical patent/CN112529627A/zh
Application granted granted Critical
Publication of CN112529627B publication Critical patent/CN112529627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种商品隐式属性抽取方法、装置、计算机设备及存储介质,其中,所述方法包括:基于原始评论语料获取显式句子集合和隐式句子集合;基于显式句子集合构建映射字典,所述映射字典包括商品显式属性簇、情感词以及二者之间的搭配权重的映射关系;对于隐式句子集合中的每个隐式句子,在所述映射字典中查找与该隐式句子中的情感词相对应的映射关系,构成候选映射关系集合;以及,从所述候选映射关系集合中选出搭配权重最高的一组映射关系,并将其对应的商品显式属性簇的代表性属性词作为该隐式句子的商品隐式属性。本公开提供的技术方案能够得到由情感词隐含的相应商品隐式属性,评论颗粒度情感分析更全面。

Description

商品隐式属性抽取方法、装置、计算机设备及存储介质
技术领域
本公开涉及计算机信息处理技术领域,尤其涉及一种商品隐式属性抽取方法、一种商品隐式属性抽取装置、一种计算机设备以及一种计算机可读存储介质。
背景技术
对商品评论而言,不同的用户往往关注不同的商品特征,整体上持有相同情感倾向的用户对商品的局部细节可能持有不同的情感倾向,深入挖掘用户对于评价对象各个方面所持的情感倾向,可以帮助潜在用户了解目标在各个属性维度上的指标或优缺点,为其购买决策提供参考;也可以帮助商家了解自己商品的优势和不足,从而有的放矢地改进商品设计或服务,提升商品质量,或者实现精准营销,但前提是首先实现商品属性的抽取。
商品属性包括商品显式属性和商品隐式属性。其中,商品显式属性是指在商品评论中直接以文字形式出现的属性,比如,对于商品评论“手机外观很漂亮”,其中包含有显式属性词“外观”。商品隐式属性是指在商品评论中不以文字形式出现,但是通过评论中的某些词语或者语义可以推断出的属性。
目前,主要关注商品显式属性抽取,而对商品隐式属性抽取关注较少,比如商品评论中出现“非常漂亮,就是有点贵”,其中情感词“贵”隐含了商品属性“价格”,情感词“漂亮”隐含了商品属性“外观”,如果不对其进行抽取,则忽略了一部分评论内容,导致评论细粒度情感分析不全面。
发明内容
为了至少部分解决现有技术中存在的技术问题而完成了本公开。
根据本公开实施例的一方面,提供一种商品隐式属性抽取方法,所述方法包括:
基于原始评论语料获取显式句子集合和隐式句子集合;
基于显式句子集合构建映射字典,所述映射字典包括商品显式属性簇、情感词以及二者之间的搭配权重的映射关系;
对于隐式句子集合中的每个隐式句子,在所述映射字典中查找与该隐式句子中的情感词相对应的映射关系,构成候选映射关系集合;以及,
从所述候选映射关系集合中选出搭配权重最高的一组映射关系,并将其对应的商品显式属性簇的代表性属性词作为该隐式句子的商品隐式属性。
根据本公开实施例的另一方面,提供一种商品隐式属性抽取装置,所述装置包括:
获取模块,其设置为基于原始评论语料获取显式句子集合和隐式句子集合;
构建模块,其设置为基于显式句子集合构建映射字典,所述映射字典包括商品显式属性簇、情感词以及二者之间的搭配权重的映射关系;
查找模块,其设置为对于隐式句子集合中的每个隐式句子,在所述映射字典中查找与该隐式句子中的情感词相对应的映射关系,构成候选映射关系集合;以及,
选取模块,其设置为从所述候选映射关系集合中选出搭配权重最高的一组映射关系,并将其对应的商品显式属性簇的代表性属性词作为该隐式句子的商品隐式属性。
根据本公开实施例的又一方面,提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行前述商品隐式属性抽取方法。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述商品隐式属性抽取方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例提供的商品隐式属性抽取方法及装置,预先构建包含商品显式属性簇、情感词以及二者之间的搭配权重的映射关系的映射字典,然后将隐式句子中的情感词匹配已构建的映射字典,就能得到由情感词隐含的相应商品隐式属性,评论颗粒度情感分析更全面。而且,本实施例除适用于形容词词性的情感词对应的隐式属性抽取外,还适用于副词、动词等其他词性或词组的情感词对应的隐式属性抽取。
本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
图1为本公开实施例提供的商品隐式属性抽取方法的流程示意图;
图2为本公开实施例提供的商品隐式属性抽取装置的结构示意图;
图3为本公开实施例提供的计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序;并且,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
图1为本公开实施例提供的商品隐式属性抽取方法的流程示意图。如图1所示,所述方法包括如下步骤S101至S104。
S101.基于原始评论语料获取显式句子集合和隐式句子集合;
S102.基于显式句子集合构建映射字典,所述映射字典包括商品显式属性簇、情感词以及二者之间的搭配权重的映射关系;
S103.对于隐式句子集合中的每个隐式句子,在所述映射字典中查找与该隐式句子中的情感词相对应的映射关系,构成候选映射关系集合;
S104.从所述候选映射关系集合中选出搭配权重最高的一组映射关系,并将其对应的商品显式属性簇的代表性属性词作为该隐式句子的商品隐式属性。
本实施例中,预先构建包含商品显式属性簇、情感词以及二者之间的搭配权重的映射关系的映射字典,然后将隐式句子中的情感词匹配已构建的映射字典,就能得到由情感词隐含的相应商品隐式属性,评论颗粒度情感分析更全面。而且,本实施例除适用于形容词词性的情感词对应的隐式属性抽取外,还适用于副词、动词等其他词性或词组的情感词对应的隐式属性抽取。
在一种具体实施方式中,在步骤S101之前,还包括如下步骤S105:
S105.抓取电商平台上的评论数据作为原始评论语料。
本实施例中,可采用八爪鱼采集器抓取电商平台上的评论数据作为原始评论语料。
在一种具体实施方式中,步骤S101包括如下步骤S1011至S1014。
S1011.对原始评论语料进行预处理;
S1012.将预处理后的评论语料进行子句分割,得到短句集合;
S1013.从短句集合中抽取包含商品显式属性簇的句子,将其构成显式句子集合;
S1014.从短句集合中抽取不包含商品显式属性簇的句子,将其构成隐式句子集合。
换言之,显式句子集合由包含商品显式属性簇的句子构成;隐式句子集合由除包含商品显式属性簇的句子之外的句子构成。
由于中文商品评论文本具有篇幅不长、短句分隔随意、语义丰富等特点,本实施例中,基于评论语料的预处理结果,以逗号、分号、句号、感叹号等标点符号对预处理后的评论语料进行分句,得到短句集合,并将得到的短句集合作为一个逻辑上的语义单位进行处理。
在一种具体实施方式中,步骤S101具体为:
对原始评论语料进行清洗,得到有效评论语料;以及,
对有效评论语料进行分词和词性标注,得到预处理后的评论语料。
本实施例中,对原始评论语料进行清洗,是为了过滤掉其中价值量很低甚至是没有价值量的评论。可采用Python的结巴分词包对有效评论语料进行中文分词和词性标注。
在一种具体实施方式中,步骤S102包括如下步骤S1021至S1025。
S1021.从显式句子集合中抽取商品显式属性簇;
S1022.从显式句子集合中抽取情感词;
S1023.计算情感词和商品显式属性簇之间的搭配权重;
S1024.判断情感词和商品显式属性簇之间的搭配权重是否小于预设的阈值p,若不小于预设的阈值p,则执行步骤S1025;若小于预设的阈值p,则结束当前流程;
S1025.将商品显式属性簇、情感词以及二者之间的搭配权重的映射关系加入映射字典。
本实施例中,在步骤S1021中,可综合采用关联规则FP-tree算法、过滤技术、聚类技术等从显式句子集合中抽取商品显式属性簇;商品显式属性簇包含多个商品显式属性,而商品显式属性可以为名词、名词短语和动名词短语。
在步骤S1022中,主要抽取形容词作为情感词。当然,也可以视需要抽取副词、动词等其他词性或词组作为情感词。
在一种具体实施方式中,步骤S1023采用如下公式计算情感词和商品显式属性簇之间的搭配权重:
Figure BDA0002838507960000051
式中,w(W,F)为情感词和商品显式属性簇之间的搭配权重,W为情感词,F为任意的商品显式属性簇,A为全部商品显式属性;nf(W,F)为情感词W和特定商品显式属性簇F共现的频次;nf(W,A)为情感词W与所有商品显式属性A共现的频次;N(A)为所有商品显式属性A的个数;N(W,A)为与情感词W共现的商品显式属性个数。
本实施例中,搭配权重w(W,F)采用TF-IDF(term frequency–inverse documentfrequency)改进算法计算得出,其表现为:若一个词和词集中某个词的共现频次越高而与整个词集的共现频次越低,则这两个词语的关联性越大,搭配权重越高。
在一种具体实施方式中,在步骤S103之前,还包括如下步骤S106和S107。
S106.对于隐式句子集合中的每个隐式句子,判断该隐式句子中是否有情感词,若有情感词,则执行步骤S107;若没有情感词,则放弃对该隐式句子的处理;
S107.抽取该隐式句子中的情感词。
本实施例中,对于隐式句子,先判断其中是否存在情感词,对于不存在情感词的隐式句子,直接放弃处理;对于存在情感词的隐式句子,首先抽取该隐式句子中的情感词,再根据已抽取的情感词在映射字典中寻找搭配权重最高的一组映射关系,并将其对应的商品显式属性簇的代表性属性词作为该隐式句子的商品隐式属性。
本公开实施例提供的商品隐式属性抽取方法,预先构建包含商品显式属性簇、情感词以及二者之间的搭配权重的映射关系的映射字典,然后将隐式句子中的情感词匹配已构建的映射字典,就能得到由情感词隐含的相应商品隐式属性,评论颗粒度情感分析更全面,既能够帮助潜在用户了解目标在各个属性维度上的指标或优缺点,为其购买决策提供参考,又能够帮助商家了解自己商品的优势和不足,从而有的放矢地改进商品设计或服务,提升商品质量,或者实现精准营销。
图2为本公开实施例提供的商品隐式属性抽取装置的结构示意图。如图2所示,所述装置2包括:获取模块21、构建模块22、查找模块23和选取模块24。
其中,获取模块21设置为基于原始评论语料获取显式句子集合和隐式句子集合;构建模块22设置为基于显式句子集合构建映射字典,所述映射字典包括商品显式属性簇、情感词以及二者之间的搭配权重的映射关系;查找模块23设置为对于隐式句子集合中的每个隐式句子,在所述映射字典中查找与该隐式句子中的情感词相对应的映射关系,构成候选映射关系集合;选取模块24设置为从所述候选映射关系集合中选出搭配权重最高的一组映射关系,并将其对应的商品显式属性簇的代表性属性词作为该隐式句子的商品隐式属性。
在一种具体实施方式中,所述装置2还包括:抓取模块25。
抓取模块25设置为抓取电商平台上的评论数据作为原始评论语料。
本实施例中,抓取模块25可采用八爪鱼采集器抓取电商平台上的评论数据作为原始评论语料。
在一种具体实施方式中,获取模块21包括:预处理单元、分割单元和第一抽取单元。
其中,预处理单元设置为对原始评论语料进行预处理。分割单元设置为将预处理后的评论语料进行子句分割,得到短句集合。抽取单元设置为从短句集合中抽取包含商品显式属性簇的句子,将其构成显式句子集合;以及,从短句集合中抽取不包含商品显式属性簇的句子,将其构成隐式句子集合。换言之,显式句子集合由包含商品显式属性簇的句子构成;隐式句子集合由除包含商品显式属性簇的句子之外的句子构成。
在一种具体实施方式中,预处理单元具体设置为:
对原始评论语料进行清洗,得到有效评论语料;以及,
对有效评论语料进行分词和词性标注,得到预处理后的评论语料。
本实施例中,对原始评论语料进行清洗,是为了过滤掉其中价值量很低甚至是没有价值量的评论。可采用Python的结巴分词包对有效评论语料进行中文分词和词性标注。
在一种具体实施方式中,构建模块22包括:第二抽取单元、第三抽取单元、计算单元、判断单元和加入单元。
其中,第二抽取单元设置为从显式句子集合中抽取商品显式属性簇;第三抽取单元设置为从显式句子集合中抽取情感词;计算单元设置为计算情感词和商品显式属性簇之间的搭配权重;判断单元设置为判断情感词和商品显式属性簇之间的搭配权重是否小于预设的阈值;加入单元设置为,在判断单元判断为情感词和商品显式属性簇之间的搭配权重不小于预设的阈值时,将商品显式属性簇、情感词以及二者之间的搭配权重的映射关系加入映射字典。
本实施例中,第二抽取单元可综合采用关联规则FP-tree算法、过滤技术、聚类技术等从显式句子集合中抽取商品显式属性簇;商品显式属性簇包含多个商品显式属性,而商品显式属性可以为名词、名词短语和动名词短语。第三抽取单元主要抽取形容词作为情感词。当然,也可以视需要抽取副词、动词等其他词性或词组作为情感词。
在一种具体实施方式中,计算单元采用以下公式计算得出情感词和商品显式属性簇之间的搭配权重:
Figure BDA0002838507960000081
式中,w(W,F)为情感词和商品显式属性簇之间的搭配权重,W为情感词,F为任意的商品显式属性簇,A为全部商品显式属性;nf(W,F)为情感词W和特定商品显式属性簇F共现的频次;nf(W,A)为情感词W与所有商品显式属性A共现的频次;N(A)为所有商品显式属性A的个数;N(W,A)为与情感词W共现的商品显式属性个数。
在一种具体实施方式中,所述装置2还包括:判断模块26和抽取模块27。
判断模块26设置为对于隐式句子集合中的每个隐式句子,判断该隐式句子中是否有情感词;抽取模块27设置为,在判断模块26判断为该隐式句子中有情感词时,抽取该隐式句子中的情感词。
本公开实施例提供的商品隐式属性抽取装置,预先构建包含商品显式属性簇、情感词以及二者之间的搭配权重的映射关系的映射字典,然后将隐式句子中的情感词匹配已构建的映射字典,就能得到由情感词隐含的相应商品隐式属性,评论颗粒度情感分析更全面,既能够帮助潜在用户了解目标在各个属性维度上的指标或优缺点,为其购买决策提供参考,又能够帮助商家了解自己商品的优势和不足,从而有的放矢地改进商品设计或服务,提升商品质量,或者实现精准营销。
基于相同的技术构思,本公开实施例相应还提供一种计算机设备,如图3所示,所述计算机设备3包括存储器31和处理器32,所述存储器31中存储有计算机程序,当所述处理器32运行所述存储器31存储的计算机程序时,所述处理器32执行前述商品隐式属性抽取方法。
基于相同的技术构思,本公开实施例相应还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述商品隐式属性抽取方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (8)

1.一种商品隐式属性抽取方法,其特征在于,包括:
基于原始评论语料获取显式句子集合和隐式句子集合;
基于显式句子集合构建映射字典,所述映射字典包括商品显式属性簇、情感词以及二者之间的搭配权重的映射关系;
对于隐式句子集合中的每个隐式句子,在所述映射字典中查找与该隐式句子中的情感词相对应的映射关系,构成候选映射关系集合;以及,
从所述候选映射关系集合中选出搭配权重最高的一组映射关系,并将其对应的商品显式属性簇的代表性属性词作为该隐式句子的商品隐式属性;
所述基于显式句子集合构建映射字典,包括:
从显式句子集合中抽取商品显式属性簇;
从显式句子集合中抽取情感词;
计算情感词和商品显式属性簇之间的搭配权重;
判断情感词和商品显式属性簇之间的搭配权重是否小于预设的阈值;
若不小于预设的阈值,则将商品显式属性簇、情感词以及二者之间的搭配权重的映射关系加入映射字典;
所述情感词和商品显式属性簇之间的搭配权重采用以下公式计算得出:
Figure FDA0004217196270000011
式中,w(W,F)为情感词和商品显式属性簇之间的搭配权重,W为情感词,F为任意的商品显式属性簇,A为全部商品显式属性;(W,F)为情感词W和特定商品显式属性簇F共现的频次;nf(W,A)为情感词W与所有商品显式属性A共现的频次;N(A)为所有商品显式属性A的个数;N(W,A)为与情感词W共现的商品显式属性个数。
2.根据权利要求1所述的方法,其特征在于,在基于原始评论语料获取显式句子集合和隐式句子集合之前,还包括:
抓取电商平台上的评论数据作为原始评论语料。
3.根据权利要求1所述的方法,其特征在于,所述基于原始评论语料获取显式句子集合和隐式句子集合,包括:
对原始评论语料进行预处理;
将预处理后的评论语料进行子句分割,得到短句集合;
从短句集合中抽取包含商品显式属性簇的句子,将其构成显式句子集合;以及,
从短句集合中抽取不包含商品显式属性簇的句子,将其构成隐式句子集合。
4.根据权利要求3所述的方法,其特征在于,所述对原始评论语料进行预处理,包括:
对原始评论语料进行清洗,得到有效评论语料;以及,
对有效评论语料进行分词和词性标注,得到预处理后的评论语料。
5.根据权利要求1所述的方法,其特征在于,在所述映射字典中查找与该隐式句子中的情感词相对应的映射关系之前,还包括:
对于隐式句子集合中的每个隐式句子,判断该隐式句子中是否有情感词;
若有情感词,则抽取该隐式句子中的情感词。
6.一种商品隐式属性抽取装置,其特征在于,包括:
获取模块,其设置为基于原始评论语料获取显式句子集合和隐式句子集合;
构建模块,其设置为基于显式句子集合构建映射字典,所述映射字典包括商品显式属性簇、情感词以及二者之间的搭配权重的映射关系;
查找模块,其设置为对于隐式句子集合中的每个隐式句子,在所述映射字典中查找与该隐式句子中的情感词相对应的映射关系,构成候选映射关系集合;以及,
选取模块,其设置为从所述候选映射关系集合中选出搭配权重最高的一组映射关系,并将其对应的商品显式属性簇的代表性属性词作为该隐式句子的商品隐式属性;
所述构建模块包括:
抽取单元,其设置为从显式句子集合中抽取商品显式属性簇,以及从显式句子集合中抽取情感词;
计算单元,其设置为计算情感词和商品显式属性簇之间的搭配权重;
判断单元,其设置为判断情感词和商品显式属性簇之间的搭配权重是否小于预设的阈值;以及,
加入单元,其设置为在判断单元判断为情感词和商品显式属性簇之间的搭配权重不小于预设的阈值时,将商品显式属性簇、情感词以及二者之间的搭配权重的映射关系加入映射字典;
所述计算单元采用以下公式计算得出情感词和商品显式属性簇之间的搭配权重:
Figure FDA0004217196270000031
式中,W(W,F)为情感词和商品显式属性簇之间的搭配权重,W为情感词,F为任意的商品显式属性簇,A为全部商品显式属性;nf(W,F)为情感词W和特定商品显式属性簇F共现的频次;nf(W,A)为情感词W与所有商品显式属性A共现的频次;N(A)为所有商品显式属性A的个数;N(W,A)为与情感词W共现的商品显式属性个数。
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1至5中任一项所述的商品隐式属性抽取方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,所述处理器执行根据权利要求1至5中任一项所述的商品隐式属性抽取方法。
CN202011484158.2A 2020-12-16 2020-12-16 商品隐式属性抽取方法、装置、计算机设备及存储介质 Active CN112529627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011484158.2A CN112529627B (zh) 2020-12-16 2020-12-16 商品隐式属性抽取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011484158.2A CN112529627B (zh) 2020-12-16 2020-12-16 商品隐式属性抽取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112529627A CN112529627A (zh) 2021-03-19
CN112529627B true CN112529627B (zh) 2023-06-13

Family

ID=75000505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011484158.2A Active CN112529627B (zh) 2020-12-16 2020-12-16 商品隐式属性抽取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112529627B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949322A (zh) * 2021-04-27 2021-06-11 李蕊男 线上文本评论驱动的电商意见挖掘推荐系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015971A (ja) * 2011-07-01 2013-01-24 Kddi Corp 代表的なコメント抽出方法およびプログラム
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN107391575A (zh) * 2017-06-20 2017-11-24 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN110334350A (zh) * 2019-07-02 2019-10-15 中国联合网络通信集团有限公司 一种隐式属性抽取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015971A (ja) * 2011-07-01 2013-01-24 Kddi Corp 代表的なコメント抽出方法およびプログラム
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN107391575A (zh) * 2017-06-20 2017-11-24 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN110334350A (zh) * 2019-07-02 2019-10-15 中国联合网络通信集团有限公司 一种隐式属性抽取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
在线评论中隐式商品特征识别方法;王扶东 等;《东华大学学报(自然科学版)》;第第45卷卷(第第3期期);第451-456页 *
基于属性特征的评论文本情感极性量化分析;李慧 等;《数据分析与知识发现》;第1卷(第10期);第1-11页 *

Also Published As

Publication number Publication date
CN112529627A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
US10042923B2 (en) Topic extraction using clause segmentation and high-frequency words
Ding et al. Entity discovery and assignment for opinion mining applications
US8874568B2 (en) Systems and methods regarding keyword extraction
US20130060769A1 (en) System and method for identifying social media interactions
CN108038096A (zh) 知识库文档快速检索方法、应用服务器计算机可读存储介质
US20110196670A1 (en) Indexing content at semantic level
EP2592572A1 (en) Facilitating extraction and discovery of enterprise services
US10740406B2 (en) Matching of an input document to documents in a document collection
US9990359B2 (en) Computer-based analysis of virtual discussions for products and services
Qian et al. Detecting new Chinese words from massive domain texts with word embedding
CN111126060A (zh) 一种主题词的提取方法、装置、设备及存储介质
CN112529627B (zh) 商品隐式属性抽取方法、装置、计算机设备及存储介质
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN113806660A (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
CN113191145A (zh) 关键词的处理方法、装置、电子设备和介质
Tahmasebi et al. On the applicability of word sense discrimination on 201 years of modern english
US20230090601A1 (en) System and method for polarity analysis
WO2019231635A1 (en) Method and apparatus for generating digest for broadcasting
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
US11822609B2 (en) Prediction of future prominence attributes in data set
CN112560464A (zh) 商品隐式属性识别方法、装置、计算机设备及存储介质
KR20140056715A (ko) 계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant