CN109684641B - 一种数据提取装置、方法、电子设备和存储介质 - Google Patents

一种数据提取装置、方法、电子设备和存储介质 Download PDF

Info

Publication number
CN109684641B
CN109684641B CN201811603001.XA CN201811603001A CN109684641B CN 109684641 B CN109684641 B CN 109684641B CN 201811603001 A CN201811603001 A CN 201811603001A CN 109684641 B CN109684641 B CN 109684641B
Authority
CN
China
Prior art keywords
similarity
data
perceptual
linguistic
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811603001.XA
Other languages
English (en)
Other versions
CN109684641A (zh
Inventor
王慧明
关毅江
李志�
沈云辉
郭瀚阳
胡孝义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811603001.XA priority Critical patent/CN109684641B/zh
Publication of CN109684641A publication Critical patent/CN109684641A/zh
Application granted granted Critical
Publication of CN109684641B publication Critical patent/CN109684641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据提取装置,包括:提取模块,用于利用预设数据接口获取在线评论数据,并提取产品的各个特征‑感性词汇对;相似度生成模块,用于基于语言学度量等级对各个特征‑感性词汇对进行语义相似度计算,生成各个语言学度量等级对应的相似度;确定模块,用于检测各个相似度并确定最高相似度;感性设计数据确定模块,用于根据最高相似度确定产品的感性设计数据。本申请从在线评论数据中提取各个特征‑感性词汇对,获取各个特征‑感性词汇对的各个语言学度量等级对应的相似度,根据最大相似度确定感性设计数据,提高了感性设计数据提取效率和准确性。本申请还提供了数据提取方法、电子设备和计算机可读存储介质,均具有上述有益效果。

Description

一种数据提取装置、方法、电子设备和存储介质
技术领域
本申请涉及数据提取技术领域,特别涉及一种数据提取装置、方法、电子设备和计算机可读存储介质。
背景技术
随着社会经济和商品经济的高速发展,市场上发展成熟的商品数量越来越多,其功能性、可靠性和可用性也早已满足了人们的使用需求。然而,在激烈的市场竞争中,成熟的商品往往意味着在功能设计上的大量的相似性,难以产生竞争力;与此同时,在功能性、可靠性和可用性的需求被充分满足之后,消费者开始考虑产品设计所带来的情感上的满足。为了提高产品的竞争力,产品的感性因素设计变得越来越重要。
相关技术中通过问卷调查或调研的方式获得产品的感性设计数据,效率低且由于受限于问卷调查或调研内容的限制易造成数据不准确。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本申请的目的是提供一种数据提取装置、方法、电子设备和计算机可读存储介质,能够提高数据提取的效率且通过提取在线评论数据中的数据提高了数据来源的准确性。其具体方案如下:
本申请提供一种数据提取装置,包括:
提取模块,用于利用预设数据接口获取在线评论数据,并从所述在线评论数据中提取产品的各个特征-感性词汇对;
相似度生成模块,用于基于语言学度量等级对各个所述特征-感性词汇对进行语义相似度计算,生成各个所述语言学度量等级对应的相似度;
确定模块,用于检测各个所述相似度并确定最高相似度;
感性设计数据确定模块,用于根据所述最高相似度确定产品的感性设计数据。
优选地,所述提取模块包括:
获取单元,用于利用所述预设数据接口获取所述在线评论数据;
短句和词组生成单元,用于将所述在线评论数据分解,生成短句和词组;
重构句子获得单元,用于利用句子重构算法对所述短句和所述词组进行处理,获得重构句子;
检测单元,用于检测所述重构句子与标注训练数据是否匹配;
获得与提取单元,用于若匹配,则获得各个所述特征-感性词汇对,并提取各个所述特征-感性词汇对。
优选地,所述相似度生成模块包括:
第一相似度获得单元,用于基于所述语言学度量等级对所述特征-感性词汇利用相似性分析算法进行语义相似度计算,获得各个语言学度量等级对应第一相似度;
第二相似度获得单元,用于基于所述语言学度量等级对所述特征-感性词汇利用概率分析进行语义相似度计算,获得各个语言学度量等级对应第二相似度;
相似度获得单元,用于根据所述第一相似度和所述第二相似度进行计算,得到平均值以便获得各个语言学度量等级对应的所述相似度。
优选地,还包括:
显示模块,用于将所述感性设计数据显示在显示装置上。
本申请提供一种数据提取方法,包括:
利用预设数据接口获取在线评论数据,并从所述在线评论数据中提取产品的各个特征-感性词汇对;
基于语言学度量等级对各个所述特征-感性词汇对进行语义相似度计算,生成各个所述语言学度量等级对应的相似度;
检测各个所述相似度并确定最高相似度;
根据所述最高相似度确定产品的感性设计数据。
优选地,从所述在线评论数据中提取产品的各个特征-感性词汇对,包括:
将所述在线评论数据分解,生成短句和词组;
利用句子重构算法对所述短句和所述词组进行处理,获得重构句子;
检测所述重构句子与标注训练数据是否匹配;
若匹配,则获得各个所述特征-感性词汇对,并提取各个所述特征-感性词汇对。
优选地,基于语言学度量等级对各个所述特征-感性词汇对进行语义相似度计算,生成各个所述语言学度量等级对应的相似度,包括:
基于所述语言学度量等级对所述特征-感性词汇利用相似性分析算法进行语义相似度计算,获得各个语言学度量等级对应第一相似度;
基于所述语言学度量等级对所述特征-感性词汇利用概率分析进行语义相似度计算,获得各个语言学度量等级对应第二相似度;
根据所述第一相似度和所述第二相似度进行计算,得到平均值以便获得各个语言学度量等级对应的所述相似度。
优选地,根据所述最高相似度确定产品的感性设计数据之后,还包括:
将所述感性设计数据显示在显示装置上。
本申请提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述数据提取方法的步骤。
本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求5至8任一项所述数据提取方法的步骤。
本申请提供一种数据提取装置,包括:提取模块,用于利用预设数据接口获取在线评论数据,并从所述在线评论数据中提取产品的各个特征-感性词汇对;相似度生成模块,用于基于语言学度量等级对各个所述特征-感性词汇对进行语义相似度计算,生成各个所述语言学度量等级对应的相似度;确定模块,用于检测各个所述相似度并确定最高相似度;感性设计数据确定模块,用于根据所述最高相似度确定产品的感性设计数据。
可见,本申请从在线评论数据中提取各个特征-感性词汇对,由于在线评论能够准确表达消费者对产品的实际情况,因而感性设计数据的获取更具有准确性,并且在线评论作为数据源能够重复进行实验以使感性设计数据更准确;基于语言学度量等级对各个所述特征-感性词汇对进行语义相似度计算获得相似度,并根据最大相似度确定感性设计数据,语言学度量等级能够充分表达用户对产品设计的感性强度,使感性设计知识更为完善;本申请避免了相关技术中通过问卷调查或调研的方式获得产品的感性设计数据,效率低且由于受限于问卷调查或调研内容的限制易造成数据不准确。本申请同时还提供了一种数据提取方法、电子设备和计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种数据提取装置的结构示意图;
图2为本申请实施例提供的一种提取模块的结构示意图;
图3为本申请实施例提供的一种数据提取方法的流程图;
图4为本申请实施例提供的一种电子设备的结构图;
图5为本申请实施例提供的另一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中通过问卷调查或调研的方式获得产品的感性设计数据,效率低且由于受限于问卷调查或调研内容的限制易造成数据不准确。本申请通过利用提取模块从在线评论数据中提取各个特征-感性词汇对,基于语言学度量等级对各个特征-感性词汇对进行语义相似度计算获得相似度,并根据最大相似度确定感性设计数据,避免了相关技术中通过问卷调查或调研的方式获得产品的感性设计数据,效率低且由于受限于问卷调查或调研内容的限制易造成数据不准确,由于在线评论能够准确表达消费者对产品的实际情况,因而感性设计数据的获取更具有准确性。本申请提供一种数据提取装置,具体请参考图1,图1为本申请实施例提供的一种数据提取装置的结构示意图,包括:
提取模块110,用于利用预设数据接口获取在线评论数据,并从在线评论数据中提取产品的各个特征-感性词汇对。
本实施例中,提取模块110通过预设数据接口获取在线评论数据,具体可以是通过接口接收在线产品的描述数据和评论数据,本申请不对预设数据接口进行限定,将在线评论数据存储在一个数据集中,即网上消费者评论集;可以是将通过本机接口获取存储在存储介质中的在线评论数据,可以是通过网络接口从网络中获取在线评论数据,用户可根据实际需求进行设定。相关技术中通过采取调研和问卷调查进行产品感性设计数据的获取,但是问卷的设计、发布和回收会消耗大量的时间、劳力和脑力,且获取数据的效率低下,最终获得的结果难以实现共享和更新;并且问卷限于设计专家的角度,易造成数据不准确、不全面的现象的发生。本实施例提供在线评论数据,以互联网上消费者的评价作为数据源,减少了人为因素的参与,降低了实验难度和大家,使得实验易于重复进行,提高数据获取的效率。
具体的,从在线评论数据中提取产品的各个特征-感性词汇对。本步骤的主要目的是自动的从互联网上的产品描述数据和评论数据中提取出产品的特征—感性词汇对。评论数据中包括对产品的描述数据和产品的评论数据,因此,从产品的描述数据中提取产品特征集;从产品的评论数据中提取与产品特征相联系的感性词汇,并进行配对,此时得到各个特征-感性词汇对。配对指的是与标注训练数据进行配对。具体的标注训练数据是首先通过获取初始感性词汇数据;利用语义分析库对初始感性词汇数据进行关联和扩展,获得扩展感性词汇数据,此时得到感性词汇库,其中,语义分析库可以是WordNet也可以是其他的,本申请不再进行限定,通过上述方法得到对感性词汇数据进行同义词扩展;然后获取在线评论,并对在线评论中的获取消费者所评价的产品特征,然后根据评论中消费者表达的情感从感性词库中选取和使得感性词汇,并标注消费者这种感情的强烈程度,此时获得标注训练数据。
产品特征集由多个产品特征组成,而每一个产品特征又由一个具有代表性的名称和一些与之相关的词汇构成;从产品的描述数据中进行产品特征集的抽取,可以把相近的产品特征利用预设算法进行合并,把相近的感性词汇利于算法进行合并,此时,获得一系列的特征-感性词汇对。
相似度生成模块120,用于基于语言学度量等级对各个特征-感性词汇对进行语义相似度计算,生成各个语言学度量等级对应的相似度。
本实施例中,相似度生成模块120是基于语言学度量等级对每一个特征感性词汇对进行语义差异度计算。本实施例不对语言学度量等级进行限定,可以是3个语言学度量等级(1.消极、2.中性、3.积极)、5个语言学度量等级(1.非常不;2.不;3.一般;4.是;5.非常),6个语言学度量等级(1.非常不;2.不;3.有点不;4.有点;5.是;6.非常)等,本申请不再进行限定。优选地,语言学度量等级选为6个语言学度量等级,能够完善消费者对产品的感性表达的强烈程度。本实施例不对语义相似度的计算方法进行限定,可以是相似性分析计算方法、概率分析计算方法等,只要能满足本申请的目的即可,此时获得各个语言学度量等级对应的相似度,以6个语言学度量等级(1.非常不;2.不;3.有点不;4.有点;5.是;6.非常)为例,获得相似度为{0.2,0.3,0.4,0.3,0.55,0.15}。
确定模块130,用于检测各个相似度并确定最高相似度。
获得相似度后检测各个相似度,确定最高的相似度,以{0.2,0.3,0.4,0.3,0.55,0.15}为例,与{0.2,0.3,0.4,0.3,0.55,0.15}对应的(1.非常不;2.不;3.有点不;4.有点;5.是;6.非常)最高为“5.是”。
感性设计数据确定模块140,用于根据最高相似度确定产品的感性设计数据。
获得“5.是”是该评论的最高相似度值,此时,确定产品的感性设计数据为“特征-感性词汇-5.是”。其中“5.是”是感性词汇对应的感性属性的强烈程度。通过上述装置最终获得产品的感性设计数据,以便设计者能够获得消费者对产品的情感,能够在满足产品功能设计的前提下满足消费者需求。
通过上述技术方案,本实施例通过从在线评论数据中提取各个特征-感性词汇对,由于在线评论能够准确表达消费者对产品的实际情况,因而感性设计数据的获取更具有准确性,并且在线评论作为数据源能够重复进行实验以使感性设计数据更准确;基于语言学度量等级对各个特征-感性词汇对进行语义相似度计算获得相似度,并根据最大相似度确定感性设计数据,语言学度量等级能够充分表达用户对产品设计的感性强度,使感性设计知识更为完善;本申请避免了相关技术中通过问卷调查或调研的方式获得产品的感性设计数据,效率低且由于受限于问卷调查或调研内容的限制易造成数据不准确。
基于上述实施例,如图2所示,图2为本申请实施例提供的提取模块的结构示意图,提取模块110包括:
获取单元111,用于利用预设数据接口获取在线评论数据。
本实施例中,首先通过预设数据接口获取在线评论数据,本实施例不对预设数据接口进行限定。本单元的目的是为了获取在线评论数据。
短句和词组生成单元112,用于将在线评论数据分解,生成短句和词组。
本单元将在线评论数据进行分解获得短句和词组,本实施例不对分解的方法进行限定,只要满足本申请的目的即可。
重构句子获得单元113,用于利用句子重构算法对短句和词组进行处理,获得重构句子。
本单元利用句子重构算法对短句和词组进行处理,以便能够获得重构句子。可以是用词性标注集和树标注集(一种用词性信息对文本进行注释的工具)来对这些短句和词组进行词性标注。例如,当两个相邻的词是名词时,它们会被组合成一个词组。完成了信息的抽取之后,我们会把重复的词组删掉。为了减少产品特征的数量,我们利用启发式规则,以及WordNet英语词典提供的同义词和词组等级关系(例如:衍生词关系等),来讲相近的产品特征进行合并,此时获得重构句子。
检测单元114,用于检测重构句子与标注训练数据是否匹配。
完成了句子重构之后,每一个句子都将会和在标注训练数据进行匹配;如果句子包含了某一个产品特征和某一个感性词汇,那么该产品特征和感性词汇配对,并和句子作为本步骤的输出而保存下来。
获得与提取单元115,用于若匹配,则获得各个特征-感性词汇对,并提取各个特征-感性词汇对。
本单元获得了一系列由产品特征和感性词汇配对以及其来源句子所组成的数据。
通过上述技术方案,本实施例通过将在线评论数据分解,并利用句子重构算法进行处理,获得重构句子;检测重构句子与标注训练数据匹配时,则获得各个特征-感性词汇对,并提取各个特征-感性词汇对;避免了多个同义的特征感性词汇对被提取出来,提高了以便特征-感性词汇对提取的科学性。
基于上述实施例,相似度生成模块120包括:
第一相似度获得单元,用于基于语言学度量等级对特征-感性词汇利用相似性分析算法进行语义相似度计算,获得各个语言学度量等级对应第一相似度。
基于语言学度量等级对特征-感性词汇利用相似性分析算法进行语义相似度计算,获得各个语言学度量等级对应第一相似度具体可以是:
将特征-感性词汇对和包括特征感性词汇对的句子进行相似度计算,具体是将句子通过标记化手段先分解为一个个的词组标记,然后计算每个句子和标注好的训练数据之间的相似性(计算Jaccard相似系数),如下:
Figure BDA0001922972150000081
其中,Wi和Wj分别是产品评论和标注数据的单词列表。
simResultj(sentencei)=max(Similarity(sentencei,trainingj))
其中,j是代表的是m个等级的语言学度量。
由此,针对每一个语言学度量,我们获得了该评论的相似度分析得分。
第二相似度获得单元,用于基于语言学度量等级对特征-感性词汇利用概率分析进行语义相似度计算,获得各个语言学度量等级对应第二相似度;
而针对概率分析,我们通过如下公式计算出针对每个语言学度量,该产品评论的条件概率:
Figure BDA0001922972150000082
其中,wi是训练数据中的第i个单词,rj是该训练数据的结论,P(ri|wik)是wi对rj的条件概率,j是代表的是m个等级的语言学度量。
Figure BDA0001922972150000091
其中,wik是第i条评论中的第k个单词,n是第i条评论中的总的单词数。
相似度获得单元,用于根据第一相似度和第二相似度进行计算,得到平均值以便获得各个语言学度量等级对应的相似度。
Figure BDA0001922972150000092
假如有一条评论的相似度分析和概率分析的结果是{0.1,0.2,0.3,0.4,0.5,0.2}和{0.3,0.4,0.5,0.2,0.6,0.1},那么对于该评论的分析结果为{0.2,0.3,0.4,0.3,0.55,0.15}。取最高的值作为结论,那么,“5.是”就是该评论的语义差异度值即用来表明相似度值。
基于上述技术方案,相似度值通过将相似性分析和概率分析取平均,数据更加准确。
基于上述实施例,数据提取装置还包括:
显示模块,用于将感性设计数据显示在显示装置上。
具体的,可以是将获得的感性设计数据存储在感性设计知识库中,以便实现数据的共享和便于实时对数据进行更新。将产品感性数据显示在显示装置上有利于用户更直观的获取感性设计数据。
下面对本申请实施例提供的一种数据提取方法进行介绍,下文描述的数据提取方法与上文描述的数据提取装置可相互对应参照,参考图3,图3为本申请实施例所提供的一种数据提取方法的流程示意图,包括:
S301、利用预设数据接口获取在线评论数据,并从在线评论数据中提取产品的各个特征-感性词汇对;
S302、基于语言学度量等级对各个特征-感性词汇对进行语义相似度计算,生成各个语言学度量等级对应的相似度;
S303、检测各个相似度并确定最高相似度;
S304、根据最高相似度确定产品的感性设计数据。
在一些具体的实施例中,步骤S301从在线评论数据中提取产品的各个特征-感性词汇对,包括:
将在线评论数据分解,生成短句和词组;
利用句子重构算法对短句和词组进行处理,获得重构句子;
检测重构句子与标注训练数据是否匹配;
若匹配,则获得各个特征-感性词汇对,并提取各个特征-感性词汇对。
在一些具体的实施例中,步骤S302基于语言学度量等级对各个特征-感性词汇对进行语义相似度计算,生成各个语言学度量等级对应的相似度,包括:
基于语言学度量等级对特征-感性词汇利用相似性分析算法进行语义相似度计算,获得各个语言学度量等级对应第一相似度;
基于语言学度量等级对特征-感性词汇利用概率分析进行语义相似度计算,获得各个语言学度量等级对应第二相似度;
根据第一相似度和第二相似度进行计算,得到平均值以便获得各个语言学度量等级对应的相似度。
在一些具体的实施例中,步骤S304根据最高相似度确定产品的感性设计数据之后,还包括:
将感性设计数据显示在显示装置上。
由于数据提取方法部分的实施例与数据提取装置部分的实施例相互对应,因此数据提取方法部分的实施例请参见数据提取装置部分的实施例的描述,这里暂不赘述。
本申请还公开了一种电子设备,参见图4,图4为本申请实施例提供的一种电子设备的结构图,包括:
存储器401,用于存储计算机程序;
处理器402,用于执行计算机程序时可以实现上述实施例所提供的数据提取步骤。
具体的,存储器401包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令,该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。
在上述实施例的基础上,作为优选实施方式,参见图5,图5为本申请实施例提供的另一种电子设备的结构图,该电子设备还包括:
输入接口403,与处理器402相连,用于获取外部导入的计算机程序、参数和指令,经处理器402控制保存至存储器401中。该输入接口403可以与输入装置相连,接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是键盘、触控板或鼠标等。
显示单元404,与处理器402相连,用于显示处理器402发送的数据。该显示单元404可以为PC机上的显示屏、液晶显示屏或者电子墨水显示屏等。
网络端口405与处理器402相连,用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术,如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。
下面对本申请实施例提供的一种计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的数据提取方法可相互对应参照,
本申请公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被计算器执行时实现如上述数据提取方法的步骤。
由于计算机可读存储介质部分的实施例与数据提取方法部分的实施例相互对应,因此计算机可读存储介质部分的实施例请参见数据提取方法部分的实施例的描述,这里暂不赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种数据提取装置,其特征在于,包括:
提取模块,用于利用预设数据接口获取在线评论数据,并从所述在线评论数据中提取产品的各个特征-感性词汇对;
相似度生成模块,用于基于语言学度量等级对各个所述特征-感性词汇对进行语义相似度计算,生成各个所述语言学度量等级对应的相似度;
确定模块,用于检测各个所述相似度并确定最高相似度;
感性设计数据确定模块,用于根据所述最高相似度确定产品的感性设计数据;
所述相似度生成模块包括:
第一相似度获得单元,用于基于所述语言学度量等级对所述特征-感性词汇利用相似性分析算法进行语义相似度计算,获得各个语言学度量等级对应第一相似度;
第二相似度获得单元,用于基于所述语言学度量等级对所述特征-感性词汇利用概率分析进行语义相似度计算,获得各个语言学度量等级对应第二相似度;
相似度获得单元,用于根据所述第一相似度和所述第二相似度进行计算,得到平均值以便获得各个语言学度量等级对应的所述相似度。
2.根据权利要求1所述的数据提取装置,其特征在于,所述提取模块包括:
获取单元,用于利用所述预设数据接口获取所述在线评论数据;
短句和词组生成单元,用于将所述在线评论数据分解,生成短句和词组;
重构句子获得单元,用于利用句子重构算法对所述短句和所述词组进行处理,获得重构句子;
检测单元,用于检测所述重构句子与标注训练数据是否匹配;
获得与提取单元,用于若匹配,则获得各个所述特征-感性词汇对,并提取各个所述特征-感性词汇对。
3.根据权利要求1所述的数据提取装置,其特征在于,还包括:
显示模块,用于将所述感性设计数据显示在显示装置上。
4.一种数据提取方法,其特征在于,包括:
利用预设数据接口获取在线评论数据,并从所述在线评论数据中提取产品的各个特征-感性词汇对;
基于语言学度量等级对各个所述特征-感性词汇对进行语义相似度计算,生成各个所述语言学度量等级对应的相似度;
检测各个所述相似度并确定最高相似度;
根据所述最高相似度确定产品的感性设计数据;
基于语言学度量等级对各个所述特征-感性词汇对进行语义相似度计算,生成各个所述语言学度量等级对应的相似度,包括:
基于所述语言学度量等级对所述特征-感性词汇利用相似性分析算法进行语义相似度计算,获得各个语言学度量等级对应第一相似度;
基于所述语言学度量等级对所述特征-感性词汇利用概率分析进行语义相似度计算,获得各个语言学度量等级对应第二相似度;
根据所述第一相似度和所述第二相似度进行计算,得到平均值以便获得各个语言学度量等级对应的所述相似度。
5.根据权利要求4所述的数据提取方法,其特征在于,从所述在线评论数据中提取产品的各个特征-感性词汇对,包括:
将所述在线评论数据分解,生成短句和词组;
利用句子重构算法对所述短句和所述词组进行处理,获得重构句子;
检测所述重构句子与标注训练数据是否匹配;
若匹配,则获得各个所述特征-感性词汇对,并提取各个所述特征-感性词汇对。
6.根据权利要求4所述的数据提取方法,其特征在于,根据所述最高相似度确定产品的感性设计数据之后,还包括:
将所述感性设计数据显示在显示装置上。
7.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求4至6任一项所述数据提取方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求4至6任一项所述数据提取方法的步骤。
CN201811603001.XA 2018-12-26 2018-12-26 一种数据提取装置、方法、电子设备和存储介质 Active CN109684641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811603001.XA CN109684641B (zh) 2018-12-26 2018-12-26 一种数据提取装置、方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811603001.XA CN109684641B (zh) 2018-12-26 2018-12-26 一种数据提取装置、方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN109684641A CN109684641A (zh) 2019-04-26
CN109684641B true CN109684641B (zh) 2023-04-07

Family

ID=66189712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811603001.XA Active CN109684641B (zh) 2018-12-26 2018-12-26 一种数据提取装置、方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN109684641B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085404A (zh) * 2020-09-17 2020-12-15 辽宁工程技术大学 一种感性工学产品样本筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117428A (zh) * 2015-08-04 2015-12-02 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN105469282A (zh) * 2015-12-01 2016-04-06 成都知数科技有限公司 基于文本评论的线上品牌评估方法
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
CN107944911A (zh) * 2017-11-18 2018-04-20 电子科技大学 一种基于文本分析的推荐系统的推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117428A (zh) * 2015-08-04 2015-12-02 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN105469282A (zh) * 2015-12-01 2016-04-06 成都知数科技有限公司 基于文本评论的线上品牌评估方法
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
CN107944911A (zh) * 2017-11-18 2018-04-20 电子科技大学 一种基于文本分析的推荐系统的推荐方法

Also Published As

Publication number Publication date
CN109684641A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
KR102564144B1 (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
Berardi et al. Word Embeddings Go to Italy: A Comparison of Models and Training Datasets.
US11409964B2 (en) Method, apparatus, device and storage medium for evaluating quality of answer
CN109933785A (zh) 用于实体关联的方法、装置、设备和介质
WO2024207587A1 (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN113823412B (zh) 健康管理计划生成方法、装置、电子设备及存储介质
CN114240552A (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN113704428B (zh) 智能问诊方法、装置、电子设备及存储介质
He et al. How do general-purpose sentiment analyzers perform when applied to health-related online social media data?
WO2016114790A1 (en) Reading difficulty level based resource recommendation
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN112614559A (zh) 病历文本处理方法、装置、计算机设备和存储介质
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN111724881A (zh) 一种心理沙盘分析方法和系统
JP2019197366A (ja) コンテンツ評価装置、コンテンツ評価方法、プログラム、および記録媒体
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN115795056A (zh) 非结构化信息构建知识图谱的方法、服务器及存储介质
CN107357782B (zh) 一种识别用户性别的方法及终端
CN109684641B (zh) 一种数据提取装置、方法、电子设备和存储介质
Giabelli et al. NEO: A system for identifying new emerging occupation from job ads
CN117372164A (zh) 数据的风险检测方法和装置、电子设备及存储介质
CN112417210A (zh) 健身视频的查询方法、装置、终端和存储介质
Shafaee et al. Aspect-based sentiment analysis of amazon reviews for fitness tracking devices
CN115878761A (zh) 事件脉络生成方法、设备及介质
CN114359813A (zh) 一种抑郁情绪检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant