CN108304417A - 信息处理方法和信息处理装置 - Google Patents
信息处理方法和信息处理装置 Download PDFInfo
- Publication number
- CN108304417A CN108304417A CN201710027376.5A CN201710027376A CN108304417A CN 108304417 A CN108304417 A CN 108304417A CN 201710027376 A CN201710027376 A CN 201710027376A CN 108304417 A CN108304417 A CN 108304417A
- Authority
- CN
- China
- Prior art keywords
- attribute word
- attribute
- word
- dictionary
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明提供了一种信息处理方法和装置,所述信息处理方法可以包括:获取包含自然语言表述的信息;使用针对特定词性的词库,处理所述信息;以及输出经过处理的信息。根据本发明的信息处理方法和装置通过使用基于依存句法分析和无监督聚类的产品属性提取方法生成的属性词库,来处理包含自然语言表述的信息,从而能够准确快速地执行情感分析。
Description
技术领域
本发明涉及信息技术领域,具体地,涉及一种信息处理方法和信息处理装置,其中所述信息处理方法和装置通过使用基于依存句法分析和无监督聚类的产品属性提取方法生成的属性词库,来处理包含自然语言表述的信息,从而能够准确快速地执行情感分析。
背景技术
情感分析在是自然语言处理的基本问题之一,有着广泛的应用领域。电商评论情感分析是情感分析的一个分支领域,在商品推荐和商品口碑等领域具有广泛应用。产品属性评价分析是电商情感分析的重要应用,但是在评论中经常出现针对产品同种属性的多种说法(例如,价格、价钱和价位),这就大大增大了产品属性情感分析的难度。为了解决上述问题,往往通过人工定义、有监督标注或无监督标注等方式,来定义针对特定词性(例如,产品属性词)的词库,并通过使用所述词库来分析包含自然语言的信息。
然而,通过人工定义的方式来定义针对特定词性的词库的方法是根据专家知识定义特定词性。这种方法需要大量人工干预,且无法解决相似词归一化的问题。另外,通过有监督标注的方式来定义针对特定词性的词库的方法是将对特定词性的识别作为序列标注问题。当定义产品属性词词库时,将对产品属性的识别作为序列标注问题。例如,如果将0用于代表其他词并将p用于代表属性词,则可以把属性词识别作为序列标注问题,诸如,将“洗衣机外观很漂亮”的评论识别作为序列0p00。常用的序列标注算法有条件随机场模型(crf)、隐马模型(hmm)和最大熵(ME)。尽管这种方法可以针对特定词性的词建立词库,然而这种方法需要大量的人工标记语料。另一方面,无监督标注是采用关联规则发现热点词并根据热点词邻接的形容词进一步识别其他属性的方法。这种方法的提取精度不高,同时也无法解决属性归一化问题。
综上,需要一种信息处理方法和信息处理装置,所述信息处理方法和装置能够采用句法分析构造针对特定词性词库,并通过使用所述词库来处理包含自然语言表述的信息,从而能够更准确迅速地执行情感分析。
发明内容
本公开的方面在于解决至少上述问题和/或缺点并提供至少下述优点。
根据本发明的第一方面,提供了一种信息处理方法,可以包括:获取包含自然语言表述的信息;使用针对特定词性的词库,处理所述信息;以及输出经过处理的信息。
优选地,所述词库可以是针对属性词的属性词库,所述属性词库可以是通过提取样本自然语言表述中的属性词并对提取的属性词执行聚类来建立的。
优选地,所述提取属性词可以包括:通过对样本自然语言表述执行分词、词性标注以及依存句法分析,选择主语作为候选属性词;统计候选属性词的词频,并按照词频依次排列所述候选属性词;通过使用过滤词典来滤除所述经排列的候选属性词中的非属性词;从保留的属性词中截取词频最频繁的预定数量个属性词,作为所提取的属性词。
优选地,所述对提取的属性词执行聚类可以包括:针对所提取的属性词,生成词向量;根据所生成的词向量,计算每一属性词的相似属性词;以及如果对于所提取的属性词中的任意两个属性词,相同的相似属性词的数量大于任一属性词的相似属性词的一半,则对所述两个属性词执行聚类。
优选地,所述对提取的属性词执行聚类还可以包括:确定经聚类后的属性词是否具有相同的相似属性词;如果确定经聚类后的属性词存在相同的相似属性词,则计算所述相似属性词与其所属的属性词的其他相似属性词的平均相似度;以及根据计算出的平均相似度,确定所述相似属性词所属的属性词类别并更新所述属性词库。
根据本发明的第二方面,提供了一种信息处理装置,可以包括:信息获取模块,用于获取包含自然语言表述的信息;处理模块,用于使用针对特定词性的词库,处理经由所述信息获取模块获取的信息;以及信息输出模块,用于输出经过所述处理模块处理的信息。
优选地,所述词库可以是针对属性词的属性词库,其中所述处理模块进一步配置为通过提取样本自然语言表述中的属性词并对提取的属性词执行聚类来建立所述属性词库。
优选地,所述处理模块可以进一步配置为:通过对样本自然语言表述执行分词、词性标注以及依存句法分析,选择主语作为候选属性词;统计候选属性词的词频,并按照词频依次排列所述候选属性词;通过使用过滤词典来滤除所述经排列的候选属性词中的非属性词;从保留的属性词中截取词频最频繁的预定数量个属性词,作为所提取的属性词。
优选地,所述处理模块可以进一步配置为:针对所提取的属性词,生成词向量;根据所生成的词向量,计算每一属性词的相似属性词;以及如果对于所提取的属性词中的任意两个属性词,相同的相似属性词的数量大于任一属性词的相似属性词的一半,则对所述两个属性词执行聚类。
优选地,所述处理模块可以进一步配置为:确定经聚类后的属性词是否具有相同的相似属性词;如果确定经聚类后的属性词存在相同的相似属性词,则计算所述相似属性词与其所属的属性词的其他相似属性词的平均相似度;以及根据计算出的平均相似度,确定所述相似属性词所属的属性词类别并更新所述属性词库。
根据本发明的第三方面,提供了一种电子设备,可以包括:处理器;以及存储器,与所述处理器通信连接,并配置为存储可由所述处理器执行的指令,其中所述指令被所述处理器执行,以使所述处理器执行如上所述的信息处理方法中的至少一个。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上所述的信息处理方法中的至少一个。
附图说明
以下结合附图,将更清楚本公开的示例实施例的上述和其它方面、特征以及优点,附图中:
图1示出了根据本发明示例实施例的信息处理装置的示例性硬件布置的框图。
图2示出了根据本发明示例实施例的信息处理方法的流程图。
图3示出了根据本发明示例实施例的建立针对特定词性的词库的过程的流程图。
图4示出了根据本发明示例实施例的信息处理装置的结构框图。
具体实施方式
以下参考附图描述了本发明的示例实施。本发明提供了一种信息处理方法和信息处理装置,所述信息处理方法和装置能够采用句法分析构造针对特定词性词库,并通过使用所述词库来处理包含自然语言表述的信息,从而能够更准确迅速地执行情感分析。
具体地,图1示出了根据本发明示例实施例的信息处理装置的示例性硬件布置100的框图。所述硬件布置100包括存储器110和处理器120。
存储器110可以包括具有非易失性或易失性存储器形式的存储器,例如是电可擦除可编程只读存储器(EEPROM)、闪存、和/或硬盘驱动器。存储器110可以配置为针对特定词性的词库111a,例如,所述针对特定词性的词库111a是针对属性词的属性词库,所述属性词库是通过提取样本自然语言表述中的属性词并对提取的属性词执行聚类来建立的。
此外,所述存储器110还可以包括可执行指令111b,该可执行指令111b包括代码/计算机可读指令,其在由硬件布置100中的处理器120执行时使得硬件布置100和/或包括硬件布置100在内的设备可以执行例如本发明所描述的信息处理方法及其任何变形。
所述处理器120(例如,微处理器、数字信号处理器(DSP)等)可以是用于执行本文描述的信息处理方法的操作的单一处理单元或者是多个处理单元。具体地,所述处理器120可以通过与存储器110相连并加载存储器110上的一个或更多个可执行指令和映射文件,来执行以下操作:获取包含自然语言表述的信息;使用针对特定词性的词库,处理所述信息;以及输出经过处理的信息。此外,除了上述操作,处理器120还可以在建立针对特定词性的词库时通过加载存储在存储器110中的可执行指令,来建立词库并将所建立的词库存储在存储器110上。
所述处理器120可以是单个CPU(中央处理单元),但也可以包括两个或更多个处理单元。例如,处理器120可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))。处理器120还可以包括用于缓存用途的板载存储器。计算机程序可以由连接到处理器的计算机程序产品来承载。计算机程序产品(例如,可执行指令和映射文件)可以包括其上存储有计算机程序的计算机可读介质。例如,计算机程序产品可以是闪存、随机存取存储器(RAM)、只读存储器(ROM)、EEPROM,且上述计算机程序模块在备选实施例中可以用存储器的形式被分布到不同计算机程序产品中。
此外,所述硬件布置100还可以包括用于从其他实体接收信号的输入单元102、以及用于向其他实体提供信号的输出单元104。输入单元102和输出单元104可以被布置为单一实体或者是分离的实体。在本发明的示例实施例中,输入单元和输出单元均可实现为触摸显示器,信息处理装置响应于通过触摸显示器输入了含有自然语言表述的信息,执行根据本发明的示例实施例的信息处理方法,以便通过使用针对特定词性的词库,来处理所述信息。
尽管上面结合图1所公开的实施例中的代码手段被实现为计算机程序模块,其在处理器120中执行时使得硬件布置100执行根据本发明的信息处理方法的操作,然而在备选实施例中,该代码手段中的至少一项可以至少被部分地实现为硬件电路。
下面将参考图2来描述根据本发明示例实施例的信息处理方法的流程图。
根据本发明的一个示例实施例,所述信息处理方法200可以包括在步骤S210,获取包含自然语言表述的信息。接着,在步骤S220,使用针对特定词性的词库,处理所述信息。最后在步骤S230,输出经过处理的信息。在一个实施例中,所述词库是针对属性词的属性词库,且所述属性词库是通过提取样本自然语言表述中的属性词并对提取的属性词执行聚类来建立的。
下面参考图3来描述根据本发明的示例实施例的建立针对特定词性的词库的过程的流程图。尽管图3中以提出产品属性词为例描述了建立针对特定词性的词库的过程,然而应注意,本文所指的特定词性不限于产品属性词且可以包括任何其他感兴趣的词语。
在电商评论情感分析领域,由于属性由买家来进行评价且买家没有固定的评价规范,因此同种属性可能有很多种说法。因而在进行产品属性情感分析时候需要将属性词进行聚类。例如,对于评论“外形很不错”以及“外型很漂亮”,涉及“外型”与“外形”两个产品属性词。人可以轻松判断外形和外型为相同属性,但如何自动识别为同一属性是一个难点。为了能够准确快速地执行情感分析,本公开提供了一种信息处理方法和装置,所述信息处理方法和装置通过使用基于依存句法分析和无监督聚类的产品属性提取方法生成的属性词库,来处理包含自然语言表述的信息。
如图3所示,所述建立属性词库的过程可以总体上包括两个步骤,即,提取样本自然语言表述中的属性词(S31)以及对提取的属性词执行聚类(S32)。
所述提取属性词的操作S31包括可以具体包括以下操作:在操作S311,通过对样本自然语言表述执行分词、词性标注以及依存句法分析,选择主语作为候选属性词。在操作S313,统计候选属性词的词频,并按照词频依次排列所述候选属性词。在操作S315,通过使用过滤词典来滤除所述经排列的候选属性词中的非属性词。在操作S317,从保留的属性词中截取词频最频繁的预定数量个属性词,作为所提取的属性词。
在一个实施例中,首先获取一定数量的含有自然语言表述的商品评论作为样本,部分示例如下:
接口的兼容性有问题,请注意!
支持国产,小米很不错,清晰度够耐看。
因为就是安装底座,很容易就搞好了,4颗螺丝而已。
因为是放在卧室用的,稍微有点大。
开机设置,按照屏幕操作就好,很容易。
外形很好看,屏幕很清晰,不错。刚刚装好,各项功能正常,屏幕分辨率不错!
电视很好,画面清晰,好用。
......
接着,需要找出评论中的候选属性词。此时,通过对样本自然语言表述执行分词、词性标注以及依存句法分析,选择主语作为候选属性词。例如,对于评论“接口的兼容性有问题,请注意!”,通过分词、词性标注以及依存句法分析,得到结果如下:
表1
词语 | 接口 | 的 | 兼容性 | 有 | 问题 | 请注意 |
词性 | 名词 | 助词 | 名词 | 动词 | 名词 | 动词 |
依存树 | 3:ATT | 1:RAD | 4:SBV | 0:HED | 4:VOB | 4:VOB |
通过依存句法分析可知,主语“兼容性”将被选择作为属性词。
这样,通过提取依存句法的主语成分,会出现较多的非属性词,比如产品词、品牌词、称谓词等等,需要对这部分词进行过滤。在过滤时,可以首先统计候选属性词的词频,并按照词频依次排列所述候选属性词,例如,通过词频排序可以得到以下结果:
表2
如表2所示,第一列为所提取的词,第二列为与之相对应的词频。从中发现存在许多非属性词,例如,京东、师傅、自己等。
随后,使用称谓词典、品牌词典、停用词词典等过滤型词典来过滤排序结果中的非属性词,得到结果:价格、性价比、画面、清晰度、屏幕、外观、色彩、画质、图像、音质、系统、声音、颜色、遥控器、价钱、价位、边框和分辨率。在该结果中,尽管过滤了大部分非属性词,然而依然存在许多同类属性词。因此,还需要对所提取的属性词进行聚类。
在另一实施例中,为了提高聚类的效率,所述方法还可以包括按照词频截取词频最频繁的预定数量个属性词。例如,截取前500个属性词来执行聚类。
所述对提取的属性词执行聚类的操作S32包括:在操作S321,针对所提取的属性词,生成词向量;在操作S323,根据所生成的词向量,计算每一属性词的相似属性词;以及在操作S325,如果对于所提取的属性词中的任意两个属性词,相同的相似属性词的数量大于任一属性词的相似属性词的一半,则对所述两个属性词执行聚类。
具体地,为了便于计算词之间的相似性从而进行相似性聚类,根据本发明的示例性实施例,首先将所提取的属性词转换为连续的向量表示。例如,可以通过使用word2vec中的连续词袋模型(CBOW),来生成词向量。词向量转换是一种将词语转换为向量的技术,并保证向量间的相对相似度和语义相似度是相关的,往往应用于无监督学习方面。通常情况下,将每个词转化成50-300维的向量,转化效果随着维度的增加先增加而后达到平缓。作为一个示例,在本发明的示例实施例中,通过使用为5的CBOW窗口,将每个词转换为100维向量。
在生成词向量之后,通过向量计算来计算属性词之间的相似性,例如,余弦相似度:
其中θ表示两个词向量之间的余弦夹角,且A和B分别表示n维向量,即,A=(A1,A2,...,An)且B=(B1,B2,...,Bn),其中Ai和Bi分别表示A和B的第i个分量。当用余弦相似度来计算被表示为词向量A和B的两个属性词之间的相似性时,如果余弦值越趋近于1,即,余弦夹角趋近于0,则说明两个属性词的相似性越高。
例如,对于属性词“画质”,通过相似度计算,可以确定其相似属性词分别为:画面(相似度0.859620)、图像(相似度0.848934)、画画(相似度0.758764)、影像(相似度0.737773)、图象(相似度0.733744)、画像(相似度0.684342)、图画(相似度0.662018)、画感(相似度0.651317)、图面(相似度0.624157)、画片(相似度0.616842)等。
随后,去除相似度低于预定阈值(例如,0.67)的相似候选属性词,得到“画质”的相似词如下:画面、图像、画画、影像、图象、画像。
通过上述方式,针对所提取的属性词中的每一个计算相似属性词。
最后,对属性词执行聚类。具体地,确定对于所提取的属性词中的任意两个属性词,确定其相同的相似属性词的数量是否大于任一属性词的相似属性词的一半。如果是,则对所述两个属性词执行聚类,否则认为所述两个属性词不属于同类。
具体地,本发明提出了一种KNN(K近邻)无监督聚类方法进行聚类,流程如下所示:首先读入属性词及其相似属性词列表。其次,判断两个属性词相同的相似属性词的数量是否大于任一属性词的相似属性词的一半。如果是,则将这两个候选属性词进行合并。
例如,读入诸如表3的属性词及其相似属性词列表。
表3
属性词 | 相似属性词 |
画面 | 图像、图象、画画、画质、影像、画像、畵面、图案 |
画质 | 画面、图像、画画、影像、图象、画像 |
图像 | 画面、图象、画画、影像、画质、画像、畵面、屏显 |
音质 | 音效、音响效果、音色、声音、画质 |
通过将针对任意两个属性词相同的相似属性词的数量与所述两个属性词中任一属性词的相似属性词的数量的一半进行比较可知,“画面”、“画质”和“图像”是同一类属性词,应将其合并,因此,得到聚类后的属性词库,如表4所示:
表4
这样,就完成对属性词的聚类。
此外,在另一实施例中,所述对提取的属性词执行聚类还包括:确定经聚类后的属性词是否具有相同的相似属性词;如果确定经聚类后的属性词存在相同的相似属性词,则计算所述相似属性词与其所属的属性词的其他相似属性词的平均相似度;以及根据计算出的平均相似度,确定所述相似属性词所属的属性词类别并更新属性词库。
继续上述方法,可发现表4中的相似属性词“画质”属于“图像”和“音质”两个类别。为了进一步改善属性词库,应确定“画质”所属的属性词类别。此时,可以通过分别计算“画质”与“图像”类别中所有其他相似属性词的平均相似度以及“画质”与“音质”类别中的所有其他相似属性词的平均相似度,来确定得出“画质”所属的属性词类别并更新属性词库。例如,通过计算可知,“画质”与“图像”类别中所有其他相似属性词的平均相似度高于与“音质”类别中的所有其他相似属性词的平均相似度,因此,确定“画质”应属于“图像”类别,并删除“音质”类别中的“画质”,即,得到最终属性词库,如表5所示:
表5
根据本发明示例实施例的信息处理方法和装置通过使用上述方法生成的针对特定词性的词库,能够准确快速地执行情感分析,从而在不同产品的属性抽取上实现自动抽取和自动分析。
此外,图4示出了根据本发明示例实施例的信息处理装置400的结构框图。具体地,根据本发明的信息处理装置400可以包括信息获取模块410,用于获取包含自然语言表述的信息;处理模块420,用于使用针对特定词性的词库401,处理经由所述信息获取模块410获取的信息;以及信息输出模块430,用于输出经过所述处理模块420处理的信息。在一个实施例中,所述词库401是针对属性词的属性词库,其中所述处理模块420进一步配置为通过提取样本自然语言表述中的属性词并对提取的属性词执行聚类来建立所述属性词库。
备选地,所述处理模块420可以进一步配置为:通过对样本自然语言表述执行分词、词性标注以及依存句法分析,选择主语作为候选属性词;统计候选属性词的词频,并按照词频依次排列所述候选属性词;通过使用过滤词典来滤除所述经排列的候选属性词中的非属性词;从保留的属性词中截取词频最频繁的预定数量个属性词,作为所提取的属性词。
备选地,所述处理模块420可以进一步配置为:针对所提取的属性词,生成词向量;根据所生成的词向量,计算每一属性词的相似属性词;以及如果对于所提取的属性词中的任意两个属性词,相同的相似属性词的数量大于任一属性词的相似属性词的一半,则对所述两个属性词执行聚类。
备选地,所述处理模块420可以进一步配置为:确定经聚类后的属性词是否具有相同的相似属性词;如果确定经聚类后的属性词存在相同的相似属性词,则计算所述相似属性词与其所属的属性词的其他相似属性词的平均相似度;以及根据计算出的平均相似度,确定所述相似属性词所属的属性词类别并更新所述属性词库。
综上,本公开描述了一种信息处理方法和装置,所述信息处理方法和装置通过使用基于依存句法分析和无监督聚类的产品属性提取方法生成的属性词库,来处理包含自然语言表述的信息,从而能够准确快速地执行情感分析。
此外,本公开还提供了一种电子设备,其中所述电子设备包括处理器以及与所述处理器通信连接的存储器,所述存储器配置为存储可由所述处理器执行的指令,其中所述指令被所述处理器执行,以使所述处理器执行如上所述的根据本发明示例实施例的信息处理方法。
备选地,本公开还可以实现为一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上所述的根据本发明示例实施例的信息处理方法。
应注意,以上方案仅是示出本发明构思的一个具体实现方案,本发明不限于上述实现方案。可以省略或跳过上述实现方案中的一部分处理,而不脱离本发明的精神和范围。
前面的方法可以通过多种计算机装置以可执的程序命令形式实现并记录在计算机可读记录介质中。在这种情况下,计算机可读记录介质可以包括单独的程序命令、数据文件、数据结构或其组合。同时,记录在记录介质中的程序命令可以专门设计或配置用于本发明,或是计算机软件领域的技术人员已知应用的。计算机可读记录介质包括例如硬盘、软盘或磁带等磁性介质、例如压缩盘只读存储器(CD-ROM)或数字通用盘(DVD)等光学介质、例如光磁软盘的磁光介质以及例如存储和执行程序命令的ROM、RAM、闪存等硬件装置。此外,程序命令包括编译器形成的机器语言代码和计算机通过使用解释程序可执行的高级语言。前面的硬件装置可以配置成作为至少一个软件模块操作以执行本发明的操作,并且逆向操作也是一样的。
尽管以特定顺序示出并描述了本文方法的操作,然而可以改变每个方法的操作的顺序,使得可以以相反顺序执行特定操作或使得可以至少部分地与其它操作同时来执行特定操作。此外,本发明不限于上述示例实施例,它可以在不脱离本公开的精神和范围的前提下,包括一个或多个其他部件或操作,或省略一个或多个其他部件或操作。
以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。
Claims (12)
1.一种信息处理方法,包括:
获取包含自然语言表述的信息;
使用针对特定词性的词库,处理所述信息;以及
输出经过处理的信息。
2.根据权利要求1所述的方法,其中所述词库是针对属性词的属性词库,所述属性词库是通过提取样本自然语言表述中的属性词并对提取的属性词执行聚类来建立的。
3.根据权利要求2所述的方法,其中所述提取属性词包括:
通过对样本自然语言表述执行分词、词性标注以及依存句法分析,选择主语作为候选属性词;
统计候选属性词的词频,并按照词频依次排列所述候选属性词;
通过使用过滤词典来滤除所述经排列的候选属性词中的非属性词;
从保留的属性词中截取词频最频繁的预定数量个属性词,作为所提取的属性词。
4.根据权利要求2所述的方法,其中所述对提取的属性词执行聚类包括:
针对所提取的属性词,生成词向量;
根据所生成的词向量,计算每一属性词的相似属性词;以及
如果对于所提取的属性词中的任意两个属性词,相同的相似属性词的数量大于任一属性词的相似属性词的一半,则对所述两个属性词执行聚类。
5.根据权利要求4所述的方法,其中所述对提取的属性词执行聚类还包括:
确定经聚类后的属性词是否具有相同的相似属性词;
如果确定经聚类后的属性词存在相同的相似属性词,则计算所述相似属性词与其所属的属性词的其他相似属性词的平均相似度;以及
根据计算出的平均相似度,确定所述相似属性词所属的属性词类别并更新所述属性词库。
6.一种信息处理装置,包括:
信息获取模块,用于获取包含自然语言表述的信息;
处理模块,用于使用针对特定词性的词库,处理经由所述信息获取模块获取的信息;以及
信息输出模块,用于输出经过所述处理模块处理的信息。
7.根据权利要求6所述的信息处理装置,其中所述词库是针对属性词的属性词库,其中所述处理模块进一步配置为通过提取样本自然语言表述中的属性词并对提取的属性词执行聚类来建立所述属性词库。
8.根据权利要求7所述的信息处理装置,其中所述处理模块进一步配置为:
通过对样本自然语言表述执行分词、词性标注以及依存句法分析,选择主语作为候选属性词;
统计候选属性词的词频,并按照词频依次排列所述候选属性词;
通过使用过滤词典来滤除所述经排列的候选属性词中的非属性词;
从保留的属性词中截取词频最频繁的预定数量个属性词,作为所提取的属性词。
9.根据权利要求7所述的信息处理装置,其中所述处理模块进一步配置为:
针对所提取的属性词,生成词向量;
根据所生成的词向量,计算每一属性词的相似属性词;以及
如果对于所提取的属性词中的任意两个属性词,相同的相似属性词的数量大于任一属性词的相似属性词的一半,则对所述两个属性词执行聚类。
10.根据权利要求9所述的信息处理装置,其中所述处理模块进一步配置为:
确定经聚类后的属性词是否具有相同的相似属性词;
如果确定经聚类后的属性词存在相同的相似属性词,则计算所述相似属性词与其所属的属性词的其他相似属性词的平均相似度;以及
根据计算出的平均相似度,确定所述相似属性词所属的属性词类别并更新所述属性词库。
11.一种电子设备,包括:
处理器;以及,
存储器,与所述处理器通信连接,并配置为存储可由所述处理器执行的指令,其中所述指令被所述处理器执行,以使所述处理器执行权利要求1-5中任一项所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710027376.5A CN108304417B (zh) | 2017-01-13 | 2017-01-13 | 信息处理方法和信息处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710027376.5A CN108304417B (zh) | 2017-01-13 | 2017-01-13 | 信息处理方法和信息处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304417A true CN108304417A (zh) | 2018-07-20 |
CN108304417B CN108304417B (zh) | 2021-09-17 |
Family
ID=62872440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710027376.5A Active CN108304417B (zh) | 2017-01-13 | 2017-01-13 | 信息处理方法和信息处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304417B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295319A (zh) * | 2008-06-24 | 2008-10-29 | 北京搜狗科技发展有限公司 | 一种扩展查询的方法、装置及搜索引擎系统 |
CN102693245A (zh) * | 2011-03-22 | 2012-09-26 | 日电(中国)有限公司 | 属性提取和聚类设备及方法 |
CN103106189A (zh) * | 2011-11-11 | 2013-05-15 | 北京百度网讯科技有限公司 | 一种挖掘同义属性词的方法和装置 |
CN103577423A (zh) * | 2012-07-23 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 关键词分类方法及系统 |
CN104715049A (zh) * | 2015-03-26 | 2015-06-17 | 无锡中科泛在信息技术研发中心有限公司 | 基于本体词库的商品评论属性词抽取方法 |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
-
2017
- 2017-01-13 CN CN201710027376.5A patent/CN108304417B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295319A (zh) * | 2008-06-24 | 2008-10-29 | 北京搜狗科技发展有限公司 | 一种扩展查询的方法、装置及搜索引擎系统 |
CN102693245A (zh) * | 2011-03-22 | 2012-09-26 | 日电(中国)有限公司 | 属性提取和聚类设备及方法 |
CN103106189A (zh) * | 2011-11-11 | 2013-05-15 | 北京百度网讯科技有限公司 | 一种挖掘同义属性词的方法和装置 |
CN103577423A (zh) * | 2012-07-23 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 关键词分类方法及系统 |
CN104715049A (zh) * | 2015-03-26 | 2015-06-17 | 无锡中科泛在信息技术研发中心有限公司 | 基于本体词库的商品评论属性词抽取方法 |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
Non-Patent Citations (1)
Title |
---|
杨静: "商品评论中的属性词聚类和扩展研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108304417B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694036B2 (en) | Using natural language constructs for data visualizations | |
AU2019200437B2 (en) | A method to build an enterprise-specific knowledge graph | |
WO2018072071A1 (zh) | 知识图谱构建系统及方法 | |
CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
KR102310487B1 (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
CN111177569A (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
US20160079997A1 (en) | System and method for symbol-space based compression of patterns | |
CN109241525B (zh) | 关键词的提取方法、装置和系统 | |
US20200175390A1 (en) | Word embedding model parameter advisor | |
CN111414753A (zh) | 产品感性意象词汇提取方法及系统 | |
Ludena-Choez et al. | Bird sound spectrogram decomposition through non-negative matrix factorization for the acoustic classification of bird species | |
CN113268667B (zh) | 一种基于中文评论情感引导的序列推荐方法及系统 | |
CN108319377B (zh) | 场景化文字输入的方法及系统、终端以及计算机可读存储介质 | |
Toomey | R for data science | |
CN110209875A (zh) | 用户内容画像确定方法、访问对象推荐方法和相关装置 | |
CN113204643B (zh) | 一种实体对齐方法、装置、设备及介质 | |
Zhu et al. | Identification method of cashmere and wool based on texture features of GLCM and Gabor | |
CN110826321A (zh) | 合同文件风险校验方法、装置、计算机设备以及存储介质 | |
CN106991191B (zh) | 商品筛选方法及装置、存储介质、电子设备 | |
CN110264311B (zh) | 一种基于深度学习的商业推广信息精准推荐方法及系统 | |
CN114207598A (zh) | 电子表单表转换 | |
KR102299618B1 (ko) | 리뷰 광고 매칭 장치 및 방법 | |
CN108304417A (zh) | 信息处理方法和信息处理装置 | |
CN115587244A (zh) | 一种用户兴趣维度采集与推荐方法、装置、设备及存储介质 | |
JP6936370B1 (ja) | 情報処理システム、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |