CN110019831A - 一种产品属性的分析方法和装置 - Google Patents
一种产品属性的分析方法和装置 Download PDFInfo
- Publication number
- CN110019831A CN110019831A CN201710905862.2A CN201710905862A CN110019831A CN 110019831 A CN110019831 A CN 110019831A CN 201710905862 A CN201710905862 A CN 201710905862A CN 110019831 A CN110019831 A CN 110019831A
- Authority
- CN
- China
- Prior art keywords
- word cutting
- vector
- sequence
- word
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种产品属性的分析方法和装置,方法包括:接收预测文本内容;生成预测文本内容的切词序列;确定切词序列中切词的词向量以及切词序列的属性向量;基于切词的词向量和切词序列的属性向量生成预测文本内容的矩阵块;将预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出预测文本内容的切词序列的标签;神经网络模型为基于训练文件内容的切词序列建立的数据集合以及训练文件内容的切词序列的标签训练得到的模型;对切词序列的标签进行拼接,生成预测结果。可见,神经网络模型能够对预测文件内容的切词序列的词向量和属性向量进行预测,具备语义信息表达,克服了使用的局限性。
Description
技术领域
本发明涉及意见挖掘技术领域,更具体的涉及一种产品属性的分析方法和装置。
背景技术
产品属性的分析,指文本分析任务中挖掘用户关于某些产品属性的观点意见,一般而言,这种观点意见由<属性,评价语>组成。例如“汽车前脸霸气侧漏”,“前脸”为汽车的属性,“霸气侧漏”为关于该属性的评价语,因此需要提取的分析内容为<前脸,霸气侧漏>。再例如,“京东物流很快”,需要提取的分析内容为<物流,很快>。
现有技术中,在对产品属性进行分析时,一般是基于预先设定的规则在词库中进行抽取,例如,关于“汽车前脸霸气侧漏”,需要事先在词库里积累属性词=“前脸”以及评价语=“霸气侧漏”,从而使用预先设定的规则,如属性词和评价语之间的距离等,来判别两个词是否是属于评价观点。
可见,现有的分析方法严重依赖于词库的积累,一旦词库中没有相关内容的积累,那么便不能提取出评价观点。并且,由于现有的词库并没有经过训练,因此并不具备语义成分,词库中所积累的内容也只能应用到当前领域,局限性较大。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的产品属性的分析方法和装置。
为实现上述目的,本发明提供如下技术方案:
一种产品属性的分析方法,包括:
接收预测文本内容;
生成所述预测文本内容的切词序列;
确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
将所述预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出所述预测文本内容的切词序列的标签;其中,所述神经网络模型为基于训练文件内容的切词序列建立的数据集合以及所述训练文件内容的切词序列的标签训练得到的模型;
对所述切词序列的标签进行拼接,生成预测结果。
可选的,所述接收预测文件内容之前,还包括:
获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列;
确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
基于所述切词的词向量和所述切词序列的属性向量生成所述训练文本内容的矩阵块;
基于所述训练文本内容的矩阵块建立所述训练语料的数据集合;
基于所述数据集合以及所述训练文本内容的切词序列的标签训练所述神经网络模型。
可选的,确定所述切词序列的属性向量,包括:
标注所述切词序列的词性,和/或,所述切词序列的依存句法序列;
对所述切词序列的词性进行编码生成词性向量,和/或,对所述切词序列的依存句法序列进行编码生成依存句法序列向量;
其中,所述属性向量包括所述词性向量,和/或,所述依存句法序列向量。
可选的,确定所述切词序列中切词的词向量,包括:
查找预先建立的词向量模型中是否包含所述切词的词向量;
若包含,确定所述切词在所述词向量模型中的词向量;
若不包含,随机生成与所述词向量模型等维度的所述切词的词向量。
可选的,所述获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列之前,还包括:
获取目标语料库中的目标文本内容;
基于预先设定的词向量模块对所述目标文本内容进行训练,生成词向量模型。
一种产品属性的分析装置,包括:
接收内容单元,用于接收预测文本内容;
生成序列单元,用于生成所述预测文本内容的切词序列;
第一词向量单元,用于确定所述切词序列中切词的词向量;
第一属性向量单元,用于确定所述切词序列的属性向量;
第一矩阵单元,用于基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
输出标签单元,用于将所述预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出所述预测文本内容的切词序列的标签;其中,所述神经网络模型为基于训练文件内容的切词序列建立的数据集合以及所述训练文件内容的切词序列的标签训练得到的模型;
生成结果单元,用于对所述切词序列的标签进行拼接,生成预测结果。
可选的,还包括:
获取生成单元,用于获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列;
第二词向量单元,用于确定所述切词序列中切词的词向量;
第二属性向量单元,用于确定所述切词序列的属性向量;
第二矩阵单元,用于基于所述切词的词向量和所述切词序列的属性向量生成所述训练文本内容的矩阵块;
建立集合单元,用于基于所述训练文本内容的矩阵块建立所述训练语料的数据集合;
生成模型单元,用于基于所述数据集合以及所述训练文本内容的切词序列的标签训练所述神经网络模型。
可选的,所述第一属性向量单元包括:
标注模块,用于标注所述切词序列的词性,和/或,所述切词序列的依存句法序列;
生成模块,用于对所述切词序列的词性进行编码生成词性向量,和/或,对所述切词序列的依存句法序列进行编码生成依存句法序列向量;
其中,所述属性向量包括所述词性向量,和/或,所述依存句法序列向量;
所述第一词向量单元,包括:
查找模块,用于查找预先建立的词向量模型中是否包含所述切词的词向量;
确定模块,用于确定所述切词在所述词向量模型中的词向量;
生成模块,用于在所述词向量模块不包含所述切词的词向量时,随机生成与所述词向量模型等维度的所述切词的词向量。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上任一项所述的产品属性的分析方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上任一项所述的产品属性的分析方法。
借由上述技术方案,本发明提供的产品属性的分析方法中,通过接收预测文本内容,生成所述预测文本内容的切词序列,确定所述切词序列中切词的词向量以及所述切词序列的属性向量,基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块,将所述预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出所述预测文本内容的切词序列的标签,对所述切词序列的标签进行拼接,生成预测结果,其中,神经网络模型为基于训练文件内容的切词序列建立的数据集合以及所述训练文件内容的切词序列的标签训练得到的模型。可见,本申请中,神经网络模型能够对预测文件内容的切词序列的词向量和属性向量进行预测,因此具备语义信息表达,使得预测过程不需要依赖于词库,克服了使用的局限性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例公开的一种产品属性的分析方法的流程示意图;
图2示出了本发明一个实施例公开的一种切词序列图;
图3示出了本发明另一实施例公开的一种产品属性的分析方法的流程示意图;
图4示出了本发明一个实施例公开的一种产品属性的分析装置的结构示意图;
图5示出了本发明另一实施例公开的一种产品属性的分析装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明一个实施例公开了一种产品属性的分析方法,如图1所示,该方法包括以下步骤:
步骤101:接收预测文本内容;
预测文本内容为需要对其进行预测分析的文本内容。
步骤102:生成所述预测文本内容的切词序列;
每一预测文本内容可以看成一预测文本句子,通过对预测文件内容进行切词来生成切词序列。具体的,可以采用开源工具软件对预测文本内容进行切词来生成切词序列,其中,开源工具软件可以为LTP(Language Technology Platform,语言技术平台)软件。
例如,预测文本内容为【汽车前脸设计威武霸气】,对该预测文本内容进行切词,生成的切词序列为【汽车前脸设计威武霸气】。再例如,预测文本内容为【京东物流很快】,对该预测文本内容进行切词,生成的切词序列为【京东物流很快】。
步骤103:确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
其中,切词序列的属性包括切词序列中每个切词的词性、切词之间的依存句法序列中的至少一种,相应的,切词序列的属性向量包括词性向量和/或依存句法序列向量。
具体的,确定所述切词序列的属性向量,包括以下过程:
(1)标注所述切词序列的词性,和/或,所述切词序列的依存句法序列;
作为一种实现形式,在使用开源工具软件对预测文本内容进行切词后,可以通过该开源工具软件获取切词序列中每个切词的词性,和/或,切词序列的依存句法序列。
以上述切词序列为【汽车前脸设计威武霸气】为例,如图2所示,该切词序列的词性为【n,n,v,a,n】,其中,n表征为名词,v表征为动词,a表征为形容词。该切词序列的依存句法序列为【ATT,SBV,HED,ATT,VOB】,其中,ATT表征定中关系,SBV表征主谓关系,HED表征核心关系,VOB表征动宾关系。
(2)对所述切词序列的词性进行编码生成词性向量,和/或,对所述切词序列的依存句法序列进行编码生成依存句法序列向量。
需说明的是,切词序列的每一切词的词性对应一词性向量,每一依存句法序列对应一依存句法序列向量。
在本发明中,编码方式有多种,需保证对切词序列的词性的编码方式与对切词序列的依存句法序列的编码方式一致。作为一种实现方式,可以采用0-1编码方式进行编码。
针对词性的编码,这种编码方式指代为将词性索引位置的数值置为1,其余位置置为0。对此依存句法序列的编码,这种编码方式指代为将依存句法序列索引位置的数值置为1,其余位置置为0。
以上述切词序列为【汽车前脸设计威武霸气】为例,假设需对【汽车】的词性进行编码,由上述内容可知,【汽车】的词性为【n】,那么,如果词性共有5种,具体为【n,v,a,d,m】,那么可见【n】位于词性的第一个位置,即【汽车】的词性向量为【1,0,0,0,0】。
针对切词序列为【汽车前脸设计威武霸气】,切词【汽车】对应一词性向量,和/或,对应一依存句法序列向量;【前脸】对应一词性向量,和/或,对应一依存句法序列向量;【设计】对应一词性向量,和/或,对应一依存句法序列向量;【威武】对应一词性向量,和/或,对应一依存句法序列向量;【霸气】对应一词性向量,和/或,对应一依存句法序列向量。
具体的,确定所述切词序列中切词的词向量,包括以下过程:
(1)查找预先建立的词向量模型中是否包含所述切词的词向量;
词向量模型的建立方式本发明不做具体限定,作为一种方式可以使用Word2vec进行词向量训练,来生成词向量模型;作为另一种方式可以使用Glove进行词向量训练,来生成词向量模型。
该词向量模型的作用是将词映射到一定维度的空间内,如将词映射到100维的空间中。
(2)当包含时,确定所述切词在所述词向量模型中的词向量;
当词向量模型中包含所查找的切词的词向量时,则直接确定该切词在词向量模型中的词向量。
(3)当不包含时,随机生成与所述词向量模型等维度的所述切词的词向量。
当词向量模型中不包含所查找的切词的词向量时,则为该切词随机生成一个词向量,需说明的是,随机生成的词向量的维度需与词向量模型的维度相同。如词向量模型的维度为100维,那么,随机生成的切词的词向量的维度也为100维。
步骤104:基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
在生成预测文本内容的矩阵块时,需要先将切词序列中每一切词的词向量以及属性向量拼接成一个向量,然后将切词序列的每一切词所对应的向量组成一个矩阵块,构成该预测文本内容的矩阵块。
其中,在将切词序列的每一切词的词向量以及属性向量拼接成一个向量时,需按照预先设定的拼接顺序进行拼接;例如,按照先词向量后属性向量的方式拼接,也可以按照先属性向量后词向量的方式拼接。需说明的是,当属性向量包括至少两种属性向量时,两种属性向量之间可以插入词向量。
例如,当属性向量包括词性向量以及依存句法序列向量时,作为一种拼接方式,可以按照先词向量,再词性向量,最后依存句法序列向量的方式拼接;作为另一种拼接方式,可以按照先词性向量、再词向量最后依存句法序列向量的方式拼接;当然还有其他拼接方式,此处不再一一列举,只要保证每次拼接的拼接顺序均一致即可。
注意的是,拼接后向量的维度为词向量的维度与属性向量的维度之和。如某一切词的词向量的维度为100维,属性向量的维度为20维,那么该切词拼接后的维度为120维。需说明的是,当属性向量仅包括词性向量时,拼接后向量的维度为词向量的维度与词性向量的维度之和;当属性向量仅包括依存句法序列向量时,拼接后向量的维度为词向量的维度与依存句法序列向量的维度之和;当属性向量包括词性向量和依存句法序列向量时,拼接后向量的维度为词向量的维度、词性向量的维度以及依存句法序列的维度之和。
针对一个预测文本内容而言,其切词序列中切词的个数以及拼接后向量的维度决定了该矩阵块的大小。例如,该切词序列中每个切词拼接后的向量的维度为120维,该切词序列中共有20个切词,那么,该切词序列将被处理成120*20的矩阵块。
步骤105:将所述预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出所述预测文本内容的切词序列的标签;
其中,神经网络模型为基于训练文件内容的切词序列建立的数据集合以及训练文件内容的切词序列的标签训练得到的模型。训练文本内容的数据集合包括与多个训练文本内容对应的多个矩阵块,每一矩阵块为每一训练文本内容的切词序列中切词的词向量和切词序列的属性向量拼接后的向量。
其中,切词序列的标签为标注切词序列的方式,由于属性分析关注的是属性词以及评价词,因此,在对切词序列标注标签时,可以将属性词的起始词采用第一标签标注,属性词的其余部分采用第二标签标注,将评价词的起始词采用第三标签标注,评价词的其余部分采用第四标签标注。当然还可以将除属性词和评价词的部分统一采用第五标签进行标注。
上述第一标签、第二标签、第三标签、第四标签以及第五标签的实现形式本发明不做限定,只要保证标签之间不同即可。例如,第一标签为BT,第二标签为IT,第三标签为BO,第四标签为IO,第五标签为OFF。那么,针对切词序列【汽车前脸设计威武霸气】的标签为[OFF,BT,IT,BO,IO]。
步骤106:对所述切词序列的标签进行拼接,生成预测结果。
具体的,在进行拼接时,将相邻的第一标签和第二标签拼接成一个属性词,将相邻的第三标签和第四标签拼接成一个评价词。需说明的是,当一个预测文本内容中包含两个以上属性词时,针对每个评价词,选择距离它最近的属性词组成一个<属性词,评价词>对。
例如,将输出结果进行BT、IT,BO、IO的拼接,将相邻的BT、IT拼接成一个属性词,将相邻的BO、IO拼接成一个评价词。
由此可见,本申请中,神经网络模型能够对预测文件内容的切词序列的词向量和属性向量进行预测,因此具备语义信息表达,使得预测过程不需要依赖于词库,克服了使用的局限性。
本发明另一实施例公开了一种产品属性的分析方法,如图3所示,包括以下步骤:
步骤301:获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列;
训练语料中包含各种训练文本内容,每一训练文本内容为一训练文本句子。通过对训练文本内容进行切词来生成切词序列。
具体的,可以采用开源工具软件对训练文本内容进行切词来生成切词序列,其中,开源工具软件可以为LTP(Language Technology Platform,语言技术平台)软件。
步骤302:确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
其中,切词序列的属性包括切词序列中每个切词的词性、切词之间的依存句法序列中的至少一种,相应的,切词序列的属性向量包括词性向量,和/或,依存句法序列向量。
需说明的是,确定所述切词序列的属性向量的具体实现方式以及确定所述切词序列中切词的词向量可参照前文实施例的描述方式,此处不再详细赘述。
步骤303:基于所述切词的词向量和所述切词序列的属性向量生成所述训练文本内容的矩阵块;
在生成训练文本内容的矩阵块时,需要先将切词序列中每一切词的词向量以及属性向量拼接成一个向量,然后将切词序列的每一切词所对应的向量组成一个矩阵块,构成该训练文本内容的矩阵块。
其中,在将切词序列的每一切词的词向量以及属性向量拼接成一个向量时,需按照预先设定的拼接顺序进行拼接;例如,按照先词向量后属性向量的方式拼接,也可以按照先属性向量后词向量的方式拼接。需说明的是,当属性向量包括至少两种属性向量时,两种属性向量之间可以插入词向量。
注意的是,拼接后向量的维度为词向量的维度与属性向量的维度之和。如某一切词的词向量的维度为100维,属性向量的维度为20维,那么该切词拼接后的维度为120维。需说明的是,当属性向量仅包括词性向量时,拼接后向量的维度为词向量的维度与词性向量的维度之和;当属性向量仅包括依存句法序列向量时,拼接后向量的维度为词向量的维度与依存句法序列向量的维度之和;当属性向量包括词性向量和依存句法序列向量时,拼接后向量的维度为词向量的维度、词性向量的维度以及依存句法序列的维度之和。
针对一个训练文本内容而言,其切词序列中切词的个数以及拼接后向量的维度决定了该矩阵块的大小。
步骤304:基于所述训练文本内容的矩阵块建立所述训练语料的数据集合;
对训练语料中的部分训练文本内容执行以上步骤301-304的处理,那么每一训练文本内容对应一矩阵块,从而形成一数据集合。
步骤305:基于所述数据集合以及所述训练文本内容的切词序列的标签训练神经网络模型;
在本发明中,对于训练文本内容的切词序列可以采用标签的方式进行标注,由于属性分析关注的是属性词以及评价词,因此,在对切词序列标注标签时,可以将属性词的起始词采用第一标签标注,属性词的其余部分采用第二标签标注,将评价词的起始词采用第三标签标注,评价词的其余部分采用第四标签标注。当然还可以将除属性词和评价词的部分统一采用第五标签进行标注。
上述第一标签、第二标签、第三标签、第四标签以及第五标签的实现形式本发明不做限定,只要保证标签之间不同即可。
在基于所述数据集合以及所述训练文本内容的切词序列的标签训练神经网络模型时,将数据集合以及训练文本内容的切词序列的标签作为输入来训练神经网络模型,具体的可以基于tensorflow来训练神经网络模型(Long Short-Term Memory,LSTM)。
所训练的神经网络模型用于产品属性的分析,具体的,可以将预测文本内容输入到该神经网络模型中,从而输出与预测结果相连的切词序列的标签。
步骤306:接收预测文本内容;
步骤307:生成所述预测文本内容的切词序列;
步骤308:确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
其中,切词序列的属性向量包括词性向量和/或依存句法序列向量。
步骤309:基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
在生成预测文本内容的矩阵块时,需要先将切词序列中每一切词的词向量以及属性向量拼接成一个向量,然后将切词序列的每一切词所对应的向量组成一个矩阵块,构成该预测文本内容的矩阵块。
其中,在将切词序列的每一切词的词向量以及属性向量拼接成一个向量时,需按照预先设定的拼接顺序进行拼接。
注意的是,拼接后向量的维度为词向量的维度与属性向量的维度之和。当属性向量仅包括词性向量时,拼接后向量的维度为词向量的维度与词性向量的维度之和;当属性向量仅包括依存句法序列向量时,拼接后向量的维度为词向量的维度与依存句法序列向量的维度之和;当属性向量包括词性向量和依存句法序列向量时,拼接后向量的维度为词向量的维度、词性向量的维度以及依存句法序列的维度之和。
针对一个预测文本内容而言,其切词序列中切词的个数以及拼接后向量的维度决定了该矩阵块的大小。
步骤310:将所述预测文本内容的矩阵块输入到所述神经网络模型中,输出所述预测文本内容的切词序列的标签;
步骤311:对所述切词序列的标签进行拼接,生成预测结果。
具体的,在进行拼接时,将相邻的第一标签和第二标签拼接成一个属性词,将相邻的第三标签和第四标签拼接成一个评价词。需说明的是,当一个预测文本内容中包含两个以上属性词时,针对每个评价词,选择距离它最近的属性词组成一个<属性词,评价词>对。
由此可见,本申请神经网络模型能够用于产品属性的分析,由于该神经网络模型基于切词序列的词向量和属性向量进行训练,因此具备语义信息表达,不依赖于词库,克服了使用的局限性。
本发明又一实施例还公开一种产品属性的分析方法,在本实施例中,获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列之前,还包括以下过程:
(1)获取目标语料库中的通用文本内容;
该目标语料库包括行业语料库、通用语料库中的至少一种。其中,行业语料库指代为某一特定行业或领域内的文本库,如汽车门户网站上的评论。通用语料库指脱离行业个性化的文本库,如百度百科。
(2)基于预先设定的词向量模块对所述目标文本内容进行训练,生成词向量模型。
具体的,可以先对目标语料库中的每条目标文本内容进行切词,如采用开源工具软件对目标文本内容进行切词,然后使用Word2vec或者Glove进行词向量训练,来生成词向量模型。该词向量模型的作用是将词映射到一定维度的空间内,如将词映射到100维的空间中。该词向量模型能表征词与词之间的相似性,即包含了大量的外部信息。
本发明一个实施例公开了一种产品属性的分析装置,如图4所示,该装置包括:接收内容单元401、生成序列单元402、第一词向量单元403、第一属性向量单元404、第二矩阵单元405、输出标签单元406、生成结果单元407;
接收内容单元401,用于接收预测文本内容;
生成序列单元402,用于生成所述预测文本内容的切词序列;
其中,每一预测文本内容可以看成一预测文本句子,生成序列单元502可以通过对预测文件内容进行切词来生成切词序列。具体的,生成序列单元可以采用开源工具软件对预测文本内容进行切词来生成切词序列。
第一词向量单元403,用于确定所述切词序列中切词的词向量;
第一属性向量单元404,用于确定所述切词序列的属性向量;
其中,切词序列的属性包括切词序列中每个切词的词性、切词之间的依存句法序列中的至少一种,相应的,切词序列的属性向量包括词性向量和/或依存句法序列向量。
第一矩阵单元405,用于基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
第一矩阵单元在生成预测文本内容的矩阵块时,需要先将切词序列中每一切词的词向量以及属性向量拼接成一个向量,然后将切词序列的每一切词所对应的向量组成一个矩阵块,构成该预测文本内容的矩阵块。
其中,在将切词序列的每一切词的词向量以及属性向量拼接成一个向量时,需按照预先设定的拼接顺序进行拼接。
注意的是,拼接后向量的维度为词向量的维度与属性向量的维度之和。针对一个预测文本内容而言,其切词序列中切词的个数以及拼接后向量的维度决定了该矩阵块的大小。
输出标签单元406,用于将所述预测文本内容的矩阵块输入到所述神经网络模型中,输出所述预测文本内容的切词序列的标签;
其中,神经网络模型为基于针对训练文件内容的切词序列建立的数据集合以及训练文件内容的切词序列的标签训练得到的模型。训练文本内容的数据集合包括与多个训练文本内容对应的多个矩阵块,每一矩阵块为每一训练文本内容的切词序列中切词的词向量和切词序列的属性向量拼接后的向量。
其中,切词序列的标签为标注切词序列的方式。
生成结果单元407,用于对所述切词序列的标签进行拼接,生成预测结果。
具体的,在进行拼接时,将相邻的第一标签和第二标签拼接成一个属性词,将相邻的第三标签和第四标签拼接成一个评价词。需说明的是,当一个预测文本内容中包含两个以上属性词时,针对每个评价词,选择距离它最近的属性词组成一个<属性词,评价词>对。
由此可见,本申请中,神经网络模型能够对预测文件内容的切词序列的词向量和属性向量进行预测,因此具备语义信息表达,使得预测过程不需要依赖于词库,克服了使用的局限性。
本发明另一实施例还公开了一种产品属性的分析装置,如图5所示,该装置包括:获取生成单元501、第二词向量单元502、第二属性向量单元503、第二矩阵单元504、建立集合单元505、生成模型单元506、接收内容单元507、生成序列单元508、第一词向量单元509、第一属性向量单元510、第一矩阵单元511、输出标签单元512、生成结果单元513;具体的:
获取生成单元501,用于获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列;
训练语料中包含各种训练文本内容,每一训练文本内容为一训练文本句子。通过对训练文本内容进行切词来生成切词序列。
第二词向量单元502,用于确定所述切词序列中切词的词向量;
第二属性向量单元503,用于确定所述切词序列的属性向量;
其中,切词序列的属性包括切词序列中每个切词的词性、切词之间的依存句法序列中的至少一种,相应的,切词序列的属性向量包括词性向量和/或依存句法序列向量。
第二矩阵单元504,用于基于所述切词的词向量和所述切词序列的属性向量生成所述训练文本内容的矩阵块;
其中,第二矩阵单元在生成训练文本内容的矩阵块时,需要先将切词序列中每一切词的词向量以及属性向量拼接成一个向量,然后将切词序列的每一切词所对应的向量组成一个矩阵块,构成该训练文本内容的矩阵块。
其中,在将切词序列的每一切词的词向量以及属性向量拼接成一个向量时,需按照预先设定的拼接顺序进行拼接。
注意的是,拼接后向量的维度为词向量的维度与属性向量的维度之和。当属性向量仅包括词性向量时,拼接后向量的维度为词向量的维度与词性向量的维度之和;当属性向量仅包括依存句法序列向量时,拼接后向量的维度为词向量的维度与依存句法序列向量的维度之和;当属性向量包括词性向量和依存句法序列向量时,拼接后向量的维度为词向量的维度、词性向量的维度以及依存句法序列的维度之和。
针对一个训练文本内容而言,其切词序列中切词的个数以及拼接后向量的维度决定了该矩阵块的大小。
建立集合单元505,用于基于所述训练文本内容的矩阵块建立所述训练语料的数据集合;
生成模型单元506,用于基于所述数据集合以及所述训练文本内容的切词序列的标签训练神经网络模型;
在本发明中,对于训练文本内容的切词序列可以采用标签的方式进行标注,由于属性分析关注的是属性词以及评价词,因此,在对切词序列标注标签时,可以将属性词的起始词采用第一标签标注,属性词的其余部分采用第二标签标注,将评价词的起始词采用第三标签标注,评价词的其余部分采用第四标签标注。当然还可以将除属性词和评价词的部分统一采用第五标签进行标注。
生成模型单元在基于所述数据集合以及所述训练文本内容的切词序列的标签训练神经网络模型时,具体可以将数据集合以及训练文本内容的切词序列的标签作为输入来训练神经网络模型,具体的可以基于tensorflow来训练神经网络模型LSTM。
接收内容单元507,用于接收预测文本内容;
生成序列单元508,用于生成所述预测文本内容的切词序列;
具体的,生成序列单元可以采用开源工具软件对预测文本内容进行切词来生成切词序列。
第一词向量单元509,用于确定所述切词序列中切词的词向量;
第一属性向量单元510,用于确定所述切词序列的属性向量;
其中,切词序列的属性包括切词序列中每个切词的词性、切词之间的依存句法序列中的至少一种,相应的,切词序列的属性向量包括词性向量和/或依存句法序列向量。
第一矩阵单元511,用于基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
第一矩阵单元在生成预测文本内容的矩阵块时,需要先将切词序列中每一切词的词向量以及属性向量拼接成一个向量,然后将切词序列的每一切词所对应的向量组成一个矩阵块,构成该预测文本内容的矩阵块。
其中,在将切词序列的每一切词的词向量以及属性向量拼接成一个向量时,需按照预先设定的拼接顺序进行拼接。
注意的是,拼接后向量的维度为词向量的维度与属性向量的维度之和。针对一个预测文本内容而言,其切词序列中切词的个数以及拼接后向量的维度决定了该矩阵块的大小。
输出标签单元512,用于将所述预测文本内容的矩阵块输入到所述神经网络模型中,输出所述预测文本内容的切词序列的标签;
生成结果单元513,用于对所述切词序列的标签进行拼接,生成预测结果。
具体的,在进行拼接时,将相邻的第一标签和第二标签拼接成一个属性词,将相邻的第三标签和第四标签拼接成一个评价词。需说明的是,当一个预测文本内容中包含两个以上属性词时,针对每个评价词,选择距离它最近的属性词组成一个<属性词,评价词>对。
由此可见,本申请中,神经网络模型能够对预测文件内容的切词序列的词向量和属性向量进行预测,因此具备语义信息表达,使得预测过程不需要依赖于词库,克服了使用的局限性。
在本发明一个实施例中,第一词向量单元和/或第二词向量单元,包括:查找模块、确定模块以及生成模块;其中:
查找模块,用于查找预先建立的词向量模型中是否包含所述切词的词向量;
确定模块,用于确定所述切词在所述词向量模型中的词向量;
当词向量模型中包含所查找的切词的词向量时,则确定模块直接确定该切词在词向量模型中的词向量。
生成模块,用于在所述词向量模块不包含所述切词的词向量时,随机生成与所述词向量模型等维度的所述切词的词向量。
当词向量模型中不包含所查找的切词的词向量时,则生成模块为该切词随机生成一个词向量,需说明的是,随机生成的词向量的维度需与词向量模型的维度相同。
在本发明一个实施例中,第一属性向量单元和/或第二属性向量单元包括:标注模块以及生成模块;其中:
标注模块,用于标注所述切词序列的词性,和/或,所述切词序列的依存句法序列;
作为一种实现形式,在使用开源工具软件对训练文本内容进行切词后,标注模块可以获取切词序列中每个切词的词性,和/或,切词序列的依存句法序列。
生成模块,用于对所述切词序列的词性进行编码生成词性向量,和/或,对所述切词序列的依存句法序列进行编码生成依存句法序列向量;
需说明的是,切词序列的每一切词的词性对应一词性向量,每一依存句法序列对应一依据句法序列向量。
在本发明中,编码方式有多种,需保证对切词序列的词性的编码方式与对切词序列的依存句法序列的编码方式一致。作为一种实现方式,可以采用0-1编码方式进行编码。
针对词性的编码,这种编码方式指代为将词性索引位置的数值置为1,其余位置置为0。对此依存句法序列的编码,这种编码方式指代为将依存句法序列索引位置的数值置为1,其余位置置为0。
本发明又一实施例公开了一种产品属性的分析装置,在本实施例中,该装置还包括:获取内容单元、训练模型单元;
获取内容单元,用于获取目标语料库中的目标文本内容;
该目标语料库包括行业语料库、通用语料库中的至少一种。其中,行业语料库指代为某一特定行业或领域内的文本库,如汽车门户网站上的评论。通用语料库指脱离行业个性化的文本库,如百度百科。
训练模型单元,用于基于预先设定的词向量模块对所述目标文本内容进行训练,生成词向量模型;
具体的,训练模型单元可以先对目标语料库中的每条目标文本内容进行切词,如采用开源工具软件对目标文本内容进行切词,然后使用Word2vec或者Glove进行词向量训练,来生成词向量模型。该词向量模型的作用是将词映射到一定维度的空间内,如将词映射到100维的空间中。该词向量模型能表征词与词之间的相似性,即包含了大量的外部信息。
所述一种产品属性的分析装置包括处理器和存储器,上述接收内容单元、生成序列单元、第一词向量单元、第一属性向量单元、第一矩阵单元、输出标签单元、生成结果单元获取生成单元、第二词向量单元、第二属性向量单元、第二矩阵单元、建立集合单元、生成模型单元、获取内容单元、训练模型单元、等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现产品属性的分析。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述一种产品属性的分析方法。具体的,在所述程序运行时控制所述存储介质所在设备执行如上所述的产品属性的分析方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述产品属性的分析方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
接收预测文本内容;
生成所述预测文本内容的切词序列;
确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
将所述预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出所述预测文本内容的切词序列的标签;其中,所述神经网络模型为基于训练文件内容的切词序列建立的数据集合以及所述训练文件内容的切词序列的标签训练得到的模型;
对所述切词序列的标签进行拼接,生成预测结果。
可选的,所述接收预测文件内容之前,还包括:
获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列;
确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
基于所述切词的词向量和所述切词序列的属性向量生成所述训练文本内容的矩阵块;
基于所述训练文本内容的矩阵块建立所述训练语料的数据集合;
基于所述数据集合以及所述训练文本内容的切词序列的标签训练所述神经网络模型。
可选的,确定所述切词序列的属性向量,包括:
标注所述切词序列的词性,和/或,所述切词序列的依存句法序列;
对所述切词序列的词性进行编码生成词性向量,和/或,对所述切词序列的依存句法序列进行编码生成依存句法序列向量;
其中,所述属性向量包括所述词性向量,和/或,所述依存句法序列向量。
可选的,确定所述切词序列中切词的词向量,包括:
查找预先建立的词向量模型中是否包含所述切词的词向量;
若包含,确定所述切词在所述词向量模型中的词向量;
若不包含,随机生成与所述词向量模型等维度的所述切词的词向量。
可选的,所述获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列之前,还包括:
获取目标语料库中的目标文本内容;
基于预先设定的词向量模块对所述目标文本内容进行训练,生成词向量模型。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
接收预测文本内容;
生成所述预测文本内容的切词序列;
确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
将所述预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出所述预测文本内容的切词序列的标签;
对所述切词序列的标签进行拼接,生成预测结果。
可选的,所述接收预测文件内容之前,还包括:
获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列;
确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
基于所述切词的词向量和所述切词序列的属性向量生成所述训练文本内容的矩阵块;
基于所述训练文本内容的矩阵块建立所述训练语料的数据集合;
基于所述数据集合以及所述训练文本内容的切词序列的标签训练所述神经网络模型。
可选的,确定所述切词序列的属性向量,包括:
标注所述切词序列的词性,和/或,所述切词序列的依存句法序列;
对所述切词序列的词性进行编码生成词性向量,和/或,对所述切词序列的依存句法序列进行编码生成依存句法序列向量;
其中,所述属性向量包括所述词性向量,和/或,所述依存句法序列向量。
可选的,确定所述切词序列中切词的词向量,包括:
查找预先建立的词向量模型中是否包含所述切词的词向量;
若包含,确定所述切词在所述词向量模型中的词向量;
若不包含,随机生成与所述词向量模型等维度的所述切词的词向量。
可选的,所述获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列之前,还包括:
获取目标语料库中的目标文本内容;
基于预先设定的词向量模块对所述目标文本内容进行训练,生成词向量模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种产品属性的分析方法,其特征在于,包括:
接收预测文本内容;
生成所述预测文本内容的切词序列;
确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
将所述预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出所述预测文本内容的切词序列的标签;其中,所述神经网络模型为基于训练文件内容的切词序列建立的数据集合以及所述训练文件内容的切词序列的标签训练得到的模型;
对所述切词序列的标签进行拼接,生成预测结果。
2.根据权利要求1所述的方法,其特征在于,所述接收预测文件内容之前,还包括:
获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列;
确定所述切词序列中切词的词向量以及所述切词序列的属性向量;
基于所述切词的词向量和所述切词序列的属性向量生成所述训练文本内容的矩阵块;
基于所述训练文本内容的矩阵块建立所述训练语料的数据集合;
基于所述数据集合以及所述训练文本内容的切词序列的标签训练所述神经网络模型。
3.根据权利要求1或2所述的方法,其特征在于,确定所述切词序列的属性向量,包括:
标注所述切词序列的词性,和/或,所述切词序列的依存句法序列;
对所述切词序列的词性进行编码生成词性向量,和/或,对所述切词序列的依存句法序列进行编码生成依存句法序列向量;
其中,所述属性向量包括所述词性向量,和/或,所述依存句法序列向量。
4.根据权利要求1或2所述的方法,其特征在于,确定所述切词序列中切词的词向量,包括:
查找预先建立的词向量模型中是否包含所述切词的词向量;
若包含,确定所述切词在所述词向量模型中的词向量;
若不包含,随机生成与所述词向量模型等维度的所述切词的词向量。
5.根据权利要求2所述的方法,其特征在于,所述获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列之前,还包括:
获取目标语料库中的目标文本内容;
基于预先设定的词向量模块对所述目标文本内容进行训练,生成词向量模型。
6.一种产品属性的分析装置,其特征在于,包括:
接收内容单元,用于接收预测文本内容;
生成序列单元,用于生成所述预测文本内容的切词序列;
第一词向量单元,用于确定所述切词序列中切词的词向量;
第一属性向量单元,用于确定所述切词序列的属性向量;
第一矩阵单元,用于基于所述切词的词向量和所述切词序列的属性向量生成所述预测文本内容的矩阵块;
输出标签单元,用于将所述预测文本内容的矩阵块输入到预先训练的神经网络模型中,输出所述预测文本内容的切词序列的标签;其中,所述神经网络模型为基于训练文件内容的切词序列建立的数据集合以及所述训练文件内容的切词序列的标签训练得到的模型;
生成结果单元,用于对所述切词序列的标签进行拼接,生成预测结果。
7.根据权利要求6所述的装置,其特征在于,还包括:
获取生成单元,用于获取训练语料中的训练文本内容,生成所述训练文本内容的切词序列;
第二词向量单元,用于确定所述切词序列中切词的词向量;
第二属性向量单元,用于确定所述切词序列的属性向量;
第二矩阵单元,用于基于所述切词的词向量和所述切词序列的属性向量生成所述训练文本内容的矩阵块;
建立集合单元,用于基于所述训练文本内容的矩阵块建立所述训练语料的数据集合;
生成模型单元,用于基于所述数据集合以及所述训练文本内容的切词序列的标签训练所述神经网络模型。
8.根据权利要求6所述的装置,其特征在于,所述第一属性向量单元包括:
标注模块,用于标注所述切词序列的词性,和/或,所述切词序列的依存句法序列;
生成模块,用于对所述切词序列的词性进行编码生成词性向量,和/或,对所述切词序列的依存句法序列进行编码生成依存句法序列向量;
其中,所述属性向量包括所述词性向量,和/或,所述依存句法序列向量;
所述第一词向量单元,包括:
查找模块,用于查找预先建立的词向量模型中是否包含所述切词的词向量;
确定模块,用于确定所述切词在所述词向量模型中的词向量;
生成模块,用于在所述词向量模块不包含所述切词的词向量时,随机生成与所述词向量模型等维度的所述切词的词向量。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一项所述的产品属性的分析方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-5中任一项所述的产品属性的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710905862.2A CN110019831B (zh) | 2017-09-29 | 2017-09-29 | 一种产品属性的分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710905862.2A CN110019831B (zh) | 2017-09-29 | 2017-09-29 | 一种产品属性的分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019831A true CN110019831A (zh) | 2019-07-16 |
CN110019831B CN110019831B (zh) | 2021-09-07 |
Family
ID=67186450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710905862.2A Active CN110019831B (zh) | 2017-09-29 | 2017-09-29 | 一种产品属性的分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019831B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948575A (zh) * | 2019-12-11 | 2021-06-11 | 京东数字科技控股有限公司 | 文本数据处理方法、装置和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130304740A1 (en) * | 2012-01-31 | 2013-11-14 | Business Objects Software Limited | Classifying data using machine learning |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
-
2017
- 2017-09-29 CN CN201710905862.2A patent/CN110019831B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130304740A1 (en) * | 2012-01-31 | 2013-11-14 | Business Objects Software Limited | Classifying data using machine learning |
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948575A (zh) * | 2019-12-11 | 2021-06-11 | 京东数字科技控股有限公司 | 文本数据处理方法、装置和计算机可读存储介质 |
CN112948575B (zh) * | 2019-12-11 | 2023-09-26 | 京东科技控股股份有限公司 | 文本数据处理方法、装置和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110019831B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108255862B (zh) | 一种裁判文书的检索方法及装置 | |
CN110287477A (zh) | 实体情感分析方法及相关装置 | |
CN109582948A (zh) | 评价观点抽取的方法及装置 | |
CN105677353A (zh) | 特征抽取方法、机器学习方法及其装置 | |
CN110019668A (zh) | 一种文本检索方法及装置 | |
CN104750771A (zh) | 利用域信息进行上下文数据分析的方法和系统 | |
CN109683773B (zh) | 语料标注方法和装置 | |
CN108830443A (zh) | 一种合同审阅方法及装置 | |
CN110019660A (zh) | 一种相似文本检测方法及装置 | |
CN106610931A (zh) | 话题名称的提取方法及装置 | |
Hosseinian-Far et al. | Strategic engineering for cloud computing and big data analytics | |
CN110019788A (zh) | 文本分类方法及装置 | |
CN109597982A (zh) | 摘要文本识别方法及装置 | |
CN108243046A (zh) | 一种基于数据稽核的业务质量评估方法及装置 | |
CN106802940B (zh) | 一种计算文本主题模型的方法及装置 | |
CN110019831A (zh) | 一种产品属性的分析方法和装置 | |
CN110020343A (zh) | 网页编码格式的确定方法和装置 | |
CN108874379A (zh) | 页面的处理方法及装置 | |
CN111126053B (zh) | 一种信息处理方法及相关设备 | |
CN105786929B (zh) | 一种信息监测方法及装置 | |
Kinra et al. | Methodological demonstration of a text analytics approach to country logistics system assessments | |
CN108205554A (zh) | 数组对象的排序方法及装置 | |
US11288115B1 (en) | Error analysis of a predictive model | |
CN109525863A (zh) | 收视数据展示方法和装置 | |
CN109558582A (zh) | 基于视角的句子情感分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |