CN109145301A - 信息分类方法及装置、计算机可读存储介质 - Google Patents

信息分类方法及装置、计算机可读存储介质 Download PDF

Info

Publication number
CN109145301A
CN109145301A CN201810996942.8A CN201810996942A CN109145301A CN 109145301 A CN109145301 A CN 109145301A CN 201810996942 A CN201810996942 A CN 201810996942A CN 109145301 A CN109145301 A CN 109145301A
Authority
CN
China
Prior art keywords
level
label
corpus
negative
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810996942.8A
Other languages
English (en)
Other versions
CN109145301B (zh
Inventor
林经纬
张玉洁
徐芳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SAIC Motor Corp Ltd
Original Assignee
SAIC Motor Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SAIC Motor Corp Ltd filed Critical SAIC Motor Corp Ltd
Priority to CN201810996942.8A priority Critical patent/CN109145301B/zh
Publication of CN109145301A publication Critical patent/CN109145301A/zh
Application granted granted Critical
Publication of CN109145301B publication Critical patent/CN109145301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

一种信息分类方法及装置、计算机可读存储介质,其中所述方法包括:获取与产品相关的语料;对所述语料进行情感分析,筛选出与所述产品相关的负面语料;提取所述负面语料中的关键词;根据所述负面语料中的关键词,确定所述负面语料对应的与所述产品相关的一级标签;对所述负面语料进行语义分析,根据语义分析结果确定所述负面语料对应的二级标签;所述二级标签为所述一级标签对应的子标签;根据所述负面语料对应的一级标签以及二级标签,确定所述产品的负面分类信息。应用上述技术方案,可以获取大量的用户反馈信息,做出更加精确的统计判断。

Description

信息分类方法及装置、计算机可读存储介质
技术领域
本发明涉及信息处理领域,尤其涉及一种信息分类方法及装置、计算机可读存储介质。
背景技术
用户在使用产品时,若遇到故障,通常会联系厂商或者服务商以寻求解决方案。对于厂商或者服务商而言,用户的反馈信息具有极为重要的意义。一方面厂商可以及早地发现并解决问题,另一方面厂商可以为下一代产品开发提供思路。
现有技术中,在汽车领域收集用户的反馈信息的方法主要包括车载诊断数据、4S店维修记录以及用户的投诉电话等,在通信领域收集信息的方式主要包括错误报告、硬件维修报告以及用户投诉电话等。然而,上述收集用户的反馈信息的方法大多使用人工统计方式,所获得的用户的反馈信息量不足,难以获取用户对产品的准确评价。
发明内容
本发明解决的技术问题是传统途径所获得的用户的反馈信息量不足,难以获取用户对产品的准确评价的问题。
为解决上述技术问题,本发明实施例提供一种信息分类方法:获取与产品相关的语料;对所述语料进行情感分析,筛选出与所述产品相关的负面语料;提取所述负面语料中的关键词;根据所述负面语料中的关键词,确定所述负面语料对应的与所述产品相关的一级标签;对所述负面语料进行语义分析,根据语义分析结果确定所述负面语料对应的二级标签;所述二级标签为所述一级标签对应的子标签;根据所述负面语料对应的一级标签以及二级标签,确定所述产品的负面分类信息。
可选的,根据预设的一级词库中各个一级标签对应的一级词集和所述语料中关键词的词频,计算所述负面语料与各个一级标签的相关度;选取与所述负面语料的相关度大于预设第一相关度阈值的一级标签,作为所述负面语料对应的与所述产品相关的一级标签。
可选的,一级词库采用如下步骤构建:获取一级语料,提取所述一级语料中的关键词,所述一级语料带有相对应的标签;根据对应的标签对所述一级语料中的关键词进行归类,得到每个标签相对应的一级词集;计算每个一级词集内各个关键词的相关度;根据一级词集内各个关键词的相关度调整各个标签下的一级词集,完成一级词库的构建。
可选的,计算所述负面语料与各个一级标签的相关度;将所述负面语料与各个一级标签的相关度进行向量化后输入机器分类器;获取所述机器分类器的第一输出结果,所述第一输出结果为所述负面语料对应的与所述产品相关的一级标签。
可选的,根据预设的语义词库中各个二级标签对应的语义词集和所述语料中关键词的词频,计算所述负面语料与各个二级标签的相关度;选取与所述负面语料的相关度大于预设第二相关度阈值的二级标签,作为所述负面语料对应的二级标签。
可选的,语义词库采用如下步骤构建:获取语义语料,提取所述语义语料中的关键词,所述语义语料带有相对应的标签;根据对应的标签对所述语义语料中的关键词进行归类,得到每个标签相对应的语义词集;计算每个语义词集内各个关键词的相关度;根据语义词集内各个关键词的相关度调整各个标签下的词集,完成语义词库的构建。
可选的,计算所述负面语料与各个二级标签的相关度;将所述负面语料与各个二级标签的相关度进行向量化后输入机器分类器;获取所述机器分类器的第二输出结果,所述第二输出结果为所述负面语料对应的二级标签。
本发明还提供一种信息分类装置,包括:获取单元,用于获取与产品相关的语料;语料筛选单元,用于对所述语料进行情感分析,筛选出与所述产品相关的负面语料;关键词筛选单元,用于提取所述负面语料中的关键词;一级分类单元,用于根据所述负面语料中的关键词,确定所述负面语料对应的与所述产品相关的一级标签;二级分类单元,用于对所述负面语料进行语义分析,根据语义分析结果确定所述负面语料对应的二级标签;所述二级标签为所述一级标签对应的子标签;输出单元,根据所述负面语料对应的一级标签以及二级标签,确定所述产品的负面分类信息。
可选的,一级分类单元还用于,根据预设的一级词库中各个一级标签对应的一级词集和所述语料中关键词的词频,计算所述负面语料与各个一级标签的相关度;选取与所述负面语料的相关度大于预设第一相关度阈值的一级标签,作为所述负面语料对应的与所述产品相关的一级标签。
可选的,一级词库构建单元,用于获取一级语料,提取所述一级语料中的关键词,所述一级语料带有相对应的标签;根据对应的标签对所述一级语料中的关键词进行归类,得到每个标签相对应的一级词集;计算每个一级词集内各个关键词的相关度;根据一级词集内各个关键词的相关度调整各个标签下的一级词集,完成一级词库的构建。
可选的,一级分类单元还用于,计算所述负面语料与各个一级标签的相关度;将所述负面语料与各个一级标签的相关度进行向量化后输入机器分类器;获取所述机器分类器的第一输出结果,所述第一输出结果为所述负面语料对应的与所述产品相关的一级标签。
可选的,二级分类单元还用于,根据预设的语义词库中各个二级标签对应的语义词集和所述语料中关键词的词频,计算所述负面语料与各个二级标签的相关度;选取与所述负面语料的相关度大于预设第二相关度阈值的二级标签,作为所述负面语料对应的二级标签。
可选的,语义词库构建单元,用于获取语义语料,提取所述语义语料中的关键词,所述语义语料带有相对应的标签;根据对应的标签对所述语义语料中的关键词进行归类,得到每个标签相对应的语义词集;计算每个语义词集内各个关键词的相关度;根据语义词集内各个关键词的相关度调整各个标签下的词集,完成语义词库的构建。
可选的,二级分类单元还用于,计算所述负面语料与各个二级标签的相关度;将所述负面语料与各个二级标签的相关度进行向量化后输入机器分类器;获取所述机器分类器的第二输出结果,所述第二输出结果为所述负面语料对应的二级标签。
本发明还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行上述任一种所述的信息分类方法的步骤。
本发明还提供一种信息分类装置,包括存储器和处理器,所述存储器上存储有计算机指令,所述计算机指令运行时所述处理器执行上述任一种所述的信息分类方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
在获取到与产品相关的语料之后,对获取到的语料进行情感分析,得到与产品相关的负面语料。对负面语料进行两级分类,确定产品相关的负面分类信息。在获取产品的负面信息时,无需人工统计语料,且能够获取到大量的用户的反馈信息,故能够精确地获取用户对产品的准确评价。
进一步的,使用已知带有标签的语料建立带有标签的关键词词库,然后根据该词库对从社交媒体上获取的大量语料进行分类,使得分类结果更加精准。
附图说明
图1是本发明实施中的一种信息分类方法的流程示意图;
图2是本发明实施中的一种信息分类装置的结构示意图。
具体实施方式
现有技术中,在汽车领域收集用户的反馈信息的方法主要包括车载诊断数据、4S店维修记录以及用户的投诉电话等,在通信领域收集信息的方式主要包括错误报告、硬件维修报告以及用户投诉电话等。然而,上述收集用户的反馈信息的方法大多使用人工统计方式,所获得的用户的反馈信息量不足,难以获取用户对产品的准确评价。
为解决上述问题,在获取到与产品相关的语料之后,对获取到的语料进行情感分析,得到与产品相关的负面语料。对负面语料进行两级分类,确定产品相关的负面分类信息。在获取产品的负面信息时,无需人工统计语料,且能够获取到大量的用户的反馈信息,故能够精确地获取用户对产品的准确评价。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本发明提供一种信息分类方法,参阅图1,以下通过具体步骤进行说明。
步骤S101,获取与产品相关的语料。
在本发明实施例中,可以根据产品所属的具体领域与产品的名称等信息,从社交媒体、网络论坛等社交平台获取与产品相关的语料。例如,在进行汽车领域的用户反馈信息分类时,可以从与汽车相关的网络论坛获取与汽车相关的语料;在进行某品牌汽车用户反馈信息分类时,可以从与汽车相关的网络论坛获取与该品牌相关的语料。
步骤S102,对所述语料进行情感分析,筛选出与所述产品相关的负面语料。
在本发明实施例中,在获取与产品相关的语料后,可以对获取的语料进行情感分析,从中筛选出对产品评价较为消极,或者指出产品某些方面的不足的负面语料。在实际应用中,可以采用现有的情感分析技术对语料进行情感分析,本发明实施例不做赘述。选取负面语料的好处在于,通过用户反馈信息获取对产品的准确评价,由此得到产品改进的具体方向,负面语料能够直接的反应出产品不足、有待改进的地方。
例如,从相关论坛得到一条语料“这个品牌的汽车这几年在技术上基本没进步过,以现有技术来看,发动机和变速箱的匹配不顺,有粘黏性,只要车子行驶起来,那么发动机就不会停止喷油,而且油耗是个问题。”经过情感分析,可以判断该条语料为负面语料。
步骤S103,提取所述负面语料中的关键词。
在具体实施中,为了能够更准确地将获取的负面语料分类,排除负面语料中的一些不影响语义的词语的干扰,因此,可以提取负面语料中的关键词作为信息分类的标准。在本发明实施例中,提取的关键词可以包括副词、形容词、名词等。
例如,在负面语料“这个品牌的汽车这几年在技术上基本没进步过,以现有技术来看,发动机和变速箱的匹配不顺,有粘黏性,只要车子行驶起来,那么发动机就不会停止喷油,而且油耗是个问题”中,可以获取关键词为“发动机”、“变速箱”、“喷油”、“油耗”等。
步骤S104,根据所述负面语料中的关键词,确定所述负面语料对应的与所述产品相关的一级标签。
在本发明实施例中,根据从负面语料中提取出的关键词,将该负面语料归类于一级标签。这里需要说明的是,该负面语料可以归类于不止一个一级标签。该一级标签可以是由相关产品专家定义,也可以是根据由已经获取并标有一级标签的语料构建的一级词库确定,还可以是由训练好的机器分类器确定。可以理解的是,一级标签的确定不限于上述方法,此处不做赘述。
步骤S105,对所述负面语料进行语义分析,根据语义分析结果确定所述负面语料对应的二级标签;所述二级标签为所述一级标签对应的子标签。
在本发明实施例中,对已经完成一级分类的语料进行二级分类,二级分类根据负面语料的具体语义进行分类,好处是根据语义分类能够更加准确的判断负面语料的指向性,得到用户反馈信息具体是针对产品哪方面的不足,或者是用户希望产品具体哪方面需要进行改进。这里需要说明的是,该负面语料可以归类于不止一个二级标签。该二级标签可以是由相关产品专家定义,可以是根据由已经获取并标有语义标签的语料构建的语义词库确定,可以是由训练好的机器分类器确定。可以理解的是,二级标签的确定不限于上述方法,此处不做赘述。
步骤S106,根据所述负面语料对应的一级标签以及二级标签,确定所述产品的负面分类信息。
在本发明实施例中,为了能够直观的确定产品改进的具体方向,负面语料反应出的产品不足、有待改进的地方。因此根据负面语料对应的一级标签以及二级标签,确定所述产品的负面分类信息。可以理解的是,该负面标签可以归类于不止一个的一级标签或二级标签。
例如在语料中,出现了关键词“发动机”、“变速箱”、“喷油”、“油耗”,那么该条语料可以被归类于一级标签“发动机”,也可以同时被归类于一级标签“发动机”和“变速箱”。
根据预设的一级词库中各个一级标签对应的一级词集和所述语料中关键词的词频,计算所述负面语料与各个一级标签的相关度;选取与所述负面语料的相关度大于预设第一相关度阈值的一级标签,作为所述负面语料对应的与所述产品相关的一级标签。
在具体实施中,一级词库包含了多个一级词集,每个一级词集对应一级标签。根据负面语料中的关键词和词频,和一级词库中各个一级词集,使用相关度算法计算各个关键词与各个一级词集的一级标签的相关度。相关度算法可以使用卡方统计、TFIDF和信息增益等。确定该负面语料与各个一级标签的相关度,选取与所述负面语料的相关度大于预设第一相关度阈值的一级标签,作为所述负面语料对应的与所述产品相关的一级标签。
例如,在语料中,一级标签“发动机”词集下的关键词出现4次,一级标签“变速箱”词集下的关键词出现1次,那么该语料与一级标签“发动机”的相关度为80%,与一级标签“变速箱”的相关度为20%。当第一相关度阈值预设为50%时,那么该负面语料归类于一级标签“发动机”;当第一相关度阈值预设为10%时,那么该负面语料同时归类于一级标签“发动机”和“变速箱”。
一级词库,用如下步骤构建:获取一级语料,提取所述一级语料中的关键词,所述一级语料带有相对应的标签;根据对应的标签对所述一级语料中的关键词进行归类,得到每个标签相对应的一级词集;计算每个一级词集内各个关键词的相关度;根据一级词集内各个关键词的相关度调整各个标签下的一级词集,完成一级词库的构建。
在具体实施中,获取已经标有一级标签的语料,该语料的一级标签可以不止一个,提取该语料中的关键词,将该关键词归类于该语料的一级标签,得到每个一级标签相对应的一级词集。根据每个一级标签下每个关键词的词频,使用相关度算法计算每个关键词与对应的一级标签的相关度,每个词集可以保留相关度高于一定数值的关键词。获取已经标有一级标签的语料的数量没有限制,语料的条数越多,构建的一级词库越全面。
计算所述负面语料与各个一级标签的相关度;将所述负面语料与各个一级标签的相关度进行向量化后输入机器分类器;获取所述机器分类器的第一输出结果,所述第一输出结果为所述负面语料对应的与所述产品相关的一级标签。
在具体实施中,选取一定数量的一级标签作为参考集,根据该负面语料的关键词和词频,使用特征化方法向量化关键词与参考集内各个一级标签的相关度,并输入机器分类器,机器分类器输出负面语料对应的一级标签。特征化方法可以使用词袋模型、word2vec等。机器分类器是已经完成分类学习训练的分类机器,使用反馈训练、逻辑回归等方法进行训练学习,训练资料为带有一级标签的语料。
根据预设的语义词库中各个二级标签对应的语义词集和所述语料中关键词的词频,计算所述负面语料与各个二级标签的相关度;选取与所述负面语料的相关度大于预设第二相关度阈值的二级标签,作为所述负面语料对应的二级标签。
在具体实施中,语义词库可以包含多个语义词集,每个语义词集对应二级标签。根据负面语料中的关键词和词频,和语义词库中各个语义词集,使用相关度算法计算各个关键词与各个语义词集的语义标签的相关度。相关度算法可以使用卡方统计、TFIDF和信息增益等。确定该负面语料与各个二级标签的相关度,选取与所述负面语料的相关度大于预设第二相关度阈值的一级标签,作为所述负面语料对应的与所述产品相关的二级标签。可以理解的是,二级标签为一级标签的子标签,二级标签所表示的含义范围小于一级标签,且二级标签多为可以表达语义的词语。
在具体实施中,所述语义词库可以采用如下步骤构建:获取语义语料,提取所述语义语料中的关键词,所述语义语料带有相对应的标签;根据对应的标签对所述语义语料中的关键词进行归类,得到每个标签相对应的语义词集;计算每个语义词集内各个关键词的相关度;根据语义词集内各个关键词的相关度调整各个标签下的词集,完成语义词库的构建。
在具体实施中,获取已经标有二级标签的语料,该语料的二级标签可以不止一个,提取该语料中的关键词,将该关键词归类于该语料的二级标签,得到每个二级标签相对应的语义词集。根据每个二级标签下每个关键词的词频,使用相关度算法计算每个关键词与对应的二级标签的相关度,每个词集可以保留相关度高于一定数值的关键词。
计算所述负面语料与各个二级标签的相关度;将所述负面语料与各个二级标签的相关度进行向量化后输入机器分类器;获取所述机器分类器的第二输出结果,所述第二输出结果为所述负面语料对应的二级标签。
在具体实施中,选取一定数量的二级标签作为参考集,根据该负面语料的关键词和词频,使用特征化方法向量化关键词与参考集内各个二级标签的相关度,并将参考集、负面语料和向量化后的相关度输入机器分类器,机器分类器输出负面语料对应的二级标签。可以理解的是,该步骤在具体实施中,负面语料和参考集可以已经存在于所述机器分类器,不需要输入。特征化方法可以使用词袋模型、word2vec等。机器分类器是已经完成分类学习训练的分类机器,使用反馈训练、逻辑回归等方法进行训练学习,训练资料为带有二级标签的语料。
例如,将上述语料分词后根据所述参考集计算得到语料与各个二级标签的相关度后,使用特征化方法向量化所述相关度后,将参考集、负面语料和向量化后的相关度输入机器分类器,机器分类器将这条语料分类为“油耗高”的二级标签。因此该条语料最终涉及的汽车负面信息为“发动机|油耗高”。
参阅图2,本发明还提供一种信息分类装置20,包括:获取单元201、语料筛选单元202、关键词筛选单元203、一级分类单元204、二级分类单元205和输出单元206,其中:
获取单元201,用于获取与产品相关的语料;语料筛选单元202,用于对所述语料进行情感分析,筛选出与所述产品相关的负面语料;关键词筛选单元203,用于提取所述负面语料中的关键词;一级分类单元204,用于根据所述负面语料中的关键词,确定所述负面语料对应的与所述产品相关的一级标签;二级分类单元205,用于对所述负面语料进行语义分析,根据语义分析结果确定所述负面语料对应的二级标签;所述二级标签为所述一级标签对应的子标签;输出单元206,根据所述负面语料对应的一级标签以及二级标签,确定所述产品的负面分类信息。
在具体实施中,一级分类单元204还可以用于,根据预设的一级词库中各个一级标签对应的一级词集和所述语料中关键词的词频,计算所述负面语料与各个一级标签的相关度;选取与所述负面语料的相关度大于预设第一相关度阈值的一级标签,作为所述负面语料对应的与所述产品相关的一级标签。
在具体实施中,一级词库构建单元(未表示在图中),可以用于获取一级语料,提取所述一级语料中的关键词,所述一级语料带有相对应的标签;根据对应的标签对所述一级语料中的关键词进行归类,得到每个标签相对应的一级词集;计算每个一级词集内各个关键词的相关度;根据一级词集内各个关键词的相关度调整各个标签下的一级词集,完成一级词库的构建。
在具体实施中,一级分类单元204还可以用于,计算所述负面语料与各个一级标签的相关度;将所述负面语料与各个一级标签的相关度进行向量化后输入机器分类器;获取所述机器分类器的第一输出结果,所述第一输出结果为所述负面语料对应的与所述产品相关的一级标签。
在具体实施中,二级分类单元205还可以用于,根据预设的语义词库中各个二级标签对应的语义词集和所述语料中关键词的词频,计算所述负面语料与各个二级标签的相关度;选取与所述负面语料的相关度大于预设第二相关度阈值的二级标签,作为所述负面语料对应的二级标签。
语义词库构建单元(未表示在图中),可以用于获取语义语料,提取所述语义语料中的关键词,所述语义语料带有相对应的标签;根据对应的标签对所述语义语料中的关键词进行归类,得到每个标签相对应的语义词集;计算每个语义词集内各个关键词的相关度;根据语义词集内各个关键词的相关度调整各个标签下的词集,完成语义词库的构建。
在具体实施中,二级分类单元205还可以用于,计算所述负面语料与各个二级标签的相关度;将所述负面语料与各个二级标签的相关度进行向量化后输入机器分类器;获取所述机器分类器的第二输出结果,所述第二输出结果为所述负面语料对应的二级标签。
本发明还提供一种计算机可读存储介质,其上存储有计算机指令,计算机指令运行时执行上述的信息分类方法。
本发明还提供一种信息分类装置,包括存储器和处理器,存储器上存储有计算机指令,所述计算机指令运行时所述处理器执行上述的信息分类方法的步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指示相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (16)

1.一种信息分类方法,其特征在于,包括:
获取与产品相关的语料;
对所述语料进行情感分析,筛选出与所述产品相关的负面语料;
提取所述负面语料中的关键词;
根据所述负面语料中的关键词,确定所述负面语料对应的与所述产品相关的一级标签;
对所述负面语料进行语义分析,根据语义分析结果确定所述负面语料对应的二级标签;所述二级标签为所述一级标签对应的子标签;
根据所述负面语料对应的一级标签以及二级标签,确定所述产品的负面分类信息。
2.根据权利要求1所述的信息分类方法,其特征在于,所述确定所述负面语料对应的与所述产品相关的一级标签,包括:
根据预设的一级词库中各个一级标签对应的一级词集和所述语料中关键词的词频,计算所述负面语料与各个一级标签的相关度;
选取与所述负面语料的相关度大于预设第一相关度阈值的一级标签,作为所述负面语料对应的与所述产品相关的一级标签。
3.根据权利要求2所述的信息分类方法,其特征在于,
所述一级词库采用如下步骤构建:
获取一级语料,提取所述一级语料中的关键词,所述一级语料带有相对应的标签;
根据对应的标签对所述一级语料中的关键词进行归类,得到每个标签相对应的一级词集;
计算每个一级词集内各个关键词的相关度;
根据一级词集内各个关键词的相关度调整各个标签下的一级词集,完成一级词库的构建。
4.根据权利要求1所述的信息分类方法,其特征在于,
所述确定所述负面语料对应的与所述产品相关的一级标签,包括:
计算所述负面语料与各个一级标签的相关度;
将所述负面语料与各个一级标签的相关度进行向量化后输入机器分类器;
获取所述机器分类器的第一输出结果,所述第一输出结果为所述负面语料对应的与所述产品相关的一级标签。
5.根据权利要求1所述的信息分类方法,其特征在于,
所述对所述负面语料进行语义分析,根据语义分析结果确定所述负面语料对应的二级标签,包括:
根据预设的语义词库中各个二级标签对应的语义词集和所述语料中关键词的词频,计算所述负面语料与各个二级标签的相关度;
选取与所述负面语料的相关度大于预设第二相关度阈值的二级标签,作为所述负面语料对应的二级标签。
6.根据权利要求5所述的信息分类方法,其特征在于,
所述语义词库采用如下步骤构建:
获取语义语料,提取所述语义语料中的关键词,所述语义语料带有相对应的标签;
根据对应的标签对所述语义语料中的关键词进行归类,得到每个标签相对应的语义词集;
计算每个语义词集内各个关键词的相关度;
根据语义词集内各个关键词的相关度调整各个标签下的词集,完成语义词库的构建。
7.根据权利要求1所述的信息分类方法,其特征在于,
所述确定所述负面语料对应的与所述产品相关的二级标签,包括:
计算所述负面语料与各个二级标签的相关度;
将所述负面语料与各个二级标签的相关度进行向量化后输入机器分类器;
获取所述机器分类器的第二输出结果,所述第二输出结果为所述负面语料对应的二级标签。
8.一种信息分类装置,其特征在于,包括:
获取单元,用于获取与产品相关的语料;
语料筛选单元,用于对所述语料进行情感分析,筛选出与所述产品相关的负面语料;
关键词筛选单元,用于提取所述负面语料中的关键词;
一级分类单元,用于根据所述负面语料中的关键词,确定所述负面语料对应的与所述产品相关的一级标签;
二级分类单元,用于对所述负面语料进行语义分析,根据语义分析结果确定所述负面语料对应的二级标签;所述二级标签为所述一级标签对应的子标签;
输出单元,根据所述负面语料对应的一级标签以及二级标签,确定所述产品的负面分类信息。
9.根据权利要求8所述的信息分类装置,其特征在于,
所述一级分类单元,还用于根据预设的一级词库中各个一级标签对应的一级词集和所述语料中关键词的词频,计算所述负面语料与各个一级标签的相关度;选取与所述负面语料的相关度大于预设第一相关度阈值的一级标签,作为所述负面语料对应的与所述产品相关的一级标签。
10.根据权利要求9所述的信息分类装置,其特征在于,还包括:
一级词库构建单元,用于获取一级语料,提取所述一级语料中的关键词,所述一级语料带有相对应的标签;根据对应的标签对所述一级语料中的关键词进行归类,得到每个标签相对应的一级词集;计算每个一级词集内各个关键词的相关度;根据一级词集内各个关键词的相关度调整各个标签下的一级词集,完成一级词库的构建。
11.根据权利要求8所述的信息分类装置,其特征在于,
所述一级分类单元,还用于计算所述负面语料与各个一级标签的相关度;
将所述负面语料与各个一级标签的相关度进行向量化后输入机器分类器;
获取所述机器分类器的第一输出结果,所述第一输出结果为所述负面语料对应的与所述产品相关的一级标签。
12.根据权利要求8所述的信息分类装置,其特征在于,
所述二级分类单元,还用于根据预设的语义词库中各个二级标签对应的语义词集和所述语料中关键词的词频,计算所述负面语料与各个二级标签的相关度;选取与所述负面语料的相关度大于预设第二相关度阈值的二级标签,作为所述负面语料对应的二级标签。
13.根据权利要求12所述的信息分类装置,其特征在于,还包括:
语义词库构建单元,用于获取语义语料,提取所述语义语料中的关键词,所述语义语料带有相对应的标签;根据对应的标签对所述语义语料中的关键词进行归类,得到每个标签相对应的语义词集;计算每个语义词集内各个关键词的相关度;根据语义词集内各个关键词的相关度调整各个标签下的词集,完成语义词库的构建。
14.根据权利要求8所述的信息分类装置,其特征在于,
所述二级分类单元,还用于计算所述负面语料与各个二级标签的相关度;
将所述负面语料与各个二级标签的相关度进行向量化后输入机器分类器;
获取所述机器分类器的第二输出结果,所述第二输出结果为所述负面语料对应的二级标签。
15.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1~7任一项所述的信息分类方法的步骤。
16.一种信息分类装置,包括存储器和处理器,所述存储器上存储有计算机指令,其特征在于,所述计算机指令运行时所述处理器执行权利要求1~7任一项所述的信息分类方法的步骤。
CN201810996942.8A 2018-08-29 2018-08-29 信息分类方法及装置、计算机可读存储介质 Active CN109145301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810996942.8A CN109145301B (zh) 2018-08-29 2018-08-29 信息分类方法及装置、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810996942.8A CN109145301B (zh) 2018-08-29 2018-08-29 信息分类方法及装置、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109145301A true CN109145301A (zh) 2019-01-04
CN109145301B CN109145301B (zh) 2023-01-24

Family

ID=64829241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810996942.8A Active CN109145301B (zh) 2018-08-29 2018-08-29 信息分类方法及装置、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109145301B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634017A (zh) * 2019-08-23 2019-12-31 深圳市新系区块链技术有限公司 信息分类方法、装置及设备
CN111177412A (zh) * 2019-12-30 2020-05-19 成都信息工程大学 公共标识语双语平行语料库系统
CN112084333A (zh) * 2020-08-31 2020-12-15 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法
CN113449202A (zh) * 2021-06-30 2021-09-28 未鲲(上海)科技服务有限公司 信息的匹配方法、装置、设备及介质
CN115512529A (zh) * 2021-06-23 2022-12-23 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678720A (zh) * 2014-01-02 2014-03-26 中国标准化研究院 用户反馈数据处理方法和装置
US20150095013A1 (en) * 2013-09-27 2015-04-02 Sonja Zillner Extending Concept Labels of an Ontology
CN105095288A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 数据分析方法及数据分析装置
CN107291899A (zh) * 2017-06-22 2017-10-24 努比亚技术有限公司 一种基于标签的推荐方法和终端以及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095013A1 (en) * 2013-09-27 2015-04-02 Sonja Zillner Extending Concept Labels of an Ontology
CN103678720A (zh) * 2014-01-02 2014-03-26 中国标准化研究院 用户反馈数据处理方法和装置
CN105095288A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 数据分析方法及数据分析装置
CN107291899A (zh) * 2017-06-22 2017-10-24 努比亚技术有限公司 一种基于标签的推荐方法和终端以及计算机可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634017A (zh) * 2019-08-23 2019-12-31 深圳市新系区块链技术有限公司 信息分类方法、装置及设备
CN111177412A (zh) * 2019-12-30 2020-05-19 成都信息工程大学 公共标识语双语平行语料库系统
CN111177412B (zh) * 2019-12-30 2023-03-31 成都信息工程大学 公共标识语双语平行语料库系统
CN112084333A (zh) * 2020-08-31 2020-12-15 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法
CN112084333B (zh) * 2020-08-31 2022-04-22 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法
CN115512529A (zh) * 2021-06-23 2022-12-23 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统
CN115512529B (zh) * 2021-06-23 2024-03-05 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统
CN113449202A (zh) * 2021-06-30 2021-09-28 未鲲(上海)科技服务有限公司 信息的匹配方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109145301B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN109145301A (zh) 信息分类方法及装置、计算机可读存储介质
KR102026304B1 (ko) Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
CN103176983B (zh) 一种基于互联网信息的事件预警方法
US8224805B2 (en) Method for generating context hierarchy and system for generating context hierarchy
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN103810162B (zh) 推荐网络信息的方法和系统
CN110188351A (zh) 语句通顺度及句法评分模型的训练方法及装置
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN106649742A (zh) 数据库维护方法和装置
CN101609450A (zh) 基于训练集的网页分类方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN101630312A (zh) 一种用于问答平台中问句的聚类方法及系统
CN107943909A (zh) 基于评论数据的用户需求趋势挖掘方法及装置、存储介质
CN101609459A (zh) 一种情感特征词提取系统
CN107437038A (zh) 一种网页篡改的检测方法及装置
CN103092975A (zh) 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN106372064A (zh) 一种文本挖掘的特征词权重计算方法
CN108733791A (zh) 网络事件检测方法
CN102637179B (zh) 词项加权函数确定及基于该函数进行搜索的方法及装置
CN106897359A (zh) 互联网信息收集及关联方法
CN106104524A (zh) 复杂谓语模板收集装置以及用于其的计算机程序
CN102999538B (zh) 人物搜索方法和设备
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN106503153A (zh) 一种计算机文本分类体系、系统及其文本分类方法
CN106844330A (zh) 文章情感的分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant