CN107766426A - 一种文本分类方法、装置及电子设备 - Google Patents
一种文本分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN107766426A CN107766426A CN201710828217.5A CN201710828217A CN107766426A CN 107766426 A CN107766426 A CN 107766426A CN 201710828217 A CN201710828217 A CN 201710828217A CN 107766426 A CN107766426 A CN 107766426A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- classification
- word
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类方法、装置及电子设备,所述方法包括:通过无监督方法训练词向量模型;根据词向量模型,确定在文本中提取出的关键词的词向量;根据所述关键词的词向量,确定所述文本的文本向量;计算所述文本向量与预设类目的向量之间的相似度;将相似度符合预设条件的类目作为所述文本的类目。本发明实现了对文本的无监督方式分类,避免大工作量的人工标注数据,降低成本。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种文本分类方法、装置及电子设备。
背景技术
传统互联网和移动互联网大部分以文本形式传递信息,这些信息包括可以从互联网直接获取的信息,如从网页中获取的资讯、新闻等各种内容,还包括通过微信、微博、门户网站、论坛、新闻app等方式获取的信息。
互联网的原始信息是杂乱无章的,通过数据挖掘可以将非结构化数据转换成结构化数据,并在整理后上传至互联网,因此,用户从互联网上所看到的信息一般是整理后的信息。
文本分类是数据挖掘中最重要的一环,其可以将无序的数据重新组织起来,方便用户浏览。比如,对于门户网站而言,其有自己的分类体系,例如,网站首页上会有大的分类:军事、体育、科技、教育、美食、财经、房产、汽车、游戏等,体育类别下又可以划分篮球、足球、羽毛球等,进入篮球类别,又可以分为NBA、CBA等。
传统的文本分类方法中,需要人工标注数据,然后根据机器学习算法(比如支持向量机、逻辑回归、朴素贝叶斯、决策树、神经网络等),去训练模型。但是人工标注工作量很大,如果客户有100个类目,每个类目准备1000条标注数据,那么需要人工标注10万条数据。而且一旦类目体系调整后,则需要重新标注数据并训练模型,将极大地增加人工的工作量,提升成本。
发明内容
本申请实施例提供一种文本分类方法,采用该方法,能够自动对输入的文本进行分类。
本申请实施例还提供一种文本分类装置,采用该装置,能够自动对输入的文本进行分类。
本申请实施例还提供一种电子设备,该电子设备能够对输入的文本自动分类。
本申请实施例采用下述技术方案:
一种文本分类方法,所述方法包括:
通过无监督方法训练词向量模型;
根据所述词向量模型,确定在所述文本中提取出的关键词的词向量;
根据所述关键词的词向量,确定所述文本的文本向量;
计算所述文本向量与预设类目的向量之间的相似度;
将相似度符合预设条件的类目作为所述文本的类目。
一种文本分类装置,所述装置包括:
训练模块,用于通过无监督方法训练词向量模型;
第一确定模块,用于根据所述词向量模型,确定从所述文本中提取出的关键词的词向量;
第二确定模块,用于根据所述关键词的词向量,确定所述文本的文本向量;
计算模块,用于计算所述文本向量与预设类目的向量之间的相似度;
分类模块,用于将相似度符合预设条件的类目作为所述文本的类目。
一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
所述处理器被配置为:
通过无监督方法训练词向量模型;
根据所述词向量模型,确定在所述文本中提取出的关键词的词向量;
根据所述关键词的词向量,确定所述文本的文本向量;
计算所述文本向量与预设类目的向量之间的相似度;
将相似度符合预设条件的类目作为所述文本的类目。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
输入文本后,可以自动获取用于表示该文本的关键词,根据预设的词向量模型,可以计算关键词的词向量,根据词向量,可以计算文本的文本向量,根据文本向量,可以计算文本向量与预设类目的向量之间的相似度,将相似度符合预设条件的类目作为文本的类目,从而实现对文本的无监督方式分类,避免大工作量的人工标注数据,降低成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为一实施例的文本分类方法的流程图;
图2为一实施例的在文本中提取出关键字的流程图;
图3为一实施例的文本分类装置的结构图;
图4为根据一示例性实施例示出的适用于信息显示的电子设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本实施例的文本分类方法包括步骤S110至步骤S150。
步骤S110,通过无监督方法训练词向量模型。
无监督方法是一种Word2vec(词向量)算法,不需要人工标注语料就可以训练模型,能够将每个词语变成一个低维空间中的向量,通常几百维。
word2vec包含有两种训练模型:CBOW和Skip-gram,在大数据量时,本实施例优选采用Skip-gram训练模型。其中,由Skip-gram模型训练得到词向量模型可以采用如下步骤:
首先收集相关的均衡语料。实现无监督学习,需要采集庞大的数据量,同时,采集的语料要针对相应的应用场景,并且尽量涵盖该场景的大部分数据类型。
其次,对收集的均衡语料做预处理,包括过滤掉垃圾数据、文本分词、过滤停用词、低频词,词根归一化等;整理成训练数据的格式,即表示输入和输出。
第三,将训练数据送给Skip-gram模型,训练得到需要的词向量模型,保存备用。
在获取关键词的词向量时,假设关键词为word1,word2,...,wordN,将会这些关键词输入词向量模型中可以获取对应的词向量,生成的词向量可以对应依次为 vec(word1),vec(word2),...,vec(wordN)。
步骤S120,根据词向量模型,确定在文本中提取出的关键词的词向量。
其中,文本可以是通过键盘、语音识别系统等输入设备录入的文本,也可以是通过拷贝或由应用程序接收的文本,需要指出的是,本实施例不限于文本的来源。
本实施例提取出的关键词为可表示对应文本的关键词,从而通过关键词可以进一步实现对文本的分类。
步骤S130,根据关键词的词向量,确定文本的文本向量。
步骤S140,计算文本向量与预设类目的向量之间的相似度。
通过计算文本向量与预设类目的向量之间的相似度,可以最终判断对应文本的类目。
步骤S150,将相似度符合预设条件的类目作为所述文本的类目。
通过预设条件可以选择符合要求的相似度,与选择的相似度对应的类目即可作为对应文本的类目。
本实施例在输入文本后,可以自动获取用于表示该文本的关键词,根据预设的词向量模型,可以计算关键词的词向量,根据词向量,可以计算文本的文本向量,根据文本向量,可以计算文本向量与预设类目的向量之间的相似度,将相似度符合预设条件的类目作为文本的类目,从而实现对文本的无监督方式分类,避免大工作量的人工标注数据,降低成本。
如图2所示,在文本中提取出关键字包括步骤S111至步骤S115。
步骤S111,将文本划分为词语。
具体而言,可以先将文本中的文本内容划分为句子,然后将句子划分为词语。
步骤S112,计算词语的词语权重值。
其中,可以计算词语的词频值和逆文档频率值,将词频值与逆文档频率值的乘积作为词语的词语权重值。
本实施例优选通过TF-IDF算法计算词语的词语权重值,即TF-IDF值。 TF-IDF算法可以通过计算词语的TF-IDF值评价词语对文本的重要性,其中, TF表示词频,为词语在文本中出现的次数与文本中的总词语数的比值;IDF 表示词语的逆文档频率,w表示词语,n表示语料集中的总文档数,n1表示语料集中包含词语w的文档数。词语的权重值为词频值与逆文档频率值的乘积。
其中,TF-IDF算法需要建立在数量大的语料集上,在此基础上计算词语的IDF时,其可以近似等于搜索引擎的搜索结果数,搜索结果数为搜索引擎搜索到的网页数,这样可以直接得到词语的IDF。
步骤S113,计算词语的词语权重值与该词语的词性加权值的乘积值。
词语主要由名词或动词构成,名词和动词所占的比例通常是不同的,根据词语的词性赋予词语对应的词性加权值,可以进一步校正词语的词语权重值。为此,可以计算每个词语的词语权重值与该词语词性加权值的乘积值。
步骤S114,将乘积值由大至小依次排序。
步骤S115,将乘积值排名在预设排名之前的词语作为关键词。
乘积值的大小代表了对应词语在文本中的重要程度,在分类中,以若干个词语即可表示整个文本内容。因此,将乘积值由大至小排序后,依次选择前面预设个数(如N个)的乘积值,这些乘积值所对应的词语可以作为文本的关键词。
其中,步骤S130根据所述关键词的词向量,确定所述文本的文本向量,具体为:
将所述关键词的词向量与对应词语权重值的乘积的和作为所述文本的文本向量。
假设关键词word1,word2,...,wordN对应的词语权重值分别为w1,w2,...,wN,则文本向量可以表示为:即文本向量为每个关键词的词向量与对应词语权重值的乘积的和。
类目通常是提前给定的,一般数量大的也就上千个。每个类目均可以指定几个描述词,描述词可以是“与”、“或”的关系。例如,“IT数码”这个类目是“IT”和“数码”两个大类的并集,为“或”的关系;“电影明星”这个类目,是“电影”和“明星”的交集,为“与”的关系。将描述词输入词向量模型后可输出该描述词的向量,类目的向量则同时保留所有这些描述词的向量。
因此,每个类目的类目描述词之间具有预设的逻辑关系符。其中,步骤S140 计算文本向量与预设类目的向量之间的相似度,包括:
根据逻辑关系符的类型,确定计算策略;
根据确定的计算策略,计算文本向量与类目的向量之间的相似度。
描述词之间的逻辑关系不同,则会影响相似度的计算方法。因此,需要首先判断类目的向量所对应的预设类目描述词之间的逻辑关系。基于类目描述词之间的逻辑关系可以选择相应的计算方法,计算文本向量与类目的向量之间的相似度。具体的,根据逻辑关系符的类型,确定计算策略,具体包括:
当逻辑关系符为与字符时,则选择文本向量与预设类目描述词的向量之间夹角的余弦值的最小绝对值作为相似度;
当逻辑关系为或字符时,则选择文本向量与预设类目描述词的向量之间夹角的余弦值的最大绝对值作为相似度。
在一实施方式中,例如,对于文本为T,类目C具有两个描述词w1,w2,并且关系是“与”,则C=w1&w2,文本向量与类目的向量之间的相似度为:
Sim(T,C)=min(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w1))|)。
在另一实施方式中,例如,对于文本为T,类目C具有两个描述词w1,w2,并且关系是“或”,则C=w1|w2,本向量与类目的向量之间的相似度为:
Sim(T,C)=max(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w1))|)。
根据计算出的相似度,可以选择符合预设条件的相似度所对应的类目作为文本的类目。具体而言,在其中一个实施方式中,可以将相似度由大至小依次排序,将相似度排名在预设排名之前的类目作为文本的类目。
在另一实施方式中,也可以为相似度设置预设的阈值,检测相似度是否大于预设的阈值,并将大于预设的阈值的相似度所对应的类目作为文本的类目。
本实施例在实现过程中,需要对词向量模型进行优化,从而提高文本分类的准确性。这种优化可以建立在主动或被动的基础上,主动优化可以是对词向量模型的修改,例如其中的参数等。本实施例优选采用被动修改,具体的,可以基于已有的词向量模型统计文本分类的错误次数。
为此,本实施例还可以根据分类错误的文本训练词向量模型。具体的,可以为分类错误的文本数量设置上限的预设值,当达到该预设值时,则对词向量模型进行训练。本实施例中,分类错误的文本会被记录保存,可以将错误分类的文本输入Skip-gram增量模型中,得到新的词向量模型(增量模型)。其中,,新的词向量模型模型会进一步提升对文本的分类效果。
如图3所示,一实施例的文本分类装置包括训练模块110、第一确定模块 120、第二确定模块130、计算模块140和分类模块150。
训练模块110用于通过无监督方法训练词向量模型。
无监督方法是一种Word2vec(词向量)算法,不需要人工标注语料就可以训练模型,能够将每个词语变成一个低维空间中的向量,通常几百维。
word2vec包含有两种训练模型:CBOW和Skip-gram。在大数据量时,本实施例优选采用Skip-gram训练模型。其中,由Skip-gram模型训练得到词向量模型可以采用如下步骤:
首先收集相关的均衡语料。实现无监督学习,需要采集庞大的数据量,同时,采集的语料要针对相应的应用场景,并且尽量涵盖该场景的大部分数据类型。
其次,对收集的均衡语料做预处理,包括过滤掉垃圾数据、文本分词、过滤停用词、低频词,词根归一化等;整理成训练数据的格式,即表示输入和输出。
第三,将训练数据送给Skip-gram模型,训练得到需要的词向量模型,保存备用。
在获取关键词的词向量时,假设关键词为word1,word2,...,wordN,将会这些关键词输入词向量模型中可以获取对应的词向量,生成的词向量可以对应依次为 vec(word1),vec(word2),...,vec(wordN)。
第一确定模块120用于根据词向量模型,确定在文本中提取出的关键词的词向量。
其中,文本可以是通过键盘、语音识别系统等输入设备录入的文本,也可以是通过拷贝或由应用程序接收的文本,需要指出的是,本实施例不限于文本的来源。
本实施例提取出的关键词为可表示对应文本的关键词,从而通过关键词可以进一步实现对文本的分类。
第二确定模块130用于根据关键词的词向量,确定文本的文本向量。
计算模块140用于计算文本向量与预设类目的向量之间的相似度。
通过计算文本向量与类目的向量之间的相似度,可以最终判断对应文本的类目。
分类模块150用于将相似度符合预设条件的类目作为文本的类目。
通过预设条件可以选择符合要求的相似度,与选择的相似度对应的类目即可作为对应文本的类目。
本实施例在输入文本后,可以自动获取用于表示该文本的关键词,根据预设的词向量模型,可以计算关键词的词向量,根据词向量,可以计算文本的文本向量,根据文本向量,可以计算文本向量与预设类目的向量之间的相似度,将相似度符合预设条件的类目作为文本的类目,从而实现对文本的无监督方式分类,避免大工作量的人工标注数据,降低成本。
其中,在文本中提取出关键词,具体包括:
将所述文本划分为词语;
计算所述词语的词语权重值;
计算所述词语的词语权重值与该词语的词性加权值的乘积值;
将所述乘积值由大至小依次排序;
将所述乘积值排名在预设排名之前的词语作为关键词。
本实施例中,可以先将文本中的文本内容划分为句子,然后将句子划分为词语。然后计算词语的词频值和逆文档频率值,将词频值与逆文档频率值的乘积作为词语的词语权重值。
本实施例优选通过TF-IDF算法计算词语的词语权重值,即TF-IDF值。 TF-IDF算法可以通过计算词语的TF-IDF值评价词语对文本的重要性,其中,TF表示词频,为词语在文本中出现的次数与文本中的总词语数的比值;IDF表示词语的逆文档频率,w表示词语,n表示语料集中的总文档数,n1表示语料集中包含词语w的文档数。词语的权重值为词频值与逆文档频率值的乘积。
其中,TF-IDF算法需要建立在数量大的语料集上,在此基础上计算词语的IDF时,其可以近似等于搜索引擎的搜索结果数,搜索结果数为搜索引擎搜索到的网页数,这样可以直接得到词语的IDF。
词语主要由名词或动词构成,名词和动词所占的比例通常是不同的,根据词语的词性赋予词语对应的词性加权值,可以进一步校正词语的词语权重值。为此,可以计算每个词语的词语权重值与该词语词性加权值的乘积值。
乘积值的大小代表了对应词语在文本中的重要程度,在分类中,以若干个词语即可表示整个文本内容。因此,将乘积值由大至小排序后,依次选择前面预设个数(如N个)的乘积值,这些乘积值所对应的词语可以作为文本的关键词。
其中,第二确定模块130根据所述关键词的词向量,确定所述文本的文本向量,具体为:
将所述关键词的词向量与对应词语权重值的乘积的和作为所述文本的文本向量。
假设关键词word1,word2,...,wordN对应的词语权重值分别为w1,w2,...,wN,则文本向量可以表示为:即文本向量为每个关键词的词向量与对应词语权重值的乘积的和。
类目通常是提前给定的,一般数量大的也就上千个。每个类目均可以指定几个描述词,描述词可以是“与”、“或”的关系。例如,“IT数码”这个类目是“IT”和“数码”两个大类的并集,为“或”的关系;“电影明星”这个类目,是“电影”和“明星”的交集,为“与”的关系。将描述词输入词向量模型后可输出该描述词的向量,类目的向量则同时保留所有这些描述词的向量。
因此,每个类目的描述词之间具有预设的逻辑关系符。计算模块140,用于:
根据逻辑关系符的类型,确定计算策略;
根据确定的计算策略,计算文本向量与类目的向量之间的相似度。
描述词之间的逻辑关系不同,则会影响相似度的计算方法。因此,需要首先判断类目的向量所对应的预设类目描述词之间的逻辑关系。基于类目描述词之间的逻辑关系可以选择相应的计算方法,计算文本向量与类目的向量之间的相似度。具体的,根据逻辑关系符的类型,确定计算策略,具体包括:
当逻辑关系符为与字符时,则选择文本向量与预设类目描述词的向量之间夹角的余弦值的最小绝对值作为相似度;
当逻辑关系为或字符时,则选择文本向量与预设类目描述词的向量之间夹角的余弦值的最大绝对值作为相似度。
在一实施方式中,例如,对于文本为T,类目C具有两个描述词w1,w2,并且关系是“与”,则C=w1&w2,文本向量与类目的向量之间的相似度为:
Sim(T,C)=min(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w1))|)。
在另一实施方式中,例如,对于文本为T,类目C具有两个描述词w1,w2,并且关系是“或”,则C=w1|w2,本向量与类目的向量之间的相似度为:
Sim(T,C)=max(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w1))|)。
根据计算出的相似度,可以选择符合预设条件的相似度所对应的类目作为文本的类目。具体而言,在其中一个实施方式中,分类模块150,用于:
将相似度由大至小依次排序;
将相似度排名在预设排名之前的类目作为文本的类目。
在另一实施方式中,分类模块150,用于:
将相似度大于预设阈值的类目作为文本的类目。
可以为相似度设置预设的阈值,检测相似度是否大于预设的阈值,并将大于预设的阈值的相似度所对应的类目作为文本的类目。
本实施例在实现过程中,需要对词向量模型进行优化,从而提高文本分类的准确性。这种优化可以建立在主动或被动的基础上,主动优化可以是对词向量模型的修改,例如其中的参数等。本实施例优选采用被动修改。在一实施方式中,文本分类装置还包括:
错误文本训练模块,用于根据分类错误的文本训练词向量模型。
在一实施方式中,可以为分类错误的文本数量设置上限的预设值,当达到该预设值时,则对词向量模型进行训练。其中,分类错误的文本会被记录保存,可以将错误分类的文本输入Skip-gram增量模型中,得到新的词向量模型(增量模型)。其中,新的词向量模型会进一步提升对文本的分类效果。
图4是根据一示例性实施例示出的一种适用于信息显示的电子设备的框图。例如,电子设备800可以是手机、电脑、PDA、PAD等。
参照图4所示,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入 /输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,该处理单元802可被配置为:
通过无监督方法训练词向量模型;
根据词向量模型,确定在文本中提取出的关键词的词向量;
根据关键词的词向量,确定文本的文本向量;
计算文本向量与预设类目的向量之间的相似度;
将相似度符合预设条件的类目作为文本的类目。
此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,消息,图片等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板 (TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810 包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814 还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,距离感应器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WIFI, 2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA) 技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器 820执行以完成上述方法。例如,非临时性计算机可读存储介质可以是 ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (19)
1.一种文本分类方法,其特征在于,所述方法包括:
通过无监督方法训练词向量模型;
根据所述词向量模型,确定在所述文本中提取出的关键词的词向量;
根据所述关键词的词向量,确定所述文本的文本向量;
计算所述文本向量与预设类目的向量之间的相似度;
将相似度符合预设条件的类目作为所述文本的类目。
2.根据权利要求1所述的方法,其特征在于,在所述文本中提取出所述关键词,具体包括:
将所述文本划分为词语;
计算所述词语的词语权重值;
计算所述词语的词语权重值与该词语的词性加权值的乘积值;
将所述乘积值由大至小依次排序;
将所述乘积值排名在预设排名之前的词语作为关键词。
3.根据权利要求2所述的方法,其特征在于,所述计算所述词语的词语权重值,包括:
计算所述词语的词频值和逆文档频率值;
将所述词频值与逆文档频率值的乘积作为所述词语的词语权重值。
4.根据权利要求2或3所述的方法,其特征在于,根据所述关键词的词向量,确定所述文本的文本向量,具体为:
将所述关键词的词向量与对应词语权重值的乘积的和作为所述文本的文本向量。
5.根据权利要求1所述的方法,其特征在于,所述类目的向量包括至少一个预设类目描述词的向量,每个类目的向量内类目描述词之间具有预设的逻辑关系符;
所述计算所述文本向量与预设类目的向量之间的相似度,包括:
根据所述逻辑关系符的类型,确定计算策略;
根据所述确定的计算策略,计算所述文本向量与所述类目的向量之间的相似度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述逻辑关系符的类型,确定计算策略,具体包括:
当所述逻辑关系符为与字符时,选择所述文本向量与预设类目描述词的向量之间夹角的余弦值的最小绝对值作为相似度;
当所述逻辑关系为或字符时,选择所述文本向量与预设类目描述词的向量之间夹角的余弦值的最大绝对值作为相似度。
7.根据权利要求1所述的方法,其特征在于,将相似度符合预设条件的类目作为所述文本的类目,具体包括:
将所述相似度由大至小依次排序;
将相似度排名在预设排名之前的类目作为所述文本的类目。
8.根据权利要求1所述的方法,其特征在于,将相似度符合预设条件的类目作为所述文本的类目,具体包括:
将相似度大于预设阈值的类目作为所述文本的类目。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据分类错误的文本训练所述词向量模型。
10.一种文本分类装置,其特征在于,所述装置包括:
训练模块,用于通过无监督方法训练词向量模型;
第一确定模块,用于根据所述词向量模型,确定在所述文本中提取出的关键词的词向量;
第二确定模块,用于根据所述关键词的词向量,确定所述文本的文本向量;
计算模块,用于计算所述文本向量与预设类目的向量之间的相似度;
分类模块,用于将相似度符合预设条件的类目作为所述文本的类目。
11.根据权利要求10所述的装置,其特征在于,在所述文本中提取出所述关键词,具体包括:
将所述文本划分为词语;
计算所述词语的词语权重值;
计算所述词语的词语权重值与该词语的词性加权值的乘积值;
将所述乘积值由大至小依次排序;
将所述乘积值排名在预设排名之前的词语作为关键词。
12.根据权利要求11所述的装置,其特征在于,所述计算所述词语的词语权重值,具体为:
计算所述词语的词频值和逆文档频率值;
将所述词频值与逆文档频率值的乘积作为所述词语的词语权重值。
13.根据权利要求9所述的装置,其特征在于,所述第二确定模块,用于:
将所述关键词的词向量与对应词语权重值的乘积的和作为所述文本的文本向量。
14.根据权利要求9所述的装置,其特征在于,所述类目的向量包括至少一个预设类目描述词的向量,每个类目的向量内类目描述词之间具有预设的逻辑关系符;
所述计算模块,用于:
根据所述逻辑关系符的类型,确定计算策略;
根据所确定的计算策略,计算所述文本向量与所述类目的向量之间的相似度。
15.根据权利要求14所述的装置,其特征在于,所述根据所述逻辑关系符的类型,确定计算策略,具体包括:
当所述逻辑关系符为与字符时,选择所述文本向量与预设类目描述词的向量之间夹角的余弦值的最小绝对值作为相似度;
当所述逻辑关系为或字符时,选择所述文本向量与预设类目描述词的向量之间夹角的余弦值的最大绝对值作为相似度。
16.根据权利要求9所述的装置,其特征在于,所述分类模块,用于:
将所述相似度由大至小依次排序;
将相似度排名在预设排名之前的类目作为所述文本的类目。
17.根据权利要求9所述的装置,其特征在于,所述分类模块,用于:
将相似度大于预设阈值的类目作为所述文本的类目。
18.根据权利要求9所述的装置,其特征在于,所述装置还包括:
错误文本训练模块,用于根据分类错误的文本训练所述词向量模型。
19.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
所述处理器被配置为:
通过无监督方法训练词向量模型;根据所述词向量模型,确定在所述文本中提取出的关键词的词向量;
根据所述关键词的词向量,确定所述文本的文本向量;
计算所述文本向量与预设类目的向量之间的相似度;
将相似度符合预设条件的类目作为所述文本的类目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710828217.5A CN107766426B (zh) | 2017-09-14 | 2017-09-14 | 一种文本分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710828217.5A CN107766426B (zh) | 2017-09-14 | 2017-09-14 | 一种文本分类方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107766426A true CN107766426A (zh) | 2018-03-06 |
CN107766426B CN107766426B (zh) | 2020-05-22 |
Family
ID=61265181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710828217.5A Active CN107766426B (zh) | 2017-09-14 | 2017-09-14 | 一种文本分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766426B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829679A (zh) * | 2018-06-21 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 语料标注方法及装置 |
CN108965621A (zh) * | 2018-10-09 | 2018-12-07 | 北京智合大方科技有限公司 | 自学习智能电话销售坐席助手 |
CN109213843A (zh) * | 2018-07-23 | 2019-01-15 | 北京密境和风科技有限公司 | 一种垃圾文本信息的检测方法及装置 |
CN109325229A (zh) * | 2018-09-19 | 2019-02-12 | 中译语通科技股份有限公司 | 一种利用语义信息计算文本相似度的方法 |
CN109446525A (zh) * | 2018-10-26 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN109614486A (zh) * | 2018-11-28 | 2019-04-12 | 宇捷东方(北京)科技有限公司 | 一种基于自然语言处理技术的服务自动推送系统及方法 |
CN109614494A (zh) * | 2018-12-29 | 2019-04-12 | 东软集团股份有限公司 | 一种文本分类方法及相关装置 |
CN109918488A (zh) * | 2019-02-02 | 2019-06-21 | 上海蜜度信息技术有限公司 | 用于相似文档检索的方法与设备 |
CN109947947A (zh) * | 2019-03-29 | 2019-06-28 | 北京泰迪熊移动科技有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN109992664A (zh) * | 2019-03-12 | 2019-07-09 | 平安科技(深圳)有限公司 | 争议焦点的标注分类方法、装置、计算机设备和存储介质 |
CN110147449A (zh) * | 2019-05-27 | 2019-08-20 | 中国联合网络通信集团有限公司 | 文本分类方法和装置 |
CN110162630A (zh) * | 2019-05-09 | 2019-08-23 | 深圳市腾讯信息技术有限公司 | 一种文本去重的方法、装置及设备 |
CN110322895A (zh) * | 2018-03-27 | 2019-10-11 | 亿度慧达教育科技(北京)有限公司 | 语音评测方法及计算机存储介质 |
CN110502747A (zh) * | 2019-07-19 | 2019-11-26 | 北京云和时空科技有限公司 | 一种主题分类方法和装置 |
CN110674239A (zh) * | 2019-09-27 | 2020-01-10 | 中国航空无线电电子研究所 | 一种地理要素自动分类方法及装置 |
CN110717092A (zh) * | 2018-06-27 | 2020-01-21 | 北京京东尚科信息技术有限公司 | 为文章匹配对象的方法、系统、设备及存储介质 |
CN110990577A (zh) * | 2019-12-25 | 2020-04-10 | 北京亚信数据有限公司 | 一种文本分类方法和装置 |
WO2020087774A1 (zh) * | 2018-10-31 | 2020-05-07 | 平安科技(深圳)有限公司 | 基于概念树的意图识别方法、装置及计算机设备 |
CN111159151A (zh) * | 2019-12-27 | 2020-05-15 | 杭州数澜科技有限公司 | 一种构建数据类目体系的方法和系统 |
CN111191445A (zh) * | 2018-11-15 | 2020-05-22 | 北京京东金融科技控股有限公司 | 广告文本分类方法及装置 |
CN111476029A (zh) * | 2020-04-13 | 2020-07-31 | 武汉联影医疗科技有限公司 | 资源推荐方法和装置 |
CN111753079A (zh) * | 2019-03-11 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 文本分类方法、装置、电子设备以及计算机可读存储介质 |
CN112464654A (zh) * | 2020-11-27 | 2021-03-09 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
WO2021043140A1 (zh) * | 2019-09-02 | 2021-03-11 | 华为技术有限公司 | 标签确定方法、装置和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103118111A (zh) * | 2013-01-31 | 2013-05-22 | 北京百分点信息科技有限公司 | 一种基于多个数据交互中心的数据进行信息推送的方法 |
CN105005589A (zh) * | 2015-06-26 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种文本分类的方法和装置 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
-
2017
- 2017-09-14 CN CN201710828217.5A patent/CN107766426B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103118111A (zh) * | 2013-01-31 | 2013-05-22 | 北京百分点信息科技有限公司 | 一种基于多个数据交互中心的数据进行信息推送的方法 |
CN105005589A (zh) * | 2015-06-26 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种文本分类的方法和装置 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322895A (zh) * | 2018-03-27 | 2019-10-11 | 亿度慧达教育科技(北京)有限公司 | 语音评测方法及计算机存储介质 |
CN108829679A (zh) * | 2018-06-21 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 语料标注方法及装置 |
CN110717092A (zh) * | 2018-06-27 | 2020-01-21 | 北京京东尚科信息技术有限公司 | 为文章匹配对象的方法、系统、设备及存储介质 |
CN109213843A (zh) * | 2018-07-23 | 2019-01-15 | 北京密境和风科技有限公司 | 一种垃圾文本信息的检测方法及装置 |
CN109325229B (zh) * | 2018-09-19 | 2023-01-31 | 中译语通科技股份有限公司 | 一种利用语义信息计算文本相似度的方法 |
CN109325229A (zh) * | 2018-09-19 | 2019-02-12 | 中译语通科技股份有限公司 | 一种利用语义信息计算文本相似度的方法 |
CN108965621A (zh) * | 2018-10-09 | 2018-12-07 | 北京智合大方科技有限公司 | 自学习智能电话销售坐席助手 |
CN109446525A (zh) * | 2018-10-26 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
WO2020087774A1 (zh) * | 2018-10-31 | 2020-05-07 | 平安科技(深圳)有限公司 | 基于概念树的意图识别方法、装置及计算机设备 |
CN111191445B (zh) * | 2018-11-15 | 2024-04-19 | 京东科技控股股份有限公司 | 广告文本分类方法及装置 |
CN111191445A (zh) * | 2018-11-15 | 2020-05-22 | 北京京东金融科技控股有限公司 | 广告文本分类方法及装置 |
CN109614486A (zh) * | 2018-11-28 | 2019-04-12 | 宇捷东方(北京)科技有限公司 | 一种基于自然语言处理技术的服务自动推送系统及方法 |
CN109614494A (zh) * | 2018-12-29 | 2019-04-12 | 东软集团股份有限公司 | 一种文本分类方法及相关装置 |
CN109614494B (zh) * | 2018-12-29 | 2021-10-26 | 东软集团股份有限公司 | 一种文本分类方法及相关装置 |
CN109918488A (zh) * | 2019-02-02 | 2019-06-21 | 上海蜜度信息技术有限公司 | 用于相似文档检索的方法与设备 |
CN111753079A (zh) * | 2019-03-11 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 文本分类方法、装置、电子设备以及计算机可读存储介质 |
CN109992664B (zh) * | 2019-03-12 | 2023-04-18 | 平安科技(深圳)有限公司 | 争议焦点的标注分类方法、装置、计算机设备和存储介质 |
CN109992664A (zh) * | 2019-03-12 | 2019-07-09 | 平安科技(深圳)有限公司 | 争议焦点的标注分类方法、装置、计算机设备和存储介质 |
CN109947947A (zh) * | 2019-03-29 | 2019-06-28 | 北京泰迪熊移动科技有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN109947947B (zh) * | 2019-03-29 | 2021-11-23 | 北京泰迪熊移动科技有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110162630A (zh) * | 2019-05-09 | 2019-08-23 | 深圳市腾讯信息技术有限公司 | 一种文本去重的方法、装置及设备 |
CN110147449A (zh) * | 2019-05-27 | 2019-08-20 | 中国联合网络通信集团有限公司 | 文本分类方法和装置 |
CN110502747A (zh) * | 2019-07-19 | 2019-11-26 | 北京云和时空科技有限公司 | 一种主题分类方法和装置 |
WO2021043140A1 (zh) * | 2019-09-02 | 2021-03-11 | 华为技术有限公司 | 标签确定方法、装置和系统 |
CN110674239B (zh) * | 2019-09-27 | 2022-11-04 | 中国航空无线电电子研究所 | 一种地理要素自动分类方法及装置 |
CN110674239A (zh) * | 2019-09-27 | 2020-01-10 | 中国航空无线电电子研究所 | 一种地理要素自动分类方法及装置 |
CN110990577A (zh) * | 2019-12-25 | 2020-04-10 | 北京亚信数据有限公司 | 一种文本分类方法和装置 |
CN111159151B (zh) * | 2019-12-27 | 2022-12-13 | 杭州数澜科技有限公司 | 一种构建数据类目体系的方法和系统 |
CN111159151A (zh) * | 2019-12-27 | 2020-05-15 | 杭州数澜科技有限公司 | 一种构建数据类目体系的方法和系统 |
CN111476029A (zh) * | 2020-04-13 | 2020-07-31 | 武汉联影医疗科技有限公司 | 资源推荐方法和装置 |
CN112464654A (zh) * | 2020-11-27 | 2021-03-09 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107766426B (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766426A (zh) | 一种文本分类方法、装置及电子设备 | |
CN107704495B (zh) | 主题分类器的训练方法、装置及计算机可读存储介质 | |
CN107391760B (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
US11394675B2 (en) | Method and device for commenting on multimedia resource | |
CN106446782A (zh) | 图像识别方法及装置 | |
CN108121736A (zh) | 一种主题词确定模型的建立方法、装置及电子设备 | |
CN107491541A (zh) | 文本分类方法及装置 | |
US20210150214A1 (en) | Method for Displaying Service Information on Preview Interface and Electronic Device | |
CN107562939A (zh) | 垂直领域新闻推荐方法、装置及可读储存介质 | |
CN111832316B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN108289057B (zh) | 视频编辑方法、装置及智能移动终端 | |
CN109783656B (zh) | 音视频数据的推荐方法、系统及服务器和存储介质 | |
CN110175223A (zh) | 一种实现问题生成的方法及装置 | |
CN107977431A (zh) | 图像处理方法、装置、计算机设备和计算机可读存储介质 | |
WO2021120875A1 (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN104077597B (zh) | 图像分类方法及装置 | |
CN107273416A (zh) | 网页暗链检测方法、装置及计算机可读存储介质 | |
CN111753895A (zh) | 数据处理方法、装置及存储介质 | |
CN107305438A (zh) | 候选项的排序方法和装置、用于候选项排序的装置 | |
CN107291772A (zh) | 一种搜索访问方法、装置及电子设备 | |
CN111428522B (zh) | 翻译语料生成方法、装置、计算机设备及存储介质 | |
CN107111618A (zh) | 将图像的缩略图链接到网页 | |
CN111222316B (zh) | 文本检测方法、装置及存储介质 | |
CN113779257A (zh) | 文本分类模型的解析方法、装置、设备、介质及产品 | |
CN107135494A (zh) | 垃圾短信识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 100081 No.101, 1st floor, building 14, 27 Jiancai Chengzhong Road, Haidian District, Beijing Patentee after: Beijing PERCENT Technology Group Co.,Ltd. Address before: 100081 16 / F, block a, Beichen Century Center, building 2, courtyard 8, Beichen West Road, Chaoyang District, Beijing Patentee before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd. |