CN108874921A - 提取文本特征词的方法、装置、终端设备及存储介质 - Google Patents

提取文本特征词的方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN108874921A
CN108874921A CN201810546745.6A CN201810546745A CN108874921A CN 108874921 A CN108874921 A CN 108874921A CN 201810546745 A CN201810546745 A CN 201810546745A CN 108874921 A CN108874921 A CN 108874921A
Authority
CN
China
Prior art keywords
word
text
participle
feature
entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810546745.6A
Other languages
English (en)
Inventor
温云龙
杜翠凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jay Communications Planning And Design Institute Co Ltd
GCI Science and Technology Co Ltd
Original Assignee
Guangzhou Jay Communications Planning And Design Institute Co Ltd
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jay Communications Planning And Design Institute Co Ltd, GCI Science and Technology Co Ltd filed Critical Guangzhou Jay Communications Planning And Design Institute Co Ltd
Priority to CN201810546745.6A priority Critical patent/CN108874921A/zh
Publication of CN108874921A publication Critical patent/CN108874921A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提取文本特征词的方法,包括:对待分类的文本中的词语进行划分,得到所述文本的至少一个分词;构建所述文本的每个分词的词向量;根据每个所述分词、每个所述分词的词向量以及预设的语料库,计算每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵;根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类。本发明还公开了一种提取文本特征词的装置、终端设备及存储介质,可以解决文本特征词选取不恰当的问题,能够在文本分类时提高了文本分类结果的准确性,使得分类结果更加合理化。

Description

提取文本特征词的方法、装置、终端设备及存储介质
技术领域
本发明涉及文本分类技术领域,尤其涉及一种的提取文本特征词的方法、装置、终端设备及存储介质。
背景技术
文本分类问题算是自然语言处理领域中一个非常经典的问题,网络信息的快速增长给文本自动分类提供了充足的文本资源,但由于文本类别复杂多样给文本分类提出了严峻的挑战。如何提高文本分类的正确率已经成了分类技术研究的热点。当前的文本自动分类技术具有代表性的有3种分类方法:基于相似度的向量空间模型算法、基于HowNet的语义理解算法以及隐性语义索引算法。
然而,发明人在实施本发明的过程中发现,由于中文文本本身具有近义词和同义词数量众多的特点,在传统的文本分类方法中,在选取特征词时均没有很好地反应特征词语之间的语义联系,导致提取的特征词的代表性不高,降低了文本分类结果的准确性。
发明内容
针对上述问题,本发明的目的在于提供一种提取文本特征词的方法、装置、终端设备以及存储介质,可以解决文本特征词选取不恰当的问题,能够在文本分类时提高了文本分类结果的准确性,使得分类结果更加合理化。
第一方面,本发明实施例提供了一种提取文本特征词的方法,包括:
对待分类的文本中的词语进行划分,得到所述文本的至少一个分词;
构建所述文本的每个分词的词向量;
根据每个所述分词、每个所述分词的词向量以及预设的语料库,计算每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵;
根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类。
在第一方面的第一种实现方式中,所述对待分类的文本中的词语进行划分,得到所述文本的至少一个分词具体为:
对待分类的文本利用结巴分词工具进行分词处理和消词处理,得到所述文本的至少一个分词。
在第一方面的第二种实现方式中,所述根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词具体为:
根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,计算每个所述分词的特征重要性指数;
根据每个所述分词的特征重要性指数,获得所述文本的至少一个特征词。
根据第一方面的第二种实现方式,在第一方面的第三种实现方式中,所述根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,计算每个所述分词的特征重要性指数具体为:
根据每个所述分词的相关性、词语点间互信息、词语左熵、词语右熵以及预设的权值,计算每个所述分词的特征重要性指数。
根据第一方面的第二种实现方式,在第一方面的第四种实现方式中,所述根据每个所述分词的特征重要性指数,获得所述文本的至少一个特征词具体为:
将每个所述分词的特征重要性指数与预设的阈值进行对比,生成对比结果;
根据所述对比结果,获得所述文本的至少一个特征词。
在第一方面的第五种实现方式中,在所述根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类还包括:
根据每个所述分词的词向量,获得每个所述特征词的词向量;
根据每个所述特征词的词向量,对所述文本进行分类,生成分类结果。
根据第一方面的第五种实现方式,在第一方面的第六种实现方式中,所述根据每个所述特征词的词向量,对所述文本进行分类,生成分类结果具体为:
根据每个所述特征词的词向量,利用卷积神经网络对所述文本进行分类,生成分类结果。
第二方面,本发明实施例还提供了一种提取文本特征词的装置,包括:
文本分词模块,用于对待分类的文本中的词语进行划分,得到所述文本的至少一个分词;
词向量构建模块,用于构建所述文本的每个分词的词向量;
词语指标计算模块,用于根据每个所述分词、每个所述分词的词向量以及预设的语料库,计算每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵;
特征词提取模块,用于根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类。
第三方面,本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的提取文本特征词的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的提取文本特征词的方法。
上述技术方案中的一个技术方案具有如下优点:对文本进行分词,消除不利于识别特征词的词语,降低计算量;通过计算每个所述分词的相关性、词语点间互信息、词语左熵、词语右熵等指标值,利用词间关系模型、互信信息熵模型、左右熵模型构造具有代表文本信息的词对向量空间信息,充分考虑了词语之间的语义联系,使得在对所述文本进行分类时提高了分类结果的准确性和稳定性,使得更具有合理性。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一个优选的实施例提取文本特征词的方法的流程示意图。
图2是本发明的一个优选的实施例提供的提取文本特征词的方法的词向量的示意图。
图3是本发明的一个优选的实施例提供的提取文本特征词的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种提取文本特征词的方法,其可以在终端设备上执行,并包括以下步骤:
S10,对待分类的文本中的词语进行划分,得到所述文本的至少一个分词。
在本实施例中,在本实施例中,所述终端设备设备可以为手机、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)或数字广播接收器等移动终端,也可以为数字TV、台式计算机或服务器等等固定终端。在对文本进行分类之前,需要对所述文本进行预处理,即对所述文本进行分词,例如,可以通过字符串匹配对所述文本进行分词,也可以利用统计模型对所述文本中的词语进行切分,从而可以得到所述文本的所有分词。
在本实施例的一种实现方式中,具体地,对待分类的文本利用结巴分词工具进行分词处理和消词处理,得到所述文本的至少一个分词。在本实施例中,通过结巴分词工具,实现文本的分词和消词。文本分词主要实现对文本中的词语进行划分,而文本消词能够消除不利于识别特征词的低频词语、高频词语、停用词等词语。
S20,构建所述文本的每个分词的词向量。
在本实施例中,通过tensorflow软件的word2vec工具对所述文本的每一个分词都构建数值化的词向量,其作用就是通过自然语言工具将词语转化为计算机可理解的向量,也就是词语的数值化表示。这种数值型表示词向量的方法叫词向量的分布式表示(Dristributed representation),该方法表示是通过将某种语言的每一个词映射成一个固定长度的短向量(向量的维数可按照实际自由设定),能够避免(0-1)词向量编码方式(One hot representation)带来的维度灾难问题。作为示例,假设所述文本的某个分词为“喜欢”,利用word2vec工具来构建该分词的128维词向量,如图2所示。
S30,根据每个所述分词、每个所述分词的词向量以及预设的语料库,计算每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵。
在本实施例中,需要从原始的分词集合中(即所述文本的所有分词)提取出最具有代表性的特征词来作为文本分类的依据,在这里,通过计算每个分词的相关性、词语点间互信息、词语左熵以及词语右熵等指标值,来分析文本词语之间的语义联系。
作为示例,根据每个分词的词向量计算每一个分词与所有分词之间的相关性,计算公式如下:
其中,R(a)表示分词a与所有分词的相关性;a表示分词a的词向量,b表示分词b的词向量。C表示所述文本经过分词后的所有分词的词向量集合。
根据预设的语料库计算每一个分词与所有分词之间的点间互信息,计算公式如下:
其中,PMI(a)表示分词a与所述文本的所有分词的词语点间互信息,P(a&b)表示两个分词a与b共同出现的概率,即分词a与b在预设的语料库中共同出现的文档数,P(a)与P(b)分别表示两个分词单独出现的概率,即分词a出现的文档数和分词b出现的文档数。C表示所述文本经过分词后的所有分词的词向量集合。若两个分词在数据集(即语料库)的某个小范围内共现概率越大,表明其关联度越大;反之,关联度越小。P(a&b)与P(a)P(b)的比值是分词a与分词b两个词语的统计独立性度量。
在本实施例中,比如“工业机器人”在某一文档中出现。分词算法将其划分为“工业”和“机器人”两个词。P(工业)表示“工业”这个词语在一个语料库(语料库一般会由多个文档组成,比如1000个文档)中出现的概率,P(机器人)“机器人”这个词语在一个语料库(语料库一般会由多个文档组成,比如1000个文档)中出现的概率。那么P(工业&机器人)表示“工业”和“机器人”在整个语料库中的1000个文档中共同出现的概率(比如有30篇文档会同时具有“工业”和“机器人”这两个词),那么P(工业&机器人)=0.03。
根据预设的语料库计算每一个分词的词语左熵,计算公式如下:
其中,EL(a)表示分词a的词语左熵,表示对一个词语左边的词语出现的稳定性的度量。A表示分词a的左边所有可能的词语的集合,w表示分词a的左边某一个可能的词语,在这里,通过对分词a所有左边的词语计算信息熵,然后求和,最终得到分词a的词语左熵的值。
作为示例,假设分词a为“智能”,分词a的某一个左边的词为“人工”,那么在预设的语料库(比如有1000文档组成)中,p(智能)表示在这个语料库中出现“智能”的概率,比如是500篇,那么p(智能)为0.5,并且在这500篇文档中,“人工”这个词出现在“智能”左边,有100篇,则p(人工智能|智能)=0.2,同理可计算分词a的其他左边可能的词,最终得到分词a的词语左熵的值。
同理,计算每一个分词的词语右熵,计算公式如下:
其中,ER(a)表示分词a的右熵,表示对一个词语右边的词语出现的稳定性的度量。B表示分词a的右边所有可能的词语的集合,w表示词语a的右边某一个可能的词语,在这里,通过对分词a所有右边的词语计算信息熵,然后求和,最终得到分词a的词语右熵的值。
S40,根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类。
在本实施例中,通过上述方式可以计算得到每一个分词的相关性、词语点间互信息、词语左熵以及词语右熵,利用这4个指标值可以分析词语之间相关的语义信息以及词语共同出现的稳定性,从而从所有分词中提取所述文本的特征词,例如,将每个分词的相关性、词语点间互信息、词语左熵及右熵,分别进行比较,从中选取能够代表文本的特征词。
在本实施例的一种实现方式中,具体地,根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,计算每个所述分词的特征重要性指数;根据每个所述分词的特征重要性指数,获得所述文本的至少一个特征词。作为示例,可以分别将每个分词的4个指标值进行求和,计算得到的与每个分词对应的每个值则分别为每个分词的特征重要性指标,该特征重要性指标可以表示每个分词对于所述文本的重要程度。
优选地,根据每个所述分词的相关性、词语点间互信息、词语左熵、词语右熵以及预设的权值,计算每个所述分词的特征重要性指数。在本实施例中,一般情况下,每个指标值的重要性不一定相同,因此对于每一个指标都设定一个权值,例如,给相关性这个指标设定第一权值、给词语点间互信息这个指标设定第二权值、给词语左熵这个指标设定第三权值、给词语右熵这个指标设定第四权值,那么对于一个分词,其最终的特征重要性指数为:
I(a)=α1P(a)+α2PMI(a)+α3EL(a)+α4ER(a)
其中,α1、α2、α3、α4的值根据实际情况来决定。
在本实施例中,根据每个分词的特征重要性指数选取所述文本的特征词。例如,将每个分词的特征重要性指数进行降序排序,并提取排名前N个分词作为所述文本的特征词,例如所述N为5。
在本实施例的一种实现的方式中,具体地,将每个所述分词的特征重要性指数与预设的阈值进行对比,生成对比结果;根据所述对比结果,获得所述文本的至少特征词。作为示例,将每个分词的特征重要性指数与预设的阈值进行对比或比较,得到与每个分词对应的对比结果,可以根据对比结果判断每个分词的特征重要性指数是否大于所述阈值,并将所述特征重要性指数大于所述阈值的分词作为具有代表性的特征词,从而获取得到所述文本的所有特征词,由于所述特征词是具有代表性的,因此根据所述特征词可以有效且准确地对所述文本进行分类。
综上所述,对待分类的文本进行预处理,能够消除不利于识别特征词的低频次词语、高频词语、停用词等词语,降低了计算复杂度;在选取文本特征词的过程中综合运用了4个指标(相关性、词语点间互信息、词语左熵、词语右熵),这4个指标在某种程度上添加了词语之间相关的语义信息以及词语共同出现的稳定性,使得在对所述文本进行分类时提高了分类结果的准确性和稳定性,使得分类结果更具有合理性。
在本发明的另一个优选的实施例中,在步骤S40之后,还包括:根据每个所述分词的词向量,获得每个所述特征词的词向量;根据每个所述特征词的词向量,对所述文本进行分类,生成分类结果。
在本实施例中,在每个分词的词向量中可以提取与每个特征词对应的词向量,接着将每个特征词的词向量利用分类算法进行计算,通过特征词的向量空间信息与主题类别信息进行非线性映射,从而实现中文文本的分类,例如所述文本的所属类别为“体育类”。优选地,根据每个所述特征词的词向量,利用卷积神经网络对所述文本进行分类,生成分类结果。在本实施例中,事先进行训练得到一个基于CNN(Convolution Neural Network,卷积神经网络)分类器的文本分类模型,接着将每个特征词的词向量放进该模型中进行分类计算。作为示例,因为一个文本的特征词有若干个。这些特征词语组成的特征向量会是一个文章综合体。比如某一篇文本的特征词为:人工智能、大数据、云计算、语义识别、文本分类。在分类时,通过这些特征词的组合,识别出每一个类别或领域(假设领域为3个:人工智能、大数据、云计算)的概率,如所述文本为人工智能领域的概率0.6,所述文本为大数据领域的概率为0.2,所述文本为云计算领域的概率为0.2,最后通过排序,知道领域为人工智能的概率是最高的,最终认定人工智能这个领域是最有可能的,即该文本属于人工智能领域的。
通过上述方式,利用提取得到的具有代表性的每个特征词的词向量对所述文本进行分类,提高了分类结果的准确性和稳定性;利用卷积神经网络对所述文本进行分类,计算效果又快又好,除此之外,卷积神经网络引入“权值”共享原则,这样大大减少了神经网络运算的参数,降低了复杂度,提高了文本分类的速度。
请参阅图3,本发明第二实施例提供了一种提取文本特征词的装置,包括:
文本分词模块10,用于对待分类的文本中的词语进行划分,得到所述文本的至少一个分词;
词向量构建模块20,用于构建所述文本的每个分词的词向量;
词语指标计算模块30,用于根据每个所述分词、每个所述分词的词向量以及预设的语料库,计算每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵;
特征词提取模块40,用于根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类。
优选地,所述文本分词模块10具体为:
文本预处理单元,用于对待分类的文本利用结巴分词工具进行分词处理和消词处理,得到所述文本的至少一个分词。
优选地,所述特征词提取模块40具体为:
第一指标计算单元,用于根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,计算每个所述分词的特征重要性指数;
第一提取单元,用于根据每个所述分词的特征重要性指数,获得所述文本的至少一个特征词。
进一步地,所述第一指标计算单元具体为:
第二指标计算单元,用于根据每个所述分词的相关性、词语点间互信息、词语左熵、词语右熵以及预设的权值,计算每个所述分词的特征重要性指数。
优选地,所述第一提取单元具体为:
指标对比单元,用于将每个所述分词的特征重要性指数与预设的阈值进行对比,生成对比结果;
第二提取单元,用于根据所述对比结果,获得所述文本的至少一个特征词。
优选地,所述提取文本特征词的装置还包括:
词向量获取单元,用于根据每个所述分词的词向量,获得每个所述特征词的词向量;
第一分类单元,用于根据每个所述特征词的词向量,对所述文本进行分类,生成分类结果。
进一步地,所述第一分类单元具体为:
第二分类单元,用于根据每个所述特征词的词向量,利用卷积神经网络对所述文本进行分类,生成分类结果。
本发明第三实施例提供了一种具有提取文本特征词功能的终端设备。该实施例的终端设备包括:处理器、显示器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如提取文本特征词的程序。所述处理器执行所述计算机程序时实现上述各个提取文本特征词的方法的实施例中的步骤,例如图1所示的步骤S10。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各单元的功能,例如图3所示的文本分词模块10。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器、显示器。本领域技术人员可以理解,上述部件仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个所述终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种提取文本特征词的方法,其特征在于,包括:
对待分类的文本中的词语进行划分,得到所述文本的至少一个分词;
构建所述文本的每个分词的词向量;
根据每个所述分词、每个所述分词的词向量以及预设的语料库,计算每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵;
根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类。
2.根据权利要求1所述的提取文本特征词的方法,其特征在于,所述对待分类的文本中的词语进行划分,得到所述文本的至少一个分词具体为:
对待分类的文本利用结巴分词工具进行分词处理和消词处理,得到所述文本的至少一个分词。
3.根据权利要求1所述的提取文本特征词的方法,其特征在于,所述根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词具体为:
根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,计算每个所述分词的特征重要性指数;
根据每个所述分词的特征重要性指数,获得所述文本的至少一个特征词。
4.根据权利要求3所述的提取文本特征词的方法,其特征在于,所述根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,计算每个所述分词的特征重要性指数具体为:
根据每个所述分词的相关性、词语点间互信息、词语左熵、词语右熵以及预设的权值,计算每个所述分词的特征重要性指数。
5.根据权利要求3所述的提取文本特征词的方法,其特征在于,所述根据每个所述分词的特征重要性指数,获得所述文本的至少一个特征词具体为:
将每个所述分词的特征重要性指数与预设的阈值进行对比,生成对比结果;
根据所述对比结果,获得所述文本的至少一个特征词。
6.根据权利要求1所述的提取文本特征词的方法,其特征在于,在所述根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类之后还包括:
根据每个所述分词的词向量,获得每个所述特征词的词向量;
根据每个所述特征词的词向量,对所述文本进行分类,生成分类结果。
7.根据权利要求6所述的提取文本特征词的方法,其特征在于,所述根据每个所述特征词的词向量,对所述文本进行分类,生成分类结果具体为:
根据每个所述特征词的词向量,利用卷积神经网络对所述文本进行分类,生成分类结果。
8.一种提取文本特征词的装置,其特征在于,包括:
文本分词模块,用于对待分类的文本中的词语进行划分,得到所述文本的至少一个分词;
词向量构建模块,用于构建所述文本的每个分词的词向量;
词语指标计算模块,用于根据每个所述分词、每个所述分词的词向量以及预设的语料库,计算每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵;
特征词提取模块,用于根据每个所述分词的相关性、词语点间互信息、词语左熵以及词语右熵,获得所述文本的至少一个特征词,以使得可以根据每个所述特征词对所述文本进行分类。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的提取文本特征词的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的提取文本特征词的方法。
CN201810546745.6A 2018-05-30 2018-05-30 提取文本特征词的方法、装置、终端设备及存储介质 Pending CN108874921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810546745.6A CN108874921A (zh) 2018-05-30 2018-05-30 提取文本特征词的方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810546745.6A CN108874921A (zh) 2018-05-30 2018-05-30 提取文本特征词的方法、装置、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN108874921A true CN108874921A (zh) 2018-11-23

Family

ID=64336082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810546745.6A Pending CN108874921A (zh) 2018-05-30 2018-05-30 提取文本特征词的方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN108874921A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272262A (zh) * 2018-11-26 2019-01-25 广州努比互联网科技有限公司 一种自然语言特征的分析方法
CN110442861A (zh) * 2019-07-08 2019-11-12 万达信息股份有限公司 一种基于真实世界统计的中文专业术语与新词发现的方法
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及系统
CN110674635A (zh) * 2019-09-27 2020-01-10 北京妙笔智能科技有限公司 一种用于文本段落划分的方法和装置
CN110717021A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置
CN111062211A (zh) * 2019-12-27 2020-04-24 中国联合网络通信集团有限公司 信息提取方法、装置、电子设备及存储介质
CN111191446A (zh) * 2019-12-10 2020-05-22 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
CN111222328A (zh) * 2018-11-26 2020-06-02 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN112507088A (zh) * 2019-09-16 2021-03-16 顺丰科技有限公司 文本处理方法、装置、服务器及存储介质
CN112765975A (zh) * 2020-12-25 2021-05-07 北京百度网讯科技有限公司 分词岐义处理方法、装置、设备以及介质
CN112925903A (zh) * 2019-12-06 2021-06-08 农业农村部信息中心 文本分类的方法、装置、电子设备及介质
CN113343711A (zh) * 2021-06-29 2021-09-03 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113626605A (zh) * 2021-08-31 2021-11-09 中国平安财产保险股份有限公司 信息分类方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN106528527A (zh) * 2016-10-14 2017-03-22 深圳中兴网信科技有限公司 未登录词的识别方法及识别系统
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN108052500A (zh) * 2017-12-13 2018-05-18 北京数洋智慧科技有限公司 一种基于语义分析的文本关键信息提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN106528527A (zh) * 2016-10-14 2017-03-22 深圳中兴网信科技有限公司 未登录词的识别方法及识别系统
CN108052500A (zh) * 2017-12-13 2018-05-18 北京数洋智慧科技有限公司 一种基于语义分析的文本关键信息提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭利敏: "《基于卷积神经网络的文献自动分类研究》", 《图书与情报》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272262B (zh) * 2018-11-26 2022-04-01 广州努比互联网科技有限公司 一种自然语言特征的分析方法
CN111222328B (zh) * 2018-11-26 2023-06-16 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN111222328A (zh) * 2018-11-26 2020-06-02 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN109272262A (zh) * 2018-11-26 2019-01-25 广州努比互联网科技有限公司 一种自然语言特征的分析方法
CN110442861A (zh) * 2019-07-08 2019-11-12 万达信息股份有限公司 一种基于真实世界统计的中文专业术语与新词发现的方法
CN110442861B (zh) * 2019-07-08 2023-04-07 万达信息股份有限公司 一种基于真实世界统计的中文专业术语与新词发现的方法
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及系统
CN112507088A (zh) * 2019-09-16 2021-03-16 顺丰科技有限公司 文本处理方法、装置、服务器及存储介质
CN110717021A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置
CN110717021B (zh) * 2019-09-17 2023-08-29 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置
CN110674635A (zh) * 2019-09-27 2020-01-10 北京妙笔智能科技有限公司 一种用于文本段落划分的方法和装置
CN110674635B (zh) * 2019-09-27 2023-04-25 北京妙笔智能科技有限公司 一种用于文本段落划分的方法和装置
CN112925903A (zh) * 2019-12-06 2021-06-08 农业农村部信息中心 文本分类的方法、装置、电子设备及介质
CN112925903B (zh) * 2019-12-06 2024-03-29 农业农村部信息中心 文本分类的方法、装置、电子设备及介质
CN111191446B (zh) * 2019-12-10 2022-11-25 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
CN111191446A (zh) * 2019-12-10 2020-05-22 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
CN111062211A (zh) * 2019-12-27 2020-04-24 中国联合网络通信集团有限公司 信息提取方法、装置、电子设备及存储介质
CN112765975A (zh) * 2020-12-25 2021-05-07 北京百度网讯科技有限公司 分词岐义处理方法、装置、设备以及介质
CN112765975B (zh) * 2020-12-25 2023-08-04 北京百度网讯科技有限公司 分词岐义处理方法、装置、设备以及介质
CN113343711A (zh) * 2021-06-29 2021-09-03 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113343711B (zh) * 2021-06-29 2024-05-10 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113626605A (zh) * 2021-08-31 2021-11-09 中国平安财产保险股份有限公司 信息分类方法、装置、电子设备及可读存储介质
CN113626605B (zh) * 2021-08-31 2023-11-28 中国平安财产保险股份有限公司 信息分类方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN102193936B (zh) 一种数据分类的方法及装置
Sharma et al. Machine Learning based Spam E-Mail Detection.
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN103324628A (zh) 一种针对发布文本的行业分类方法和系统
CN110287328A (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN106156163B (zh) 文本分类方法以及装置
CN104881458A (zh) 一种网页主题的标注方法和装置
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN104298746A (zh) 一种基于短语网络图排序的领域文献关键词提取方法
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
Truşcă Efficiency of SVM classifier with Word2Vec and Doc2Vec models
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
Kaur Sentimental analysis of book reviews using unsupervised semantic orientation and supervised machine learning approaches
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN104346411B (zh) 对多个稿件进行聚类的方法和设备
CN104809229A (zh) 一种文本特征词提取方法及系统
CN110245226A (zh) 企业行业分类方法及其装置
US9792561B2 (en) Learning method, information conversion device, and recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123