CN108804617A - 领域术语抽取方法、装置、终端设备及存储介质 - Google Patents
领域术语抽取方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN108804617A CN108804617A CN201810546695.1A CN201810546695A CN108804617A CN 108804617 A CN108804617 A CN 108804617A CN 201810546695 A CN201810546695 A CN 201810546695A CN 108804617 A CN108804617 A CN 108804617A
- Authority
- CN
- China
- Prior art keywords
- words
- target signature
- word
- classification
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种领域文本抽取方法,包括:获取所述训练集的每个类别的至少一个分类词,生成相应于每个所述类别的第一特征词集合;对所述第一特征词集合进行合并、扩充,生成目标特征词集合;根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与每个所述目标特征词之间的内部结合紧密度,以及计算每个所述目标特征词相对于所述目标特征词集合中的每个所述目标特征词的左熵和右熵;根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语。本发明还公开了一种领域术语抽取的装置、终端设备及存储介质,可以解决特征词集合不能准确地表达特定学科领域的问题,提高了文本分类的准确性。
Description
技术领域
本发明涉及文本分类技术领域,尤其涉及一种的领域术语抽取方法、装置、终端设备及存储介质。
背景技术
文本分类问题算是自然语言处理领域中一个非常经典的问题,而从一定规模的语料中抽取出能反应某一领域文本特征或共性的词语,是文本分类的基础,也是自然语言处理中的一项重要任务。传统抽取特征词的方法一般采用常规的特征表示的方法从语料中提取对应的词语作为某领域的特征词或术语,例如利用卡方检验算法、互信息算法或文本频率法来提取特征词。
然而,发明人在实施本发明的过程中发现,卡方检验算法在存在类别交叉现象明显的文本分类中表现出高于其他算法的分类性能,但是由于卡方分类算法不考虑词频信息,因此过于倚重低频词,不利于文本特征的真实表示,同理,互信息也是由于没有考虑特征项的词频信息,出现同一倾向于选择低频词的特点。而文本频率法则过于关注词频信息,容易误删稀有词,从而导致提取得到的特征词集合不能准确地表达特定学科领域,降低了文本分类的准确性。
发明内容
针对上述问题,本发明的目的在于提供一种领域术语抽取方法、装置、终端设备以及存储介质,可以解决特征词集合不能准确地表达特定学科领域的问题,能够清楚地表示每个领域或类别的特征,提高了文本分类的准确性。
第一方面,本发明实施例提供了一种领域术语抽取方法,包括:
根据待处理的训练集中的文本,获取所述训练集的每个类别的至少一个分类词;其中,所述训练集包括至少一个类别;每个所述类别包括至少一篇文本;
根据每个所述类别的每个分类词,获得相应于每个所述类别的第一特征词集合;
将每个所述第一特征词集合进行合并,生成第二特征词集合;
根据每个所述类别的每篇文本,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词;
根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度;
根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词相对于所述目标特征词集合中的每个所述目标特征词的左熵和右熵;
根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语。
在第一方面的第一种实现方式中,所述根据每个所述类别的每个分类词,获得相应于每个所述类别的第一特征词集合具体为:
计算每个所述类别的每个分类词的卡方值;
根据每个所述卡方值,获得每个所述类别的至少一个第一特征词,并生成相应于每个所述类别的第一特征词集合。
在第一方面的第二种实现方式中,所述第二特征词集合包括至少一个第二特征词;则所述根据每个所述类别的每篇文本,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词具体为:
获取每个所述类别中的每篇文本的至少一个分词,并构建每个所述分词的词向量以及每个所述第二特征词的词向量;
根据所述词向量,计算每个所述第二特征词与每个所述分词之间的相似性;
根据每个所述相似性,获取与每个所述第二特征词相似的预定数量的第一分词;
根据所述第一分词,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词。
在第一方面的第三种实现方式中,在所述根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度之前,还包括:
构建所述目标特征词集合中的每个所述目标特征词的词向量;
则所述根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度具体为:
根据所述目标特征词集合以及每个所述目标特征词的词向量,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的相关性;
根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的点间互信息;
根据每个所述相关性以及每个所述点间互信息,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度。
在第一方面的第四种实现方式中,所述根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语具体为:
根据每个所述内部结合紧密度计算阈值;
根据所述内部结合紧密度以及所述阈值,获得能够结合成术语的至少两个第一目标特征词;
根据所述第一目标特征词,所述左熵以及所述右熵,生成至少一个术语;
根据每个所述术语以及与每个所述术语对应的内部结合紧密度,得到每个所述类别的术语。
在第一方面的第五种实现方式中,在所述根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语之后,还包括:
根据所述目标特征词集合以及每个所述类别的术语,获得每个所述类别的特征表示词;
根据每个所述类别的特征表示词,利用卷积神经网络对待分类的文本进行分类。
第二方面,本发明实施例还提供了一种领域术语抽取的装置,包括:
分类词获取模块,用于根据待处理的训练集中的文档文本,获取所述训练集的每个类别的至少一个分类词;其中,所述训练集包括至少一个类别;每个所述类别包括至少一篇文档文本;
第一集合生成模块,用于根据每个所述类别的每个分类词,获得相应于每个所述类别的第一特征词集合;
第二集合生成模块,用于将每个所述第一特征词集合进行合并,生成第二特征词集合;
目标集合生成模块,用于根据每个所述类别的每篇文档文本,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词;
紧密度计算模块,用于根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度;
信息熵计算模块,用于根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词相对于所述目标特征词集合中的每个所述目标特征词的左熵和右熵;
术语抽取模块,用于根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语。
在第二方面的第一种实现方式中,还包括:
特征表示词获取模块,用于根据所述目标特征词集合以及每个所述类别的术语,获得每个所述类别的特征表示词;
文本分类模块,用于根据每个所述类别的特征表示词,利用卷积神经网络对待分类的文本进行分类。
第三方面,本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的领域术语抽取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的领域术语抽取方法。
上述技术方案中的一个技术方案具有如下优点:对特征词集合进行扩充,构成候选术语网络,提高了术语抽取的准确性和效率;计算特征词之间的内部结合紧密度,考虑了词语之间的语义关联关系;采用词语的左熵或右熵规则,并按照特征词内部结合紧密度进行术语的抽取,能够更有效表达文本的主题,提高文本分类的精度,成本低,摒弃过去人工定义的方式进行一对一的领域术语抽取。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的领域术语抽取方法的流程示意图。
图2是本发明第二实施例提供的领域术语抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种领域术语抽取方法,其可以在终端设备上执行,并包括以下步骤:
S10,根据待处理的训练集中的文本,获取所述训练集的每个类别的至少一个分类词;其中,所述训练集包括至少一个类别;每个所述类别包括至少一篇文本。
在本实施例中,在本实施例中,所述终端设备设备可以为手机、笔记本电脑、PDA(个人数字助理)或PAD(平板电脑)等移动终端,也可以为数字TV、台式计算机或服务器等等固定终端。在本实施例中,待处理的训练集中包含了至少一个领域或类别,例如体育类、文学类、科技类等等,在每个领域或类别中都包含有至少一篇文本,在这里,对所述训练集中的每篇文章进行分词,提取所述每篇文章的主题特征词作为分类词,从而得到相应于每个类别的所有分类词。
S20,根据每个所述类别的每个分类词,获得相应于每个所述类别的第一特征词集合。
在本实施例中,从每个类别中的所有分类词中选取一定数量的具有代表性的分类词作为对应的每个类别的特征词,生成每个类别的第一特征词集合,例如可以计算每个分类词的出现频率来选取特征词等等。
在本实施例的一种实现方式中,具体地,计算每个所述类别的每个分类词的卡方值;根据每个所述卡方值,获得每个所述类别的至少一个第一特征词,并生成相应于每个所述类别的第一特征词集合。在本实施例中,利用卡方检验(chi-square test,CHI)的方法来计算每一个类别中的每一个分类词的CHI值(卡方值),计算公式如下:
其中,A表示某一个类别包含该特征词t的文本总数量;B表示在某一个类别中,排除该类别后其他类别包含该特征词t的文本的数量;C表示某一个类别不包含该特征词t的文本总数量;D表示在某一个类别中,排除该类别后其他类别也不包含该特征词t的文本的数量。从上述公式可知,χ2(t,c)=0时,表示该特征词t不包含与文本类别相关的鉴别信息,反之亦然。因此,借助卡方检验可以选出若干个与文本类别有最强相关性的特征项(即第一特征词)。在本实施例中,可以将计算得到的每个类别的每个分类词的CHI值进行排序,选取排名前N(例如N可以为5)的分类词作为对应的每个类别的第一特征词,从而生成每个类别的第一特征词集合。
S30,将每个所述第一特征词集合进行合并,生成第二特征词集合。
在本实施例中,将每个第一特征词集合中的元素进行合并,来生成一个总的特征词集合,作为示例,假设类别总数为D,类别编号为i,每个类别中包含有N个第一特征词,则wij表示类别i的第j个第一特征词,因此类别i的第一特征词集合为{wi1,wi2,…,wiN};将所有类别的所有第一特征词进行合并,即{w11,w12,…,w1N}∪{w21,w22,…,w2N}∪…∪{wD1,wD2,…,wDN},得到合并后的第二特征词集合W={w1,w2,…,wd},其中d是合并后的维数,根据实际的情况决定,在这里,所述类别总数D以及每个类别中包含的第一特征词的个数N均根据实际情况来决定,例如D为5,N为10。
S40,根据每个所述类别的每篇文本,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词。
在本实施例中,考虑到词语之间的存在同义词、近义词等关系,因此需要根据实际情况对所述第二特征词集合进行扩充,例如,从每个类别中的文章进行分词后的所有词语中提取相似的词语来对所述第二特征词集合进行扩充。
具体地,获取每个所述类别中的每篇文本的至少一个分词,并构建每个所述分词的词向量以及每个所述第二特征词的词向量;根据所述词向量,计算每个所述第二特征词与每个所述分词之间的相似性;根据每个所述相似性,获取与每个所述第二特征词相似的预定数量的第一分词;根据所述第一分词,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词。
作为示例,对每个类别中的每篇文本进行分词得到所有分词,利用word2vec工具训练所有分词的词向量以及所有第二特征词的词向量,例如利用word2vec工具来构建每个分词或第二特征词的128维词向量。接着,根据构建得到的词向量,利用相似性算法(例如余弦相似性)来计算第二特征词集合(即W={w1,w2,…,wd})中每一个第二特征词与每一个分词的相似性,并将与每一个第二特征词最相似的M个词语加进原有的第二特征词集合中,得到目标特征词集合:
其中,所述getnearest(wi,M)是利用余弦相似度计算的与每个第二特征词最相似的M个分词,在这里,M可以根据实际情况决定,例如M为3。
S50,根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度。
在本实施例中,以扩充后的目标特征词集合为基础,构造候选术语网络,以词语间词汇信息特征、词语相关性、词语互信息等词语紧密度特征,来计算得到两两目标特征词之间内部结合的紧密度,例如,所述目标特征词集合中包含a和b两个目标特征词,因此可以通过计算目标特征词a与目标特征词b在每一个类别中的相关性,根据所述相关性来获得这两个目标特征词之间的内部结合紧密度。
在本实施例的一种实现方式中,在计算所述内部结合紧密度之前,还包括:构建所述目标特征词集合中的每个所述目标特征词的词向量;因此,具体地,根据所述目标特征词集合以及每个所述目标特征词的词向量,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的相关性;根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的点间互信息;根据每个所述相关性以及每个所述点间互信息,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度。
作为示例,利用word2vec工具训练所有目标特征词的词向量,当然根据上述每个分词的词向量和每个第二特征词的词向量直接获取每个目标特征词的词向量。接着,根据每个目标特征词的词向量计算每个目标特征词在每个类别中与任意一个目标特征词之间的相关性,计算公式如下:
其中,a∈w,b∈w,w表示经过扩充得到的目标特征词集合。R(a,b)表示在某一个类别内,词语a与特征词语集合中任意一个特征词的相关性;a表示词语a的向量,b表示词语b的向量。如果特征词a的相关性与特征词b的相关性越高,那么两者的组合越有可能是某类别中的术语,即根据特征词a和b的源特征词集合,此术语也肯定就是属于这一领域,即某一类文章的特征表示。
接着,根据训练集中每个类别的文档或文本来计算每个目标特征词与任意一个特征词的点间互信息,计算公式如下:
其中,a∈w,b∈w,w表示经过扩充得到的目标特征词语集合。PMI(a,b)表示特征词a与特征词语集合中任意一个特征词的点间互信息,P(a&b)表示两个特征词语a与b在某类别共同出现的概率,即a与b共同出现在某类别中的文档数,P(a)与P(b)分别表示两个特征词单独出现的概率,即词语a或者b出现在某一类别的的文档数。若两个词语在某类别中共现概率越大,表明其关联度越大;反之,关联度越小。P(a&b)与P(a)P(b)的比值是词语a与词语b两个词语的统计独立性度量。
接着,结合上述计算得到的相关性以及点间互信息,得出扩充后的目标特征词集合的每一个目标特征词在每一个类别中与其他目标特征词的内部结合紧密度:
I(a,b)=α1P(a,b)+α2PMI(a,b)
在这里,采用加权平均的方式进行计算,其中,α1和α2的值根据实际决定,例如α1=α2=0.25。其中,a∈w,b∈w,w表示经过扩充得到的目标特征词语集合。
S60,根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词相对于所述目标特征词集合中的每个所述目标特征词的左熵和右熵。
在本实施例中,在计算得到词汇内部结合的紧密度后,还要结合词语间的位置关系进行词语的合并形成相关领域候选的术语,通过计算每个目标特征词左边或右边可能出现的词语的稳定性度量(即左熵和右熵),来获取词语之间的位置关系。
作为示例,根据所述训练集中的文档来计算每一个目标特征词的左边可能出现的任意一个目标特征词的左熵,计算公式如下:
EL(a,b)=-P(ba|a)log2P(ba|a)
其中,b∈w,w表示经过扩充得到的目标特征词集合。EL(a,b)表示词语a相对于词语b的左熵,表示对特征词a左边的词语b出现的稳定性的度量。作为示例,假设目标特征词a为“智能”,特征词a的某一个左边的词为“人工”,那么在所述训练集(比如有1000文档组成)中,p(智能)表示在这个语料库中出现“智能”的概率,比如是500篇,那么p(智能)为0.5,并且在这500篇文档中,“人工”这个词出现在“智能”左边,有100篇,则p(人工智能|智能)=0.2,因此可以得到在左边词语为“人工”的情况下,“智能”的左熵值。
同理,计算每一个目标特征词的右边可能出现的任意一个目标特征词的右熵,计算公式如下:
ER(a,b)=-P(ab|a)log2P(ab|a)
其中,b∈w,w表示经过扩充得到的目标特征词集合。EL(a,b)表示词语a相对于词语b的右熵,表示对特征词a右边的词语b出现的稳定性的度量。
S70,根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语。
在本实施例中,需要根据所述内部结合紧密度判断哪些词语能够结合成术语,在这里,可以预先设定一个阈值,将每个所述内部结合紧密度与所述阈值进行比较,例如,假设目标特征词a和目标特征词b在某个类别中的内部结合紧密度小于预设的阈值,则认为目标特征词a和目标特征词b不能合并成该类别的术语,反之,则认为目标特征词a和目标特征词b能够结合成该类别的术语。若目标特征词a与目标特征词b能够结合成术语,则判断目标特征词相对于目标特征词b的左熵和右熵中哪一个信息熵比较大,从而得到这两个目标特征词的位置关系,在这里,经过词语之间的内部紧密度筛选后,满足条件的词语将会形成候选术语集合,根据左熵和右熵的定义,确定术语的组合,接着将每一个术语通过回归计算,成为对应的类别中的术语。
综上所述,采用基于词向量和卡方检验相结合的算法来选取具有表征类别能力的特征词,对特征词集合进行扩充,构成候选术语网络,提高了术语抽取的准确性和效率;根据特征词之间的位置关系、词汇信息特征计算特征词之间的内部结合紧密度,考虑了词语之间的语义关联关系;采用词语的左熵或右熵规则,并按照特征词内部结合紧密度进行术语的抽取,能够更有效表达文本的主题,提高文本分类的精度,成本低,摒弃过去人工定义的方式进行一对一的领域术语抽取,并且词语的向量通过数值表示,算法简单,复杂度较低。
在本发明的另一个优选地实施例中,所述步骤S70具体为:根据每个所述内部结合紧密度计算阈值;根据所述内部结合紧密度以及所述阈值,获得能够结合成术语的至少两个第一目标特征词;根据所述第一目标特征词,所述左熵以及所述右熵,生成至少一个术语;根据每个所述术语以及与每个所述术语对应的内部结合紧密度,得到每个所述类别的术语。
在本实施例中,术语抽取的阈值可参考Farkas的派系强度函数公式计算得出,计算公式如下:
其中,w为经过扩充得到的目标特征词集合,d表示目标特征词集合中元素的个数,即目标特征词的数量,I(a,b)为目标特征词a与目标特征词b在某一个类别中的内部结合紧密度。作为示例,假设某个内部结合紧密度小于该阈值,则认为与该内部结合紧密度对应的两个目标特征词在某一个类别中不能合并成该类别的术语;反之,则认为这两个目标特征词能够结合成该类别的术语,例如,能够结合成该类别的术语的两个目标特征词为a与b,则根据对应的左熵及右熵,判断这两个目标特征词的位置关系,从而生成对应的术语,通过计算分析,可以得到所有术语的集合,接着将每一个术语通过回归计算,即根据相关的内部结合紧密度对应的类别来判断每一个术语所属的类别,最终可以得到每一个类别中的术语。
通过上述方式,根据所有内部结合紧密度计算得到阈值,可以综合考虑各个数据之间的差异性,而不是采用传统的经验法判定,提高了领域术语抽取的准确性;并且利用回归计算得到每个术语所属的类别,提高了处理效率。
本发明的另一个优选的实施例中,在所述步骤S70之后,还包括:根据所述目标特征词集合以及每个所述类别的术语,获得每个所述类别的特征表示词;根据每个所述类别的特征表示词,利用卷积神经网络对待分类的文本进行分类。
在本实施例中,通过术语的抽取和目标特征词集合中的所有目标特征词,来获得特定学科领域的特征表示,具体地,在所述目标特征词集合中提取无法组合成术语的目标特征词,并确定每个无法组合成术语的目标特征词所属的类别,接着,以特征词(无法组成术语的目标特征词)+术语的形式,得到能够代表每个领域或类别的特征表示词,以用于对待分类的文本进行分类。
在本实施例中,考虑了术语形成原理以及术语的词向量特征,利用每个类别的特征表示词,采用卷积神经网络对待分类的文本进行分类,其中,卷积神经网络中卷积层包括三个部分:卷积,池化,非线性激活函数层(tanh或者sigmoid)。卷积层通常来说是用来提取特征词向量的空间特征,然后使用平均池化进行下采样,最后通过多层神经网络(Multi-layer Perceptron,MLP)最为最后的分类器对本文的特征词向量进行分类。卷积神经网络的优点是层与层之间采用稀疏连接矩阵来保证神经网络的运算速度。其实卷积神经网络的系属性特点主要是用于激活层,它一般取max(0,x),在神经网络迭代计算的过程中,实际上变成它在不断试探如何用一个大多数为0的矩阵来表达输入数据特征,结果因为稀疏特性的存在,使得计算效果又快又好。除此之外,卷积神经网络引入“权值”共享原则,这样大大减少了神经网络运算的参数,降低了复杂度。
通过上述方式,通过术语抽取,以特征词(无法组成术语的特征词)+术语,形成特定学科领域内能够反映文本表示的特征词抽取方法,能够更有效表达每类文本的主题,提高分类的精度;利用卷积神经网络对文本进行分类,提高了分类的速率,降低了复杂度。
请参阅图2,本发明第二实施例还提供了一种领域术语抽取的装置,包括:
分类词获取模块10,用于根据待处理的训练集中的文档文本,获取所述训练集的每个类别的至少一个分类词;其中,所述训练集包括至少一个类别;每个所述类别包括至少一篇文档文本;
第一集合生成模块20,用于根据每个所述类别的每个分类词,获得相应于每个所述类别的第一特征词集合;
第二集合生成模块30,用于将每个所述第一特征词集合进行合并,生成第二特征词集合;
目标集合生成模块40,用于根据每个所述类别的每篇文档文本,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词;
紧密度计算模块50,用于根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度;
信息熵计算模块60,用于根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词相对于所述目标特征词集合中的每个所述目标特征词的左熵和右熵;
术语抽取模块70,用于根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语。
优选地,所述第一集合生成模块20具体为:
卡方值计算单元,用于计算每个所述类别的每个分类词的卡方值;
第一集合获取单元,用于根据每个所述卡方值,获得每个所述类别的至少一个第一特征词,并生成相应于每个所述类别的第一特征词集合。
优选地,所述第二特征词集合包括至少一个第二特征词;则所述目标集合生成模块40具体为:
第一词向量构建单元,用于获取每个所述类别中的每篇文本的至少一个分词,并构建每个所述分词的词向量以及每个所述第二特征词的词向量;
相似性计算单元,用于根据所述词向量,计算每个所述第二特征词与每个所述分词之间的相似性;
第一分词获取单元,用于根据每个所述相似性,获取与每个所述第二特征词相似的预定数量的第一分词;
特征词集合扩充单元,用于根据所述第一分词,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词。
优选地,所述领域术语抽取的装置还包括:
第二词向量构建单元,用于构建所述目标特征词集合中的每个所述目标特征词的词向量;
则所述紧密度计算模块50具体为:
词语相关性计算单元,用于根据所述目标特征词集合以及每个所述目标特征词的词向量,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的相关性;
词语互信息计算单元,用于根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的点间互信息;
词语紧密度计算单元,用于根据每个所述相关性以及每个所述点间互信息,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度。
优选地,所述术语抽取模块70具体为:
阈值计算单元,用于根据每个所述内部结合紧密度计算阈值;
术语判断单元,用于根据所述内部结合紧密度以及所述阈值,获得能够结合成术语的至少两个第一目标特征词;
术语生成单元,用于根据所述第一目标特征词,所述左熵以及所述右熵,生成至少一个术语;
术语分类单元,用于根据每个所述术语以及与每个所述术语对应的内部结合紧密度,得到每个所述类别的术语。
优选地,所述领域术语抽取的装置还包括:
特征表示词获取模块,用于根据所述目标特征词集合以及每个所述类别的术语,获得每个所述类别的特征表示词;
文本分类模块,用于根据每个所述类别的特征表示词,利用卷积神经网络对待分类的文本进行分类。
本发明第三实施例提供了一种具有领域术语抽取功能的终端设备。该实施例的终端设备包括:处理器、显示器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如领域术语抽取的程序。所述处理器执行所述计算机程序时实现上述各个领域术语抽取的方法的实施例中的步骤,例如图1所示的步骤S10。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各单元的功能,例如图2所示的分类词获取模块10。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器、显示器。本领域技术人员可以理解,上述部件仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个所述终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种领域术语抽取方法,其特征在于,包括:
根据待处理的训练集中的文本,获取所述训练集的每个类别的至少一个分类词;其中,所述训练集包括至少一个类别;每个所述类别包括至少一篇文本;
根据每个所述类别的每个分类词,获得相应于每个所述类别的第一特征词集合;
将每个所述第一特征词集合进行合并,生成第二特征词集合;
根据每个所述类别的每篇文本,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词;
根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度;
根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词相对于所述目标特征词集合中的每个所述目标特征词的左熵和右熵;
根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语。
2.根据权利要求1所述的领域术语抽取方法,其特征在于,所述根据每个所述类别的每个分类词,获得相应于每个所述类别的第一特征词集合具体为:
计算每个所述类别的每个分类词的卡方值;
根据每个所述卡方值,获得每个所述类别的至少一个第一特征词,并生成相应于每个所述类别的第一特征词集合。
3.根据权利要求1所述的领域术语抽取方法,其特征在于,所述第二特征词集合包括至少一个第二特征词;则所述根据每个所述类别的每篇文本,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词具体为:
获取每个所述类别中的每篇文本的至少一个分词,并构建每个所述分词的词向量以及每个所述第二特征词的词向量;
根据所述词向量,计算每个所述第二特征词与每个所述分词之间的相似性;
根据每个所述相似性,获取与每个所述第二特征词相似的预定数量的第一分词;
根据所述第一分词,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词。
4.根据权利要求1所述的领域术语抽取方法,其特征在于,在所述根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度之前,还包括:
构建所述目标特征词集合中的每个所述目标特征词的词向量;
则所述根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度具体为:
根据所述目标特征词集合以及每个所述目标特征词的词向量,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的相关性;
根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的点间互信息;
根据每个所述相关性以及每个所述点间互信息,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度。
5.根据权利要求1所述的领域术语抽取方法,其特征在于,所述根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语具体为:
根据每个所述内部结合紧密度计算阈值;
根据所述内部结合紧密度以及所述阈值,获得能够结合成术语的至少两个第一目标特征词;
根据所述第一目标特征词,所述左熵以及所述右熵,生成至少一个术语;
根据每个所述术语以及与每个所述术语对应的内部结合紧密度,得到每个所述类别的术语。
6.根据权利要求1所述的领域术语抽取方法,其特征在于,在所述根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语之后,还包括:
根据所述目标特征词集合以及每个所述类别的术语,获得每个所述类别的特征表示词;
根据每个所述类别的特征表示词,利用卷积神经网络对待分类的文本进行分类。
7.一种领域术语抽取的装置,其特征在于,包括:
分类词获取模块,用于根据待处理的训练集中的文档文本,获取所述训练集的每个类别的至少一个分类词;其中,所述训练集包括至少一个类别;每个所述类别包括至少一篇文档文本;
第一集合生成模块,用于根据每个所述类别的每个分类词,获得相应于每个所述类别的第一特征词集合;
第二集合生成模块,用于将每个所述第一特征词集合进行合并,生成第二特征词集合;
目标集合生成模块,用于根据每个所述类别的每篇文档文本,对所述第二特征词集合进行扩充,生成目标特征词集合;其中,所述目标特征词集合包括至少两个目标特征词;
紧密度计算模块,用于根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词在每个所述类别中与所述目标特征词集合中的每个所述目标特征词之间的内部结合紧密度;
信息熵计算模块,用于根据所述目标特征词集合以及所述训练集,计算每个所述目标特征词相对于所述目标特征词集合中的每个所述目标特征词的左熵和右熵;
术语抽取模块,用于根据所述内部结合紧密度、所述左熵以及所述右熵,得到每个所述类别的术语。
8.根据权利要求7所述的领域术语抽取的装置,其特征在于,还包括:
特征表示词获取模块,用于根据所述目标特征词集合以及每个所述类别的术语,获得每个所述类别的特征表示词;
文本分类模块,用于根据每个所述类别的特征表示词,利用卷积神经网络对待分类的文本进行分类。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的领域术语抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的领域术语抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810546695.1A CN108804617B (zh) | 2018-05-30 | 2018-05-30 | 领域术语抽取方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810546695.1A CN108804617B (zh) | 2018-05-30 | 2018-05-30 | 领域术语抽取方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804617A true CN108804617A (zh) | 2018-11-13 |
CN108804617B CN108804617B (zh) | 2021-08-10 |
Family
ID=64089622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810546695.1A Active CN108804617B (zh) | 2018-05-30 | 2018-05-30 | 领域术语抽取方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804617B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885831A (zh) * | 2019-01-30 | 2019-06-14 | 广州杰赛科技股份有限公司 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
CN110134767A (zh) * | 2019-05-10 | 2019-08-16 | 云知声(上海)智能科技有限公司 | 一种词汇表的筛选方法 |
CN110210028A (zh) * | 2019-05-30 | 2019-09-06 | 杭州远传新业科技有限公司 | 针对语音转译文本的领域特征词提取方法、装置、设备及介质 |
CN111222328A (zh) * | 2018-11-26 | 2020-06-02 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
CN111368094A (zh) * | 2020-02-27 | 2020-07-03 | 沈阳东软熙康医疗系统有限公司 | 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 |
WO2021042511A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157656A1 (en) * | 2005-10-27 | 2009-06-18 | Libo Chen | Automatic, computer-based similarity calculation system for quantifying the similarity of text expressions |
CN104572622A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种术语的筛选方法 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
-
2018
- 2018-05-30 CN CN201810546695.1A patent/CN108804617B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157656A1 (en) * | 2005-10-27 | 2009-06-18 | Libo Chen | Automatic, computer-based similarity calculation system for quantifying the similarity of text expressions |
CN104572622A (zh) * | 2015-01-05 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种术语的筛选方法 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
Non-Patent Citations (1)
Title |
---|
YANJUN: "使用libsvm实现文本分类", 《HTTP://SHIYANJUN.CN/ARCHIVES/548.HTML》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222328A (zh) * | 2018-11-26 | 2020-06-02 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
CN111222328B (zh) * | 2018-11-26 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
CN109885831A (zh) * | 2019-01-30 | 2019-06-14 | 广州杰赛科技股份有限公司 | 关键术语抽取方法、装置、设备及计算机可读存储介质 |
CN110134767A (zh) * | 2019-05-10 | 2019-08-16 | 云知声(上海)智能科技有限公司 | 一种词汇表的筛选方法 |
CN110134767B (zh) * | 2019-05-10 | 2021-07-23 | 云知声(上海)智能科技有限公司 | 一种词汇表的筛选方法 |
CN110210028A (zh) * | 2019-05-30 | 2019-09-06 | 杭州远传新业科技有限公司 | 针对语音转译文本的领域特征词提取方法、装置、设备及介质 |
CN110210028B (zh) * | 2019-05-30 | 2023-04-28 | 杭州远传新业科技股份有限公司 | 针对语音转译文本的领域特征词提取方法、装置、设备及介质 |
WO2021042511A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
CN111368094A (zh) * | 2020-02-27 | 2020-07-03 | 沈阳东软熙康医疗系统有限公司 | 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 |
CN111368094B (zh) * | 2020-02-27 | 2024-03-26 | 沈阳东软熙康医疗系统有限公司 | 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108804617B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804617A (zh) | 领域术语抽取方法、装置、终端设备及存储介质 | |
Al Amrani et al. | Random forest and support vector machine based hybrid approach to sentiment analysis | |
Struharik | Implementing decision trees in hardware | |
CN111931002B (zh) | 一种匹配方法以及相关设备 | |
CN109522945A (zh) | 一种群体情感识别方法、装置、智能设备及存储介质 | |
Gupta et al. | Authorship identification using recurrent neural networks | |
Kurniawati et al. | Hybrid method of information gain and particle swarm optimization for selection of features of SVM-based sentiment analysis | |
CN112380453A (zh) | 物品推荐方法、装置、存储介质及设备 | |
Ibrahim | Forecasting the early market movement in bitcoin using twitter's sentiment analysis: An ensemble-based prediction model | |
Das et al. | Group incremental adaptive clustering based on neural network and rough set theory for crime report categorization | |
Yang et al. | Adaptive initialization method for K-means algorithm | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
Kalaivani et al. | Predicting the price range of mobile phones using machine learning techniques | |
Cang et al. | Feature ranking and best feature subset using mutual information | |
Agustina et al. | The Implementation of TF-IDF and Word2Vec on Booster Vaccine Sentiment Analysis Using Support Vector Machine Algorithm | |
Anuradha et al. | Feature Extraction and Representation Learning via Deep Neural Network | |
US11803575B2 (en) | Apparatus, system, and method for classifying and neutralizing bias in an application | |
Yan et al. | Unsupervised deep clustering for fashion images | |
Ávila-Jiménez et al. | Evolving multi-label classification rules with gene expression programming: a preliminary study | |
Patel | Detection of Maliciously Authored News Articles | |
Yang et al. | Detecting local opinion leader in semantic social networks: a community-based approach | |
CN113988718A (zh) | 一种风险识别方法、装置及设备 | |
Du Nguyen et al. | An improvement of the two-stage consensus-based approach for determining the knowledge of a collective | |
Lim et al. | Order constraints in optimal transport | |
Zhao et al. | Model-based feature selection for neural networks: A mixed-integer programming approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |