CN111506726A - 基于词性编码的短文本聚类方法、装置及计算机设备 - Google Patents
基于词性编码的短文本聚类方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN111506726A CN111506726A CN202010190439.0A CN202010190439A CN111506726A CN 111506726 A CN111506726 A CN 111506726A CN 202010190439 A CN202010190439 A CN 202010190439A CN 111506726 A CN111506726 A CN 111506726A
- Authority
- CN
- China
- Prior art keywords
- short text
- keyword
- target
- speech
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于词性编码的短文本聚类方法、装置及计算机设备,涉及计算机技术领域,可以解决在对短文本进行聚类划分时,存在编码向量维度过高且较为稀疏,或编码向量存在信息损失的问题。其中方法包括:对预处理后的目标短文本进行切词,获取得到各个关键词;确定各个所述关键词对应的目标词性;依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;根据所述编码表达向量对各个所述目标短文本进行聚类划分。本申请适用于对短文本的聚类划分。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及到一种基于词性编码的短文本聚类方法、装置及计算机设备。
背景技术
随着电子设备的广泛使用,在不同领域的沟通与通信产生的自然语言文本数据呈指数级上涨,而当前计算机或人工方式处理指数级上涨的非结构化自然语言文本对计算机算力与算法处理提出了更高的要求。
文本聚类是计算机自然语言处理中的一个重要研究方向,近年来受到不同领域的广泛关注,也是处理大量非结构化文本的一个重要解决方案。其任务是通过将不同语言的文本进行编码得到向量表示,再计算文本对应的向量表示之间的相似度将相似度较近的文本归为一类,反之归为不同类。
而文本聚类中的文本编码对最终的聚类结果起到了决定性的影响,因为不同的编码方式得到文本间相似度不同。常见的文本编码方法主要是根据文本中的关键词建立词袋或组合文本中关键词词向量的方式进行编码,前者得到的编码向量维度过高且较为稀疏,而后者得到的编码向量有严重的不可解释性与信息损失等不同问题。
发明内容
有鉴于此,本申请提供了一种基于词性编码的短文本聚类方法、装置及计算机设备,主要解决在对短文本进行聚类划分时,存在编码向量维度过高且较为稀疏,或编码向量存在信息损失的问题。
根据本申请的一个方面,提供了一种基于词性编码的短文本聚类方法,该方法包括:
对预处理后的目标短文本进行切词,获取得到各个关键词;
确定各个所述关键词对应的目标词性;
依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;
根据所述编码表达向量对各个所述目标短文本进行聚类划分。
可选地,在所述对预处理后的目标短文本进行切词,获取得到各个关键词之前,具体还包括:
对目标短文本进行预处理;
所述对目标短文本进行预处理,具体包括:
滤除目标短文本中的特殊字符;
将所述目标短文本中的大写英文字母替换为小写字母;
对符合预设条件的字符组合进行加密处理或替换为预设字符。
可选地,所述对预处理后的目标短文本进行切词,获取得到各个关键词,具体包括:
依据关键词词典对所述目标短文本进行正则匹配,将匹配到的词切分为第一关键词;
将剩余未匹配到的词确定为第二关键词,并将所述第二关键词作为新词更新至所述关键词词典中。
可选地,所述对预处理后的目标短文本进行切词,获取得到各个关键词,具体还包括:
依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;
获取所述目标短文本的观察状态序列;
根据所述观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
可选地,所述确定各个所述关键词对应的目标词性,具体包括:
在关键词词性表中确定各个关键词对应的关键词词性;或
将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
可选地,所述依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量,具体包括:
将所述目标词性以及所述关键词在文本中的排列顺序确定为聚类编码特征;
基于所述聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
可选地,所述根据所述编码表达向量对各个所述目标短文本进行聚类划分,具体包括:
训练搭建符合预设标准的短文本聚类模型;
将各个所述目标短文本对应的编码表达向量输入所述短文本聚类模型中,获取得到所述目标短文本两两之间的目标距离;
依据所述预设距离判定规则对所述目标距离进行类别划分,以便获取得到所述目标短文本的聚类划分结果。
根据本申请的另一个方面,提供了一种基于词性编码的短文本聚类装置,该装置包括:
获取模块,用于对预处理后的目标短文本进行切词,获取得到各个关键词;
确定模块,用于确定各个所述关键词对应的目标词性;
计算模块,用于依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;
划分模块,用于根据所述编码表达向量对各个所述目标短文本进行聚类划分。
可选地,所述装置还包括:处理模块;
所述处理模块,用于滤除目标短文本中的特殊字符;
将所述目标短文本中的大写英文字母替换为小写字母;
对符合预设条件的字符组合进行加密处理或替换为预设字符。
可选地,所述获取模块,具体用于依据关键词词典对所述目标短文本进行正则匹配,将匹配到的词切分为第一关键词;
将剩余未匹配到的词确定为第二关键词,并将所述第二关键词作为新词更新至所述关键词词典中。
可选地,所述获取模块,具体还用于依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;
获取所述目标短文本的观察状态序列;
根据所述观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
可选地,所述确定模块,具体用于在关键词词性表中确定各个关键词对应的关键词词性;或
将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
可选地,所述计算模块,具体用于将所述目标词性以及所述关键词在文本中的排列顺序确定为聚类编码特征;
基于所述聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
可选地,所述划分模块,具体用于训练搭建符合预设标准的短文本聚类模型;
将各个所述目标短文本对应的编码表达向量输入所述短文本聚类模型中,获取得到所述目标短文本两两之间的目标距离;
依据所述预设距离判定规则对所述目标距离进行类别划分,以便获取得到所述目标短文本的聚类划分结果。
根据本申请的另一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于词性编码的短文本聚类方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于词性编码的短文本聚类方法。
借由上述技术方案,本申请提供的一种基于词性编码的短文本聚类方法、装置及计算机设备,与目前短文本聚类方法相比,本申请提供一种基于词性编码的短文本纠错方法,该方法通过编码句子关键词词性以及所对应词性顺序作为短文本的编码特征,依据编码特征计算短文本的编码表达向量,并利用编码表达向量对短文本进行聚类划分,还可随着关键词词典大小增加而增加相应特征,从而降低句子编码向量维度与稀疏度,减少系统与人工对同类型的数据的重复处理,降低文本聚类计算机硬件算力压力,进而提升文本聚类效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于词性编码的短文本聚类方法的流程示意图;
图2示出了本申请实施例提供的另一种基于词性编码的短文本聚类方法的流程示意图;
图3示出了本申请实施例提供的一种基于词性编码的短文本聚类的原理示意图;
图4示出了本申请实施例提供的一种基于词性编码的短文本聚类装置的结构示意图;
图5示出了本申请实施例提供的另一种基于词性编码的短文本聚类装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在对短文本进行聚类划分时,存在编码向量维度过高且较为稀疏,或编码向量存在信息损失的问题,本申请实施例提供了一种基于词性编码的短文本聚类方法,如图1所示,该方法包括:
101、对预处理后的目标短文本进行切词,获取得到各个关键词。
在具体的应用场景中,为了使得相似文本尽可能的聚成一类,需要对文本进行归一化操作,即对短文本进行预处理,其中,目标短文本为待进行聚类划分的短文本;关键词为将目标短文本进行切词处理后,得到的各个词段;切词方法,包括但不仅限于关键词词典匹配、隐马尔可夫模型(HMM)、条件随机场(CRF)、深度学习分词模型。
102、确定各个关键词对应的目标词性。
其中,目标词性可为名词、动词、形容词等,词性映射的方法,包括但不限于关键词词性表匹配或基于深度学习模型的词性标注方法。
103、依据目标词性以及各个关键词在目标短文本中的排列顺序,计算目标短文本的编码表达向量。
对于本实施例,在具体的应用场景中,可依据定长遗忘编码方法计算各个目标短文本的编码表达向量。
104、根据编码表达向量对各个目标短文本进行聚类划分。
对于本实施例,在具体的应用场景中,可利用编码表达向量计算各个目标短文本之间的相似度,来确定目标短文本的聚类属性,具体可通过编码表达向量之间的距离来判定。
通过本实施例中基于词性编码的短文本聚类方法,可提供一种基于词性编码的短文本纠错方法,该方法通过编码句子关键词词性以及所对应词性顺序作为短文本的编码特征,依据编码特征计算短文本的编码表达向量,并利用编码表达向量对短文本进行聚类划分,还可随着关键词词典大小增加而增加相应特征,从而降低句子编码向量维度与稀疏度,减少系统与人工对同类型的数据的重复处理,降低文本聚类计算机硬件算力压力,且提升文本聚类效果。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于词性编码的短文本聚类方法,如图2所示,该方法包括:
201、对目标短文本进行预处理。
对于本实施例,在具体的应用场景中,实施例步骤201具体可以包括:滤除目标短文本中的特殊字符;将目标短文本中的大写英文字母替换为小写字母;对符合预设条件的字符组合进行加密处理或替换为预设字符。
例如,若识别到短文本中存在特殊字符,如:“﹟#﹩$﹠&﹪%﹡﹡×﹦-~-―﹨~”等,则需要将其滤除;若识别到短文本中存在大写英文字母,如AABCDF,则需要将其替换为对应的小写字母aabcdf,以保证字母的大小写一致性;为了保证数据的安全性,并且能够有效进行聚类划分,需要识别短文本中特殊的字符组合,(如时间、金额、英文单词等),具体可采用加密的方式,如利用相同的特殊字符替换,比如:‘2019-12-12’替换为‘【日期】’,‘15元’、‘2万元’替换‘【金额】’;或统一替换为加密字符‘*’的方式。
202、对预处理后的目标短文本进行切词,获取得到各个关键词。
对于本实施例,在具体的应用场景中,可采用词典匹配的方法来切分关键词,当利用关键词词典匹配的方法来获取关键词时,实施例步骤202具体可以包括:依据关键词词典对目标短文本进行正则匹配,将匹配到的词切分为第一关键词;将剩余未匹配到的词确定为第二关键词,并将第二关键词作为新词更新至关键词词典中。
其中,词典匹配方法使用关键词词典对短文本进行正则匹配或建立搜索树(如Trie树,HashTrie等),所匹配到的词即为切分词(第一关键词),匹配剩余部分也成切分词(第二关键词)。
相应的,在具体的应用场景中,还可采用隐马尔可夫模型(HMM)来进行关键词的切分,当利用隐马尔可夫切词的模式来获取关键词时,实施例步骤202具体可以包括:依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;获取目标短文本的观察状态序列;根据观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
其中,隐马尔可夫模型在给定文本集合上训练隐藏状态序列(隐藏状态可为词头、词中、词尾)到观察状态序列(文本序列)的概率后,再根据所得模型参数以及新的观察序列上得到最有可能的隐藏状态序列(最大概率通路),该隐藏状态序列即为所得切词结果。例如:‘我来到北京清华大学’切分为‘我\来到\北京\清华大学’的关键词序列。
相应的,还可利用条件随机场(CRF)、深度学习分词模型等方法来获取关键词,例如,可利用大量标记好切分位置的短文本数据集训练搭建深度学习分词模型,并利用验证集中的短文本进行对模型进行验证,当判定切分结果的正确率大于预设阈值时,则判定深度学习分词模型通过训练,进而可将目标短文本输入至训练好的深度学习分词模型中,获取得到关键词的切分结果。
203、确定各个关键词对应的目标词性。
对于本实施例,在具体的应用场景中,在切分获取得到各个关键词后,在确定关键词对应的目标词性时,可同样采用多种方式,即可在关键词词性表中查询各个关键词对应的关键词词性;另一种方式,还可通过样本短文本集合训练词性标注模型;将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
204、将目标词性以及关键词在文本中的排列顺序确定为聚类编码特征。
在具体的应用场景中,可根据各个关键词目标词性以及在文本中的排列顺序确定其对应的聚类编码特征,以便根据各个聚类编码特征依次计算得出目标短文本的编码表达向量。
205、基于聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
其中,定长遗忘编码方法(Fixed-size Ordinally-Fogetting Encoding),是一种无损、唯一且编码向量有固定长度的编码方法,对于长度为T的关键词词性序列S=[w1,w2,…,wT]编码。其计算公式为:
其中,公式中t表示序列S中元素的序号,zt表示在t位置的定长遗忘编码向量,α表示定长遗忘因子,et表示在S序列中第t个元素wt(关键词词性元素)对应的V维度热向量。定长遗忘编码的遗忘因子α的取值范围为(0,0.5],定长遗忘向量有唯一与无损性质,在取值范围为(0.5,1)大部分取值仍有唯一与无损性,但有部分取值可能产生冲突的编码后向量,但在自然语言中出现情况极少。当t=T时,即可计算得到目标短文本的编码表达向量zt。
206、根据编码表达向量对各个目标短文本进行聚类划分。
对于本实施例,在具体的应用场景中,实施例步骤206具体可以包括:训练搭建符合预设标准的短文本聚类模型;将各个目标短文本对应的编码表达向量输入短文本聚类模型中,获取得到目标短文本两两之间的目标距离;依据预设距离判定规则对目标距离进行类别划分,以便获取得到目标短文本的聚类划分结果。
其中,短文本聚类模型可选用任意模型如K-means,谱聚类等,作为优选,采用了基于树状结构的层次聚类模型(Agglomerative Clustering)。目标距离可为两个编码表达向量间的欧氏距离、切比雪夫距离、闵可夫斯基距离、曼哈顿距离等,在本实施例中,计算每两个编码表达向量之间的目标距离可欧式距离的计算方法来计算得出;
两个n维编码表达向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离公式为:
其中,x1i为一个目标短文本的编码表达向量,x2i为另一个目标短文本的编码表达向量,N为编码表达向量的维度,在本方案中,编码表达向量的维度为:(N-1)*(N-1),N对应目标短文本中关键词的数量。
通过上述基于词性编码的短文本聚类方法,可提供一种基于词性编码的短文本纠错方法,该方法可首先对目标短文本进行预处理,之后对预处理后的目标短文本进行切词,获取得到各个关键词,通过编码关键词的目标词性以及所对应的排列顺序,确定短文本的编码特征,依据编码特征计算短文本的编码表达向量,并利用编码表达向量对短文本进行聚类划分,还可随着关键词词典大小增加而增加相应特征,从而降低句子编码向量维度与稀疏度,减少系统与人工对同类型的数据的重复处理,降低文本聚类计算机硬件算力压力,进而提升文本聚类效果。
在具体的应用场景中,基于词性编码的短文本聚类的原理流程图可如图3所示,在获取到短文本后,首先对短本文进行预处理,即将输入的短文本特殊字符去除、英文大写转小写、常见字符组合(时间、金额、英文单词等)使用特殊字符替换等;之后提取短文本中关键词,并进行切分,利用词典匹配方法对切分后的各个关键词进行词性映射,或利用隐马尔可夫模型(HMM)、条件随机场(CRF)、深度学习分词模型对词性进行标注、获取;之后以目标词性以及关键词在文本中的排列顺序为聚类编码特征进行词性序列编码,进一步计算得到各个目标短文本的编码表达向量,最后利用编码表达向量进行短文本的聚类划分,将各个短文本聚类划分到对应的类别文本中,如类别1文本、类别1文本、......、类别N文本。
进一步的,作为图1和图2所示方法的具体体现,本发明实施例提供了一种基于词性编码的短文本聚类装置,如图4所示,该装置包括:获取模块31、确定模块32、计算模块33、划分模块34。
获取模块31,可用于对预处理后的目标短文本进行切词,获取得到各个关键词;
确定模块32,可用于确定各个关键词对应的目标词性;
计算模块33,可用于依据目标词性以及各个关键词在目标短文本中的排列顺序,计算目标短文本的编码表达向量;
划分模块34,可用于根据编码表达向量对各个目标短文本进行聚类划分。
在具体的应用场景中,为了使得相似文本尽可能的聚成一类,如图5所示,本装置还包括:处理模块35;
处理模块35,可用于对目标短文本进行预处理;
在具体的应用场景中,处理模块35,具体可用于滤除目标短文本中的特殊字符;将目标短文本中的大写英文字母替换为小写字母;对符合预设条件的字符组合进行加密处理或替换为预设字符。
相应的,为了将预处理后的目标短文本切词处理成各个关键词,获取模块31,具体可用于依据关键词词典对目标短文本进行正则匹配,将匹配到的词切分为第一关键词;将剩余未匹配到的词确定为第二关键词,并将第二关键词作为新词更新至关键词词典中。
在具体的应用场景中,为了将预处理后的目标短文本切词处理成各个关键词,获取模块31,具体还可用于依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;获取目标短文本的观察状态序列;根据观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
相应的,为了确定出各个关键词对应的目标词性,确定模块32,具体可用于在关键词词性表中确定各个关键词对应的关键词词性;或将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
在具体的应用场景中,为了计算得到目标短文本的编码表达向量,计算模块33,具体可用于将目标词性以及关键词在文本中的排列顺序确定为聚类编码特征;基于聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
相应的,为了根据编码表达向量对各个目标短文本进行聚类划分,划分模块34,具体可用于训练搭建符合预设标准的短文本聚类模型;将各个目标短文本对应的编码表达向量输入短文本聚类模型中,获取得到目标短文本两两之间的目标距离;依据预设距离判定规则对目标距离进行类别划分,以便获取得到目标短文本的聚类划分结果。
需要说明的是,本实施例提供的一种基于词性编码的短文本聚类装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的基于词性编码的短文本聚类方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图4、图5所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的基于词性编码的短文本聚类方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是短文本聚类的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,本申请可提供一种基于词性编码的短文本纠错方法,该方法可首先对目标短文本进行预处理,之后对预处理后的目标短文本进行切词,获取得到各个关键词,通过编码关键词的目标词性以及所对应的排列顺序,确定短文本的编码特征,依据编码特征计算短文本的编码表达向量,并利用编码表达向量对短文本进行聚类划分,还可随着关键词词典大小增加而增加相应特征,从而降低句子编码向量维度与稀疏度,减少系统与人工对同类型的数据的重复处理,降低文本聚类计算机硬件算力压力,进而提升文本聚类效果。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种基于词性编码的短文本聚类方法,其特征在于,包括:
对预处理后的目标短文本进行切词,获取得到各个关键词;
确定各个所述关键词对应的目标词性;
依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;
根据所述编码表达向量对各个所述目标短文本进行聚类划分。
2.根据权利要求1所述的方法,其特征在于,在所述对预处理后的目标短文本进行切词,获取得到各个关键词之前,具体还包括:
对目标短文本进行预处理;
所述对目标短文本进行预处理,具体包括:
滤除目标短文本中的特殊字符;
将所述目标短文本中的大写英文字母替换为小写字母;
对符合预设条件的字符组合进行加密处理或替换为预设字符。
3.根据权利要求2所述的方法,其特征在于,所述对预处理后的目标短文本进行切词,获取得到各个关键词,具体包括:
依据关键词词典对所述目标短文本进行正则匹配,将匹配到的词切分为第一关键词;
将剩余未匹配到的词确定为第二关键词,并将所述第二关键词作为新词更新至所述关键词词典中。
4.根据权利要求2所述的方法,其特征在于,所述对预处理后的目标短文本进行切词,获取得到各个关键词,具体还包括:
依据样本数据中的短文本集合提取各个关键词的隐藏状态序列;
获取所述目标短文本的观察状态序列;
根据所述观察状态序列对应各个隐藏状态序列的最大概率,确定切词结果,以便切分获取得到各个关键词。
5.根据权利要求3或4任一项所述的方法,其特征在于,所述确定各个所述关键词对应的目标词性,具体包括:
在关键词词性表中确定各个关键词对应的关键词词性;或
将各个关键词输入至训练好的词性标注模型中,获取得到各个关键词的词性标注结果。
6.根据权利要求5所述的方法,其特征在于,所述依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量,具体包括:
将所述目标词性以及所述关键词在文本中的排列顺序确定为聚类编码特征;
基于所述聚类编码特征并利用定长遗忘编码方法计算各个目标短文本的编码表达向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述编码表达向量对各个所述目标短文本进行聚类划分,具体包括:
训练搭建符合预设标准的短文本聚类模型;
将各个所述目标短文本对应的编码表达向量输入所述短文本聚类模型中,获取得到所述目标短文本两两之间的目标距离;
依据所述预设距离判定规则对所述目标距离进行类别划分,以便获取得到所述目标短文本的聚类划分结果。
8.一种基于词性编码的短文本聚类装置,其特征在于,包括:
获取模块,用于对预处理后的目标短文本进行切词,获取得到各个关键词;
确定模块,用于确定各个所述关键词对应的目标词性;
计算模块,用于依据所述目标词性以及各个所述关键词在所述目标短文本中的排列顺序,计算所述目标短文本的编码表达向量;
划分模块,用于根据所述编码表达向量对各个所述目标短文本进行聚类划分。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的基于词性编码的短文本聚类方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于词性编码的短文本聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190439.0A CN111506726B (zh) | 2020-03-18 | 2020-03-18 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190439.0A CN111506726B (zh) | 2020-03-18 | 2020-03-18 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506726A true CN111506726A (zh) | 2020-08-07 |
CN111506726B CN111506726B (zh) | 2023-09-22 |
Family
ID=71864667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010190439.0A Active CN111506726B (zh) | 2020-03-18 | 2020-03-18 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506726B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312456A (zh) * | 2021-06-28 | 2021-08-27 | 中国平安人寿保险股份有限公司 | 短视频文本生成方法、装置、设备及存储介质 |
CN113704462A (zh) * | 2021-03-31 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN116720812A (zh) * | 2023-08-11 | 2023-09-08 | 合肥恒艺德机械有限公司 | 一种基于数据编码的大数据智慧仓储管理系统 |
CN117313657A (zh) * | 2023-11-30 | 2023-12-29 | 深圳市伟奇服装有限公司 | 一种校服设计数据编码压缩方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160124933A1 (en) * | 2014-10-30 | 2016-05-05 | International Business Machines Corporation | Generation apparatus, generation method, and program |
CN105740382A (zh) * | 2016-01-27 | 2016-07-06 | 中山大学 | 一种对短评论文本进行方面分类方法 |
JP2016133960A (ja) * | 2015-01-19 | 2016-07-25 | 日本電気株式会社 | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN107239444A (zh) * | 2017-05-26 | 2017-10-10 | 华中科技大学 | 一种融合词性与位置信息的词向量训练方法及系统 |
CN107402960A (zh) * | 2017-06-15 | 2017-11-28 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
CN108170674A (zh) * | 2017-12-27 | 2018-06-15 | 东软集团股份有限公司 | 词性标注方法和装置、程序产品及存储介质 |
CN108376151A (zh) * | 2018-01-31 | 2018-08-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN109710762A (zh) * | 2018-12-26 | 2019-05-03 | 南京云问网络技术有限公司 | 一种融合多种特征权重的短文本聚类方法 |
CN109800307A (zh) * | 2019-01-18 | 2019-05-24 | 深圳壹账通智能科技有限公司 | 产品评价的分析方法、装置、计算机设备及存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
WO2019228203A1 (zh) * | 2018-05-29 | 2019-12-05 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及系统 |
-
2020
- 2020-03-18 CN CN202010190439.0A patent/CN111506726B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160124933A1 (en) * | 2014-10-30 | 2016-05-05 | International Business Machines Corporation | Generation apparatus, generation method, and program |
JP2016133960A (ja) * | 2015-01-19 | 2016-07-25 | 日本電気株式会社 | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム |
CN105740382A (zh) * | 2016-01-27 | 2016-07-06 | 中山大学 | 一种对短评论文本进行方面分类方法 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN107239444A (zh) * | 2017-05-26 | 2017-10-10 | 华中科技大学 | 一种融合词性与位置信息的词向量训练方法及系统 |
CN107402960A (zh) * | 2017-06-15 | 2017-11-28 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
CN108170674A (zh) * | 2017-12-27 | 2018-06-15 | 东软集团股份有限公司 | 词性标注方法和装置、程序产品及存储介质 |
CN108376151A (zh) * | 2018-01-31 | 2018-08-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
WO2019228203A1 (zh) * | 2018-05-29 | 2019-12-05 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及系统 |
CN109710762A (zh) * | 2018-12-26 | 2019-05-03 | 南京云问网络技术有限公司 | 一种融合多种特征权重的短文本聚类方法 |
CN109800307A (zh) * | 2019-01-18 | 2019-05-24 | 深圳壹账通智能科技有限公司 | 产品评价的分析方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
王金水: "基于词性标注的文本聚类算法" * |
王金水;唐郑熠;薛醒思;: "基于词性标注的文本聚类算法", 福建工程学院学报, no. 04 * |
黄贤英;李沁东;刘英涛;: "结合词性的短文本相似度算法及其在文本分类中的应用", 电讯技术, no. 01 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704462A (zh) * | 2021-03-31 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN113312456A (zh) * | 2021-06-28 | 2021-08-27 | 中国平安人寿保险股份有限公司 | 短视频文本生成方法、装置、设备及存储介质 |
CN116720812A (zh) * | 2023-08-11 | 2023-09-08 | 合肥恒艺德机械有限公司 | 一种基于数据编码的大数据智慧仓储管理系统 |
CN116720812B (zh) * | 2023-08-11 | 2023-10-20 | 合肥恒艺德机械有限公司 | 一种基于数据编码的大数据智慧仓储管理系统 |
CN117313657A (zh) * | 2023-11-30 | 2023-12-29 | 深圳市伟奇服装有限公司 | 一种校服设计数据编码压缩方法 |
CN117313657B (zh) * | 2023-11-30 | 2024-03-19 | 深圳市伟奇服装有限公司 | 一种校服设计数据编码压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111506726B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107085581B (zh) | 短文本分类方法和装置 | |
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN111506726B (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN109508379A (zh) | 一种基于加权词向量表示和组合相似度的短文本聚类方法 | |
CN113901797B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN110532381A (zh) | 一种文本向量获取方法、装置、计算机设备及存储介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
WO2014022172A2 (en) | Information classification based on product recognition | |
WO2016095645A1 (zh) | 笔画输入方法、装置和系统 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN114492429B (zh) | 文本主题的生成方法、装置、设备及存储介质 | |
CN115982144A (zh) | 相似文本去重方法、装置、存储介质及电子装置 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
CN109543002B (zh) | 简写字符的还原方法、装置、设备及存储介质 | |
Lv et al. | Learning-based candidate segmentation scoring for real-time recognition of online overlaid Chinese handwriting | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
Wang et al. | Improving handwritten Chinese text recognition by unsupervised language model adaptation | |
CN111428487A (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
CN113868389B (zh) | 基于自然语言文本的数据查询方法、装置及计算机设备 | |
CN112800752B (zh) | 纠错方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |