CN108920579A - 句子的分类方法、装置、终端设备及存储介质 - Google Patents
句子的分类方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN108920579A CN108920579A CN201810659219.0A CN201810659219A CN108920579A CN 108920579 A CN108920579 A CN 108920579A CN 201810659219 A CN201810659219 A CN 201810659219A CN 108920579 A CN108920579 A CN 108920579A
- Authority
- CN
- China
- Prior art keywords
- theme
- keyword
- sentence
- participle
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种句子的分类方法,包括:从待处理的训练库中获取每个主题的句子,以得到所述每个主题的分词和所述每个分词的出现频率;根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词;计算所述每个主题的每个关键词的权重;根据所述每个主题的每个关键词的权重和出现频率对待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率。本发明还公开了一种句子的分类装置、终端设备及存储介质,可以解决对句子进行分类时匹配不准确的问题,提高主题判断的准确性,使得对句子进行分类时更加合理化。
Description
技术领域
本发明涉及句子分类技术领域,尤其涉及一种句子的分类方法、装置、终端设备及存储介质。
背景技术
句子分类是口语理解(spoken language understanding,SLU)和自然语言处理(Natural Language Processing,NLP)中的关键问题。例如,可以对句子进行问题分类、情感分类、用户意图分类等。当前对句子分类的方法是通过将每个主题的关键词的频率与待分类的句子的关键词进行匹配,判断所述待分类的句子所属的主题或类别。
然而,发明人在实施本发明的过程中发现,有些关键词可能会在多个主题中出现,并且有些关键词的出现频率较高,从而容易导致对句子进行分类时匹配不准确,降低了句子分类的准确性。
发明内容
针对上述问题,本发明的目的在于提供一种句子的分类方法、装置、终端设备以及存储介质,可以解决对句子进行分类时匹配不准确的问题,能够提高主题判断的准确性,使得对句子进行分类时获得的分类结果更加合理化。
第一方面,本发明实施例提供了一种句子的分类方法,包括:
从待处理的训练库中获取每个主题的句子,以得到所述每个主题的分词和所述每个分词的出现频率;
根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词;其中,所述每个关键词的出现频率为对应的分词的出现频率;
计算所述每个主题的每个关键词的权重;
根据所述每个主题的每个关键词的权重和出现频率对所述待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率。
在第一方面的第一种实现方式中,所述根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词,具体为:
根据所述每个分词的出现频率,分别对所述每个主题的所有分词进行排序;
根据排序结果从所述每个主题的所有分词中获取所述每个主题的预定数量的关键词。
在第一方面的第二种实现方式中,所述计算所述每个主题的每个关键词的权重,具体为:
计算所述每个主题的每个关键词在所有所述主题的关键词中出现的次数;
根据所述每个主题的每个关键词出现的次数,计算所述每个主题的每个关键词的权重。
在第一方面的第三种实现方式中,所述根据所述每个主题的每个关键词的权重和出现频率对待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率,具体为:
根据所述每个主题的每个关键词的权重和出现频率,计算待分类句子与所述每个主题之间的相似度;其中,所述每个关键词的出现频率为对应的分词的出现频率;
根据所述相似度对所述待分类句子进行分类。
根据第一方面的第三种实现方式,在第一方面的第四种实现方式中,所述根据所述每个主题的每个关键词的权重和出现频率,计算待分类句子与所述每个主题之间的相似度,具体为:
对待分类句子进行分词,获得所述待分类句子的第一分词;
对于每一个主题:
根据所述主题的每个关键词的权重以及出现频率,计算每个所述第一分词与所述主题之间的第一相似度;
计算每个所述第一相似度的总和,得到所述待分类句子与所述主题之间的相似度。
根据第一方面的第四种实现方式,在第一方面的第五种实现方式中,所述根据所述主题的每个关键词的权重以及出现频率,计算每个所述第一分词与所述主题之间的第一相似度,具体为:
对于每一个第一分词:
判断所述主题的所有关键词中是否存在与所述第一分词相匹配的关键词;
若所述主题的所有关键词中存在与所述第一分词相匹配的关键词,则计算与所述第一分词对应的关键词的权重与出现频率的乘积,并将乘积结果作为所述第一分词与所述主题之间的第一相似度;
若所述主题的所有关键词中不存在与所述第一分词相匹配的关键词,则将所述第一分词与所述主题之间的第一相似度设置为零。
根据第一方面的第三种实现方式,在第一方面的第六种实现方式中,所述根据所述相似度对所述待分类句子进行分类,具体为:
将每个所述相似度进行比较,获得最大相似度;
将与所述最大相似度对应的主题作为所述待分类句子所属的主题类别。
第二方面,本发明实施例还提供了一种句子的分类装置,包括:
主题分词获取模块,用于从待处理的训练库中获取每个主题的句子,以得到所述每个主题的分词和所述每个分词的出现频率;
关键词获取模块,用于根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词;其中,所述每个关键词的出现频率为对应的分词的出现频率;
权重计算模块,用于计算所述每个主题的每个关键词的权重;
句子分类模块,用于根据所述每个主题的每个关键词的权重和出现频率对待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率。
第三方面,本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的句子的分类方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的句子的分类方法。
上述技术方案中的一个技术方案具有如下优点:对每个主题的句子进行分词,并计算每个分词的出现频率从而获取每个所述主题的关键词,消除了非重要的词语,降低计算复杂度;根据关键词在各个主题中的出现次数计算关键词的权重,从而将重复的关键词的权重合理均衡化,从而提高了每个主题之间的差异性,使得每个主题的可分性更加明显,能够提高主题判断的准确性,使得对句子进行分类时提高了分类结果的准确性和稳定性,具有合理性。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的句子的分类方法的流程示意图。
图2是本发明第三实施例提供的句子的分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种句子的分类方法,其可以在终端设备上执行,并包括以下步骤:
S10、从待处理的训练库中获取每个主题的句子,以得到所述每个主题的分词和所述每个分词的出现频率。
在本实施例中,所述终端设备设备可以为手机、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)或数字广播接收器等移动终端,也可以为数字TV、台式计算机或服务器等等固定终端。需要指出的是,所述待处理的训练库中包含了足够多的不同主题的句子,预先对所述训练库中的所有句子进行主题分类,包括法律类、资本类、申请人类、自我介绍类等等多种主题或类别,即每个主题都包含至少一个句子。从所述训练库中获取所有主题的句子集,并根据每个主题中的所有句子来获得每个主题对应的多个分词以及每个分词在对应的主题的句子集中出现的次数或频率。
在本实施例中,对于每一个主题,利用分词工具(例如结巴分词)分别对每个主题的每个句子进行分词,从每个句子分词得到的所有词语中提取得到每个主题的所有分词,并且统计每个分词在对应的主题的分词得到的所有词语中出现的次数(即出现频率)。例如,假设有一个主题为“自我介绍类”,其中该类别中包括了四个句子,分别为:“我是李磊”、“我是韩梅梅”、“我叫王宝钏”、“我叫狄仁杰”,利用结巴分词工具分别对这四个句子进行分词,得到的分词结果如表1所示:
表1自我介绍类的分词结果
编号 | 句子 | 分词结果 |
1 | 我是李磊 | 我/是/李磊 |
2 | 我是韩梅梅 | 我/是/韩梅梅 |
3 | 我叫王宝钏 | 我/叫/王宝钏 |
4 | 我叫狄仁杰 | 我/叫/狄仁杰 |
因此,从表1中可以获得“自我介绍类”的所有分词以及每个分词对应的出现频率为“我4,是2,叫2,李磊1,韩梅梅1,王宝钏1,狄仁杰1”。
S20,根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词。
在本实施例中,对于每一个主题,可以根据每个主题的每个分词的出现频率来从对应主题的所有分词中提取具有代表性的分词作为对应主题的关键词或特征词。
具体地,根据所述每个分词的出现频率,分别对所述每个主题的所有分词进行排序;根据排序结果从所述每个主题的所有分词中获取所述每个主题的预定数量的关键词;其中,所述每个关键词的出现频率为对应的分词的出现频率。
作为示例,在某个主题中,将该主题的所有分词按照每个分词的出现频率进行排序,在这里,采用降序方式进行排序,并从排序结果中获取排名前K的K个分词作为该主题的关键词,K值可由用户自定义或根据实际情况设置,例如K为3,需要指出的是,该主题的每个关键词的出现频率为对应的分词的出现频率。例如,将“自我介绍类”的所有分词按照每个分词的出现频率进行降序排序,假设排序结果为“我4,是2,叫2,李磊1,韩梅梅1,王宝钏1,狄仁杰1”,K为3,则提取到的“自我介绍类”的关键词为“我、是、叫”。
S30,计算所述每个主题的每个关键词的权重。
在本实施例中,每个主题的关键词中可以存在某些关键词相同或重复的情况,为了体现每个主题的差异性,在这里,可以根据每个关键词出现的频率或概率计算每个关键词在所有主题的关键词中所占的比重(即权重)。
具体地,计算所述每个主题的每个关键词在所有所述主题的关键词中出现的次数;根据所述每个主题的每个关键词出现的次数,计算所述每个主题的每个关键词的权重。
作为示例,作为示例,将每个主题的所有关键词组合在一起,生成词频清单;接着计算每个所述主题中的每个关键词在所述词频清单中(即在所有主题的关键词中)出现的次数;例如,对于某一个主题的关键词集合newwordlist={word[1],word[2],…,word[i],…,word[k]},其中,word[i]表示该主题中的第i个关键词,k表示该主题的关键词个数,接着,计算该主题中的每个关键词的权重,计算公式如下:
其中,count(word[i])表示关键词word[i]在所述词频清单中的出现次数,powerword(i)表示关键词word[i]的权重。例如,有5个主题分别为:A、B、C、D和E,其中,A、B和C的关键词中均包含了“好的”这个关键词,即在词频清单中“好的”这个关键词的出现次数为3,因此对于主题A的其中一个关键词“好的”的权重为1/3;同理,主题B和C的其中一个关键词“好的”的权重也是为1/3;可以理解的是,假设在主题A的其中一个关键词a并没有在其他四个主题(B、C、D和E)的关键词中出现,则主题A的关键词a的权重为1。通过上述方式,同样可以计算得到每个主题中的每个关键词的权重。从而将重复的关键词的权重合理均衡化。
S40,根据所述每个主题的每个关键词的权重和出现频率对所述待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率。
在本实施例中,需要指出的是,所述每个关键词的出现频率为对应的分词的出现频率,例如,“自我介绍类”的所有分词为“我4,是2,叫2,李磊1,韩梅梅1,王宝钏1,狄仁杰1”,而提取到的“自我介绍类”的关键词为“我、是、叫”,则对应的每个关键词的出现频率分别为“4、2、2”。在本实施例中,在对待分类句子(即还没判定所属类别的新句子)进行分类时,通过将每个主题的关键词的出现频率结合其对应的权重,与所述新句子的特征词或分词进行匹配,例如获取所述新句子的词向量,并根据每个主题的每个关键词的权重及出现频率计算得到所述词向量与每个主题的相似程度,相似程度越高意味着所述新句子与对应主题的相似性越高,因此根据计算得到的每个相似程度可以判定所述新句子所属的主题类型。
综上所述,本实施例提供了一种句子的分类方法,通过对每个主题的句子进行分词,并计算每个分词的出现频率从而获取每个所述主题的关键词,消除了非重要的词语,降低计算复杂度;根据关键词在各个主题中的出现次数计算关键词的权重,从而将重复的关键词的权重合理均衡化,从而提高了每个主题之间的差异性,使得每个主题的可分性更加明显,能够提高主题判断的准确性,使得在基于每个关键词的权重及出现频率对句子进行分类时提高了分类结果的准确性和稳定性,具有合理性。
本发明第二实施例:
在第一个实施例的基础上,所述步骤S40具体为:
根据所述每个主题的每个关键词的权重和出现频率,计算待分类句子与所述每个主题之间的相似度;其中,所述每个关键词的出现频率为对应的分词的出现频率;
根据所述相似度对所述待分类句子进行分类。
在本实施例中,接收到待分类的新句子后,将每个主题与所述新句子进行匹配,通过将每个主题的每个关键词的权重与出现频率进行结合计算所述新句子与每个主题的相似度,接着根据所述相似度来判断所述新句子所属的主题。
在本实施例中的一种实现方式中,在计算所述新句子与每个主题的相似度时,具体地:
对待分类句子进行分词,获得所述待分类句子的第一分词;
对于每一个主题:
根据所述主题的每个关键词的权重以及出现频率,计算每个所述第一分词与所述主题之间的第一相似度;
计算每个所述第一相似度的总和,得到所述待分类句子与所述主题之间的相似度。
在本实施例中,当接收到待分类的新句子后,利用分词工具对所述待分类的新句子进行分词处理,划分得到的所有词语为所述新句子的第一分词。接着将所述新句子的每个第一分词与每个主题的所有关键词进行匹配,根据每个主题的每个关键词的权重及对应的出现频率计算得到每个第一分词与每个主题之间的第一相似度,例如,对于主题A,计算所述新句子的每个第一分词与主题A之间的第一相似度,将计算得到的每个第一相似度进行累加,得到的总和值即为所述新句子与对应的主题之间的相似度。
在本实施例中,所述根据所述主题的每个关键词的权重以及出现频率,计算每个所述第一分词与所述主题之间的第一相似度,具体为:
对于每一个第一分词:
判断所述主题的所有关键词中是否存在与所述第一分词相匹配的关键词;
若所述主题的所有关键词中存在与所述第一分词相匹配的关键词,则计算与所述第一分词对应的关键词的权重与出现频率的乘积,并将乘积结果作为所述第一分词与所述主题之间的第一相似度;
若所述主题的所有关键词中不存在与所述第一分词相匹配的关键词,则将所述第一分词与所述主题之间的第一相似度设置为零。
在本实施例中,假设主题的数量为m,即{class1,class2,…,classn,…,classm},其中classn表示第n个主题;并且假设待分类的新句子进行分词得到的所有第一分词为{lw(1),lw(2),…,lw(j),…,lw(length)},其中lw(j)表示所述新句子的第j个第一分词,length表示所述新句子的第一分词的个数,接着计算所述新句子中每一个第一分词与每个主题的第一相似度,计算公式如下:
其中,所述find(n,lw(j))表示所述新句子的其中一个第一分词lw(j)与主题classn之间的第一相似度,powerword和frequency分别表示在主题classn中与lw(j)匹配一致的关键词的权重和出现频率。
作为示例,对于主题A,依次将所述新句子的每个第一分词与主题A的每个关键词进行匹配,例如,判断主题A的所有关键词中是否存在与所述新句子的第一个第一分词匹配一致的关键词,若存在,则计算匹配一致的关键词的权重与对应的出现频率的乘积,计算得到的值为第一个第一分词与主题A之间的第一相似度;若不存在,则第一个第一分词与主题A之间的第一相似度为零。接着计算第二个第一分词与主题A的第一相似度,以此类推,直到获取到所述新句子中的所有第一分词的第一相似度,接着将每个第一分词与主题A之间的第一相似度进行累加,计算得到所述新句子与主题A之间的相似度,计算公式如下:
Similarityn=∑find(n,lw(j))
其中,所述similarityn表示所述新句子与主题classn之间的相似度。同理,通过上述公式计算所述新句子与其他主题之间的相似度,并根据计算得到的每个相似度来判断所述新句子与每个主题的相似程度从而得到所述新句子所属的主题类别。
具体地,将每个所述相似度进行比较,获得最大相似度;将与所述最大相似度对应的主题作为所述待分类句子所属的主题类别。
在本实施例中,比较每个相似度的大小,相似度越大表示所述新句子与对应主题的相似性越高,从中找到最大相似度,将最大相似度对应的主题作为所述新句子的所属类别,从而可以输出所述新句子的分类结果。例如,所述新句子与主题A、B、C、D和E之间的相似度分别为4、1、3、6和1,因此可以判定所述新句子所属的主题为D。
通过上述方式,将待分类句子中的所有第一分词与每个所述主题中的每个关键词的权重以及对应的出现频率进行匹配,使得分类结果更具合理性;同时分别计算每个第一分词与每个主题之间的第一相似度,从而得到所述待分类句子与每个主题之间的相似度,能够准确地对所述待分类句子进行分类,提高了分类结果的准确性和稳定性,并且提高了计算效率。
请参阅图2,本发明第三实施例提供了一种句子的分类装置,包括:
主题分词获取模块10,用于从待处理的训练库中获取每个主题的句子,以得到所述每个主题的分词和所述每个分词的出现频率;
关键词获取模块20,用于根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词;
权重计算模块30,用于计算所述每个主题的每个关键词的权重;
句子分类模块40,用于根据所述每个主题的每个关键词的权重和出现频率对待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率。
优选地,所述关键词获取模块20,具体为:
分词排序单元,用于根据所述每个分词的出现频率,分别对所述每个主题的所有分词进行排序;
关键词获取单元,用于根据排序结果从所述每个主题的所有分词中获取所述每个主题的预定数量的关键词。
优选地,所述权重计算模块30,具体为:
次数计算单元,用于计算所述每个主题的每个关键词在所有所述主题的关键词中出现的次数;
权重计算单元,用于根据所述每个主题的每个关键词出现的次数,计算所述每个主题的每个关键词的权重。
优选地,所述句子分类模块40,具体为:
相似度计算单元,用于根据所述每个主题的每个关键词的权重和出现频率,计算待分类句子与所述每个主题之间的相似度;其中,所述每个关键词的出现频率为对应的分词的出现频率;
句子分类单元,用于根据所述相似度对所述待分类句子进行分类。
优选地,所述相似度计算单元,具体为:
第一分词获取单元,用于对待分类句子进行分词,获得所述待分类句子的第一分词;
对于每一个主题:
第一相似度计算单元,用于根据所述主题的每个关键词的权重以及出现频率,计算每个所述第一分词与所述主题之间的第一相似度;
相似度总和计算单元,用于计算每个所述第一相似度的总和,得到所述待分类句子与所述主题之间的相似度。
进一步地,所述第一相似度计算单元,具体为:
对于每一个第一分词:
匹配单元,用于判断所述主题的所有关键词中是否存在与所述第一分词相匹配的关键词;
第一计算单元,用于若所述主题的所有关键词中存在与所述第一分词相匹配的关键词,则计算与所述第一分词对应的关键词的权重与出现频率的乘积,并将乘积结果作为所述第一分词与所述主题之间的第一相似度;
第二计算单元,用于若所述主题的所有关键词中不存在与所述第一分词相匹配的关键词,则将所述第一分词与所述主题之间的第一相似度设置为零。
优选地,所述句子分类单元,具体为:
相似度比较单元,用于将每个所述相似度进行比较,获得最大相似度;
结果输出单元,用于将与所述最大相似度对应的主题作为所述待分类句子所属的主题类别。
本发明第四实施例提供了一种终端设备。该实施例的终端设备包括:处理器、显示器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如句子的分类程序。所述处理器执行所述计算机程序时实现上述各个句子的分类方法的实施例中的步骤,例如图1所示的步骤S10。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各单元的功能,例如图2所示的主题分词获取模块10。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器、显示器。本领域技术人员可以理解,上述部件仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个所述终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种句子的分类方法,其特征在于,包括:
从待处理的训练库中获取每个主题的句子,以得到所述每个主题的分词和所述每个分词的出现频率;
根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词;
计算所述每个主题的每个关键词的权重;
根据所述每个主题的每个关键词的权重和出现频率对待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率。
2.根据权利要求1所述的句子的分类方法,其特征在于,所述根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词,具体为:
根据所述每个分词的出现频率,分别对所述每个主题的所有分词进行排序;
根据排序结果从所述每个主题的所有分词中获取所述每个主题的预定数量的关键词。
3.根据权利要求1所述的句子的分类方法,其特征在于,所述计算所述每个主题的每个关键词的权重,具体为:
计算所述每个主题的每个关键词在所有所述主题的关键词中出现的次数;
根据所述每个主题的每个关键词出现的次数,计算所述每个主题的每个关键词的权重。
4.根据权利要求1所述的句子的分类方法,其特征在于,所述根据所述每个主题的每个关键词的权重和出现频率对待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率,具体为:
根据所述每个主题的每个关键词的权重和出现频率,计算待分类句子与所述每个主题之间的相似度;其中,所述每个关键词的出现频率为对应的分词的出现频率;
根据所述相似度对所述待分类句子进行分类。
5.根据权利要求4所述的句子的分类方法,其特征在于,所述根据所述每个主题的每个关键词的权重和出现频率,计算待分类句子与所述每个主题之间的相似度,具体为:
对待分类句子进行分词,获得所述待分类句子的第一分词;
对于每一个主题:
根据所述主题的每个关键词的权重以及出现频率,计算每个所述第一分词与所述主题之间的第一相似度;
计算每个所述第一相似度的总和,得到所述待分类句子与所述主题之间的相似度。
6.根据权利要求5所述的句子的分类方法,其特征在于,所述根据所述主题的每个关键词的权重以及出现频率,计算每个所述第一分词与所述主题之间的第一相似度,具体为:
对于每一个第一分词:
判断所述主题的所有关键词中是否存在与所述第一分词相匹配的关键词;
若所述主题的所有关键词中存在与所述第一分词相匹配的关键词,则计算与所述第一分词对应的关键词的权重与出现频率的乘积,并将乘积结果作为所述第一分词与所述主题之间的第一相似度;
若所述主题的所有关键词中不存在与所述第一分词相匹配的关键词,则将所述第一分词与所述主题之间的第一相似度设置为零。
7.根据权利要求4所述的句子的分类方法,其特征在于,所述根据所述相似度对所述待分类句子进行分类,具体为:
将每个所述相似度进行比较,获得最大相似度;
将与所述最大相似度对应的主题作为所述待分类句子所属的主题类别。
8.一种句子的分类装置,其特征在于,包括:
主题分词获取模块,用于从待处理的训练库中获取每个主题的句子,以得到所述每个主题的分词和所述每个分词的出现频率;
关键词获取模块,用于根据所述每个分词的出现频率,从所述每个主题的分词中获取所述每个主题的关键词;
权重计算模块,用于计算所述每个主题的每个关键词的权重;
句子分类模块,用于根据所述每个主题的每个关键词的权重和出现频率对待分类句子进行分类;其中,所述每个关键词的出现频率为对应的分词的出现频率。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的句子的分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的句子的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810659219.0A CN108920579B (zh) | 2018-06-22 | 2018-06-22 | 句子的分类方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810659219.0A CN108920579B (zh) | 2018-06-22 | 2018-06-22 | 句子的分类方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108920579A true CN108920579A (zh) | 2018-11-30 |
CN108920579B CN108920579B (zh) | 2019-07-23 |
Family
ID=64421091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810659219.0A Active CN108920579B (zh) | 2018-06-22 | 2018-06-22 | 句子的分类方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920579B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020140373A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 一种意图识别方法、识别设备及计算机可读存储介质 |
CN112732886A (zh) * | 2021-01-08 | 2021-04-30 | 京东数字科技控股股份有限公司 | 一种会话管理方法、装置、系统及介质 |
CN113761928A (zh) * | 2021-09-09 | 2021-12-07 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
CN115358206A (zh) * | 2022-10-19 | 2022-11-18 | 上海浦东华宇信息技术有限公司 | 文本排版方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0554037A (ja) * | 1991-08-28 | 1993-03-05 | Fujitsu Ltd | 文書分類方式 |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN106778862A (zh) * | 2016-12-12 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
-
2018
- 2018-06-22 CN CN201810659219.0A patent/CN108920579B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0554037A (ja) * | 1991-08-28 | 1993-03-05 | Fujitsu Ltd | 文書分類方式 |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN106778862A (zh) * | 2016-12-12 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020140373A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 一种意图识别方法、识别设备及计算机可读存储介质 |
CN112732886A (zh) * | 2021-01-08 | 2021-04-30 | 京东数字科技控股股份有限公司 | 一种会话管理方法、装置、系统及介质 |
CN113761928A (zh) * | 2021-09-09 | 2021-12-07 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
CN115358206A (zh) * | 2022-10-19 | 2022-11-18 | 上海浦东华宇信息技术有限公司 | 文本排版方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108920579B (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920579B (zh) | 句子的分类方法、装置、终端设备及存储介质 | |
CN109815314B (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
CN109815492A (zh) | 一种基于识别模型的意图识别方法、识别设备及介质 | |
CN107944480A (zh) | 一种企业行业分类方法 | |
CN109471942B (zh) | 基于证据推理规则的中文评论情感分类方法及装置 | |
CN112348629A (zh) | 一种商品信息推送方法和装置 | |
CN106156163B (zh) | 文本分类方法以及装置 | |
CN106294355A (zh) | 一种业务对象属性的确定方法及设备 | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
US20200210776A1 (en) | Question answering method, terminal, and non-transitory computer readable storage medium | |
CN108804617A (zh) | 领域术语抽取方法、装置、终端设备及存储介质 | |
CN110309308A (zh) | 一种文字信息的分类方法、装置及电子设备 | |
CN105956083A (zh) | 应用软件分类系统、应用软件分类方法及服务器 | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN108153899B (zh) | 一种智能化文本分类方法 | |
CN111475731B (zh) | 数据处理方法、装置、存储介质及设备 | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN106776751A (zh) | 一种数据的聚类方法和聚类装置 | |
Yana et al. | Sentiment analysis of facebook comments on indonesian presidential candidates using the naïve bayes method | |
Mbunge et al. | A tool to predict the possibility of social unrest using sentiments analysis-case of Zimbabwe politics 2017–2018 | |
CN104850540A (zh) | 进行语句识别的方法及装置 | |
CN110837553A (zh) | 搜索邮件的方法及相关产品 | |
CN110781675A (zh) | 文本分类方法和装置 | |
CN114281983B (zh) | 分层结构的文本分类方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. Address before: 519031 room 417, building 20, creative Valley, Hengqin New District, Zhuhai City, Guangdong Province Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |