CN113535945B - 文本类别的识别方法、装置、设备及计算机可读存储介质 - Google Patents
文本类别的识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113535945B CN113535945B CN202010543778.2A CN202010543778A CN113535945B CN 113535945 B CN113535945 B CN 113535945B CN 202010543778 A CN202010543778 A CN 202010543778A CN 113535945 B CN113535945 B CN 113535945B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- feature
- sample
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000001914 filtration Methods 0.000 claims description 205
- 239000013598 vector Substances 0.000 claims description 94
- 238000012545 processing Methods 0.000 claims description 49
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 91
- 238000005065 mining Methods 0.000 description 24
- 238000013145 classification model Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 14
- 230000011218 segmentation Effects 0.000 description 14
- 230000015654 memory Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 3
- 235000017491 Bambusa tulda Nutrition 0.000 description 3
- 241001330002 Bambuseae Species 0.000 description 3
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 3
- 239000011425 bamboo Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 230000005189 cardiac health Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本类别的识别方法、装置、设备及计算机可读存储介质,该方法包括:获取待识别文本;根据预先生成的样本特征集,对待识别文本进行识别,得到待识别文本的分类类别;其中,样本特征集包括对应于至少一个分类类别的正特征集和负特征集,正特征集包括至少一个第一特征单元,负特征集包括至少一个第二特征单元,第一特征单元为在对应分类类别的第一正样本文本集中出现次数大于第一阈值的词或词组,第二特征单元为在对应分类类别的第一负样本文本集中出现次数大于第二阈值的词或词组。该方法中的第一特征单元能够更准确的代表分类类别,第二特征单元能够避免错误的分类,从而提升了文本类别识别的效率和准确度。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种文本类别的 识别方法、装置、设备及计算机可读存储介质。
背景技术
随着大数据的快速发展,以文本形式为载体的数据广泛存在日常生活 中,同时不可避免地存在着许多垃圾文本,例如,手机短信信息或邮件所 接收到的垃圾文本涉及各种诈骗信息、赌博短信、恶意推广等,视频弹幕 文本所包含的各种不文明用语、低俗辱骂等,微博、微信等社交平台上传 播的不实言论、政治敏感、低质灌水等。
当对待识别文本进行识别时,需要确定待识别文本是否为垃圾文本, 但是,随着垃圾文本的复杂度的提高,现有技术对垃圾文本的识别效率和 识别准确度还不够高。
发明内容
本申请针对现有的方式的缺点,提出一种文本类别的识别方法、装置、 电子设备及计算机可读存储介质,用以解决如何提升文本类别识别的效率 和准确度的问题。
第一方面,本申请提供了一种文本类别的识别方法,包括:
获取待识别文本;
根据预先生成的样本特征集,对待识别文本进行识别,得到待识别文 本的分类类别;
其中,样本特征集包括对应于至少一个分类类别的正特征集和负特征 集,正特征集包括至少一个第一特征单元,负特征集包括至少一个第二特 征单元,第一特征单元为在对应分类类别的第一正样本文本集中出现次数 大于第一阈值的词或词组,第二特征单元为在对应分类类别的第一负样本文本集中出现次数大于第二阈值的词或词组。
可选地,正特征集通过以下方式确定:
对于每一分类类别的第一正样本文本集,提取该第一正样本文本集中 的每一正样本文本中的各个第一过滤词,各个第一过滤词是对应正样本文 本中除对应分类类别下的关键词以外的至少一个词;
对于每一第一过滤词,若该第一过滤词在第一正样本文本集中所属文 本的个数大于所述第一阈值,则将该第一过滤词作为第二过滤词;
利用各个第二过滤词,生成对应分类类别的正特征集中的各个第一特 征单元。
可选地,负特征集通过以下方式确定:
对于每一分类类别的第一负样本文本集,提取该第一负样本文本集中 的每一负样本文本中的各个第三过滤词,各个第三过滤词是对应负样本文 本中除对应分类类别下的关键词以外的至少一个词;
对于每一第三过滤词,若该第三过滤词在第一负样本文本集中所属文 本的个数大于第二阈值,则将该第三过滤词作为第四过滤词;
利用各个第四过滤词,生成对应分类类别的负特征集中的各个第二特 征单元。
可选地,利用各个第二过滤词,生成对应分类类别的正特征集中的各 个第一特征单元,包括:
将各个第二过滤词,作为对应分类类别的正特征集中的各个第一特征 单元;
或者,将各个第二过滤词、以及与第二过滤词的相关度大于第三阈值 的扩展词,作为对应分类类别的正特征集中的各个第一特征单元。
可选地,利用各个第四过滤词,生成对应分类类别的负特征集中的各 个第二特征单元,包括:
将各个第四过滤词,作为对应分类类别的负特征集中的各个第二特征 单元;
或者,将各个第四过滤词、以及与第四过滤词的相关度大于第四阈值 的扩展词,作为对应分类类别的负特征集中的各个第二特征单元。
可选地,根据预先生成的样本特征集,对待识别文本进行识别,包括:
根据预先生成的样本文本集中的各个特征单元,从语料库中筛选得到 每一分类类别下的第二正样本文集和第二负样本文本集,第二正样本文本 集包括对应分类类别下的包括至少一个第一特征单元的正样本文本,第二 负样本文本集包括对应分类类别下的包括至少一个第二特征单元的负样 本文本;
根据第二正样本文集和第二负样本文本集,对待识别文本进行识别。
可选地,根据第二正样本文集和第二负样本文本集,对待识别文本进 行识别,包括:
生成待识别文本的文本特征;
将待识别文本的文本特征,与第二正样本文集和第二负样本文本集中 的每一样本文本的文本特征进行相似度计算;
将相似度最大的样本文本的分类类别,作为待识别文本的分类类别。
可选地,利用各个第二过滤词,生成对应分类类别的正特征集中的各 个第一特征单元,包括:
生成各个第一过滤词组,第一过滤词组包括各个第二过滤词中的至少 两个、且第一过滤词组在第一正样本文本集中所属文本的个数大于第一阈 值;
将各个第二过滤词以及各个第一过滤词组,作为对应分类类别的正特 征集中的各个第一特征单元;或者,将各个第二过滤词、各个第一过滤词 组以及与第二过滤词的相关度大于第五阈值的扩展词,作为对应分类类别 的正特征集中的各个第一特征单元。
可选地,利用各个第四过滤词,生成对应分类类别的负特征集中的各 个第二特征单元,包括:
生成各个第二过滤词组,第二过滤词组包括各个第四过滤词中的至少 两个、且第二过滤词组在第一负样本文本集中所属文本的个数大于第二阈 值;
将各个第四过滤词以及各个第二过滤词组,作为对应分类类别的负特 征集中的各个第二特征单元;或者,将各个第四过滤词、各个第二过滤词 组以及与第四过滤词的相关度大于第六阈值的扩展词,作为对应分类类别 的负特征集中的各个第二特征单元。
可选地,根据预先生成的样本特征集,对待识别文本进行识别,包括:
根据样本特征集以及权重集合,对待识别文本进行识;
其中,权重集合包括样本文本集中的每一第一特征单元的第一权重、 以及样本文本集中的每一第二特征单元的第二权重;第一权重为对应第一 特征单元在对应分类类别的第一正样本文本集中的占比,第二权重为对应 第二特征单元在对应分类类别的第一负样本文本集中的占比。
可选地,根据样本特征集以及权重集合,对待识别文本进行识,包括:
根据样本特征集以及权重集合,确定待识别文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一正样本文本,根据样 本特征集以及权重集合,确定该正样本文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一负样本文本,根据样 本特征集以及权重集合,确定该负样本文本对应的权重;
根据所述识别文本对应的权重、每一正样本文本对应的权重、每一负 样本文本对应的权重,对所述待识别文本进行识别。
可选地,根据样本特征集以及权重集合,确定待识别文本对应的权重, 包括:
将待识别文本与样本特征集进行匹配;
若从样本特征集中匹配到至少一个特征单元,则从匹配到的特征单元 中选取一个,并将被选取特征单元对应的权重,作为待识别文本对应的权 重;
若未从样本特征集中匹配到至少一个特征单元,则根据第一阈值或第 二阈值得到作为待识别文本对应的权重。
可选地,根据识别文本对应的权重、每一正样本文本对应的权重、每 一负样本文本对应的权重,对待识别文本进行识别,包括:
确定待识别文本的文本向量;
确定每一分类类别的第一正样本文本集中的每一正样本文本的文本 向量;
确定每一分类类别的第一负样本文本集中的每一负样本文本的文本 向量;
根据确定的各个文本向量,以及识别文本对应的权重、每一正样本文 本对应的权重、每一负样本文本对应的权重,通过聚类算法对待识别文本 进行识别。
第二方面,本申请提供了一种文本类别的识别装置,包括:
第一处理模块,用于获取待识别文本;
第二处理模块,用于根据预先生成的样本特征集,对待识别文本进行 识别,得到待识别文本的分类类别;
其中,样本特征集包括对应于至少一个分类类别的正特征集和负特征 集,正特征集包括至少一个第一特征单元,负特征集包括至少一个第二特 征单元,第一特征单元为在对应分类类别的第一正样本文本集中出现次数 大于第一阈值的词或词组,第二特征单元为在对应分类类别的第一负样本 文本集中出现次数大于第二阈值的词或词组。
可选地,正特征集通过以下方式确定:对于每一分类类别的第一正样 本文本集,提取该第一正样本文本集中的每一正样本文本中的各个第一过 滤词,各个第一过滤词是对应正样本文本中除对应分类类别下的关键词以 外的至少一个词;
对于每一第一过滤词,若该第一过滤词在第一正样本文本集中所属文 本的个数大于所述第一阈值,则将该第一过滤词作为第二过滤词;
利用各个第二过滤词,生成对应分类类别的正特征集中的各个第一特 征单元。
可选地,负特征集通过以下方式确定:对于每一分类类别的第一负样 本文本集,提取该第一负样本文本集中的每一负样本文本中的各个第三过 滤词,各个第三过滤词是对应负样本文本中除对应分类类别下的关键词以 外的至少一个词;
对于每一第三过滤词,若该第三过滤词在第一负样本文本集中所属文 本的个数大于第二阈值,则将该第三过滤词作为第四过滤词;
利用各个第四过滤词,生成对应分类类别的负特征集中的各个第二特 征单元。
可选地,第二处理模块,具体用于将各个第二过滤词,作为对应分类 类别的正特征集中的各个第一特征单元;
或者,将各个第二过滤词、以及与第二过滤词的相关度大于第三阈值 的扩展词,作为对应分类类别的正特征集中的各个第一特征单元。
可选地,第二处理模块,具体用于将各个第四过滤词,作为对应分类 类别的负特征集中的各个第二特征单元;
或者,将各个第四过滤词、以及与第四过滤词的相关度大于第四阈值 的扩展词,作为对应分类类别的负特征集中的各个第二特征单元。
可选地,第二处理模块,具体用于根据预先生成的样本文本集中的各 个特征单元,从语料库中筛选得到每一分类类别下的第二正样本文集和第 二负样本文本集,第二正样本文本集包括对应分类类别下的包括至少一个 第一特征单元的正样本文本,第二负样本文本集包括对应分类类别下的包 括至少一个第二特征单元的负样本文本;
根据第二正样本文集和第二负样本文本集,对待识别文本进行识别。
可选地,第二处理模块,具体用于生成待识别文本的文本特征;
将待识别文本的文本特征,与第二正样本文集和第二负样本文本集中 的每一样本文本的文本特征进行相似度计算;
将相似度最大的样本文本的分类类别,作为待识别文本的分类类别。
可选地,第二处理模块,具体用于生成各个第一过滤词组,第一过滤 词组包括各个第二过滤词中的至少两个、且第一过滤词组在第一正样本文 本集中所属文本的个数大于第一阈值;
将各个第二过滤词以及各个第一过滤词组,作为对应分类类别的正特 征集中的各个第一特征单元;或者,将各个第二过滤词、各个第一过滤词 组以及与第二过滤词的相关度大于第五阈值的扩展词,作为对应分类类别 的正特征集中的各个第一特征单元。
可选地,第二处理模块,具体用于生成各个第二过滤词组,第二过滤 词组包括各个第四过滤词中的至少两个、且第二过滤词组在第一负样本文 本集中所属文本的个数大于第二阈值;
将各个第四过滤词以及各个第二过滤词组,作为对应分类类别的负特 征集中的各个第二特征单元;或者,将各个第四过滤词、各个第二过滤词 组以及与第四过滤词的相关度大于第六阈值的扩展词,作为对应分类类别 的负特征集中的各个第二特征单元。
可选地,第二处理模块,具体用于根据样本特征集以及权重集合,对 待识别文本进行识;
其中,权重集合包括样本文本集中的每一第一特征单元的第一权重、 以及样本文本集中的每一第二特征单元的第二权重;第一权重为对应第一 特征单元在对应分类类别的第一正样本文本集中的占比,第二权重为对应 第二特征单元在对应分类类别的第一负样本文本集中的占比。
可选地,第二处理模块,具体用于根据样本特征集以及权重集合,确 定待识别文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一正样本文本,根据样 本特征集以及权重集合,确定该正样本文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一负样本文本,根据样 本特征集以及权重集合,确定该负样本文本对应的权重;
根据所述识别文本对应的权重、每一正样本文本对应的权重、每一负 样本文本对应的权重,对所述待识别文本进行识别。
可选地,第二处理模块,具体用于将待识别文本与样本特征集进行匹 配;
若从样本特征集中匹配到至少一个特征单元,则从匹配到的特征单元 中选取一个,并将被选取特征单元对应的权重,作为待识别文本对应的权 重;
若未从样本特征集中匹配到至少一个特征单元,则根据第一阈值或第 二阈值作为待识别文本对应的权重。
可选地,第二处理模块,具体用于确定待识别文本的文本向量;
确定每一分类类别的第一正样本文本集中的每一正样本文本的文本 向量;
确定每一分类类别的第一负样本文本集中的每一负样本文本的文本 向量;
根据确定的各个文本向量,以及识别文本对应的权重、每一正样本文 本对应的权重、每一负样本文本对应的权重,通过聚类算法对待识别文本 进行识别。
第三方面,本申请提供了一种电子设备,包括:处理器、存储器和总 线;
总线,用于连接处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本申请第一方面的文本类别的 识别方法。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程 序,计算机程序被用于执行本申请第一方面的文本类别的识别方法。
本申请实施例提供的技术方案,至少具有如下有益效果:
收集第一正样本文本集中出现次数大于第一阈值的词或词组,得到第 一正样本文本集中出现频率高的词或词组,即第一特征单元;收集第一负 样本文本集中出现次数大于第二阈值的词或词组,得到第一负样本文本集 中出现频率高的词或词组,即第二特征单元;第一特征单元能够更准确的 代表分类类别,第二特征单元能够避免错误的分类;当待识别文本中出现与第一特征单元相同或相近的词或词组,且没有出现与第二特征单元相同或相近的词或词组时,可以很大概率上准确的识别出待识别文本的分类类 别与第一特征单元代表的分类类别相同;当待识别文本中出现与第二特征 单元相同或相近的词或词组时,能够很大概率上避免错误的将待识别文本 的分类类别识别为第一特征单元代表的分类类别;提升了文本类别识别的效率和准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施 例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本类别的识别方法的流程示意图;
图2为本申请实施例提供的挖掘正向上下文特征的方法的流程示意 图;
图3为本申请实施例提供的挖掘负向上下文特征的方法的流程示意 图;
图4本申请实施例提供的BI-LSTM和AM-Softmax模型示意图;
图5本申请实施例提供的一种文本类别的识别装置的结构示意图;
图6本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面 将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全 部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳 动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面详细描述本申请的实施例,该实施例的示例在附图中示出,其中 自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功 能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申 请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是, 本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、 元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连 接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也 可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接 或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算 机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知 识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是 计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的 能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种 智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术 也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智 能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电 一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习或深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与 人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语 言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算 机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即 人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言 处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、 统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机 怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有 的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使 计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习 和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归 纳学习、式教学习等技术。
为了更好的理解及说明本申请实施例的方案,下面对本申请实施例中 所涉及到的一些技术用语进行简单说明。
K均值聚类算法:K均值聚类算法(K-means clustering algorithm)是 一种迭代求解的聚类分析算法,其步骤是,预先将数据分为K组,随机选 取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分 配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根 据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。由于 K-means属于无监督机器学习方法,因此事先只能制定结果聚类的数目, 例如K值为2,而无法为每一类指定具体的类别名。
PrefixSpan算法:PrefixSpan(Prefix-Projected Pattern Growth,前缀投 影的模式挖掘)算法的具体操作步骤如下:
1.找出单位长度为1的词序列前缀和对应投影数据集;
2.统计词序列前缀出现频率并将支持度高于最小支持度阈值的前缀 添加到数据集,获取频繁一项集词序列模式;
3.对所有长度为i且满足最小支持度要求的前缀递归挖掘:
(1)挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;
(2)统计对应投影数据集中各项的最小支持度,将满足支持度的各 单项与当前前缀合并,得到新前缀,不满足支持度要求则递归返回;
(3)令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第3 步;
4.返回该词序列数据集中所有的频繁词序列模式。
word2vec:word2vec是一种词语向量化的方式,是以无监督方式从海 量文本语料中学习富含语义信息的低维词向量的语言模型,word2vec将单 词从原先所属的空间映射到新的低维空间,使得语义上相似的单词在该空 间内距离相近,word2vec词向量可以用于词语之间相似性度量,由于语 义相近的词语在向量空间上的分布比较接近,可以通过计算词向量间的空 间距离来表示词语间的语义相似度,因此word2vec词向量具有很好的语 义特性。word2vec是神经网络在自然语言处理领域应用的结果,它是利 用深度学习方法来获取词语的分布表示,可以用于文本分类、情感计算、词典构建等自然语言处理任务。
BI-LSTM:BI-LSTM(Bi-directional Long-Short Term Memory,双向 长短时记忆网络)是由前向LSTM与后向LSTM组合而成,前向LSTM 与后向LSTM在自然语言处理任务中都常被用来建模上下文信息。通过 BI-LSTM可以更好的捕捉双向的语义依赖。
AM-Softmax:AM-Softmax(Additive Margin Softmax)是Softmax的 变种,其中,Softmax是将神经网络得到的多个值,进行归一化处理,让 结果变得可解释;即可以将结果看作是概率,某个类别概率越大,将样本 归为该类别的可能性也就越高。
CNN:CNN(Convolutional Neural Networks,卷积神经网络)是一 类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输 入信息进行平移不变分类(shift-invariantclassification)。
GRU:GRU是循环神经网络的一种,GRU为了解决长期记忆和反向 传播中的梯度等问题而提出来的。
FC:FC(fully connected layers,全连接层)有多个神经元,是一个 列向量(单个样本)。FC在计算机视觉领域常用于深度神经网络的后面几层。FC在整个卷积神经网络中起到分类器的作用。
Concat层:Concat层的作用就是将两个及以上的特征图或数据进行拼 接。
Attention层:Attention层是先计算每个时序的权重,然后将所有时序 的向量进行加权。
Python:Python是一种跨平台的计算机程序设计语言;Python是一个 高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。
jieba:jieba是一个python实现的中文分词组件,支持简、繁体中文, 高级用户还可以加入自定义词典以提高分词的准确率。
本申请实施例提供的技术方案涉及人工智能的自然语言处理和机器 学习,下面以具体的实施例对本申请的技术方案以及本申请的技术方案如 何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结 合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将 结合附图,对本申请的实施例进行描述。
本申请实施例中提供了一种文本类别的识别方法,该方法的流程示意 图如图1所示,该方法包括:
S101,获取待识别文本。
可选地,可以针对线上待识别文本进行实时识别,也可以针对线下文 本库中的待识别文本进行识别。例如:当某平台或者网站需要针对平台上 的待识别文本进行识别时,则可以直接从该平台或者网站获取待识别文本; 当某应用需要对用户上传的待识别文本进行识别时,则可以直接获取用户 通过应用上传的待识别文本;也可以针对特定存储空间中存储的待识别文本进行识别,例如从预先指定的存储地址中获取待识别文本。
需要说明的是,本申请实施例不限制待识别文本的识别类型,例如, 可以对待识别文本是否是垃圾文本进行识别,也可以对待识别文本进行其 他类型的识别,比如,对待识别文本是否为化学类文本进行识别。
S102,根据预先生成的样本特征集,对待识别文本进行识别,得到待 识别文本的分类类别;其中,样本特征集包括对应于至少一个分类类别的 正特征集和负特征集,正特征集包括至少一个第一特征单元,负特征集包 括至少一个第二特征单元,第一特征单元为在对应分类类别的第一正样本文本集中出现次数大于第一阈值的词或词组,第二特征单元为在对应分类 类别的第一负样本文本集中出现次数大于第二阈值的词或词组。
可选地,可以预先对S101中提及的识别类型进行分类,确定每一识 别类型下的分类类别,然后,可以收集每一分类类别下的基准词,根据这 些基准词,确定训练样本集,该训练样本集包括第一正样本文本集和第一 负样本文本集,第一正样本文本集包括多个正样本,第一负样本文本集包括多个负样本。
现以识别类型为“对待识别文本进行是否为垃圾文本的识别”为例, 则垃圾文本的分类类别可以包括色情类垃圾文本、广告推销类垃圾文本、低俗用语类垃圾文本等。垃圾文本比正常文本更高频率的使用代表各个分 类类型的垃圾词,这里,可以将每一垃圾词作为对应分类类型下的一个基 准词。
可选地,对于每一分类类别下的每一基准词,可以进一步通过同义词 林对该基准词进行同义词扩展,和/或,通过word2vec词向量计算对该基 准词进行近义词扩展,即,由这些基准词以及基于这些基准词得到的扩展 词,构成对应分类类别的关键词词库,为便于描述,后续将关键词词库中 的每一词称为关键词。即,每一分类类别对于一个关键词词库,关键词词 库中包括对应分类类别下的至少一个基准词,或包括对应分类类别下的至少一个基准词、以及基准词的同义词和/或近义词。
可选地,正特征集通过以下方式确定:
对于每一分类类别的第一正样本文本集,提取该第一正样本文本集中 的每一正样本文本中的各个第一过滤词,各个第一过滤词是对应正样本文 本中除对应分类类别下的关键词以外的至少一个词;
对于每一第一过滤词,若该第一过滤词在第一正样本文本集中所属文 本的个数大于所述第一阈值,则将该第一过滤词作为第二过滤词;
利用各个第二过滤词,生成对应分类类别的正特征集中的各个第一特 征单元。
可选地,负特征集通过以下方式确定:
对于每一分类类别的第一负样本文本集,提取该第一负样本文本集中 的每一负样本文本中的各个第三过滤词,各个第三过滤词是对应负样本文 本中除对应分类类别下的关键词以外的至少一个词;
对于每一第三过滤词,若该第三过滤词在第一负样本文本集中所属文 本的个数大于第二阈值,则将该第三过滤词作为第四过滤词;
利用各个第四过滤词,生成对应分类类别的负特征集中的各个第二特 征单元。
可选地,第一特征单元为正向上下文特征词,正向上下文特征词为正 向上下文特征中的一个词或词组;第二特征单元为负向上下文特征词,负 向上下文特征词为负向上下文特征中的一个词或词组。具体的,可以根据 第一正样本文本集包括的多个正样本,以及第一负样本文本集包括的多个负样本,分别挖掘正向上下文特征和负向上下文特征。
需要说明的是,在挖掘正向上下文特征和负向上下文特征时,后续内 容提到了可以基于prefixspan算法进行挖掘。此处先对prefixspan算法进 行介绍,具体地,可以遍历垃圾文本进行分句,基于同一句中的词语序列 组成序列模式的原则及预设的prefixspan算法,在包含关键词的句子中进 行频繁词序列模式的挖掘。对于每个垃圾文本的分类类别,提取该分类类别的每一正样本,该正样本作为训练正样本,基于prefixspan算法,挖掘训练正样本的各个长度的频繁词序列模式,该正样本的各个长度的频繁词 序列模式为关键词的正向上下文特征。对于每个垃圾文本的分类类别,提 取该分类类别的负样本,该负样本作为训练负样本,基于prefixspan算法,挖掘训练负样本的各个长度的频繁词序列模式,该负样本的各个长度的频 繁词序列模式为关键词的负向上下文特征。
基于Prefixspan算法,挖掘正训练文本或负训练样本中模式支持度大 于预设的最小支持度阈值的各个长度的频繁词序列模式,模式支持度β如 公式(1)所示:
其中,β为模式支持度;M为“词”在各样本中出现的次数之和;其 中,当“词”为第一过滤词时,则M为第一过滤词在第一正样本文本集 中所属文本的个数,N为第一正样本文本集中的总样本数;当“词”为第 三过滤词时,则M为第三过滤词在第一负样本文本集中所属文本的个数; N为第一负样本文本集中的总样本数。
本申请实施例中提供了一种挖掘正向上下文特征的方法,该方法的流 程示意图如图2所示,该方法包括:
S201,获取训练正样本及关键词。
可选地,基于每个分类类别的各个训练正样本(即,各个训练正样本 为S102中某分类类别下的第一正样本文本集中的各个正样本),挖掘该 分类类别下的关键词的正向上下文特征。以垃圾文本的一个分类类别为色 情类垃圾文本为例,如表(1)所示:
表(1)训练正样本及关键词
训练正样本 | 关键词 |
淫秽色情服务表演 | 淫秽色情 |
提供按摩等色情服务 | 色情 |
保健按摩提供不良服务 | 不良 |
如表(1)所示,第一正样本文本集包括三个训练正样本,分别是: 淫秽色情服务表演;提供按摩等色情服务;保健按摩提供不良服务。其中, “淫秽色情服务表演”对应的关键词包括淫秽、色情;“提供按摩等色情 服务”对应的关键词包括色情;“保健按摩提供不良服务”对应的关键词包括不良。
S202,将各个训练正样本进行预处理,得到预处理数据。
可选地,预处理包括:正则过滤训练正样本的标点符号、字母和数字; 并过滤训练正样本对应的关键词,得到预处理数据,该预处理数据如表(2) 所示:
表(2)预处理数据
预处理数据 |
服务表演 |
提供按摩等服务 |
保健按摩提供性服务 |
S203,将预处理数据进行分词,得到各个第一过滤词。
可选地,将表(2)所示的预处理数据进行分词,分词得到每个词作 为第一过滤词,比如,服务、表演、提供、按摩、服务、保健等每个词为 第一过滤词。
S204,根据各个第一过滤词和预设的最小支持度阈值,挖掘各个训练 正样本中各个长度的频繁词序列模式。
可选地,对于每一第一过滤词,统计该第一过滤词在第一正样本文本 集中出现的样本数,当该第一过滤词对应的模式支持度(根据上述公式1 计算)不大于预设的最小支持度阈值,则过滤该第一过滤词;当该第一过 滤词对应的模式支持度大于预设的最小支持度阈值,则将该第一过滤词作为第二过滤词。
例如,当第一阈值为1、第一正样本文本集的个数为3时,则预设的 最小支持度阈值为1/3,基于此,当表(1)中的三个训练正样本对应的第 一过滤词至少出现在两个训练正样本中,则将该第一过滤词作为第二过滤 词。其中,“提供”为第二过滤词,该第二过滤词出现在两个训练正样本 中,第二过滤词出现在这三个训练正样本中的词频为2,这两个训练正样 本分别是:提供按摩等色情服务;保健按摩提供不良服务。“按摩”为第二过滤词,该第二过滤词出现在两个训练正样本中,第二过滤词出现在这 三个训练正样本中的词频为2,这两个训练正样本分别是:提供按摩等色 情服务;保健按摩提供不良服务。“服务”为第二过滤词,该第二过滤词 出现在这三个训练正样本中,第二过滤词出现在这三个训练正样本中的词 频为3。第二过滤词以及第二过滤词出现在这三个训练正样本中的词频, 如表(3)所示:
表(3)第二过滤词及词频
第二过滤词 | 提供 | 按摩 | 服务 |
词频 | 2 | 2 | 3 |
可见,通过上述过滤操作,可以得到第一正样本文本集中的各个高频 词,即各个第二过滤词。
根据各个第二过滤词对各个训练正样本进行词频过滤处理,即过滤掉 除各个第二过滤词以外的词以后,得到词频过滤处理后的样本,该词频过 滤处理后的样本如表(4)所示:
表(4)词频过滤处理后的样本
词频过滤处理后的样本 |
服务 |
提供按摩服务 |
按摩提供服务 |
通过预设的PrefixSpan算法对词频过滤处理后的样本进行挖掘,得到 各个训练正样本中各个长度的频繁词序列模式。第二过滤词为一项前缀, 先对长度为1的前缀(即一项前缀)进行挖掘,此时可以确定满足最小支 持度阈值的各一项前缀与其对应的相邻后缀(即前缀在词频过滤处理后的 样本中相邻的后续部分所包括的词)。对于一项前缀“服务”,其在词频过滤处理后的样本“服务”、“提供按摩服务”和“按摩提供服务”中不 存在的相邻后缀(表中均采用“无”表示);对于一项前缀“提供”,其 在词频过滤处理后的样本“提供按摩服务”的相邻后缀为“按摩服务”, 其在词频过滤处理后的样本“按摩提供服务”的相邻后缀为“服务”;对 于一项前缀“按摩”,其在词频过滤处理后的样本“提供按摩服务”的相 邻后缀为“服务”,其在词频过滤处理后的样本“按摩提供服务”的相邻 后缀为“提供服务”。挖掘得到一项前缀及其对应后缀,一项前缀及其对应后缀如表(5)所示:
表(5)一项前缀与对应后缀
进行下一轮迭代,通过采用上述挖掘一项前缀及其对应后缀的相同方 法,挖掘得到二项前缀及其对应后缀,二项前缀及其对应后缀如表(6) 所示:
表(6)二项前缀与对应后缀
二项前缀 | 对应后缀 |
提供服务 | 无 |
按摩服务 | 无 |
由于二项前缀“提供服务”和“按摩服务”都不存在相邻后缀,则迭 代结束,得到训练正样本的各个长度的频繁词序列模式及对应的模式支持 度,其中,训练正样本的各个长度的频繁词序列模式为正向上下文特征, 如表(7)所示:
表(7)频繁词序列模式与模式支持度
本申请实施例中,通过挖掘关键词的正向上下文特征,扩大了待识别 文本的识别过程中所需的样本类别和样本数量,提升了文本类别识别的效 率和准确度。
本申请实施例中提供了一种挖掘负向上下文特征的方法,该方法的流 程示意图如图3所示,该方法包括:
S301,获取训练负样本及关键词。
可选地,基于每个分类类别的各个训练负样本(即,各个训练负样本 为S102中某分类类别下的第一负样本文本集中的各个正样本),挖掘该 分类类别下的关键词的负向上下文特征。以垃圾文本的分类类别为色情类 垃圾文本为例,如表(8)所示:
表(8)训练负样本及关键词
训练负样本 | 关键词 |
18家中央媒体抵制淫秽色情信息-中国青年报 | 淫秽色情 |
拿什么来抵制网络色情 | 色情 |
想学吹箫乐器贴-小组话题-豆瓣 | 吹箫 |
厦门培训乐器学吹箫-猎学网 | 吹箫 |
如表(8)所示,第一负样本文本集包括三个训练负样本,分别是:18家中央媒体抵制淫秽色情信息-中国青年报;拿什么来抵制网络色情;想学吹箫乐器贴-小组话题-豆瓣;厦门培训乐器学吹箫-猎学网。其中,“18 家中央媒体抵制淫秽色情信息-中国青年报”对应的关键词包括淫秽、色 情;“拿什么来抵制网络色情”对应的关键词包括色情;“想学吹箫乐器 贴-小组话题-豆瓣”对应的关键词包括吹箫;“厦门培训乐器学吹箫-猎学 网”对应的关键词包括吹箫。
S302,将各个训练负样本进行预处理,得到预处理数据。
可选地,预处理包括:正则过滤训练负样本的标点符号、字母和数字; 并过滤训练负样本对应的关键词,得到预处理数据,该预处理数据如表(9) 所示:
表(9)预处理数据
预处理数据 |
18家中央媒体抵制信息中国青年报 |
拿什么来抵制网络 |
想学乐器贴小组话题豆瓣 |
厦门培训乐器学猎学网 |
S303,将预处理数据进行分词,得到各个第三过滤词。
可选地,将表(9)所示的预处理数据进行分词,分词得到每个词作 为第三过滤词,比如,中央、谋体、抵制、信息、中国、青年报、什么、 抵制、网络、乐器、学等每个词为第三过滤词。
S304,根据各个第三过滤词和预设的最小支持度阈值,挖掘各个训练 负样本中各个长度的频繁词序列模式。
可选地,对于每一第三过滤词,统计该第三过滤词在第一负样本文本 集中出现的样本数,当该第三过滤词对应的模式支持度(根据上述公式1 计算)不大于预设的最小支持度阈值,则过滤该第三过滤词;当该第三过 滤词对应的模式支持度大于预设的最小支持度阈值,则将该第三过滤词作 为第四过滤词。
例如,当第二阈值为1、第一负样本文本集的个数为3时,则预设的 最小支持度阈值为1/3,基于此,当表(8)中的四个训练负样本对应的第 三过滤词至少出现在两个训练负样本中,则将该第三过滤词作为第四过滤 词。其中,“抵制”为第四过滤词,该第四过滤词出现在两个训练负样本 中,该第四过滤词出现在这四个训练负样本中的词频为2,这两个训练负 样本分别是:18家中央媒体抵制淫秽色情信息-中国青年报;拿什么来抵 制网络色情。“乐器”为第四过滤词,该第四过滤词出现在两个训练负样本中,该第四过滤词出现在这四个训练负样本中的词频为2,这两个训练 负样本分别是:想学吹箫乐器贴-小组话题-豆瓣;厦门培训乐器学吹箫- 猎学网。“学”为第四过滤词,该第四过滤词出现在这两个训练负样本中, 该第四过滤词出现在这四个训练正样本中的词频为2,这两个训练负样本 分别是:想学吹箫乐器贴-小组话题-豆瓣;厦门培训乐器学吹箫-猎学网。第四过滤词以及第四过滤词出现在这四个训练负样本中的词频,如表(10) 所示:
表(10)第四过滤词及词频
第四过滤词 | 抵制 | 乐器 | 学 |
词频 | 2 | 2 | 2 |
可见,通过上述过滤操作,可以得到第一负样本文本集中的各个高频 词,即各个第四过滤词。
根据各个第四过滤词对各个训练负样本进行词频过滤处理,即过滤掉 除各个第四过滤词以外的词以后,得到词频过滤处理后的样本,该词频过 滤处理后的样本如表(11)所示:
表(11)词频过滤处理后的样本
词频过滤处理后的样本 |
抵制 |
抵制 |
学乐器 |
乐器学 |
通过预设的PrefixSpan算法对词频过滤处理后的样本进行挖掘,得到 各个训练负样本中各个长度的频繁词序列模式。第四过滤词为一项前缀, 先对长度为1的前缀(即一项前缀)进行挖掘,此时可以确定满足最小支 持度阈值的各一项前缀与其对应的相邻后缀(即前缀在词频过滤处理后的 样本中相邻的后续部分所包括的词)。对于一项前缀“抵制”,其在词频过滤处理后的样本“抵制”、“抵制”、“学乐器”和“乐器学”中不存 在的相邻后缀(表中均采用“无”表示);对于一项前缀“学”,其在词 频过滤处理后的样本“学乐器”的相邻后缀为“乐器”;对于一项前缀“乐 器”,其在词频过滤处理后的样本“乐器学”的相邻后缀为“学”。挖掘 得到一项前缀及其对应后缀,一项前缀及其对应后缀如表(12)所示:
表(12)一项前缀与对应后缀
一项前缀 | 对应后缀 |
抵制 | 无 |
学 | 乐器 |
乐器 | 学 |
由于二项前缀“乐器”和“学”都不存在相邻后缀,则迭代结束,得 到训练负样本的各个长度的频繁词序列模式及对应的模式支持度,其中, 训练负样本的各个长度的频繁词序列模式为负向上下文特征,如表(13) 所示:
表(13)频繁词序列模式与模式支持度
本申请实施例中,通过挖掘关键词的负向上下文特征,扩大了待识别 文本的识别过程中所需的样本类别和样本数量,提升了文本类别识别的效 率和准确度。
可选地,利用各个第二过滤词,生成对应分类类别的正特征集中的各 个第一特征单元,包括:
将各个第二过滤词,作为对应分类类别的正特征集中的各个第一特征 单元;
或者,将各个第二过滤词、以及与第二过滤词的相关度大于第三阈值 的扩展词,作为对应分类类别的正特征集中的各个第一特征单元。
需要说明的是,各个第二过滤词的获取方式,请参见上述“一种挖掘 正向上下文特征的方法”中的相关介绍。
可选地,利用各个第四过滤词,生成对应分类类别的负特征集中的各 个第二特征单元,包括:
将各个第四过滤词,作为对应分类类别的负特征集中的各个第二特征 单元;或者,将各个第四过滤词、以及与第四过滤词的相关度大于第四阈 值的扩展词,作为对应分类类别的负特征集中的各个第二特征单元。
需要说明的是,各个第四过滤词的获取方式,请参见上述“一种挖掘 负向上下文特征的方法”中的相关介绍。
在上述可选的实施方式中,可以获取第二过滤词的扩展词、第四过滤 词的扩展词,这些扩展词可以通过计算互信息扩展得到,其中,互信息的 计算公式如下:
可以对公式(2)进行改进,得到公式(3),公式(3)如下所示:
公式(2)和公式(3)中,当y为第二过滤词时,x是经常与y一起 出现的待挖掘词,当y与x的互信息I(x,y)大于第三阈值时,则将x作为 该第二过滤词y的扩展词;当y为第四过滤词时,x是经常与y一起出现 的待挖掘词,当y与x的互信息I(x,y)大于第四阈值时,则将x作为该第 四过滤词y的扩展词;a∈(0.5,1]。其中,第三阈值和第四阈值是预设的 互信息阈值,二者可以相同、也可以不同。
需要说明的是,在计算互信息时,可以通过计算y与x的词向量得到, y与x的词向量可以通过Word2vec训练相关领域的领域文本的分词得到。
可以理解的是,当y与x之间的互信息较大时,说明y与x之间的相 关度较大,进而说明y与x是经常一起出现的词。
可选地,利用各个第二过滤词,生成对应分类类别的正特征集中的各 个第一特征单元,包括:
生成各个第一过滤词组,第一过滤词组包括各个第二过滤词中的至少 两个、且第一过滤词组在第一正样本文本集中所属文本的个数大于第一阈 值;
将各个第二过滤词以及各个第一过滤词组,作为对应分类类别的正特 征集中的各个第一特征单元;或者,将各个第二过滤词、各个第一过滤词 组以及与第二过滤词的相关度大于第五阈值的扩展词,作为对应分类类别 的正特征集中的各个第一特征单元。
需要说明的是,各个第二过滤词的获取方式,请参见上述“一种挖掘 正向上下文特征的方法”中的相关介绍。并且,在上述“一种挖掘正向上 下文特征的方法”中,可以将采用prefixspan算法挖掘得到的词组形式的 每一正向上下文特征词,作为第一过滤词组。此外,第二过滤词的扩展词可以按照采用上述公式(3)计算得到,只需将上述第三阈值替换为第五 阈值,第五阈值为预设的互信息阈值。
例如,各个第一过滤词组分别为表(7)中的“提供服务”和“按摩 服务”;关于第一过滤词组“提供服务”,“提供服务”包括了两个第二 过滤词,这两个第二过滤词分别是“提供”和“服务”;关于第一过滤词 组“按摩服务”,“按摩服务”包括了两个第二过滤词,这两个第二过滤词分别是“按摩”和“服务”。第五阈值为预设的互信息阈值。
可选地,利用各个第四过滤词,生成对应分类类别的负特征集中的各 个第二特征单元,包括:
生成各个第二过滤词组,第二过滤词组包括各个第四过滤词中的至少 两个、且第二过滤词组在第一负样本文本集中所属文本的个数大于第二阈 值;
将各个第四过滤词以及各个第二过滤词组,作为对应分类类别的负特 征集中的各个第二特征单元;或者,将各个第四过滤词、各个第二过滤词 组以及与第四过滤词的相关度大于第六阈值的扩展词,作为对应分类类别 的负特征集中的各个第二特征单元。
需要说明的是,各个第四过滤词的获取方式,请参见上述“一种挖掘 负向上下文特征的方法”中的相关介绍。并且,在上述“一种挖掘负向上 下文特征的方法”中,可以将采用prefixspan算法挖掘得到的词组形式的 每一负向上下文特征词,作为第二过滤词组。此外,第二过滤词的扩展词可以按照采用上述公式(3)计算得到,只需将上述第四阈值替换为第六 阈值,第六阈值为预设的互信息阈值,该第六阈值可以与上述第五相同、 或不同。
例如,在上述“一种挖掘负向上下文特征的方法”中,没有生成各个 第二过滤词组。
本申请实施例中,通过挖掘关键词的正向上下文特征和关键词的负向 上下文特征,以及通过互信息扩展正向上下文特征词和负向上下文特征词, 扩大了待识别文本的识别过程中所需的样本类别和样本数量,提升了文本 类别识别的效率和准确度。
可选地,根据预先生成的样本特征集,对待识别文本进行识别,包括:
根据预先生成的样本文本集中的各个特征单元,从语料库中筛选得到 每一分类类别下的第二正样本文集和第二负样本文本集,第二正样本文本 集包括对应分类类别下的包括至少一个第一特征单元的正样本文本,第二 负样本文本集包括对应分类类别下的包括至少一个第二特征单元的负样 本文本;根据第二正样本文集和第二负样本文本集,对待识别文本进行识别。
具体来讲,以垃圾文本识别为例,可以根据正向上下文特征、负向上 下文特征和扩展词,在预先构建的语料库(该语料库中可以包括大量的垃 圾文本和非垃圾文本)中,匹配得到包括正向上下文特征、负向上下文特 征或扩展词中的至少一个的垃圾文本;根据匹配到的垃圾文本,确定垃圾 分类评分库。垃圾分类评分库包括第二正样本文集和第二负样本文本集, 第二正样本文集和第二负样本文本集中的样本文本为垃圾文本。垃圾分类 评分库如表(14)所示:
表(14)垃圾分类评分库
垃圾分类编码 | 垃圾分类类别 | 垃圾极性 | 垃圾文本 |
色情类-正 | 色情类 | 正样本 | 垃圾文本1 |
色情类-正 | 色情类 | 正样本 | ...... |
色情类-正 | 色情类 | 正样本 | 垃圾文本n |
色情类-负 | 色情类 | 负样本 | 垃圾文本1 |
色情类-负 | 色情类 | 负样本 | ...... |
色情类-负 | 色情类 | 负样本 | 垃圾文本m |
广告推销类-正 | 广告推销类 | 正样本 | 垃圾文本1 |
广告推销类-正 | 广告推销类 | 正样本 | ...... |
广告推销类-正 | 广告推销类 | 正样本 | 垃圾文本p |
广告推销类-负 | 广告推销类 | 负样本 | 垃圾文本1 |
广告推销类-负 | 广告推销类 | 负样本 | ...... |
...... | ...... | ...... | ...... |
将同一垃圾分类编码的文本作为一类,构建以垃圾分类编码为标签的 垃圾分类评分库。
可选地,对垃圾分类评分库中的垃圾文本进行特征向量化编码。对每 个垃圾文本进行分词,得到至少一个词;利用word2vec进行词向量化, 得到至少一个词对应的词向量;根据词向量,确定垃圾文本的句向量。
可选地,根据第二正样本文集和第二负样本文本集,对待识别文本进 行识别,包括:
生成待识别文本的文本特征;
将待识别文本的文本特征,与第二正样本文集和第二负样本文本集中 的每一样本文本的文本特征进行相似度计算;
将相似度最大的样本文本的分类类别,作为待识别文本的分类类别。
可选地,待识别文本的文本向量为待识别文本的句向量,第二正样本 文集和第二负样本文本集中的每一样本文本的文本向量为每一样本文本 的句向量。将待识别文本的句向量输入至训练后的多分类模型包括的特征 提取模型,确定待识别文本的句向量对应的特征;根据待识别文本的句向 量对应的特征和多个预设的训练特征,确定多个预设的训练特征分别与待 识别文本的句向量对应的特征之间的相似度,其中,多个预设的训练特征由多个预设的训练句向量分别输入至特征提取模型确定,多个预设的训练 句向量由垃圾分类评分库中的垃圾文本确定,即多个预设的训练句向量由 第二正样本文集和第二负样本文本集中的样本文本确定;根据多个预设的 训练特征分别与待识别文本的句向量对应的特征之间的相似度,确定待识 别文本的分类类别。例如,将相似度最大的样本文本的分类类别,作为待 识别文本的分类类别。
可选地,多分类模型为基于am-softmax的多分类模型,多分类模型 包括的特征提取模型为BI-LSTM、CNN、GRU中的任意一种。
可选地,如图4所示,基于am-softmax的多分类模型包括BI-LSTM101、 Concat层102、FC103、Attention层104和AM-Softmax105。
可选地,待识别文本的句向量作为基于am-softmax的多分类模型包 括的BI-LSTM的输入x,x为句子的特征编码,x包括句子中词或字的特 征编码。当待识别文本包括n个词或n个字时,X0、X1、X2......Xn为待 识别文本中包含的n个词或n个字的特征编码,其中,n是大于或等于1的正整数。例如,如图4中所示,“特征嵌入”表示句子中的词或字的特 征编码,n取值为3,即X0、X1、X2和X3,将X0、X1、X2和X3作为 BI-LSTM101的输入;若待识别文本为句子“我爱你中国”,则该句子“我 爱你中国”中的“我”的特征编码为X0,“爱”的特征编码为X1,“你”的特征编码为X2,“中国”的特征编码为X3。将BI-LSTM101的输出数 据通过concat102进行数据拼接,从concat102输出拼接后的数据,其中, 拼接后的数据为神经网络的中间矩阵参数。将拼接后的数据输入至全连接 层FC103和Attention层104,得到待识别文本的文本特征y。根据公式(4), 得到Attention层104的输出y,y为待识别文本的文本特征,公式(4) 如下所示:
y=Bi-LSTM(x) 公式(4)
可选地,将10个预设的训练句向量x1、x2、x3、x4、x5、x6、x7、x8、x9和x10输入至BI-LSTM101,Attention层104分别输出y1、y2、y3、y4、y5、y6、 y7、y8、y9和y10,分别计算y与y1、y2、y3、y4、y5、y6、y7、y8、y9和y10之间的相 识度,得到10个相识度,当y与y3之间的相识度是这10个相识度中的最 大相识度,则将x3对应的样本文本的分类类别作为待识别文本的分类类别。
可选地,对多分类模型进行训练的方式,包括:
根据预设的垃圾分类评分库,确定训练句向量;
将训练句向量输入至多分类模型包括的特征提取模型,确定训练句向 量对应的文本特征;
根据训练句向量对应的文本特征和预设的垃圾分类评分库,确定所述 多分类模型的损失函数的值;
当多分类模型的损失函数的值不小于预设的损失阈值,对多分类模型 进行训练,更新多分类模型的网络参数,直至当损失函数的值小于损失阈值,得到训练后的分类模型。
可选地,如图4所示,将训练句向量x输入至基于am-softmax的多 分类模型包括的特征提取模型Bi-LSTM101,将BI-LSTM101的输出数据 通过concat102进行数据拼接,从concat102输出拼接后的数据,其中, 拼接后的数据为神经网络的中间矩阵参数。将拼接后的数据输入至全连接 层FC103和Attention层104,得到训练句向量对应的文本特征y,将y输 入至am-softmax105,am-softmax105输出垃圾分类评分库包括的垃圾分类 类别的集合W,即多个垃圾分类类别c1,c2,...,cn,以及c1,c2,...,cn分别对 应的概率p1,p2,...,pn,选取p1,p2,...,pn中的最大概率pi对应的类别ci作为该 输入x的分类类别,其中,i为不大于n的正整数。根据公式(4)确定训 练句向量对应的文本特征y,其中,文本特征y作为Attention层104的输 出;根据训练句向量x对应的文本特征y和预设的垃圾分类评分库,通过公式(5)和公式(6)确定所述多分类模型的损失函数的值;当多分类模 型的损失函数的值不小于预设的损失阈值,对多分类模型进行训练,更新 多分类模型的网络参数,直至当损失函数的值小于损失阈值,得到训练后的分类模型。公式(5)如下所示:
p=am-softmax(yW) 公式(5)
其中,y为BI-LSTM的输出的编码后的文本特征,W为垃圾分类评 分库包括的垃圾分类类别的集合,即W=(c1,c2,...,cn),即p=am-softmax(< y,c1>,<y,c2>,...,<y,cn>)。
am-softmax的损失函数loss如公式(6)所示:
其中,θi代表y与ci的夹角,s为缩放因子,s取值为30,正数m取 值为0.35。t为目标下标,c1,c2,...,cn为多个垃圾分类类别。
本申请实施例中,根据垃圾分类评分库,构建基于am-softmax的多 分类模型,并通过基于am-softmax的多分类模型包括的特征提取模型 BI-LSTM进行相似度计算,从而确定垃圾分类评分库中的样本文本和待识 别文本之间的关联。由于应用时直接通过BI-LSTM的输出的编码后的文 本特征进行相似度大小的比较排序,确定待识别文本的类别标签,即待识 别文本的分类类别;更有利于工业应用的生产环境。
可选地,根据预先生成的样本特征集,对待识别文本进行识别,包括:
根据样本特征集以及权重集合,对待识别文本进行识;
其中,权重集合包括样本文本集中的每一第一特征单元的第一权重、 以及样本文本集中的每一第二特征单元的第二权重;第一权重为对应第一 特征单元在对应分类类别的第一正样本文本集中的占比,第二权重为对应 第二特征单元在对应分类类别的第一负样本文本集中的占比。
可选地,第一权重和第二权重为分类权重。
可选地,根据样本特征集以及权重集合,对待识别文本进行识,包括:
根据样本特征集以及权重集合,确定待识别文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一正样本文本,根据样 本特征集以及权重集合,确定该正样本文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一负样本文本,根据样 本特征集以及权重集合,确定该负样本文本对应的权重;
根据所述识别文本对应的权重、每一正样本文本对应的权重、每一负 样本文本对应的权重,对所述待识别文本进行识别。
可选地,正样本文本对应的权重和负样本文本对应的权重为分类权重。
可选地,根据样本特征集以及权重集合,确定待识别文本对应的权重, 包括:
将待识别文本与样本特征集进行匹配;
若从样本特征集中匹配到至少一个特征单元,则从匹配到的特征单元 中选取一个,并将被选取特征单元对应的权重,作为待识别文本对应的权 重;
若未从样本特征集中匹配到至少一个特征单元,则将第一阈值或第二 阈值作为待识别文本对应的权重。
可选地,被选取特征单元对应的权重和待识别文本对应的权重为分类 权重。
需要说明的是,后续内容中提及的“模式支持度”、“频繁词序列模 式”、“支持度阈值”等相关介绍,请参见上述“一种挖掘正向上下文特 征的方法”和“一种挖掘负向上下文特征的方法”。
可选地,当识别到待识别文本中存在正向上下文特征词,则可以确定 待识文本的句向量对应的分类权重为该正向上下文特征词对应的模式支 持度。
可选地,当识别到待识别文本中存在多个正向上下文特征词,则可以 确定待识文本的句向量对应的分类权重为多个正向上下文特征词中长度 最长的正向上下文特征词对应的模式支持度。长度最长的正向上下文特征 词对应长度最长的频繁词序列模式。
可选地,当识别到待识别文本中存在负向上下文特征词,确定待识别 文本的句向量对应的分类权重为负向上下文特征词对应的模式支持度取 反。
可选地,当识别到待识别文本中存在多个负向上下文特征词,确定待 识文本的句向量对应的分类权重为多个负向上下文特征词中长度最长的 负向上下文特征词对应的模式支持度。长度最长的负向上下文特征词对应 长度最长的频繁词序列模式。
可选地,当识别到待识别文本中存在正向上下文特征词和负向上下文 特征词,确定待识文本的句向量对应的分类权重为正向上下文特征词和负 向上下文特征词中长度最长的正向上下文特征词或长度最长的负向上下 文特征词对应的模式支持度。
可选地,当没有识别到待识别文本中存在正向上下文特征词和负向上 下文特征词,且识别到正向上下文特征对应的扩展词,该扩展词由正向上 下文特征词y通过公式(3)确定,确定待识别文本的句向量对应的分类权重为正向上下文特征词y对应的模式支持度。
可选地,当没有识别到待识别文本中存在正向上下文特征词和负向上 下文特征词,且识别到正向上下文特征对应的多个扩展词,多个扩展词由 多个正向上下文特征词通过公式(3)确定,确定待识别文本的句向量对 应的分类权重为多个正向上下文特征词中长度最长的正向上下文特征词对应的模式支持度。
可选地,当没有识别到待识别文本中存在正向上下文特征词和负向上 下文特征词,且识别到负向上下文特征对应的扩展词,该扩展词由负向上下文特征词y通过公式(3)确定,确定待识别文本的句向量对应的分类 权重为负向上下文特征词y对应的模式支持度取反。
可选地,当没有识别到待识别文本中存在正向上下文特征词和负向上 下文特征词,且识别到负向上下文特征对应的多个扩展词,多个扩展词由 多个负向上下文特征词通过公式(3)确定,确定待识别文本的句向量对 应的分类权重为多个负向上下文特征词中长度最长的负向上下文特征词对应的模式支持度取反。
可选地,当没有识别到待识别文本中存在正向上下文特征词、负向上 下文特征词、正向上下文特征对应的扩展词和负向上下文特征对应的扩展 词,确定待识别文本的句向量对应的分类权重为预设的支持度阈值。例如, 支持度阈值取值为0.5。
可选地,分类权重的取值范围为[-1,1]。
可选地,根据识别文本对应的权重、每一正样本文本对应的权重、每 一负样本文本对应的权重,对待识别文本进行识别,包括:
确定待识别文本的文本向量;
确定每一分类类别的第一正样本文本集中的每一正样本文本的文本 向量;
确定每一分类类别的第一负样本文本集中的每一负样本文本的文本 向量;
根据确定的各个文本向量,以及识别文本对应的权重、每一正样本文 本对应的权重、每一负样本文本对应的权重,通过聚类算法对待识别文本 进行识别。
可选地,将待识别文本进行分词,得到至少一个词,并生成该至少一 个词分别对应的词向量;根据这些词向量,确定待识别文本的句向量;根 据待识别文本的句向量、待识别文本的句向量对应的分类权重、多个预设 的训练句向量和多个预设的训练句向量分别对应的分类权重,得到至少一 个类中心向量,多个预设的训练句向量分别由多个预设的样本文本确定 (即,第一正样本文本集中的每一正样本文本的文本向量、以及第一负样 本文本集中的每一负样本文本的文本向量);将待识别文本的句向量划分 到至少一个类中心向量中的一个中心向量表征的聚类中,当待识别文本的 句向量与多个预设的训练句向量中的至少一个训练句向量划分到相同的聚类中,确定待识别文本的分类类别为至少一个训练句向量所对应的样本 文本的分类类别。
可选地,分词有专门的分词工具,例如,通过python的jieba进行分 词。分词是将句子拆分成一个一个的词,例如,我爱你中国,将“我爱你 中国”分词得到四个词,这四个词分别是:“我”、“爱”、“你”、“中 国”;将这四个词分别进行词向量化,得到词向量;词向量化的方式包括word2vec。
可选地,通过word2vec对词向量的每一维度取平均,得到待识别文 本的句向量。
可选地,当不考虑样本权重时,K-means聚类算法在准则函数收敛时 结束聚类,其中,准则函数的计算公式(7)如下所示:
其中,J为凝聚度,用来衡量聚类效果;k为类簇的总数目;mi是类 簇i中的成员总数;为类簇i中的第j个成员;为类簇i的中心向量; 中心向量的计算公式(8)如下所示:
表示与类簇中心点之间的相似度,可以通过向量夹角的 余弦计算方式得到相似度。
当考虑样本权重时,准则函数的计算公式(9)如下所示:
其中,为聚类样本加权后的类中心向量,类中心向量的计算公式 (10)如下所示:
其中,wj为聚类样本i的分类权重;聚类样本i可以表示待识别文本 或样本文本;可以表示待识别文本的句向量或训练句向量。
可选地,当公式(9)中的k取值为2,通过K-means聚类算法,得 到待识别文本所划分到的分类类别,统计该分类类别中垃圾文本占比与非 垃圾文本占比,将占比高的类别标签作为待识别文本的分类标签,即将占 比高的分类类别作为待识别文本的分类类别。例如,该分类类别中垃圾文本占比高于非垃圾文本占比,则确定待识别文本的分类类别为垃圾文本的 分类类别。
本申请实施例中,通过模式支持度、正向上下文特征词、负向上下文 特征词、正向上下文特征对应的扩展词和负向上下文特征对应的扩展词, 确定待识别文本的分类权重,并基于该分类权重进行待识别文本的加权聚 类,提升了待识别文本的分类类别识别的准确度。
为了更好的理解本申请实施例所提供的方法,下面结合具体应用场景 的示例对本申请实施例的方案进行进一步说明。
本申请实施例所提供的方法应用于垃圾文本分类、邮件过滤、垃圾短 信识别、弹幕垃圾信息过滤等场景。例如,在抖音、视频等视频播放的弹 幕应用中,通过识别弹幕内容中包含的垃圾信息,从而提高用户的观看体 验,同时减少风控带来的损失;对于垃圾短信和垃圾邮件的识别和过滤, 能够减少信息骚扰、避免用户上当受骗等。
基于相同的发明构思,本申请实施例还提供了一种文本类别的识别装 置,该装置的结构示意图如图5所示,文本类别的识别装置40,包括第 一处理模块401和第二处理模块402。
第一处理模块401,用于获取待识别文本;
第二处理模块402,用于根据预先生成的样本特征集,对待识别文本 进行识别,得到待识别文本的分类类别;
其中,样本特征集包括对应于至少一个分类类别的正特征集和负特征 集,正特征集包括至少一个第一特征单元,负特征集包括至少一个第二特 征单元,第一特征单元为在对应分类类别的第一正样本文本集中出现次数 大于第一阈值的词或词组,第二特征单元为在对应分类类别的第一负样本 文本集中出现次数大于第二阈值的词或词组。
可选地,正特征集通过以下方式确定:对于每一分类类别的第一正样 本文本集,提取该第一正样本文本集中的每一正样本文本中的各个第一过 滤词,各个第一过滤词是对应正样本文本中除对应分类类别下的关键词以 外的至少一个词;
对于每一第一过滤词,若该第一过滤词在第一正样本文本集中所属文 本的个数大于所述第一阈值,则将该第一过滤词作为第二过滤词;
利用各个第二过滤词,生成对应分类类别的正特征集中的各个第一特 征单元。
可选地,负特征集通过以下方式确定:对于每一分类类别的第一负样 本文本集,提取该第一负样本文本集中的每一负样本文本中的各个第三过 滤词,各个第三过滤词是对应负样本文本中除对应分类类别下的关键词以 外的至少一个词;
对于每一第三过滤词,若该第三过滤词在第一负样本文本集中所属文 本的个数大于第二阈值,则将该第三过滤词作为第四过滤词;
利用各个第四过滤词,生成对应分类类别的负特征集中的各个第二特 征单元。
可选地,第二处理模块402,具体用于将各个第二过滤词,作为对应 分类类别的正特征集中的各个第一特征单元;
或者,将各个第二过滤词、以及与第二过滤词的相关度大于第三阈值 的扩展词,作为对应分类类别的正特征集中的各个第一特征单元。
可选地,第二处理模块402,具体用于将各个第四过滤词,作为对应 分类类别的负特征集中的各个第二特征单元;
或者,将各个第四过滤词、以及与第四过滤词的相关度大于第四阈值 的扩展词,作为对应分类类别的负特征集中的各个第二特征单元。
可选地,第二处理模块402,具体用于根据预先生成的样本文本集中 的各个特征单元,从语料库中筛选得到每一分类类别下的第二正样本文集 和第二负样本文本集,第二正样本文本集包括对应分类类别下的包括至少 一个第一特征单元的正样本文本,第二负样本文本集包括对应分类类别下的包括至少一个第二特征单元的负样本文本;
根据第二正样本文集和第二负样本文本集,对待识别文本进行识别。
可选地,第二处理模块402,具体用于生成待识别文本的文本特征;
将待识别文本的文本特征,与第二正样本文集和第二负样本文本集中 的每一样本文本的文本特征进行相似度计算;
将相似度最大的样本文本的分类类别,作为待识别文本的分类类别。
可选地,第二处理模块402,具体用于生成各个第一过滤词组,第一 过滤词组包括各个第二过滤词中的至少两个、且第一过滤词组在第一正样 本文本集中所属文本的个数大于第一阈值;
将各个第二过滤词以及各个第一过滤词组,作为对应分类类别的正特 征集中的各个第一特征单元;或者,将各个第二过滤词、各个第一过滤词 组以及与第二过滤词的相关度大于第五阈值的扩展词,作为对应分类类别 的正特征集中的各个第一特征单元。
可选地,第二处理模块402,具体用于生成各个第二过滤词组,第二 过滤词组包括各个第四过滤词中的至少两个、且第二过滤词组在第一负样 本文本集中所属文本的个数大于第二阈值;
将各个第四过滤词以及各个第二过滤词组,作为对应分类类别的负特 征集中的各个第二特征单元;或者,将各个第四过滤词、各个第二过滤词 组以及与第四过滤词的相关度大于第六阈值的扩展词,作为对应分类类别 的负特征集中的各个第二特征单元。
可选地,第二处理模块402,具体用于根据样本特征集以及权重集合, 对待识别文本进行识;
其中,权重集合包括样本文本集中的每一第一特征单元的第一权重、 以及样本文本集中的每一第二特征单元的第二权重;第一权重为对应第一 特征单元在对应分类类别的第一正样本文本集中的占比,第二权重为对应 第二特征单元在对应分类类别的第一负样本文本集中的占比。
可选地,第二处理模块402,具体用于根据样本特征集以及权重集合, 确定待识别文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一正样本文本,根据样 本特征集以及权重集合,确定该正样本文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一负样本文本,根据样 本特征集以及权重集合,确定该负样本文本对应的权重;
根据所述识别文本对应的权重、每一正样本文本对应的权重、每一负 样本文本对应的权重,对所述待识别文本进行识别。
可选地,第二处理模块402,具体用于将待识别文本与样本特征集进 行匹配;
若从样本特征集中匹配到至少一个特征单元,则从匹配到的特征单元 中选取一个,并将被选取特征单元对应的权重,作为待识别文本对应的权 重;
若未从样本特征集中匹配到至少一个特征单元,则根据第一阈值或第 二阈值作为待识别文本对应的权重。
可选地,第二处理模块402,具体用于确定待识别文本的文本向量;
确定每一分类类别的第一正样本文本集中的每一正样本文本的文本 向量;
确定每一分类类别的第一负样本文本集中的每一负样本文本的文本 向量;
根据确定的各个文本向量,以及识别文本对应的权重、每一正样本文 本对应的权重、每一负样本文本对应的权重,通过聚类算法对待识别文本 进行识别。
本申请实施例提供的文本类别的识别装置中未详述的内容,可参照上 述实施例提供的文本类别的识别方法,本申请实施例提供的文本类别的识 别装置能够达到的有益效果与上述实施例提供的文本类别的识别方法相 同,在此不再赘述。
应用本申请实施例,至少具有如下有益效果:
收集第一正样本文本集中出现次数大于第一阈值的词或词组,得到第 一正样本文本集中出现频率高的词或词组,即第一特征单元;收集第一负 样本文本集中出现次数大于第二阈值的词或词组,得到第一负样本文本集 中出现频率高的词或词组,即第二特征单元;第一特征单元能够更准确的 代表分类类别,第二特征单元能够避免错误的分类;当待识别文本中出现与第一特征单元相同或相近的词或词组,且没有出现与第二特征单元相同或相近的词或词组时,可以很大概率上准确的识别出待识别文本的分类类 别与第一特征单元代表的分类类别相同;当待识别文本中出现与第二特征 单元相同或相近的词或词组时,能够很大概率上避免错误的将待识别文本 的分类类别识别为第一特征单元代表的分类类别;提升了文本类别识别的 效率和准确度。
基于相同的发明构思,本申请实施例还提供了一种电子设备,该电子 设备的结构示意图如图6所示,该电子设备6000包括至少一个处理器6001、 存储器6002和总线6003,至少一个处理器6001均与存储器6002电连接; 存储器6002被配置用于存储有至少一个计算机可执行指令,处理器6001 被配置用于执行该至少一个计算机可执行指令,从而执行如本申请中任意 一个实施例或任意一种可选实施方式提供的任意一种文本类别的识别方 法的步骤。
进一步,处理器6001可以是FPGA(Field—Programmable Gate Array, 现场可编程门阵列)或者其它具有逻辑处理能力的器件,如MCU(Microcontroller Unit,微控制单元)、CPU(Central Process Unit,中央 处理器)。
应用本申请实施例,至少具有如下有益效果:
收集第一正样本文本集中出现次数大于第一阈值的词或词组,得到第 一正样本文本集中出现频率高的词或词组,即第一特征单元;收集第一负 样本文本集中出现次数大于第二阈值的词或词组,得到第一负样本文本集 中出现频率高的词或词组,即第二特征单元;第一特征单元能够更准确的 代表分类类别,第二特征单元能够避免错误的分类;当待识别文本中出现与第一特征单元相同或相近的词或词组,且没有出现与第二特征单元相同或相近的词或词组时,可以很大概率上准确的识别出待识别文本的分类类 别与第一特征单元代表的分类类别相同;当待识别文本中出现与第二特征 单元相同或相近的词或词组时,能够很大概率上避免错误的将待识别文本 的分类类别识别为第一特征单元代表的分类类别;提升了文本类别识别的 效率和准确度。
基于相同的发明构思,本申请实施例还提供了另一种计算机可读存储 介质,存储有计算机程序,该计算机程序用于被处理器执行时实现本申请 中任意一个实施例或任意一种可选实施方式提供的任意一种文本类别的 识别的步骤。
本申请实施例提供的计算机可读存储介质包括但不限于任何类型的 盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory, 只读存储器)、RAM(RandomAccess Memory,随即存储器)、EPROM (Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、 EEPROM(Electrically Erasable Programmable Read-OnlyMemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读存储介 质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介 质。
应用本申请实施例,至少具有如下有益效果:
收集第一正样本文本集中出现次数大于第一阈值的词或词组,得到第 一正样本文本集中出现频率高的词或词组,即第一特征单元;收集第一负 样本文本集中出现次数大于第二阈值的词或词组,得到第一负样本文本集 中出现频率高的词或词组,即第二特征单元;第一特征单元能够更准确的 代表分类类别,第二特征单元能够避免错误的分类;当待识别文本中出现与第一特征单元相同或相近的词或词组,且没有出现与第二特征单元相同或相近的词或词组时,可以很大概率上准确的识别出待识别文本的分类类 别与第一特征单元代表的分类类别相同;当待识别文本中出现与第二特征 单元相同或相近的词或词组时,能够很大概率上避免错误的将待识别文本 的分类类别识别为第一特征单元代表的分类类别;提升了文本类别识别的 效率和准确度。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结 构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图 中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指 令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来 实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请 公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方 法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步 地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措 施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的 普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进 和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种文本类别的识别方法,其特征在于,包括:
获取待识别文本;
根据预先生成的样本特征集,对所述待识别文本进行识别,得到所述待识别文本的分类类别;
其中,所述样本特征集包括对应于至少一个分类类别的正特征集和负特征集,所述正特征集包括至少一个第一特征单元,所述负特征集包括至少一个第二特征单元,所述第一特征单元为在对应分类类别的第一正样本文本集中出现次数大于第一阈值的词或词组,所述第二特征单元为在对应分类类别的第一负样本文本集中出现次数大于第二阈值的词或词组;
所述正特征集通过以下方式确定:
对于每一分类类别的第一正样本文本集,提取该第一正样本文本集中的每一正样本文本中的各个第一过滤词,所述各个第一过滤词是对应正样本文本中除对应分类类别下的关键词以外的至少一个词;
对于每一第一过滤词,若该第一过滤词在所述第一正样本文本集中所属文本的个数大于所述第一阈值,则将该第一过滤词作为第二过滤词;
利用各个第二过滤词,生成对应分类类别的正特征集中的各个第一特征单元。
2.根据权利要求1所述的方法,其特征在于,所述负特征集通过以下方式确定:
对于每一分类类别的第一负样本文本集,提取该第一负样本文本集中的每一负样本文本中的各个第三过滤词,所述各个第三过滤词是对应负样本文本中除对应分类类别下的关键词以外的至少一个词;
对于每一第三过滤词,若该第三过滤词在所述第一负样本文本集中所属文本的个数大于所述第二阈值,则将该第三过滤词作为第四过滤词;
利用各个第四过滤词,生成对应分类类别的负特征集中的各个第二特征单元。
3.根据权利要求1所述的方法,其特征在于,所述利用各个第二过滤词,生成对应分类类别的正特征集中的各个第一特征单元,包括:
将各个第二过滤词,作为对应分类类别的正特征集中的各个第一特征单元;
或者,将各个第二过滤词、以及与所述第二过滤词的相关度大于第三阈值的扩展词,作为对应分类类别的正特征集中的各个第一特征单元。
4.根据权利要求2所述的方法,其特征在于,所述利用各个第四过滤词,生成对应分类类别的负特征集中的各个第二特征单元,包括:
将各个第四过滤词,作为对应分类类别的负特征集中的各个第二特征单元;
或者,将各个第四过滤词、以及与所述第四过滤词的相关度大于第四阈值的扩展词,作为对应分类类别的负特征集中的各个第二特征单元。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据预先生成的样本特征集,对所述待识别文本进行识别,包括:
根据预先生成的样本文本集中的各个特征单元,从语料库中筛选得到每一分类类别下的第二正样本文本集和第二负样本文本集,所述第二正样本文本集包括对应分类类别下的包括至少一个第一特征单元的正样本文本,所述第二负样本文本集包括对应分类类别下的包括至少一个第二特征单元的负样本文本;
根据所述第二正样本文本集和所述第二负样本文本集,对所述待识别文本进行识别。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二正样本文本集和所述第二负样本文本集,对所述待识别文本进行识别,包括:
生成所述待识别文本的文本特征;
将所述待识别文本的文本特征,与所述第二正样本文本集和所述第二负样本文本集中的每一样本文本的文本特征进行相似度计算;
将相似度最大的样本文本的分类类别,作为所述待识别文本的分类类别。
7.根据权利要求1所述的方法,其特征在于,所述利用各个第二过滤词,生成对应分类类别的正特征集中的各个第一特征单元,包括:
生成各个第一过滤词组,所述第一过滤词组包括各个第二过滤词中的至少两个、且所述第一过滤词组在所述第一正样本文本集中所属文本的个数大于所述第一阈值;
将各个第二过滤词以及各个第一过滤词组,作为对应分类类别的正特征集中的各个第一特征单元;或者,将各个第二过滤词、各个第一过滤词组以及与所述第二过滤词的相关度大于第五阈值的扩展词,作为对应分类类别的正特征集中的各个第一特征单元。
8.根据权利要求2所述的方法,其特征在于,所述利用各个第四过滤词,生成对应分类类别的负特征集中的各个第二特征单元,包括:
生成各个第二过滤词组,所述第二过滤词组包括各个第四过滤词中的至少两个、且所述第二过滤词组在所述第一负样本文本集中所属文本的个数大于所述第二阈值;
将各个第四过滤词以及各个第二过滤词组,作为对应分类类别的负特征集中的各个第二特征单元;或者,将各个第四过滤词、各个第二过滤词组以及与所述第四过滤词的相关度大于第六阈值的扩展词,作为对应分类类别的负特征集中的各个第二特征单元。
9.根据权利要求1-2、7-8任一项所述的方法,其特征在于,所述根据预先生成的样本特征集,对所述待识别文本进行识别,包括:
根据所述样本特征集以及权重集合,对所述待识别文本进行识;
其中,所述权重集合包括所述样本文本集中的每一第一特征单元的第一权重、以及所述样本文本集中的每一第二特征单元的第二权重;所述第一权重为对应第一特征单元在对应分类类别的第一正样本文本集中的占比,所述第二权重为对应第二特征单元在对应分类类别的第一负样本文本集中的占比。
10.根据权利要求9所述的方法,其特征在于,所述根据所述样本特征集以及权重集合,对所述待识别文本进行识,包括:
根据所述样本特征集以及权重集合,确定所述待识别文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一正样本文本,根据所述样本特征集以及权重集合,确定该正样本文本对应的权重;
对于每一分类类别的第一正样本文本集中的每一负样本文本,根据所述样本特征集以及权重集合,确定该负样本文本对应的权重;
根据所述识别文本对应的权重、每一正样本文本对应的权重、每一负样本文本对应的权重,对所述待识别文本进行识别。
11.根据权利要求10所述的方法,其特征在于,所述根据所述样本特征集以及权重集合,确定所述待识别文本对应的权重,包括:
将所述待识别文本与所述样本特征集进行匹配;
若从所述样本特征集中匹配到至少一个特征单元,则从匹配到的特征单元中选取一个,并将被选取特征单元对应的权重,作为所述待识别文本对应的权重;
若未从所述样本特征集中匹配到至少一个特征单元,则根据所述第一阈值或所述第二阈值得到所述待识别文本对应的权重。
12.根据权利要求10所述的方法,其特征在于,所述根据所述识别文本对应的权重、每一正样本文本对应的权重、每一负样本文本对应的权重,对所述待识别文本进行识别,包括:
确定所述待识别文本的文本向量;
确定每一分类类别的第一正样本文本集中的每一正样本文本的文本向量;
确定每一分类类别的第一负样本文本集中的每一负样本文本的文本向量;
根据确定的各个文本向量,以及所述识别文本对应的权重、每一正样本文本对应的权重、每一负样本文本对应的权重,通过聚类算法对所述待识别文本进行识别。
13.一种文本类别的识别装置,其特征在于,包括:
第一处理模块,用于获取待识别文本;
第二处理模块,用于根据预先生成的样本特征集,对所述待识别文本进行识别,得到所述待识别文本的分类类别;
其中,所述样本特征集包括对应于至少一个分类类别的正特征集和负特征集,所述正特征集包括至少一个第一特征单元,所述负特征集包括至少一个第二特征单元,所述第一特征单元为在对应分类类别的第一正样本文本集中出现次数大于第一阈值的词或词组,所述第二特征单元为在对应分类类别的第一负样本文本集中出现次数大于第二阈值的词或词组;
所述正特征集通过以下方式确定:
对于每一分类类别的第一正样本文本集,提取该第一正样本文本集中的每一正样本文本中的各个第一过滤词,所述各个第一过滤词是对应正样本文本中除对应分类类别下的关键词以外的至少一个词;
对于每一第一过滤词,若该第一过滤词在所述第一正样本文本集中所属文本的个数大于所述第一阈值,则将该第一过滤词作为第二过滤词;
利用各个第二过滤词,生成对应分类类别的正特征集中的各个第一特征单元。
14.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序用于被处理器执行时实现如权利要求1-12中任一项所述的文本类别的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543778.2A CN113535945B (zh) | 2020-06-15 | 2020-06-15 | 文本类别的识别方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543778.2A CN113535945B (zh) | 2020-06-15 | 2020-06-15 | 文本类别的识别方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535945A CN113535945A (zh) | 2021-10-22 |
CN113535945B true CN113535945B (zh) | 2023-09-15 |
Family
ID=78124134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010543778.2A Active CN113535945B (zh) | 2020-06-15 | 2020-06-15 | 文本类别的识别方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535945B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501867B (zh) * | 2023-03-29 | 2023-09-12 | 北京数美时代科技有限公司 | 基于互信息的变体知识掌握度检测方法、系统和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138523A (zh) * | 2014-05-30 | 2015-12-09 | 富士通株式会社 | 在文本中确定语义关键词的方法和装置 |
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN106815198A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和语句业务类型的识别方法及装置 |
CN108228704A (zh) * | 2017-11-03 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 识别风险内容的方法及装置、设备 |
CN109800306A (zh) * | 2019-01-10 | 2019-05-24 | 深圳Tcl新技术有限公司 | 意图分析方法、装置、显示终端及计算机可读存储介质 |
CN110457481A (zh) * | 2019-08-20 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 一种分类模型训练的方法、装置、设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8503769B2 (en) * | 2010-12-28 | 2013-08-06 | Microsoft Corporation | Matching text to images |
-
2020
- 2020-06-15 CN CN202010543778.2A patent/CN113535945B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138523A (zh) * | 2014-05-30 | 2015-12-09 | 富士通株式会社 | 在文本中确定语义关键词的方法和装置 |
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN106815198A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和语句业务类型的识别方法及装置 |
CN108228704A (zh) * | 2017-11-03 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 识别风险内容的方法及装置、设备 |
CN109800306A (zh) * | 2019-01-10 | 2019-05-24 | 深圳Tcl新技术有限公司 | 意图分析方法、装置、显示终端及计算机可读存储介质 |
CN110457481A (zh) * | 2019-08-20 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 一种分类模型训练的方法、装置、设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
Text classification with relatively small positive documents and unlabeled data;Fumiyo Fukumoto et al;《Proceedings of the 21st ACM international conference on Information and knowledge management》;第 2315–2318页 * |
基于卷积神经网络的新闻文本分类研究;陶文静;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2020年卷(第01期);第I138-2409页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113535945A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125358B (zh) | 一种基于超图的文本分类方法 | |
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN109783817A (zh) | 一种基于深度强化学习的文本语义相似计算模型 | |
CN108363743A (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN112084335A (zh) | 一种基于信息融合的社交媒体用户账号分类方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN110489554B (zh) | 基于位置感知互注意力网络模型的属性级情感分类方法 | |
CN110472244B (zh) | 一种基于Tree-LSTM和情感信息的短文本情感分类方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN110929532A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110309281A (zh) | 基于知识图谱的问答方法、装置、计算机设备及存储介质 | |
CN113449204A (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN115905487A (zh) | 文档问答方法、系统、电子设备及存储介质 | |
Liu et al. | Identifying experts in community question answering website based on graph convolutional neural network | |
CN118227790A (zh) | 基于多标签关联的文本分类方法、系统、设备及介质 | |
CN113535945B (zh) | 文本类别的识别方法、装置、设备及计算机可读存储介质 | |
Li et al. | Adaptive probabilistic word embedding | |
CN111813941A (zh) | 结合rpa和ai的文本分类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |