CN115712722A - 多语言短信文本的聚类系统、方法、电子设备及存储介质 - Google Patents
多语言短信文本的聚类系统、方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115712722A CN115712722A CN202211291082.0A CN202211291082A CN115712722A CN 115712722 A CN115712722 A CN 115712722A CN 202211291082 A CN202211291082 A CN 202211291082A CN 115712722 A CN115712722 A CN 115712722A
- Authority
- CN
- China
- Prior art keywords
- short message
- clustering
- text
- language
- multilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种多语言短信文本的聚类系统、方法、电子设备及存储介质,多语言短信文本的聚类方法包括:对多语言短信文本进行标准化处理;对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;将分组后的多语言短信文本转换为单词词组;通过编辑距离算法对所述单词词组进行聚类得到聚类结果。该多语言短信文本的聚类方法改善了现有技术中无法准确提取海外短信内容的有效特征的问题。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种多语言短信文本的聚类系统、方法、电子设备及存储介质。
背景技术
随着智能手机的普及,智能时代已经来临,通知类短信,营销类短信,营销广告等会充满在手机短信中,合理的短信聚类,可以更好的帮助用户管理,及信息挖掘,减少骚扰短信带给用户的苦恼。
传统的聚类算法先采用规则的方法然后通过K均值算法对文本进行聚类,但如果短信是字数少且上下文信息不完整,语言复杂多变的海外短信内容,传统的聚类方法很难准确的抽取有效的特征,聚类效果不好。
发明内容
本发明实施例的目的在于提供一种多语言短信文本的聚类系统、方法、电子设备及存储介质,用以解决现有技术中无法准确提取海外短信内容的有效特征的问题。
为实现上述目的,本发明实施例提供一种多语言短信文本的聚类方法,所述方法具体包括:
对多语言短信文本进行标准化处理;
对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;
将分组后的多语言短信文本转换为单词词组;
通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述对多语言短信文本进行标准化处理,包括;
通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
进一步地,所述通过编辑距离算法对所述单词词组进行聚类得到聚类结果,包括;
构造行数为m+1,列数为n+1的矩阵;
初始化所述矩阵,第一行为0到n,第一列为0到m;
检查每个从1到n的s[i]字符和每个从1到m的s[i]字符;
将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;
计算最短编辑距离。
进一步地,所述通过编辑距离算法对所述单词词组进行聚类得到聚类结果,包括;
通过正则表达式校验所述聚类结果。
一种多语言短信文本的聚类系统,包括:
标准化处理模块,用于对多语言短信文本进行标准化处理;
归一化处理模块,用于对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;
转换模块,用于将分组后的多语言短信文本转换为单词词组;
聚类模块,用于通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
进一步地,所述标准化处理模块还用于:
通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
进一步地,所述聚类模块还用于:
构造行数为m+1,列数为n+1的矩阵;
初始化所述矩阵,第一行为0到n,第一列为0到m;
检查每个从1到n的s[i]字符和每个从1到m的s[i]字符;
将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;
计算最短编辑距离。
进一步地,所述聚类系统还包括:
校验模块,用于通过正则表达式校验所述聚类结果。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
一种非暂态计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
本发明实施例具有如下优点:
本发明中的多语言短信文本的聚类方法,对多语言短信文本进行标准化处理;对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;将分组后的多语言短信文本转换为单词词组;通过编辑距离算法对所述单词词组进行聚类得到聚类结果;解决了现有技术中无法准确提取海外短信内容的有效特征的问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明多语言短信文本的聚类方法的流程图;
图2为本发明多语言短信文本的聚类方法的流程图;
图3为本发明多语言短信文本的聚类系统的框图;
图4为本发明多语言短信文本的聚类系统的框图;
图5为本发明提供的电子设备实体结构示意图。
其中附图标记为:
标准化处理模块10,归一化处理模块20,转换模块30,聚类模块40,校验模块50,电子设备60,处理器601,存储器602,总线603。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1-2为本发明多语言短信文本的聚类方法实施例流程图,如图1-2所示,本发明实施例提供的一种多语言短信文本的聚类方法包括以下步骤:
S101,对多语言短信文本进行标准化处理;
具体的,通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
多语言短信文本指的是多种语言组成的短信。
多语言短信文本的文本内容中,会包含较多的数字,邮件,网址,日期,时间等内容,这些文本内容大多会不一致但是又都包含着相同的含义,在实际的聚类过程中应该作为相同的簇点进行收敛,如果不处理的话会影响聚类的效果。
所以在实施方案时会优先将这类词通过正则表达式筛选出来,进行替换。比如邮件地址统一换成“XXXXXX@XXX.com”,这样并不影响文本的阅读且聚类的时候可以减少干扰达到较好的效果。
S102,对多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;
具体的,不同的商户可能会有不同的分公司或分部,这样就可能导致同一个商户发出的短信会是不同的名称,我们先将商户名称做一个归一化处理,这样能保证在归一化后不同的商户名称发出的短信内容基本不一致。这样我们就可以将数据按照归一化的名称进行分组,然后在组内进行聚类,这样可以大量的减少运行次数,提升聚类的效率。
将多语言短信文本分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
S103,将分组后的多语言短信文本转换为单词词组;
具体的,将分组后的多语言短信文本的文本内容转换为单词词组。
S104,通过编辑距离算法对单词词组进行聚类得到聚类结果;
编辑距离的算法,相较于其他的有监督学习类的算法,无监督的学习不需要标记数据,属于面向集群处理的优先算法。
编辑距离算法被数据科学家广泛应用,是用作机器翻译和语音识别评价标准的基本算法。最简单的方法是检查所有可能的编辑序列,从中找出最短的一条。
给定两个单词word1和word2,计算出将word1转换成word2所使用的最少操作数。你可以对一个单词进行如下三种操作。
1.插入一个字符
2.删除一个字符
3.替换一个字符
比如说两个单词horse和ros计算他们之间的编辑距离D,容易发现,如果把单词变短会让这个问题变得简单,很自然的想到用D[n][m]表示输入单词长度为n和m的编辑距离。具体来说,D[i][j]表示word1的前i个字母和word2的前j个字母之间的编辑距离。
Levenshtein Distance算法,又叫编辑距离算法,是指两个字符串之间,由一个转成另一个所需要的最小编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
一般来说,编辑距离越小,两个串的相似度越大。
算法基本原理:假设我们可以使用d[i,j]个步骤(可以用一个二维数组保存这个值),表示将串s[1...i]转换为串t[1...j]所需要的最小步骤个数,那么,在最基本的情况下,即在i等于0时,也就是串s为空,那么对应的d[0,j]就是增加j个字符,使得s转化为t,在j等于0时,也就是说串t为空,那么对应的d[i,0]就是减少i个字符,使得s转为t。然后我们考虑一般情况,加一点动态规划的想法,我们要想得到将s[1..i]经过最少次数的增加,删除,或者替换操作就转变为t[1..j],那么我们就必须在之前可以以最少次数的增加,删除,或者替换操作,使得现在串s和串t只需要再做一次操作或者不做就可以完成s[1..i]到t[1..j]的转换。所谓的“之前”分为下面三种情况:
1)我们可以在k个操作内将s[1…i]转换为t[1…j-1]
2)我们可以在k个操作里面将s[1..i-1]转换为t[1..j]
3)我们可以在k个步骤里面将s[1…i-1]转换为t[1…j-1]
针对第1种情况,我们只需要在最后将t[j]加上s[1..i]就完成了匹配,这样总共就需要k+1个操作。
针对第2种情况,我们只需要在最后将s[i]移除,然后再做这k个操作,所以总共需要k+1个操作。
针对第3种情况,我们只需要在最后将s[i]替换为t[j],使得满足s[1..i]==t[1..j],这样总共也需要k+1个操作。而如果在第3种情况下,s[i]刚好等于t[j],那我们就可以仅仅使用k个操作就完成这个过程。
最后,为了保证得到的操作次数总是最少的,我们可以从上面三种情况中选择消耗最少的一种最为将s[1..i]转换为t[1..j]所需要的最小操作次数。
算法基本步骤:
(1)构造行数为m+1列数为n+1的矩阵,用来保存完成某个转换需要执行的操作的次数,将串s[1..n]转换到串t[1…m]所需要执行的操作次数为matrix[n][m]的值;
(2)初始化matrix第一行为0到n,第一列为0到m。
Matrix[0][j]表示第1行第j-1列的值,这个值表示将串s[1…0]转换为t[1..j]所需要执行的操作的次数,很显然将一个空串转换为一个长度为j的串,只需要j次的add操作,所以matrix[0][j]的值应该是j,其他值以此类推。
(3)检查每个从1到n的s[i]字符;
(4)检查每个从1到m的s[i]字符;
(5)将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1(这个cost后面会用到);
(6)a、如果我们可以在k个操作里面将s[1..i-1]转换为t[1..j],那么我们就可以将s[i]移除,然后再做这k个操作,所以总共需要k+1个操作。
b、如果我们可以在k个操作内将s[1…i]转换为t[1…j-1],也就是说d[i,j-1]=k,那么我们就可以将t[j]加上s[1..i],这样总共就需要k+1个操作。
c、如果我们可以在k个步骤里面将s[1…i-1]转换为t[1…j-1],那么我们就可以将s[i]转换为t[j],使得满足s[1..i]==t[1..j],这样总共也需要k+1个操作。(这里加上cost,是因为如果s[i]刚好等于t[j],那么就不需要再做替换操作,即可满足,如果不等,则需要再做一次替换操作,那么就需要k+1次操作)
因为我们要取得最小操作的个数,所以我们最后还需要将这三种情况的操作个数进行比较,取最小值作为d[i,j]的值;
d、然后重复执行3,4,5,6,最后的结果就在d[n,m]中;
图解:
图解过程如下:
step 1:初始化如下矩阵
J | A | R | Y | ||
0 | 1 | 2 | 3 | 4 | |
j | 1 | ||||
e | 2 | ||||
r | 3 | ||||
r | 4 | ||||
y | 5 |
表1
step 2:从源串的第一个字符(“j”)开始,从上至下与目标串进行对比
如果两个字符相等,则在从此位置的左,上,左上三个位置中取出最小的值;若不等,则在从此位置的左,上,左上三个位置中取出最小的值再加上1;
第一次,源串第一个字符“j”与目标串的“j”对比,左,上,左上三个位置中取出最小的值0,因为两字符相等,所以加上0;接着,依次对比“j”→“e”,“j”→“r”,“j”→“r”,,“j”→“y”到扫描完目标串。
J | A | R | Y | ||
0 | 1 | 2 | 3 | 4 | |
j | 1 | 0 | |||
e | 2 | 1 | |||
r | 3 | 2 | |||
r | 4 | 3 | |||
y | 5 | 4 |
表2step 3:遍历整个源串与目标串对比:
J | A | R | Y | ||
0 | 1 | 2 | 3 | 4 | |
j | 1 | 0 | 1 | ||
e | 2 | 1 | 1 | ||
r | 3 | 2 | 2 | ||
r | 4 | 3 | 3 | ||
y | 5 | 4 | 4 |
表3
表4
step 4:扫描完最后一列,则最后一个为最短编辑距离:
表5
S105,通过正则表达式校验聚类结果。
具体的,通过以上一系列的操作,我们会得到不同的模板数据,及不同模板下的短信原文,在机器学习的过程中可能会有一些数据出现偏差,所以需要做最后一步的校验工作。保证同模板间所有数据通过同一个正则表达式的校验。不同的模板之间不能存在同一个正则表达式校验通过的情况。
求出编辑距离,那么两个字符串的相似度Similarity=(Max(x,y)-Levenshtein)/Max(x,y),其中x,y为源串和目标串的长度。
本发明多语言短信文本的聚类方法,有效的解决了庞大的多语种样本集合里无特征数据集进行聚类效率慢,成本高,效果不明显等痛点问题。极大的提升了效率,降低了成本。
图3-4为本发明多语言短信文本的聚类系统实施例流程图;如图3-4所示,本发明实施例提供的一种多语言短信文本的聚类系统,包括以下步骤:
标准化处理模块,用于对多语言短信文本进行标准化处理;
所述标准化处理模块还用于:
通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
归一化处理模块,用于对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;
转换模块,用于将分组后的多语言短信文本转换为单词词组;
聚类模块,用于通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
所述聚类模块还用于:
构造行数为m+1,列数为n+1的矩阵;
初始化所述矩阵,第一行为0到n,第一列为0到m;
检查每个从1到n的s[i]字符和每个从1到m的s[i]字符;
将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;
计算最短编辑距离。
述聚类系统还包括:
校验模块,用于通过正则表达式校验所述聚类结果。
本发明公开了一种多语言短信文本的聚类系统。本系统基于深度学习技术,实施装置由通用信息标准化,多样信息归一化,集群信息分组化三部分构成。本系统中首次使用通用信息标准化,通过将不同短信中的不同的通用化信息转换成标准的同一信息,大量的减少了机器学习的失误率。继而将多样信息归一化,集群信息分组化优化了机器学习的内存占用空间,极大的提升了机器学习的效率。
图5为本发明实施例提供的电子设备实体结构示意图,如图5所示,电子设备包括:处理器(processor)、存储器(memory)和总线;
其中,处理器、存储器通过总线完成相互间的通信;
处理器用于调用存储器中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:对多语言短信文本进行标准化处理;对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;将分组后的多语言短信文本转换为单词词组;通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
本实施例提供一种非暂态计算机可读介质,非暂态计算机可读介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:对多语言短信文本进行标准化处理;对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;将分组后的多语言短信文本转换为单词词组;通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种多语言短信文本的聚类方法,其特征在于,所述方法具体包括:
对多语言短信文本进行标准化处理;
对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;
将分组后的多语言短信文本转换为单词词组;
通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
2.根据权利要求1所述的多语言短信文本的聚类方法,其特征在于,所述对多语言短信文本进行标准化处理,包括;
通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
3.根据权利要求1所述的多语言短信文本的聚类方法,其特征在于,所述通过编辑距离算法对所述单词词组进行聚类得到聚类结果,包括;
构造行数为m+1,列数为n+1的矩阵;
初始化所述矩阵,第一行为0到n,第一列为0到m;
检查每个从1到n的s[i]字符和每个从1到m的s[i]字符;
将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;
计算最短编辑距离。
4.根据权利要求1所述的多语言短信文本的聚类方法,其特征在于,所述通过编辑距离算法对所述单词词组进行聚类得到聚类结果,包括;
通过正则表达式校验所述聚类结果。
5.一种多语言短信文本的聚类系统,其特征在于,包括:
标准化处理模块,用于对多语言短信文本进行标准化处理;
归一化处理模块,用于对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;
转换模块,用于将分组后的多语言短信文本转换为单词词组;
聚类模块,用于通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
6.根据权利要求5所述的多语言短信文本的聚类系统,其特征在于,所述标准化处理模块还用于:
通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
7.根据权利要求6所述的多语言短信文本的聚类系统,其特征在于,所述聚类模块还用于:
构造行数为m+1,列数为n+1的矩阵;
初始化所述矩阵,第一行为0到n,第一列为0到m;
检查每个从1到n的s[i]字符和每个从1到m的s[i]字符;
将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;
计算最短编辑距离。
8.根据权利要求7所述的多语言短信文本的聚类系统,其特征在于,所述聚类系统还包括:
校验模块,用于通过正则表达式校验所述聚类结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中的任一项所述的方法的步骤。
10.一种非暂态计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中的任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211291082.0A CN115712722A (zh) | 2022-10-21 | 2022-10-21 | 多语言短信文本的聚类系统、方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211291082.0A CN115712722A (zh) | 2022-10-21 | 2022-10-21 | 多语言短信文本的聚类系统、方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115712722A true CN115712722A (zh) | 2023-02-24 |
Family
ID=85231354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211291082.0A Pending CN115712722A (zh) | 2022-10-21 | 2022-10-21 | 多语言短信文本的聚类系统、方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115712722A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117880765A (zh) * | 2024-03-13 | 2024-04-12 | 深圳市诚立业科技发展有限公司 | 用于短信数据的智能化管理系统 |
-
2022
- 2022-10-21 CN CN202211291082.0A patent/CN115712722A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117880765A (zh) * | 2024-03-13 | 2024-04-12 | 深圳市诚立业科技发展有限公司 | 用于短信数据的智能化管理系统 |
CN117880765B (zh) * | 2024-03-13 | 2024-05-28 | 深圳市诚立业科技发展有限公司 | 用于短信数据的智能化管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814466B (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
US20210216880A1 (en) | Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on textcnn | |
JP2020520492A (ja) | 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体 | |
CN110147433B (zh) | 一种基于字典树的文本模板提取方法 | |
CN110765785A (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
WO2021184640A1 (zh) | 基于稀疏矩阵的产品推送方法、装置、计算机设备及介质 | |
CN110610180A (zh) | 错别字词识别集的生成方法、装置、设备及存储介质 | |
CN111339166A (zh) | 基于词库的匹配推荐方法、电子装置及存储介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
US11790170B2 (en) | Converting unstructured technical reports to structured technical reports using machine learning | |
CN111357015B (zh) | 文本转换方法、装置、计算机设备和计算机可读存储介质 | |
CN115116082B (zh) | 一种基于ocr识别算法的一键成档系统 | |
CN113127621A (zh) | 对话模块的推送方法、装置、设备及存储介质 | |
CN115712722A (zh) | 多语言短信文本的聚类系统、方法、电子设备及存储介质 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN114528944A (zh) | 一种医疗文本编码方法、装置、设备及可读存储介质 | |
WO2021042517A1 (zh) | 基于人工智能的文章主旨提取方法、装置及存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN111581162A (zh) | 一种基于本体的海量文献数据的聚类方法 | |
CN115033699A (zh) | 基金用户分类方法及装置 | |
CN110275957B (zh) | 姓名消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112149389A (zh) | 简历信息结构化处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |