CN109033212A - 一种基于相似度匹配的文本分类方法 - Google Patents

一种基于相似度匹配的文本分类方法 Download PDF

Info

Publication number
CN109033212A
CN109033212A CN201810704164.0A CN201810704164A CN109033212A CN 109033212 A CN109033212 A CN 109033212A CN 201810704164 A CN201810704164 A CN 201810704164A CN 109033212 A CN109033212 A CN 109033212A
Authority
CN
China
Prior art keywords
text
server
similarity
webpage
candidate sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810704164.0A
Other languages
English (en)
Other versions
CN109033212B (zh
Inventor
向湘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Nuozhu Intellectual Property Services Co.,Ltd.
Original Assignee
Dongguan Huarui Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Huarui Electronic Technology Co Ltd filed Critical Dongguan Huarui Electronic Technology Co Ltd
Priority to CN201810704164.0A priority Critical patent/CN109033212B/zh
Publication of CN109033212A publication Critical patent/CN109033212A/zh
Application granted granted Critical
Publication of CN109033212B publication Critical patent/CN109033212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于相似度匹配的文本分类方法,通过服务器接收用户上传的待分类的第一文本,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。本发明公开的文本分类方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本分类的效率和准确性。

Description

一种基于相似度匹配的文本分类方法
技术领域
本发明数据处理领域,尤其涉及一种基于相似度匹配的文本分类方法。
背景技术
现代社会是信息爆炸的社会,互联网上存在着海量的数据。
现有技术中,用户可能会产生对多个文本进行分类存储的需求,例如:电子图书馆需要根据文本内容的不同进行分类,便于查找,专利文件需要进行文本分类,便于查找和处理相关文件。
现有技术中的文件分类方法一般是由人工将稿件阅读完后总结出该稿件的核心思想,然后归纳出关键词,在根据文件的类型进行分类,或者简单的根据词频进行分类,前者效率低,后一种方法过于机械,无法取得较佳的分类效果。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种基于相似度匹配的文本分类方法,克服现有技术中文本分类效率低或者分类效果差的缺陷。
本发明公开了一种基于相似度匹配的文本分类方法,其中,所述方法包括:
服务器接收用户上传的待分类的第一文本;
提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;
根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;
服务器依次计算第一文本与各个第二文本之间的相似度;
判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。
可选的,所述方法还包括:
预先在服务器内建立分类模型,所述分类模型中含有不同的词语所对应的第一级文本类别;
预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表,并存储;
所述第一级文本类别包含多个第二级文本类别;所述第一级文本类别为根据不同的技术领域划分出的文本类别,所述第二级文本类别同一技术领域下不同应用场景划分出的文本分类。
可选的,所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。
可选的,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
可选的,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
可选的,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
可选的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
可选的,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
可选的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
可选的,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
有益效果,本发明提供了一种基于相似度匹配的文本分类方法,通过服务器接收用户上传的待分类的第一文本;提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。本发明公开的文本分类方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本信息验证的准确性。
附图说明
图1为本发明所公开的一种基于文本密码的登录验证方法的具体实施例步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种基于相似度匹配的文本分类方法,如图1,所述方法包括:
步骤S101、服务器接收用户上传的待分类的第一文本。
服务器接收用户通过客户端或者直接在服务器中上传的第一文本,并需要对所述第一文本进行文本类别识别,并将所述文本归类到识别出的文本集中。
具体的,本发明中设置有两个不同的文本类别,分别通过预先在服务器内建立分类模型,所述分类模型中含有不同的词语所对应的第一级文本类别,和预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表,并存储;所述第一级文本类别包含多个第二级文本类别;所述第一级文本类别为根据不同的技术领域划分出的文本类别,所述第二级文本类别同一技术领域下不同应用场景划分出的文本分类。
步骤S102、提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别。
为了便于更快速的识别第一文本的文本类型,首先提取所述第一文本的关键词,对提取到的关键词进行词频统计,并将词频统计结果输入到分类模型中,识别出所述第一文本所属的第一级文本类别,即是其所属技术领域所在的文本类别。
步骤S103、根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本。
获取第一级文本类别下保持的多个第二文本,所述第二文本分别为同属一个领域下的不同的应用场景所在文本类别,因此本步骤中获取多个第二文本。
步骤S104、服务器依次计算第一文本与各个第二文本之间的相似度。
依次计算第一文本与第二文本之间的相似度,判断与第一文本之间相似度最高的第二文本。
步骤S105、判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。
进一步的,所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。
在具体实施例中,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比,并将比对出的相似度值判定为所述第一文本与第二文本之间的相似度值。
进一步的,由于各个候选句子中可能包含不同属性的信息,也即是候选句子可能含有中文句子或者网页链接地址,所以在进行重要性分数的计算之前,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
例如,有一篇论文中含有以下内容:
今天XX协会在北京召开了工作会议,天气不错,大概有30摄氏度,没有下雨,交通情况也良好,在工作会议上,张会长对XX协会去年的工作进行了总结,还表彰了XX协会的优秀员工。
候选句子包括:
A、今天XX协会在北京召开了工作会议;
B、天气不错;
C、大概有30摄氏度;
D、没有下雨;
E、交通情况也良好;
F、在工作会议上;
G、张会长对XX协会去年的工作进行了总结;
H、还表彰了XX协会的优秀员工。
拆解得到的词组包括:
今天:出现1次,权值为1
XX协会:出现3次,权值为3
北京:1次,权值为1
召开:1次,权值为1
工作会议:2次,权值为2
天气:1次,权值为1
30摄氏度:1次,权值为1
下雨:1次,权值为1
交通情况:1次,权值为1
张会长:1次,权值为1
去年的工作:1次,权值为1
总结:1次,权值为1
表彰:1次,权值为1
优秀员工:1次,权值为1
则上面的候选句子的重要性分数分别为:A号8分,B号1分,C号1分,D号1分,E号1分,F号2分,G号6分,H号5分。
假设预设值为2分,则目标句子为A号,F号,G号和H号,最后的关键信息为:今天XX协会在北京召开了工作会议;在工作会议上;张会长对XX协会去年的工作进行了总结;还表彰了XX协会的优秀员工。
进一步的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
具体的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
具体的,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
例如:
第一句子为:今天协会在北京召开会议。
第二句子为:协会在北京召开了普法会议。
则第一序列a为(1,1,1,1,0,1),第二序列b为(0,1,1,1,1,1)。
较佳的,本方法步骤中使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
例如,上述两个句子计算的结果为:
最终的计算结果为:0.8。
本发明提供了一种基于相似度匹配的文本分类方法,通过服务器接收用户上传的待分类的第一文本;提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。本发明公开的文本分类方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本信息验证的准确性。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种基于相似度匹配的文本分类方法,其特征在于,所述方法包括:
服务器接收用户上传的待分类的第一文本;
提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;
根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;
服务器依次计算第一文本与各个第二文本之间的相似度;
判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。
2.根据权利要求1所述的基于相似度匹配的文本分类方法,其特征在于,所述方法还包括:
预先在服务器内建立分类模型,所述分类模型中含有不同的词语所对应的第一级文本类别;
预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表,并存储;
所述第一级文本类别包含多个第二级文本类别;所述第一级文本类别为根据不同的技术领域划分出的文本类别,所述第二级文本类别同一技术领域下不同应用场景划分出的文本分类。
3.根据权利要求2所述的基于相似度匹配的文本分类方法,其特征在于,所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。
4.根据权利要求3所述的基于相似度匹配的文本分类方法,其特征在于,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
5.根据权利要求4所述的基于相似度匹配的文本分类方法,其特征在于,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
6.根据权利要求5所述的基于相似度匹配的文本分类方法,其特征在于,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
7.根据权利要求5所述的基于相似度匹配的文本分类方法,其特征在于,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
8.根据权利要求6所述的基于相似度匹配的文本分类方法,其特征在于,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
9.根据权利要求6或7所述的基于相似度匹配的文本分类方法,其特征在于,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
10.根据权利要求9所述的基于相似度匹配的文本分类方法,其特征在于,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
CN201810704164.0A 2018-07-01 2018-07-01 一种基于相似度匹配的文本分类方法 Active CN109033212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810704164.0A CN109033212B (zh) 2018-07-01 2018-07-01 一种基于相似度匹配的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810704164.0A CN109033212B (zh) 2018-07-01 2018-07-01 一种基于相似度匹配的文本分类方法

Publications (2)

Publication Number Publication Date
CN109033212A true CN109033212A (zh) 2018-12-18
CN109033212B CN109033212B (zh) 2021-09-07

Family

ID=65521108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810704164.0A Active CN109033212B (zh) 2018-07-01 2018-07-01 一种基于相似度匹配的文本分类方法

Country Status (1)

Country Link
CN (1) CN109033212B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750493A (zh) * 2019-09-03 2020-02-04 平安科技(深圳)有限公司 一种法律文本归档方法、装置、可读存储介质及终端设备
CN110941719A (zh) * 2019-12-02 2020-03-31 中国银行股份有限公司 数据分类方法、测试方法、装置及存储介质
CN111177372A (zh) * 2019-12-06 2020-05-19 绍兴市上虞区理工高等研究院 一种科技成果的分类方法、装置、设备及介质
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
WO2021092871A1 (zh) * 2019-11-13 2021-05-20 北京数字联盟网络科技有限公司 一种基于TextRank的应用偏好文本分类方法
CN115037739A (zh) * 2022-06-13 2022-09-09 深圳乐播科技有限公司 文件传输方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120123768A1 (en) * 2000-09-30 2012-05-17 Weiquan Liu Method and apparatus for determining text passage similarity
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN105095223A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120123768A1 (en) * 2000-09-30 2012-05-17 Weiquan Liu Method and apparatus for determining text passage similarity
CN105095223A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
乔少杰 等: "基于中心性和 PageRank 的网页综合评分方法", 《西南交通大学学报》 *
杨茂: "基于句子相似度的文本比对算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750493A (zh) * 2019-09-03 2020-02-04 平安科技(深圳)有限公司 一种法律文本归档方法、装置、可读存储介质及终端设备
CN110750493B (zh) * 2019-09-03 2022-08-09 平安科技(深圳)有限公司 一种法律文本归档方法、装置、可读存储介质及终端设备
WO2021092871A1 (zh) * 2019-11-13 2021-05-20 北京数字联盟网络科技有限公司 一种基于TextRank的应用偏好文本分类方法
CN110941719A (zh) * 2019-12-02 2020-03-31 中国银行股份有限公司 数据分类方法、测试方法、装置及存储介质
CN110941719B (zh) * 2019-12-02 2023-12-19 中国银行股份有限公司 数据分类方法、测试方法、装置及存储介质
CN111177372A (zh) * 2019-12-06 2020-05-19 绍兴市上虞区理工高等研究院 一种科技成果的分类方法、装置、设备及介质
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN115037739A (zh) * 2022-06-13 2022-09-09 深圳乐播科技有限公司 文件传输方法、装置、电子设备及存储介质
CN115037739B (zh) * 2022-06-13 2024-02-23 深圳乐播科技有限公司 文件传输方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109033212B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN109033212A (zh) 一种基于相似度匹配的文本分类方法
CN105824959B (zh) 舆情监控方法及系统
CN108920633B (zh) 一种论文相似度的检测方法
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN109582704B (zh) 招聘信息和求职简历匹配的方法
CN107463658B (zh) 文本分类方法及装置
CN108009135B (zh) 生成文档摘要的方法和装置
US20170091318A1 (en) Apparatus and method for extracting keywords from a single document
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN104866558B (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
US20150286706A1 (en) Forensic system, forensic method, and forensic program
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN105354184B (zh) 一种使用优化的向量空间模型实现文档自动分类的方法
CN110928986A (zh) 法律证据的排序和推荐方法、装置、设备及存储介质
CN108897861A (zh) 一种信息搜索方法
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN115577095A (zh) 一种基于图论的电力标准信息推荐方法
CN114706949A (zh) 信息检索方法、装置、设备及计算机可读介质
CN104462065B (zh) 事件情感类型的分析方法和装置
CN104462439B (zh) 事件的识别方法和装置
CN109033093A (zh) 一种基于相似度匹配的文本翻译方法
CN108959263B (zh) 一种词条权重计算模型训练方法及装置
CN109002508B (zh) 一种基于网络爬虫的文本信息爬取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210811

Address after: 200000 No. 7, Lane 999, huanke Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Shanghai new sunfaith intellectual property services Limited by Share Ltd.

Address before: Room 403, No.35, Sanxiang, xiashou new village, Xicheng District, Dongguan City, Guangdong Province 523073

Applicant before: DONGGUAN HUARUI ELECTRONIC TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221227

Address after: 523,000 Room 1702, Building 13, No.1 Xuefu Road, Songshanhu Park, Dongguan, Guangdong

Patentee after: Guangdong Huazhong Yuechuang Intellectual Property Operation Management Co.,Ltd.

Address before: 200000 No. 7, Lane 999, huanke Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee before: Shanghai new sunfaith intellectual property services Limited by Share Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230112

Address after: 523000 Room 102, Building 1, No. 90, Dapantian Road, Dalingshan Town, Dongguan City, Guangdong Province

Patentee after: Dongguan Maike Microoptoelectronics Technology Co.,Ltd.

Address before: 523,000 Room 1702, Building 13, No.1 Xuefu Road, Songshanhu Park, Dongguan, Guangdong

Patentee before: Guangdong Huazhong Yuechuang Intellectual Property Operation Management Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230613

Address after: No.28 Shenpujing Road, Zhujing Town, Jinshan District, Shanghai, 201500 (Jinshan Capital Group North Economic Park)

Patentee after: Shanghai Nuozhu Intellectual Property Services Co.,Ltd.

Address before: 523000 Room 102, Building 1, No. 90, Dapantian Road, Dalingshan Town, Dongguan City, Guangdong Province

Patentee before: Dongguan Maike Microoptoelectronics Technology Co.,Ltd.