CN111178038B - 一种基于潜在语义分析的文档相似度识别方法及装置 - Google Patents

一种基于潜在语义分析的文档相似度识别方法及装置 Download PDF

Info

Publication number
CN111178038B
CN111178038B CN201911378044.7A CN201911378044A CN111178038B CN 111178038 B CN111178038 B CN 111178038B CN 201911378044 A CN201911378044 A CN 201911378044A CN 111178038 B CN111178038 B CN 111178038B
Authority
CN
China
Prior art keywords
word
text
original
nouns
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911378044.7A
Other languages
English (en)
Other versions
CN111178038A (zh
Inventor
于文才
杜志诚
杜明本
钟琴隆
王秀芹
朱习文
董林林
叶玏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Banner Information Co ltd
Original Assignee
Shandong Banner Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Banner Information Co ltd filed Critical Shandong Banner Information Co ltd
Priority to CN201911378044.7A priority Critical patent/CN111178038B/zh
Publication of CN111178038A publication Critical patent/CN111178038A/zh
Application granted granted Critical
Publication of CN111178038B publication Critical patent/CN111178038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于潜在语义分析的文档相似度识别方法及装置,包括如下步骤:构建原始文档库,所述原始文档库包括若干原始文本,所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;获取输入文本,将输入文本进行预处理得到输入文本词袋向量;计算输入文本词袋向量与原始文本词袋向量的近似程度,得到与输入文本近似程度最高的原始文本。本申请首先构建一个文档库,然后以该文档库作为基本文本,将输入文本作为主对比文本进行对比,借助词袋向量,从基础文本中找到输入文本类似的文档,由于词袋向量本身考虑到了语义,因此可以更好的在潜在语义的基础上获得更好的文档相似度的识别效果。

Description

一种基于潜在语义分析的文档相似度识别方法及装置
技术领域
本申请涉及一种基于潜在语义分析的文档相似度识别方法及装置。
背景技术
随着计算机处理能力的增强,如何将自然语言数字化成为了一个重要的客体,因为只有数字化的自然语言才有助于进行快速的计算机处理。
随着网络信息的大量堆积,现有的文档数是非常可观的,从某种角度上讲,将新出现的文档归类到现有文档中至少在应用层面足够使用,比如网络购物中产品的评价等,这就涉及到文档相似度的对比。现在有非常多的理论方法进行文档相似度对比,但是其多出于统计方法,实质上与语义并无关联,这实际上是在丧失自然语言属性的情况下进行了自然语言的处理,虽然也具有一定的效果,但大有缘木求鱼之感。
发明内容
为了解决上述问题,本申请一方面提出了一种基于潜在语义分析的文档相似度识别方法,包括如下步骤:构建原始文档库,所述原始文档库包括若干原始文本,所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;获取输入文本,将输入文本进行预处理得到输入文本词袋向量;计算输入文本词袋向量与原始文本词袋向量的近似程度,得到与输入文本近似程度最高的原始文本。本申请首先构建一个文档库,然后以该文档库作为基本文本,将输入文本作为主对比文本进行对比,借助词袋向量,从基础文本中找到输入文本类似的文档,由于词袋向量本身考虑到了语义,因此可以更好的在潜在语义的基础上获得更好的文档相似度的识别效果;但是需要说明的是,该种方式实质上需要逐个对比,计算量较大,因此本申请下面还对于词袋向量的获取方式以及计算方式进行了相应的优化。
优选的,所述预处理包括如下步骤:
获取词袋模型;
构建单词-文本矩阵,矩阵内各个单词按照重要性进行赋值;
确定阈值,将赋值结果低于阈值的单词删除以进行降维处理;
得到最终的单词-文本矩阵,从而获得其词袋向量。本申请通过进行赋值-阈值确定以及删除得到经删减后的单词-文本矩阵,而该单词-文本矩阵的获取之后既能减少自身的计算量,又能更加突出关键单词的影响,删除掉非关键单词。正是由于此种操作,使得如何对于单词-文本进行筛选以及有效的进行分解使得最终得到的词袋向量在具有代表性的前提之下又侵占较少的处理能力成为识别该模型优劣的考究前提。
优选的,所述单词赋值采用TF-IDF方法进行赋值。
优选的,所述降维处理采用SVD矩阵奇异值分解的方式进行。本申请通过采用TF-IDF赋值之后,进行SVD矩阵分解可以相对快捷的将无效的词去掉,优点是所有的模型都是现有的,训练起来较为容易,缺点是对于文档文义进行的是一种表面的应用,而没有实质上进行更加广阔的有效应用。
优选的,所述单词包括单字和词组,获取单词-文本矩阵之后,首先筛选出虚词,将虚词在单词-文本矩阵内赋值为0;所述虚词包括冠词,副词,介词,连词,叹词和拟声词。本申请所说的虚词与现有的汉语语法结构中的虚词有一定的差别,但是其所包含的冠词,副词,介词,连词,叹词和拟声词等同于现有的汉语语法中所采用的词,因此,在本申请的方法中,通过构建单词库来确定相应的单词属于虚词、名词、动词还是形容词。
优选的,虚词赋值为0后,再获取名词,将名词在单词-文本矩阵内赋值为1;获取与名词匹配的动词,并将动词在单词-文本矩阵内赋值为1/(a+1),a为动词与名词之间间隔的单词数;获取与名词匹配的副词,并将副词与名词重新匹配为一个新的词组,所述新的词组赋值为1,但保留原来的名词,原来的名词进行重新赋值为1/b,b为新的词组出现的频次与原来的名词出现的频次之比;获取与名词匹配的形容词,将形容词赋值为1/c0.5,c为形容词所形容的名词出现的频次。本申请采用名词作为基础,其他词性的词以名词作为基础进行赋值,考虑各个词性的特点来得到各个单词的赋值,需要说明的是,赋值并不是只是说明词语的重要性,而是通过赋值将不同的词进行区别,并考虑到出现频次的因素,再通过阈值筛选之后,筛选出来的词都对于文档的语义都有较大的影响。
优选的,所述阈值按照如下方式获得,除了所有赋值为0的单词,计算其他单词的赋值的平均数x,将阈值设定为f(x)。
优选的,所述阈值为x2。本申请通过实验发现,由于计算得到的x小于1,当直接采用x作为阈值时,得到的单词的量较少,虽然能够减少计算量,但是准确度受到了较大了影响,而采用x的百分比作为阈值时,则导致了引入了过大的噪音,而在采用平方作为阈值时,基本达到了准确度和计算量之间的平衡。
优选的,所述计算输入文本词袋向量与原始文本词袋向量的近似程度以向量的余弦相似度进行表征。
另一方面,本申请还提出了一种基于潜在语义分析的文档相似度的识别装置,包括如下模块:数据库模块,用于构建原始文档库,所述原始文档库包括若干原始文本,所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;输入模块,用于获取输入文本,将输入文本进行预处理得到输入文本词袋向量;计算模块,用于计算输入文本词袋向量与原始文本词袋向量的近似程度,得到与输入文本近似程度最高的原始文本。
本申请能够带来如下有益效果:
1、本申请首先构建一个文档库,然后以该文档库作为基本文本,将输入文本作为主对比文本进行对比,借助词袋向量,从基础文本中找到输入文本类似的文档,由于词袋向量本身考虑到了语义,因此可以更好的在潜在语义的基础上获得更好的文档相似度的识别效果;
2、本申请有两种词袋向量的获取方法,一是通过采用TF-IDF赋值之后,进行SVD矩阵分解可以相对快捷的将无效的词去掉,优点是所有的模型都是现有的,训练起来较为容易,缺点是对于文档文义进行的是一种表面的应用,而没有实质上进行更加广阔的有效应用;二是采用名词作为基础,其他词性的词以名词作为基础进行赋值,考虑各个词性的特点来得到各个单词的赋值,需要说明的是,赋值并不是只是说明词语的重要性,而是通过赋值将不同的词进行区别,并考虑到出现频次的因素,再通过阈值筛选之后,筛选出来的词都对于文档的语义都有较大的影响。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施的流程示意图;
图2为第一个实施例采用TF-IDF赋值后的形式;
图3为第二个实施例赋值的流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本申请进行详细阐述。
在第一个实施例中,如图1所示,包括如下步骤:
S101.构建原始文档库,所述原始文档库包括若干原始文本;
S102.原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;
预处理的方式按照如下方式进行:首先获取词袋模型;
构建单词-文本矩阵,矩阵内各个单词按照TF-IDF方法进行赋值;
确定阈值,采用SVD矩阵奇异值分解的方式进行降维处理;
得到最终的单词-文本矩阵,从而获得其词袋向量;
S103.获取输入文本,将输入文本进行预处理得到输入文本词袋向量;
预处理的方式按照如下方式进行:首先获取词袋模型;
构建单词-文本矩阵,矩阵内各个单词按照TF-IDF方法进行赋值;
得到最终的单词-文本矩阵,从而获得其词袋向量;
当然也可以进行降维设置,即确定阈值,采用SVD矩阵奇异值分解的方式进行降维处理,然后再重新获取单词-文本矩阵,从而获得其词袋向量;
S104. 计算输入文本词袋向量与原始文本词袋向量的余弦相似度,得到与输入文本近似程度最高的原始文本。
为了更好的说明预处理的方式,举例说明,将某文档进行处理,其原始文档数:8910;统计后的单词数:87349;构建文档TF-IDF稀疏矩阵的shape (8910,87349),然后建立如图2所表示的形式,每一行代表一个文档向量的,每个括号内(单词序号(0-87438),TF-IDF值);SVD后的向量shape(8910,200),K的取值为200,每行数据是文档的向量,得到下面的矩阵:
[ 0.215699690.082277870.09086483 ... -0.06075808 -0.04542499-0.09162004]
[ 0.62857294 -0.09223312 -0.00088913 ... -0.01255666 -0.01707713-0.00896208]
[ 0.6613617-0.17232007 -0.07268597 ...0.02457953 -0.02739436-0.00775283]
...
[ 0.095896680.24960579 -0.00232736 ... -0.097581910.025696440.07918041]
[ 0.120445380.30009618 -0.00643809 ...0.04512313 -0.01673293-0.03004147]
[ 0.57912564 -0.09381538 -0.2927042... -0.04910881 -0.10562124-0.03150063]
即可用来进行余弦相似度的计算。
在第二个实施例中,大致步骤和图1一致,但是具体的赋值方法不同,赋值方法如图3所示:
S101.构建原始文档库,所述原始文档库包括若干原始文本;
S102.原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;
预处理的方式按照如下方式进行:首先获取词袋模型;
构建单词-文本矩阵,矩阵内各个单词按照所述单词包括单字和词组,获取单词-文本矩阵之后,按照如下方式进行赋值:首先筛选出虚词,将虚词在单词-文本矩阵内赋值为0;所述虚词包括冠词,副词,介词,连词,叹词和拟声词。本申请所说的虚词与现有的汉语语法结构中的虚词有一定的差别,但是其所包含的冠词,副词,介词,连词,叹词和拟声词等同于现有的汉语语法中所采用的词,因此,在本申请的方法中,通过构建单词库来确定相应的单词属于虚词、名词、动词还是形容词。虚词赋值为0后,再获取名词,将名词在单词-文本矩阵内赋值为1;获取与名词匹配的动词,并将动词在单词-文本矩阵内赋值为1/(a+1),a为动词与名词之间间隔的单词数;获取与名词匹配的副词,并将副词与名词重新匹配为一个新的词组,所述新的词组赋值为1,但保留原来的名词,原来的名词进行重新赋值为1/b,b为新的词组出现的频次与原来的名词出现的频次之比;获取与名词匹配的形容词,将形容词赋值为1/c0.5,c为形容词所形容的名词出现的频次。本申请采用名词作为基础,其他词性的词以名词作为基础进行赋值,考虑各个词性的特点来得到各个单词的赋值,需要说明的是,赋值并不是只是说明词语的重要性,而是通过赋值将不同的词进行区别,并考虑到出现频次的因素,再通过阈值筛选之后,筛选出来的词都对于文档的语义都有较大的影响。
确定阈值,将赋值结果低于阈值的单词删除以进行降维处理;
除了所有赋值为0的单词,计算其他单词的赋值的平均数x,将阈值设定为x2
得到最终的单词-文本矩阵,从而获得其词袋向量;
S103.获取输入文本,将输入文本进行预处理得到输入文本词袋向量;
预处理的方式按照如下方式进行:首先获取词袋模型;
构建单词-文本矩阵,预处理的方式按照如下方式进行:首先获取词袋模型;
构建单词-文本矩阵,矩阵内各个单词按照所述单词包括单字和词组,获取单词-文本矩阵之后,按照如下方式进行赋值:首先筛选出虚词,将虚词在单词-文本矩阵内赋值为0;所述虚词包括冠词,副词,介词,连词,叹词和拟声词。本申请所说的虚词与现有的汉语语法结构中的虚词有一定的差别,但是其所包含的冠词,副词,介词,连词,叹词和拟声词等同于现有的汉语语法中所采用的词,因此,在本申请的方法中,通过构建单词库来确定相应的单词属于虚词、名词、动词还是形容词。虚词赋值为0后,再获取名词,将名词在单词-文本矩阵内赋值为1;获取与名词匹配的动词,并将动词在单词-文本矩阵内赋值为1/(a+1),a为动词与名词之间间隔的单词数;获取与名词匹配的副词,并将副词与名词重新匹配为一个新的词组,所述新的词组赋值为1,但保留原来的名词,原来的名词进行重新赋值为1/b,b为新的词组出现的频次与原来的名词出现的频次之比;获取与名词匹配的形容词,将形容词赋值为1/c0.5,c为形容词所形容的名词出现的频次。本申请采用名词作为基础,其他词性的词以名词作为基础进行赋值,考虑各个词性的特点来得到各个单词的赋值,需要说明的是,赋值并不是只是说明词语的重要性,而是通过赋值将不同的词进行区别,并考虑到出现频次的因素,再通过阈值筛选之后,筛选出来的词都对于文档的语义都有较大的影响。
确定阈值,将赋值结果低于阈值的单词删除以进行降维处理;
除了所有赋值为0的单词,计算其他单词的赋值的平均数x,将阈值设定为x2
S104. 计算输入文本词袋向量与原始文本词袋向量的余弦相似度,得到与输入文本近似程度最高的原始文本。
需要说明的是,如果想要取得若干文本之间的相似度,可以将其中一个作为输入文本,其他作为原始文本,即可采用本申请中的实施方式1或者实施方式2的方案进行计算研究。
在第三个实施例中,一种基于潜在语义分析的文档相似度的识别装置,包括如下模块:数据库模块,用于构建原始文档库,所述原始文档库包括若干原始文本,所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;输入模块,用于获取输入文本,将输入文本进行预处理得到输入文本词袋向量;计算模块,用于计算输入文本词袋向量与原始文本词袋向量的近似程度,得到与输入文本近似程度最高的原始文本。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (6)

1.一种基于潜在语义分析的文档相似度识别方法,其特征在于:包括如下步骤:
构建原始文档库,所述原始文档库包括若干原始文本,所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;
获取输入文本,将输入文本进行预处理得到输入文本词袋向量;
计算输入文本词袋向量与原始文本词袋向量的近似程度,得到与输入文本近似程度最高的原始文本;
所述预处理包括如下步骤:
获取词袋模型;
构建单词-文本矩阵,矩阵内各个单词按照重要性进行赋值;
确定阈值,将赋值结果低于阈值的单词删除以进行降维处理;
得到最终的单词-文本矩阵,从而获得其词袋向量;
所述单词包括单字和词组,获取单词-文本矩阵之后,首先筛选出虚词,将虚词在单词-文本矩阵内赋值为0;所述虚词包括冠词,副词,介词,连词,叹词和拟声词;
虚词赋值为0后,再获取名词,将名词在单词-文本矩阵内赋值为1;获取与名词匹配的动词,并将动词在单词-文本矩阵内赋值为1/(a+1),a为动词与名词之间间隔的单词数;获取与名词匹配的副词,并将副词与名词重新匹配为一个新的词组,所述新的词组赋值为1,但保留原来的名词,原来的名词进行重新赋值为1/b,b为新的词组出现的频次与原来的名词出现的频次之比;获取与名词匹配的形容词,将形容词赋值为1/c0.5,c为形容词所形容的名词出现的频次。
2.根据权利要求1所述的一种基于潜在语义分析的文档相似度识别方法,其特征在于:所述构建单词-文本矩阵,矩阵内各个单词按照重要性进行赋值之后,所述方法还包括:
对所述降维处理进行替换,替换的降维处理采用SVD矩阵奇异值分解的方式进行。
3.根据权利要求1所述的一种基于潜在语义分析的文档相似度识别方法,其特征在于:所述阈值按照如下方式获得,除了所有赋值为0的单词,计算其他单词的赋值的平均数x,将阈值设定为f(x)。
4.根据权利要求3所述的一种基于潜在语义分析的文档相似度识别方法,其特征在于:所述阈值为x2
5.根据权利要求1所述的一种基于潜在语义分析的文档相似度识别方法,其特征在于:所述计算输入文本词袋向量与原始文本词袋向量的近似程度以向量的余弦相似度进行表征。
6.一种基于潜在语义分析的文档相似度的识别装置,其特征在于:包括如下模块:
数据库模块,用于构建原始文档库,所述原始文档库包括若干原始文本,所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量;
输入模块,用于获取输入文本,将输入文本进行预处理得到输入文本词袋向量;
计算模块,用于计算输入文本词袋向量与原始文本词袋向量的近似程度,得到与输入文本近似程度最高的原始文本;
所述预处理包括如下步骤:
获取词袋模型;
构建单词-文本矩阵,矩阵内各个单词按照重要性进行赋值;
确定阈值,将赋值结果低于阈值的单词删除以进行降维处理;
得到最终的单词-文本矩阵,从而获得其词袋向量;
所述单词包括单字和词组,获取单词-文本矩阵之后,首先筛选出虚词,将虚词在单词-文本矩阵内赋值为0;所述虚词包括冠词,副词,介词,连词,叹词和拟声词;
虚词赋值为0后,再获取名词,将名词在单词-文本矩阵内赋值为1;获取与名词匹配的动词,并将动词在单词-文本矩阵内赋值为1/(a+1),a为动词与名词之间间隔的单词数;获取与名词匹配的副词,并将副词与名词重新匹配为一个新的词组,所述新的词组赋值为1,但保留原来的名词,原来的名词进行重新赋值为1/b,b为新的词组出现的频次与原来的名词出现的频次之比;获取与名词匹配的形容词,将形容词赋值为1/c0.5,c为形容词所形容的名词出现的频次。
CN201911378044.7A 2019-12-27 2019-12-27 一种基于潜在语义分析的文档相似度识别方法及装置 Active CN111178038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911378044.7A CN111178038B (zh) 2019-12-27 2019-12-27 一种基于潜在语义分析的文档相似度识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911378044.7A CN111178038B (zh) 2019-12-27 2019-12-27 一种基于潜在语义分析的文档相似度识别方法及装置

Publications (2)

Publication Number Publication Date
CN111178038A CN111178038A (zh) 2020-05-19
CN111178038B true CN111178038B (zh) 2023-04-25

Family

ID=70647321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911378044.7A Active CN111178038B (zh) 2019-12-27 2019-12-27 一种基于潜在语义分析的文档相似度识别方法及装置

Country Status (1)

Country Link
CN (1) CN111178038B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090466A (zh) * 2022-12-16 2023-05-09 上海美嘉林软件科技股份有限公司 技术信息文档语义单元构建方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109299887A (zh) * 2018-11-05 2019-02-01 阿里巴巴集团控股有限公司 一种数据处理方法、装置及电子设备
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109299887A (zh) * 2018-11-05 2019-02-01 阿里巴巴集团控股有限公司 一种数据处理方法、装置及电子设备
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Also Published As

Publication number Publication date
CN111178038A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
JP5936698B2 (ja) 単語意味関係抽出装置
EP2369505A1 (en) Text classifier system
CN109101489B (zh) 一种文本自动摘要方法、装置及一种电子设备
CN110442872B (zh) 一种文本要素完整性审核方法及装置
WO2021114841A1 (zh) 一种用户报告的生成方法及终端设备
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
CN111241410A (zh) 一种行业新闻推荐方法及终端
US20130019163A1 (en) System
CN110826315B (zh) 使用神经网络系统识别短文本时效性的方法
CN111178038B (zh) 一种基于潜在语义分析的文档相似度识别方法及装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN116756347A (zh) 一种基于大数据的语义信息检索方法
CN116795978A (zh) 一种投诉信息处理方法、装置、电子设备及介质
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN110728131A (zh) 一种分析文本属性的方法和装置
CN115080741A (zh) 一种问卷调查分析方法、装置、存储介质及设备
Qiu et al. Research on Translation Style in Machine Learning Based on Linguistic Quantitative Characteristics Perception.
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置
CN113705253A (zh) 一种机器翻译模型性能检测方法、以及相关设备
CN112580348A (zh) 政策文本关联性分析方法及系统
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant