CN106569999A - 多粒度短文本语义相似度比较方法及系统 - Google Patents

多粒度短文本语义相似度比较方法及系统 Download PDF

Info

Publication number
CN106569999A
CN106569999A CN201610986272.2A CN201610986272A CN106569999A CN 106569999 A CN106569999 A CN 106569999A CN 201610986272 A CN201610986272 A CN 201610986272A CN 106569999 A CN106569999 A CN 106569999A
Authority
CN
China
Prior art keywords
short text
word
text
pretreatment
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610986272.2A
Other languages
English (en)
Inventor
李成华
刘丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Original Assignee
WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd filed Critical WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Priority to CN201610986272.2A priority Critical patent/CN106569999A/zh
Publication of CN106569999A publication Critical patent/CN106569999A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度的问题,使得短文本相似度对比结果更为准确。

Description

多粒度短文本语义相似度比较方法及系统
技术领域
本发明涉及大数据文本处理技术领域,特别涉及一种多粒度短文本语义相似度比较方法及系统。
背景技术
短文本分类如此重要,那么究竟什么是短文本呢?目前,对于短文本还没有统一规范的定义,本文参考已有的研究文献将短文本定义为长度不超过200字的文本形式的信息。短文本的几种常见形式有手机短信息、社交网络短信息、信息检索简介信息、BBS/论坛短信息等。一般来说,短文本包括的特点有:
①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,通常只有几句话,有的甚至只有几个词语如微博信息、手机短信息等,因此所包含的有效信息也就非常少,造成样本的特征非常稀疏,并且特征集的维数非常高,很难从中抽取到准确而关键的样本特征用于分类学习。
②实时性。在互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速度非常快,像聊天信息、微博信息、评论信息等,都在以秒计时的速度不断更新,难以采集,并且这部分动态文本数量非常庞大,这就要求对短文本信息分类必须具有更高的效率。
③不规则性。短文本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征非常多,如“94”代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,“河蟹”代表“和谐”等。流行语在短文本中更是频繁出现,而且更新很快,如2011年的流行词“伤不起”、“有没有”、“坑爹”,2012年的流行词“屌丝”、“江南Style”、“元芳,你怎么看”等等。
短文本理解与长文本不同,短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断。此外,由于短文本通常不遵循语法,自然语言处理技术难以直接用于短文本分析,使得短文本的相似度对比存在较大的难度。
发明内容
有鉴于此,本发明提出一种能够有效解决由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度问题的多粒度短文本语义相似度比较方法及系统。
一种多粒度短文本语义相似度比较方法,其包括如下步骤:
S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;
S2、对经过预处理的短文本进行特征选择;
S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2中向量集表示模型包括:
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。
在本发明所述的多粒度短文本语义相似度比较方法中,
通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
本发明还提供一种多粒度短文本语义相似度比较系统,其包括如下单元:
短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词性标注;
短文本特征选择单元,用于对经过预处理的短文本进行特征选择;
短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短文本的相似度。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本预处理单元中对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理;
所述短文本预处理单元中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元中向量集表示模型包括:
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;
所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度的问题,使得短文本相似度对比结果更为准确。
附图说明
图1是本发明实施例的多粒度短文本语义相似度比较方法流程图。
具体实施方式
如图1所示,一种多粒度短文本语义相似度比较方法,其包括如下步骤:
S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;
S2、对经过预处理的短文本进行特征选择;
S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S1中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
在本发明所述的多粒度短文本语义相似度比较方法中,所述步骤S2中向量集表示模型包括:
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。
在本发明所述的多粒度短文本语义相似度比较方法中,
通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
本发明还提供一种多粒度短文本语义相似度比较系统,其包括如下单元:
短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词性标注;
短文本特征选择单元,用于对经过预处理的短文本进行特征选择;
短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短文本的相似度。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本预处理单元中对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理;
所述短文本预处理单元中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
在本发明所述的多粒度短文本语义相似度比较系统中,所述短文本特征选择单元中向量集表示模型包括:
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;
所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度的问题,使得短文本相似度对比结果更为准确。。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims (10)

1.一种多粒度短文本语义相似度比较方法,其特征在于,其包括如下步骤:
S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;
S2、对经过预处理的短文本进行特征选择;
S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。
2.如权利要求1所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S1中对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理。
3.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S1中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
4.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S2包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
5.如权利要求2所述的多粒度短文本语义相似度比较方法,其特征在于,所述步骤S2中向量集表示模型包括:
W ( t , d ) = t f ( t , d ) × l o g ( N / n t + 0.01 ) Σ t ∈ d [ t f ( t , d ) × log ( N / n t + 0.01 ) ] 2
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度。
6.如权利要求5所述的多粒度短文本语义相似度比较方法,其特征在于,
通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
7.一种多粒度短文本语义相似度比较系统,其特征在于,其包括如下单元:
短文本预处理单元,用于对短文本进行预处理;所述预处理包括中文分词以及词性标注;
短文本特征选择单元,用于对经过预处理的短文本进行特征选择;
短文本的相似度计算单元,用于对经过特征选择的向量集进行距离测量以确定短文本的相似度。
8.如权利要求7所述的多粒度短文本语义相似度比较系统,其特征在于,所述短文本预处理单元中对短文本进行中文分词预处理包括:
预先建立分词完的语料库,用于机器学习;
将任何一汉字,将其分为词头、词中、词尾、单字成词四种状态;
语料库,分析出每一个字的状态,通过将语料库的每一个分好的词,添加其状态信息;
判断短文本的字在语料库中出现的次数;对短文本的字进行状态转移概率计算;形成一个4X4的矩阵;判断短文本的字出现时,下一个字出现的是内容以及内容对应的概率;记录每一个字在四种状态下上下文关系,通过一个哈希表表示,key存字,value存其概率;
将短文本转换为字符数组;并取出每一个字对应特征,形成分析矩阵;设定分析矩阵中的值为S,S[字][当前状态]=MAX(P[上一个字任何状态][当前状态]*S[上一个字][任何一个状态])+W[前(后)一个字当前状态][当前字]+R[当前状态概率];其中R是特征二,P是特征三,W前是特征四的上文部分,W后是特征四的下文部分;通过分析矩阵完成短文本的中文分词预处理;
所述短文本预处理单元中对短文本进行中文分词预处理包括:
通过隐马尔可夫模型完成对短文本的中文分词预处理。
9.如权利要求7所述的多粒度短文本语义相似度比较系统,其特征在于,所述短文本特征选择单元包括:对于经过预处理后的文本信息集,根据短文本中的词项,抽取出具有代表性的词条作为短文本的特征,并为每个特征赋予一定的权值,将所有特征项构成的向量表示该短文本,即文本空间实际上是由一组由数字描述的词项所构建的向量空间。
10.如权利要求9所述的多粒度短文本语义相似度比较系统,其特征在于,所述短文本特征选择单元中向量集表示模型包括:
W ( t , d ) = t f ( t , d ) × l o g ( N / n t + 0.01 ) Σ t ∈ d [ t f ( t , d ) × log ( N / n t + 0.01 ) ] 2
W(t,d)为词t在文本d中的权重;tf(t,d)为词在文本d中的词频;N为训练文本总数;nt为训练文本集中出现t的文本数;词条与权重构成特征向量;N代表维度;
所述短文本的相似度计算单元通过基于空间向量的余弦算法进行距离测量以确定不同短文本之间的相似度。
CN201610986272.2A 2016-11-09 2016-11-09 多粒度短文本语义相似度比较方法及系统 Pending CN106569999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610986272.2A CN106569999A (zh) 2016-11-09 2016-11-09 多粒度短文本语义相似度比较方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610986272.2A CN106569999A (zh) 2016-11-09 2016-11-09 多粒度短文本语义相似度比较方法及系统

Publications (1)

Publication Number Publication Date
CN106569999A true CN106569999A (zh) 2017-04-19

Family

ID=58540745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610986272.2A Pending CN106569999A (zh) 2016-11-09 2016-11-09 多粒度短文本语义相似度比较方法及系统

Country Status (1)

Country Link
CN (1) CN106569999A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408743A (zh) * 2018-08-21 2019-03-01 中国科学院自动化研究所 文本链接嵌入方法
CN110276640A (zh) * 2019-06-10 2019-09-24 北京云莱坞文化传媒有限公司 版权的多粒度拆分及其商业价值的挖掘方法
CN110287396A (zh) * 2019-05-07 2019-09-27 清华大学 文本匹配方法及装置
WO2019228203A1 (zh) * 2018-05-29 2019-12-05 厦门快商通信息技术有限公司 一种短文本分类方法及系统
CN111090755A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种文本关联关系判别方法及存储介质
CN116308635A (zh) * 2023-02-23 2023-06-23 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质
CN116860703A (zh) * 2023-07-13 2023-10-10 杭州再启信息科技有限公司 基于人工智能的数据处理系统、方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NOTER16: "利用条件随机场模型进行中文分词", 《HTTPS://BLOG.CSDN.NET/NOTER16/ARTICLE/DETAILS/52608852》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019228203A1 (zh) * 2018-05-29 2019-12-05 厦门快商通信息技术有限公司 一种短文本分类方法及系统
CN109408743A (zh) * 2018-08-21 2019-03-01 中国科学院自动化研究所 文本链接嵌入方法
CN109408743B (zh) * 2018-08-21 2020-11-17 中国科学院自动化研究所 文本链接嵌入方法
CN110287396A (zh) * 2019-05-07 2019-09-27 清华大学 文本匹配方法及装置
CN110287396B (zh) * 2019-05-07 2021-08-03 清华大学 文本匹配方法及装置
CN110276640A (zh) * 2019-06-10 2019-09-24 北京云莱坞文化传媒有限公司 版权的多粒度拆分及其商业价值的挖掘方法
CN111090755A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种文本关联关系判别方法及存储介质
CN111090755B (zh) * 2019-11-29 2023-04-04 福建亿榕信息技术有限公司 一种文本关联关系判别方法及存储介质
CN116308635A (zh) * 2023-02-23 2023-06-23 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质
CN116308635B (zh) * 2023-02-23 2023-09-29 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质
CN116860703A (zh) * 2023-07-13 2023-10-10 杭州再启信息科技有限公司 基于人工智能的数据处理系统、方法及存储介质
CN116860703B (zh) * 2023-07-13 2024-04-16 杭州再启信息科技有限公司 基于人工智能的数据处理系统、方法及存储介质

Similar Documents

Publication Publication Date Title
CN106569999A (zh) 多粒度短文本语义相似度比较方法及系统
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN103226580B (zh) 一种面向交互文本的话题识别方法
CN106294322A (zh) 一种基于lstm的汉语零指代消解方法
CN107133214A (zh) 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法
CN108536801A (zh) 一种基于深度学习的民航微博安保舆情情感分析方法
CN105045857A (zh) 一种社交网络谣言识别方法及系统
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
KR20190063978A (ko) 비정형 데이터의 카테고리 자동분류 방법
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN106096664A (zh) 一种基于社交网络数据的情感分析方法
CN102750316A (zh) 基于语义共现模型的概念关系标签抽取方法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN110134934A (zh) 文本情感分析方法和装置
CN110851593B (zh) 一种基于位置与语义的复值词向量构建方法
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN110175221A (zh) 利用词向量结合机器学习的垃圾短信识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419