CN108509408A - 一种句子相似度判断方法 - Google Patents
一种句子相似度判断方法 Download PDFInfo
- Publication number
- CN108509408A CN108509408A CN201710109324.2A CN201710109324A CN108509408A CN 108509408 A CN108509408 A CN 108509408A CN 201710109324 A CN201710109324 A CN 201710109324A CN 108509408 A CN108509408 A CN 108509408A
- Authority
- CN
- China
- Prior art keywords
- sentence
- vector
- network model
- similarity
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种句子相似度判断方法,属于自然语言处理技术领域;方法包括:根据两个外部输入的句子样本,获取句子样本中的字词向量矩阵;提取句子样本中的重叠特征以形成重叠特征矩阵,并将字词向量矩阵与重叠特征矩阵结合作为第一神经网络模型的输入数据;根据第一神经网络模型处理得到针对句子样本的句子向量并进行操作形成一句子合并向量,并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据;根据第二神经网络模型处理得到相似性度量并输出,以作为判断两个句子样本的相似度的依据。上述技术方案的有益效果是:解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量以及未登录词的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种句子相似度判断方法。
背景技术
在自然语言处理的技术领域中,对于两个句子之间判断相似度的应用非常广泛。现有技术中通常会采用如图1所示的以下方法来计算两个句子之间的相似度:
对于句子1和句子2,首先分别获取两个句子的字词向量矩阵并输入到深度神经网络模型中,通过深度神经网络的处理得到句子向量并进行拼接以作为分类神经网络模型的输入,最后得到两个句子的相似性度量。
上述处理方法在计算句子相似度时,由句子中的字词序列映射形成字词向量矩阵,其参数一般都会使用由语言模型预训练形成的字词向量进行初始化,因此参数质量比较依赖预训练的字词向量的质量。并且,若在进行计算时,句子中存在字词向量词典中没有的字或词(即未登录词),则会将其映射成随机向量进行计算,从而影响模型的度量效果。
发明内容
根据现有技术中存在的上述问题,现提供一种句子相似度判断方法的技术方案,旨在解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量和未登录词的问题,从而改进计算句子相似度的度量方法。
上述技术方案具体包括:
一种句子相似度判断方法,其中,通过预先训练形成一句子相似度判断模型,所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型;
所述句子相似度判断方法还包括:
步骤S1,根据两个外部输入的句子样本,分别获取每个所述句子样本中的字词向量矩阵;
步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵,并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据;
步骤S3,根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量,并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据;
步骤S4,根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出,以作为判断两个所述句子样本的相似度的依据;
所述步骤S3中,采用所述句子向量直接相减的操作方式形成所述句子合并向量,或者采用拼接所述句子向量的操作方式形成所述句子合并向量。
优选的,该句子相似度判断方法,其中,所述步骤S1中,每个所述句子样本的字词向量矩阵包括:
每个所述句子样本的字向量矩阵;或者
每个所述句子样本的词向量矩阵;
则所述步骤S1中:
将所述句子样本切分成字序列,并将所述字序列映射成所述字向量矩阵;或者
将所述句子样本切分成词序列,并将所述词序列映射成所述词向量矩阵。
优选的,该句子相似度判断方法,其中,所述步骤S2中,采用下述方式处理形成所述重叠特征矩阵:
步骤S21,将所述两个所述句子样本中相互重叠的字或词分别替换成一第一字符;
步骤S22,将所述两个句子样本中不相重叠的字或词分别替换成一第二字符;
步骤S23,根据所述第一字符和所述第二字符分别形成关联于每个所述句子样本的重叠特征序列;
步骤S24,将每个所述重叠特征序列映射成所述重叠特征矩阵;
步骤S25,每个所述字词向量矩阵和对应的所述重叠特征矩阵分别结合作为所述第一神经网络模型的所述输入数据。
优选的,该句子相似度判断方法,其中,所述步骤S3中,处理得到两个所述句子向量的相似度乘积,随后对两个所述句子向量做相减操作,并与所述相似度乘积以及所述重叠特征向量结合作为所述第二神经网络的所述输入数据。
优选的,该句子相似度判断方法,其中,通过计算两个所述句子向量之间的点积得到所述相似度乘积;或者
根据一参数矩阵处理得到所述相似度乘积;
在预先对所述句子相似度判断模型进行训练的过程中,同时训练得到所述参数矩阵。
优选的,该句子相似度判断方法,其中,所述第一神经网络模型为深度神经网络模型。
优选的,该句子相似度判断方法,其中,所述第一神经网络模型为卷积神经网络模型或者循环神经网络模型。
优选的,该句子相似度判断方法,其中,所述第二神经网络模型为分类神经网络模型。
上述技术方案的有益效果是:提供一种句子相似度判断方法,能够解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量和未登录词的问题,从而改进计算句子相似度的度量方法。
附图说明
图1是现有技术中,处理得到句子相似度的流程示意图;
图2-3是本发明的较佳的实施例中,一种句子相似度判断方法的总体流程示意图;
图4是本发明的较佳的实施例中,形成重叠特征矩阵的具体流程示意图;
图5是本发明的一个较佳的实施例中,第一神经网络模型的结构示意图;
图6是本发明的一个较佳的实施例中,第二神经网络模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
根据现有技术中存在的上述问题,现提供一种句子相似度判断方法,该判断方法中,可以通过预先训练形成一句子相似度判断模型,句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型。
具体地,上述第一神经网络模型和第二神经网络模型是通过统一训练一体形成的,即首先搭建包括第一神经网络模型和第二神经网络模型的句子相似度判断模型(将第一神经网络模型的输出作为第二神经网络模型的输入),随后通过向第一神经网络模型输入训练样本的方式训练形成整个句子相似度判断模型。
则该方法具体如图2所示,包括:
步骤S1,根据两个外部输入的句子样本,分别获取每个句子样本中的字词向量矩阵;
步骤S2,分别提取每个句子样本中的重叠特征以形成重叠特征矩阵,并针对每个句子样本将对应的字词向量矩阵与重叠特征矩阵结合作为第一神经网络模型的输入数据;
步骤S3,根据第一神经网络模型分别处理得到针对每个句子样本的句子向量并进行操作形成一句子合并向量,并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据;
步骤S4,根据第二神经网络模型处理得到关联于两个句子样本的相似性度量并输出,以作为判断两个句子样本的相似度的依据。
上述步骤S3中,采用句子向量直接相减的操作方式形成句子合并向量,或者采用拼接句子向量的操作方式形成句子合并向量。
具体地,本实施例中,对于两个给定的句子样本,首先分别获取每个句子样本中的字词向量矩阵。所谓字词向量矩阵,是指由句子中的字词向量映射形成的矩阵。
随后,本实施例中,获取每个句子样本中的重叠特征以形成重叠特征矩阵,该重叠特征为根据两个句子样本中相互重叠的字/词提取到的重叠的字词特征,该重叠特征矩阵为重叠特征按照上述映射形成字词向量矩阵相同的映射方法形成的矩阵。
本实施例中,获取到上述字词向量矩阵和重叠特征矩阵后,将关联于同一个句子样本的这两个矩阵结合作为第一神经网络模型的输入数据,随后第一神经网络模型通过处理得到针对每个句子样本的句子向量。
本发明的一个较佳的实施例中,将两个句子样本的句子向量进行相减操作,该相减操作的具体方法在下文中详述。并且,针对上文中得到的重叠特征形成一重叠特征向量,与形成的句子合并向量一起结合作为第二神经网络模型的输入数据。
本发明的另一个较佳的实施例中,将两个句子样本的句子向量进行拼接操作,该拼接操作的具体方法与现有技术中相同。并且,针对上文中得到的重叠特征形成一重叠特征向量,与形成的句子合并向量一起结合作为第二神经网络模型的输入数据。
本实施例中,最后通过第二神经网络模型处理得到两个句子样本的相似性度量,以作为判断两个句子样本的相似度的依据。
本发明的一个较佳的实施例中,相对于现有技术中对句子相似度的判断方法(如图1中所示),在图3中示出了本发明技术方案中做出改进的部分。主要在于引入了两个句子的重叠特征,并且将该重叠特征进行处理以分别作为第一神经网络模型的输入数据(重叠特征矩阵)以及作为第二神经网络模型的输入数据(重叠特征向量),因此使得神经网络模型较少依赖预训练的字词向量的质量,并且解决了未登录词的问题,同时,将现有技术中对句子向量进行拼接的方式更改为既可以拼接也可以相减。上述方法改进了计算句子相似度的模型,最终改进了计算句子相似性的度量方法。
本发明的较佳的实施例中,上述步骤S1中,每个句子样本的字词向量矩阵包括:
每个句子样本的字向量矩阵;或者
每个句子样本的词向量矩阵。
即上述字词向量矩阵包括每个句子样本的字/词向量矩阵。
则本实施例中,在上述步骤S1中:
将句子样本切分成字序列,并将字序列映射成字向量矩阵;或者
将句子样本切分成词序列,并将词序列映射成词向量矩阵。
本发明的较佳的实施例中,上述步骤S2中,采用如图4所示的下述方式处理形成重叠特征矩阵:
步骤S21,将两个句子样本中相互重叠的字或词分别替换成一第一字符;
步骤S22,将两个句子样本中不相重叠的字或词分别替换成一第二字符;
步骤S23,根据第一字符和第二字符分别形成关联于每个句子样本的重叠特征序列;
步骤S24,将每个重叠特征序列映射成重叠特征矩阵;
步骤S25,每个字词向量矩阵和对应的重叠特征矩阵分别结合作为第一神经网络模型的输入数据。
具体地,本实施例中,上述步骤中,为了方便计算机进行处理,上述第一字符可以为1,第二字符可以为0,则可以形成关联于每个句子样本的二进制的重叠特征向量。例如,对于两个句子样本“我要听歌”和“给我放首歌”,相互重叠的部分(即重叠特征)分别为“我”和“歌”,则针对“我要听歌”的重叠特征序列为1001,针对“给我放首歌”的重叠特征序列为01001,随后根据字词向量映射成字词向量矩阵的相同方法将上述两个重叠特征序列1001和01001分别映射形成重叠特征矩阵,即字符0映射成一维向量,字符1映射成一维向量,随后形成矩阵,并将每个句子样本的字词向量矩阵和重叠特征矩阵结合作为第一神经网络模型的输入数据。
本发明的其他实施例中,上述第一字符和第二字符也可以选择其他适于处理的形式,在此不再赘述。
本发明的较佳的实施例中,上述步骤S3中,重叠特征向量的形成方式可以包括如下几种:
1)以s1表示其中一个句子样本,s2表示另一个句子样本,并采用IDF_overlap表示两个句子样本中相互重叠的字词的IDF(Inverse Document Frequency,逆向文档频率)之和,采用length表示每个句子样本的句子长度,则重叠特征向量feat可以被表示为feat=IDF_overlap/(length(s1)+length(s2))。
上文中,某一个特定字/词的IDF数,可以由总文件的数目除以包含该字/词的文件数目,再将得到的商取对数得到。下文中不再赘述。
2)同样以s1表示其中一个句子样本,s2表示另一个句子样本,并采用IDF_overlap表示两个句子样本中相互重叠的字词的IDF之和,采用IDF_sum表示每个句子样本中所有字词的IDF之和,则重叠特征向量feat可以被表示为feat=IDF_overlap/(IDF_sum(s1)+IDF_sum(s2))。
3)同样以s1表示其中一个句子样本,s2表示另一个句子样本,并采用length表示每个句子样本的句子长度,采用word_overlap表示两个句子样本中的字重叠数,则上述重叠特征向量feat可以被表示为feat=word_overlap/(length(s1)+length(s2))。
上述三种方法都能处理得到重叠特征向量,并直接将重叠特征向量拼接到第二神经网络模型的输入数据中。
本发明的一个较佳的实施例中,计算上述重叠特征向量的时候,也可以先将句子中的停止词去掉,再计算重叠特征向量。所谓停止词(Stop Words),主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等,在文本处理过程中如果遇到停止词,则立即停止处理,将其扔掉。
本发明的较佳的实施例中,上述步骤S3中,对两个句子向量执行相减操作能够更好地找到两个句子向量之间的差异(如图3所示)。进一步地,可以采用下述几种方式实现两个句子向量的相减操作:
1)直接将两个句子向量相减得到结果;
2)将两个句子向量相减,再取绝对值得到结果;
3)上述第一神经网络模型可以为一卷积神经网络模型,卷积神经网络分为卷积层和采样层(如图5所示),则可以在卷积层处理之后直接应用上述两种方式中的一种对两个向量进行相减,随后再在采样层进行采样,最终得到结果。
本发明的较佳的实施例中,在上述步骤S3中,在采用相减的方式对两个句子向量进行处理的同时,处理得到两个句子向量的相似度乘积,并将相似度乘积、句子向量相减的结果以及重叠特征向量结合作为第二神经网络的输入数据(如图3所示)。
具体地,上述相似度乘积可以采用下述几种方式处理得到:
1)计算两个句子向量的点积,以作为上述相似度乘积;
2)引入一参数矩阵M,并以x和y分别表示两个句子向量,则上述相似度乘积可以被表示为x*M*y。本发明的较佳的实施例中,上述参数矩阵M可以在训练形成句子相似度判断模型(即统一训练形成第一神经网络模型和第二神经网络模型时)时一起训练形成。
本发明的其他实施例中,上述步骤S3中,可以不对句子向量进行相减操作,而采用与现有技术中类似的句子向量拼接方式对两个句子向量进行拼接处理,并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据(如图3中所示,在图3中,可以选择采用句子向量拼接或者句子向量相减的方式进行处理)。
本发明的较佳的实施例中,上述第一神经网络模型可以为深度神经网络模型,进一步地可以为卷积神经网络模型(Convolutional Neural Network,CNN),或者为循环神经网络模型(Recurrent Neural Network,RNN),甚至可以为循环神经网络模型的变体,例如长短期记忆神经网络模型(Long Short Term Memory,LSTM)或者门限循环神经网络模型(Gated Recurrent Unit,GRU)。
本发明的较佳的实施例中,上述第二神经网络模型可以为分类神经网络模型,如图6所示为第二神经网络模型的一般结构,该第二神经网络模型可以被划分为输入层、隐层和输出层,输出层也就是分类层,上述隐层也可以去除,即只存在输入层和输出层(分类层)。
本发明技术方案中提供了一种句子相似度判断方法,该方法引入了句子向量的重叠特征并分别作为深度神经网络模型和分类神经网络模型的输入数据,并且在处理过程中将句子向量的拼接过程更改为对句子向量做相减操作的过程,因此能够解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量以及未登录词的问题,从而改进计算句子相似度的度量方法。
值得注意的是,在不考虑相似性度量的质量比较依赖预训练的字/词以及未登录词等问题的前提下,本发明技术方案中的一些技术特征都可以被替代或者被移除,而依然可以作为一个完整的句子相似度判断方法进行应用。例如:
1)对句子向量进行相减操作的过程可以修改为传统流程中对句子向量进行拼接的过程,不影响整体判断流程的进行;
2)在第一神经网络模型的输入数据中去除由重叠特征形成的重叠特征矩阵,而只将重叠特征形成的重叠特征向量作为第二神经网络模型的输入数据,同样不影响整体判断流程的进行;
3)在第二神经网络模型的输入数据中去除由重叠特征形成的重叠特征向量,而只将重叠特征形成的重叠特征矩阵作为第一神经网络模型的输入数据,同样不影响整体判断流程的进行;
4)去除重叠特征,只将现有技术中的句子向量拼接的操作修改为句子向量相减,同样不影响整体判断流程的进行。
本发明技术方案中提供的句子相似度判断方法,能够适用于使用者与智能设备之间进行“聊天”的场景。例如:当使用者向智能设备说一句话时,智能设备通过后台处理给出应答的过程通常为:通过智能设备后台的备选资料库检索得到初步的候选句子集,随后采用本发明技术方案中提供的句子相似度判断方法从候选句子集中得到关联于使用者说的话的相似句子,随后将该相似句子对应的回答反馈给使用者。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (8)
1.一种句子相似度判断方法,其特征在于,通过预先训练形成一句子相似度判断模型,所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型;
所述句子相似度判断方法还包括:
步骤S1,根据两个外部输入的句子样本,分别获取每个所述句子样本中的字词向量矩阵;
步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵,并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据;
步骤S3,根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量,并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据;
步骤S4,根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出,以作为判断两个所述句子样本的相似度的依据;
所述步骤S3中,采用所述句子向量直接相减的操作方式形成所述句子合并向量,或者采用拼接所述句子向量的操作方式形成所述句子合并向量。
2.如权利要求1所述的句子相似度判断方法,其特征在于,所述步骤S1中,每个所述句子样本的字词向量矩阵包括:
每个所述句子样本的字向量矩阵;或者
每个所述句子样本的词向量矩阵;
则所述步骤S1中:
将所述句子样本切分成字序列,并将所述字序列映射成所述字向量矩阵;或者
将所述句子样本切分成词序列,并将所述词序列映射成所述词向量矩阵。
3.如权利要求1所述的句子相似度判断方法,其特征在于,所述步骤S2中,采用下述方式处理形成所述重叠特征矩阵:
步骤S21,将所述两个所述句子样本中相互重叠的字或词分别替换成一第一字符;
步骤S22,将所述两个句子样本中不相重叠的字或词分别替换成一第二字符;
步骤S23,根据所述第一字符和所述第二字符分别形成关联于每个所述句子样本的重叠特征序列;
步骤S24,将每个所述重叠特征序列映射成所述重叠特征矩阵;
步骤S25,每个所述字词向量矩阵和对应的所述重叠特征矩阵分别结合作为所述第一神经网络模型的所述输入数据。
4.如权利要求1所述的句子相似度判断方法,其特征在于,所述步骤S3中,处理得到两个所述句子向量的相似度乘积,随后对两个所述句子向量做相减操作,并与所述相似度乘积以及所述重叠特征向量结合作为所述第二神经网络的所述输入数据。
5.如权利要求4所述的句子相似度判断方法,其特征在于,通过计算两个所述句子向量之间的点积得到所述相似度乘积;或者
根据一参数矩阵处理得到所述相似度乘积;
在预先对所述句子相似度判断模型进行训练的过程中,同时训练得到所述参数矩阵。
6.如权利要求1所述的句子相似度判断方法,其特征在于,所述第一神经网络模型为深度神经网络模型。
7.如权利要求7所述的句子相似度判断方法,其特征在于,所述第一神经网络模型为卷积神经网络模型或者循环神经网络模型。
8.如权利要求1所述的句子相似度判断方法,其特征在于,所述第二神经网络模型为分类神经网络模型。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710109324.2A CN108509408B (zh) | 2017-02-27 | 2017-02-27 | 一种句子相似度判断方法 |
US16/488,572 US10949709B2 (en) | 2017-02-27 | 2018-01-26 | Method for determining sentence similarity |
PCT/CN2018/074336 WO2018153217A1 (zh) | 2017-02-27 | 2018-01-26 | 一种句子相似度判断方法 |
TW107105171A TWI657342B (zh) | 2017-02-27 | 2018-02-13 | 一種句子相似度判斷方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710109324.2A CN108509408B (zh) | 2017-02-27 | 2017-02-27 | 一种句子相似度判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108509408A true CN108509408A (zh) | 2018-09-07 |
CN108509408B CN108509408B (zh) | 2019-11-22 |
Family
ID=63252399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710109324.2A Active CN108509408B (zh) | 2017-02-27 | 2017-02-27 | 一种句子相似度判断方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10949709B2 (zh) |
CN (1) | CN108509408B (zh) |
TW (1) | TWI657342B (zh) |
WO (1) | WO2018153217A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522921A (zh) * | 2018-09-18 | 2019-03-26 | 义语智能科技(上海)有限公司 | 语句相似度判别方法及设备 |
CN109614485A (zh) * | 2018-11-19 | 2019-04-12 | 中山大学 | 一种基于语法结构的分层Attention的句子匹配方法及装置 |
CN109740728A (zh) * | 2018-12-10 | 2019-05-10 | 杭州世平信息科技有限公司 | 一种基于多种神经网络组合的量刑计算方法 |
CN109766547A (zh) * | 2018-12-26 | 2019-05-17 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN109992659A (zh) * | 2019-02-12 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 用于文本排序的方法和装置 |
CN110298035A (zh) * | 2019-06-04 | 2019-10-01 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
CN110362681A (zh) * | 2019-06-19 | 2019-10-22 | 平安科技(深圳)有限公司 | 问答系统重复问题识别方法、装置及存储介质 |
CN110689023A (zh) * | 2019-08-15 | 2020-01-14 | 平安科技(深圳)有限公司 | 可靠组合特征提取方法、装置、计算机设备及存储介质 |
WO2020140635A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
CN111400462A (zh) * | 2019-01-02 | 2020-07-10 | 珠海格力电器股份有限公司 | 问答机器人训练方法、系统及问答机器人 |
CN111737991A (zh) * | 2020-07-01 | 2020-10-02 | 携程计算机技术(上海)有限公司 | 文本断句位置的识别方法及系统、电子设备及存储介质 |
CN113688571A (zh) * | 2021-08-25 | 2021-11-23 | 哈尔滨工程大学 | 一种基于卷积相似度的水声环境参数分类方法 |
CN115114932A (zh) * | 2022-06-24 | 2022-09-27 | 重庆邮电大学 | 一种基于关键词的多粒度中文短文本匹配方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509408B (zh) * | 2017-02-27 | 2019-11-22 | 芋头科技(杭州)有限公司 | 一种句子相似度判断方法 |
CN108287858B (zh) * | 2017-03-02 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
CN111489754B (zh) * | 2019-01-28 | 2024-06-25 | 国家电网有限公司客户服务中心 | 一种基于智能语音技术的话务数据分析方法 |
CN111666482B (zh) * | 2019-03-06 | 2022-08-02 | 珠海格力电器股份有限公司 | 查询方法及装置、存储介质和处理器 |
WO2020198855A1 (en) * | 2019-03-29 | 2020-10-08 | Knowtions Research Inc. | Method and system for mapping text phrases to a taxonomy |
CN110287312B (zh) * | 2019-05-10 | 2023-08-25 | 平安科技(深圳)有限公司 | 文本相似度的计算方法、装置、计算机设备及计算机存储介质 |
CN110347776A (zh) * | 2019-07-17 | 2019-10-18 | 北京百度网讯科技有限公司 | 兴趣点名称匹配方法、装置、设备及存储介质 |
TWI745724B (zh) * | 2019-07-25 | 2021-11-11 | 國泰人壽保險股份有限公司 | 行動文件辨識系統 |
KR102098734B1 (ko) * | 2019-08-06 | 2020-04-08 | 전자부품연구원 | 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말 |
CN110750977B (zh) * | 2019-10-23 | 2023-06-02 | 支付宝(杭州)信息技术有限公司 | 一种文本相似度计算方法及系统 |
CN111814717B (zh) * | 2020-07-17 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 人脸识别方法、装置及电子设备 |
CN111783458B (zh) * | 2020-08-20 | 2024-05-03 | 支付宝(杭州)信息技术有限公司 | 叠字错误检测方法及装置 |
CN113468872B (zh) * | 2021-06-09 | 2024-04-16 | 大连理工大学 | 基于句子级别图卷积的生物医学关系抽取方法及系统 |
CN113378970B (zh) * | 2021-06-28 | 2023-08-22 | 山东浪潮成方数字服务有限公司 | 语句相似性检测方法、装置、电子设备及存储介质 |
CN115017915B (zh) * | 2022-05-30 | 2023-05-30 | 北京三快在线科技有限公司 | 一种模型训练、任务执行的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US6026398A (en) * | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
JP3099797B2 (ja) * | 1998-03-19 | 2000-10-16 | 日本電気株式会社 | 文字認識装置 |
FR2825814B1 (fr) * | 2001-06-07 | 2003-09-19 | Commissariat Energie Atomique | Procede de creation automatique d'une base de donnees images interrogeable par son contenu semantique |
US7644047B2 (en) * | 2003-09-30 | 2010-01-05 | British Telecommunications Public Limited Company | Semantic similarity based document retrieval |
US8176054B2 (en) * | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US7646940B2 (en) * | 2006-04-04 | 2010-01-12 | Microsoft Corporation | Robust indexing and retrieval of electronic ink |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
US9607245B2 (en) * | 2014-12-02 | 2017-03-28 | Xerox Corporation | Adapted vocabularies for matching image signatures with fisher vectors |
CN108509408B (zh) * | 2017-02-27 | 2019-11-22 | 芋头科技(杭州)有限公司 | 一种句子相似度判断方法 |
US10268676B1 (en) * | 2017-06-09 | 2019-04-23 | Act, Inc. | Automated detection of linguistic uniqueness |
CN107491547B (zh) * | 2017-08-28 | 2020-11-10 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
US10437936B2 (en) * | 2018-02-01 | 2019-10-08 | Jungle Disk, L.L.C. | Generative text using a personality model |
-
2017
- 2017-02-27 CN CN201710109324.2A patent/CN108509408B/zh active Active
-
2018
- 2018-01-26 WO PCT/CN2018/074336 patent/WO2018153217A1/zh active Application Filing
- 2018-01-26 US US16/488,572 patent/US10949709B2/en active Active
- 2018-02-13 TW TW107105171A patent/TWI657342B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522921A (zh) * | 2018-09-18 | 2019-03-26 | 义语智能科技(上海)有限公司 | 语句相似度判别方法及设备 |
CN109614485A (zh) * | 2018-11-19 | 2019-04-12 | 中山大学 | 一种基于语法结构的分层Attention的句子匹配方法及装置 |
CN109614485B (zh) * | 2018-11-19 | 2023-03-14 | 中山大学 | 一种基于语法结构的分层Attention的句子匹配方法及装置 |
CN109740728A (zh) * | 2018-12-10 | 2019-05-10 | 杭州世平信息科技有限公司 | 一种基于多种神经网络组合的量刑计算方法 |
CN109766547B (zh) * | 2018-12-26 | 2022-10-18 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN109766547A (zh) * | 2018-12-26 | 2019-05-17 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN111400462A (zh) * | 2019-01-02 | 2020-07-10 | 珠海格力电器股份有限公司 | 问答机器人训练方法、系统及问答机器人 |
WO2020140635A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
CN109992659A (zh) * | 2019-02-12 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 用于文本排序的方法和装置 |
CN109992659B (zh) * | 2019-02-12 | 2023-02-17 | 创新先进技术有限公司 | 用于文本排序的方法和装置 |
CN110298035A (zh) * | 2019-06-04 | 2019-10-01 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
CN110298035B (zh) * | 2019-06-04 | 2023-12-01 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
CN110362681A (zh) * | 2019-06-19 | 2019-10-22 | 平安科技(深圳)有限公司 | 问答系统重复问题识别方法、装置及存储介质 |
CN110689023A (zh) * | 2019-08-15 | 2020-01-14 | 平安科技(深圳)有限公司 | 可靠组合特征提取方法、装置、计算机设备及存储介质 |
CN110689023B (zh) * | 2019-08-15 | 2024-01-16 | 平安科技(深圳)有限公司 | 可靠组合特征提取方法、装置、计算机设备及存储介质 |
CN111737991A (zh) * | 2020-07-01 | 2020-10-02 | 携程计算机技术(上海)有限公司 | 文本断句位置的识别方法及系统、电子设备及存储介质 |
CN111737991B (zh) * | 2020-07-01 | 2023-12-12 | 携程计算机技术(上海)有限公司 | 文本断句位置的识别方法及系统、电子设备及存储介质 |
CN113688571A (zh) * | 2021-08-25 | 2021-11-23 | 哈尔滨工程大学 | 一种基于卷积相似度的水声环境参数分类方法 |
CN113688571B (zh) * | 2021-08-25 | 2023-06-30 | 哈尔滨工程大学 | 一种基于卷积相似度的水声环境参数分类方法 |
CN115114932A (zh) * | 2022-06-24 | 2022-09-27 | 重庆邮电大学 | 一种基于关键词的多粒度中文短文本匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108509408B (zh) | 2019-11-22 |
TWI657342B (zh) | 2019-04-21 |
US10949709B2 (en) | 2021-03-16 |
WO2018153217A1 (zh) | 2018-08-30 |
TW201839630A (zh) | 2018-11-01 |
US20200193217A1 (en) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509408B (zh) | 一种句子相似度判断方法 | |
CN107464210B (zh) | 一种基于生成式对抗网络的图像风格迁移方法 | |
CN111143536B (zh) | 基于人工智能的信息抽取方法及存储介质和相关装置 | |
CN110032635B (zh) | 一种基于深度特征融合神经网络的问题对匹配方法和装置 | |
CN108182175B (zh) | 一种文本质量指标获取方法及装置 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN108170736A (zh) | 一种基于循环注意力机制的文档快速扫描定性方法 | |
CN108536681A (zh) | 基于情感分析的智能问答方法、装置、设备及存储介质 | |
CN108694225A (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN107766506A (zh) | 一种基于层次化注意力机制的多轮对话模型构建方法 | |
CN107870964A (zh) | 一种应用于答案融合系统的语句排序方法及系统 | |
CN110019685A (zh) | 基于排序学习的深度文本匹配方法及装置 | |
CN109992788B (zh) | 基于未登录词处理的深度文本匹配方法及装置 | |
CN108304364A (zh) | 关键词提取方法和装置 | |
CN107145573A (zh) | 人工智能客服机器人的问题解答方法及系统 | |
CN106527757A (zh) | 一种输入纠错方法及装置 | |
US20160098437A1 (en) | Information retrieval method and apparatus | |
CN112084307B (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
CN110188775A (zh) | 一种基于联合神经网络模型的图像内容描述自动生成方法 | |
CN111027292B (zh) | 一种限定采样文本序列生成方法及其系统 | |
CN106909573A (zh) | 一种评价问答对质量的方法和装置 | |
CN107193941A (zh) | 基于图片内容的故事生成方法和装置 | |
CN110516251A (zh) | 一种电商实体识别模型的构建方法、构建装置、设备和介质 | |
CN110543551B (zh) | 一种问题语句处理方法和装置 | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1252739 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |