CN108509408A - 一种句子相似度判断方法 - Google Patents

一种句子相似度判断方法 Download PDF

Info

Publication number
CN108509408A
CN108509408A CN201710109324.2A CN201710109324A CN108509408A CN 108509408 A CN108509408 A CN 108509408A CN 201710109324 A CN201710109324 A CN 201710109324A CN 108509408 A CN108509408 A CN 108509408A
Authority
CN
China
Prior art keywords
sentence
vector
network model
similarity
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710109324.2A
Other languages
English (en)
Other versions
CN108509408B (zh
Inventor
沈磊
陈见耸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yutou Technology Hangzhou Co Ltd
Original Assignee
Yutou Technology Hangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yutou Technology Hangzhou Co Ltd filed Critical Yutou Technology Hangzhou Co Ltd
Priority to CN201710109324.2A priority Critical patent/CN108509408B/zh
Priority to US16/488,572 priority patent/US10949709B2/en
Priority to PCT/CN2018/074336 priority patent/WO2018153217A1/zh
Priority to TW107105171A priority patent/TWI657342B/zh
Publication of CN108509408A publication Critical patent/CN108509408A/zh
Application granted granted Critical
Publication of CN108509408B publication Critical patent/CN108509408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种句子相似度判断方法,属于自然语言处理技术领域;方法包括:根据两个外部输入的句子样本,获取句子样本中的字词向量矩阵;提取句子样本中的重叠特征以形成重叠特征矩阵,并将字词向量矩阵与重叠特征矩阵结合作为第一神经网络模型的输入数据;根据第一神经网络模型处理得到针对句子样本的句子向量并进行操作形成一句子合并向量,并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据;根据第二神经网络模型处理得到相似性度量并输出,以作为判断两个句子样本的相似度的依据。上述技术方案的有益效果是:解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量以及未登录词的问题。

Description

一种句子相似度判断方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种句子相似度判断方法。
背景技术
在自然语言处理的技术领域中,对于两个句子之间判断相似度的应用非常广泛。现有技术中通常会采用如图1所示的以下方法来计算两个句子之间的相似度:
对于句子1和句子2,首先分别获取两个句子的字词向量矩阵并输入到深度神经网络模型中,通过深度神经网络的处理得到句子向量并进行拼接以作为分类神经网络模型的输入,最后得到两个句子的相似性度量。
上述处理方法在计算句子相似度时,由句子中的字词序列映射形成字词向量矩阵,其参数一般都会使用由语言模型预训练形成的字词向量进行初始化,因此参数质量比较依赖预训练的字词向量的质量。并且,若在进行计算时,句子中存在字词向量词典中没有的字或词(即未登录词),则会将其映射成随机向量进行计算,从而影响模型的度量效果。
发明内容
根据现有技术中存在的上述问题,现提供一种句子相似度判断方法的技术方案,旨在解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量和未登录词的问题,从而改进计算句子相似度的度量方法。
上述技术方案具体包括:
一种句子相似度判断方法,其中,通过预先训练形成一句子相似度判断模型,所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型;
所述句子相似度判断方法还包括:
步骤S1,根据两个外部输入的句子样本,分别获取每个所述句子样本中的字词向量矩阵;
步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵,并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据;
步骤S3,根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量,并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据;
步骤S4,根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出,以作为判断两个所述句子样本的相似度的依据;
所述步骤S3中,采用所述句子向量直接相减的操作方式形成所述句子合并向量,或者采用拼接所述句子向量的操作方式形成所述句子合并向量。
优选的,该句子相似度判断方法,其中,所述步骤S1中,每个所述句子样本的字词向量矩阵包括:
每个所述句子样本的字向量矩阵;或者
每个所述句子样本的词向量矩阵;
则所述步骤S1中:
将所述句子样本切分成字序列,并将所述字序列映射成所述字向量矩阵;或者
将所述句子样本切分成词序列,并将所述词序列映射成所述词向量矩阵。
优选的,该句子相似度判断方法,其中,所述步骤S2中,采用下述方式处理形成所述重叠特征矩阵:
步骤S21,将所述两个所述句子样本中相互重叠的字或词分别替换成一第一字符;
步骤S22,将所述两个句子样本中不相重叠的字或词分别替换成一第二字符;
步骤S23,根据所述第一字符和所述第二字符分别形成关联于每个所述句子样本的重叠特征序列;
步骤S24,将每个所述重叠特征序列映射成所述重叠特征矩阵;
步骤S25,每个所述字词向量矩阵和对应的所述重叠特征矩阵分别结合作为所述第一神经网络模型的所述输入数据。
优选的,该句子相似度判断方法,其中,所述步骤S3中,处理得到两个所述句子向量的相似度乘积,随后对两个所述句子向量做相减操作,并与所述相似度乘积以及所述重叠特征向量结合作为所述第二神经网络的所述输入数据。
优选的,该句子相似度判断方法,其中,通过计算两个所述句子向量之间的点积得到所述相似度乘积;或者
根据一参数矩阵处理得到所述相似度乘积;
在预先对所述句子相似度判断模型进行训练的过程中,同时训练得到所述参数矩阵。
优选的,该句子相似度判断方法,其中,所述第一神经网络模型为深度神经网络模型。
优选的,该句子相似度判断方法,其中,所述第一神经网络模型为卷积神经网络模型或者循环神经网络模型。
优选的,该句子相似度判断方法,其中,所述第二神经网络模型为分类神经网络模型。
上述技术方案的有益效果是:提供一种句子相似度判断方法,能够解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量和未登录词的问题,从而改进计算句子相似度的度量方法。
附图说明
图1是现有技术中,处理得到句子相似度的流程示意图;
图2-3是本发明的较佳的实施例中,一种句子相似度判断方法的总体流程示意图;
图4是本发明的较佳的实施例中,形成重叠特征矩阵的具体流程示意图;
图5是本发明的一个较佳的实施例中,第一神经网络模型的结构示意图;
图6是本发明的一个较佳的实施例中,第二神经网络模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
根据现有技术中存在的上述问题,现提供一种句子相似度判断方法,该判断方法中,可以通过预先训练形成一句子相似度判断模型,句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型。
具体地,上述第一神经网络模型和第二神经网络模型是通过统一训练一体形成的,即首先搭建包括第一神经网络模型和第二神经网络模型的句子相似度判断模型(将第一神经网络模型的输出作为第二神经网络模型的输入),随后通过向第一神经网络模型输入训练样本的方式训练形成整个句子相似度判断模型。
则该方法具体如图2所示,包括:
步骤S1,根据两个外部输入的句子样本,分别获取每个句子样本中的字词向量矩阵;
步骤S2,分别提取每个句子样本中的重叠特征以形成重叠特征矩阵,并针对每个句子样本将对应的字词向量矩阵与重叠特征矩阵结合作为第一神经网络模型的输入数据;
步骤S3,根据第一神经网络模型分别处理得到针对每个句子样本的句子向量并进行操作形成一句子合并向量,并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据;
步骤S4,根据第二神经网络模型处理得到关联于两个句子样本的相似性度量并输出,以作为判断两个句子样本的相似度的依据。
上述步骤S3中,采用句子向量直接相减的操作方式形成句子合并向量,或者采用拼接句子向量的操作方式形成句子合并向量。
具体地,本实施例中,对于两个给定的句子样本,首先分别获取每个句子样本中的字词向量矩阵。所谓字词向量矩阵,是指由句子中的字词向量映射形成的矩阵。
随后,本实施例中,获取每个句子样本中的重叠特征以形成重叠特征矩阵,该重叠特征为根据两个句子样本中相互重叠的字/词提取到的重叠的字词特征,该重叠特征矩阵为重叠特征按照上述映射形成字词向量矩阵相同的映射方法形成的矩阵。
本实施例中,获取到上述字词向量矩阵和重叠特征矩阵后,将关联于同一个句子样本的这两个矩阵结合作为第一神经网络模型的输入数据,随后第一神经网络模型通过处理得到针对每个句子样本的句子向量。
本发明的一个较佳的实施例中,将两个句子样本的句子向量进行相减操作,该相减操作的具体方法在下文中详述。并且,针对上文中得到的重叠特征形成一重叠特征向量,与形成的句子合并向量一起结合作为第二神经网络模型的输入数据。
本发明的另一个较佳的实施例中,将两个句子样本的句子向量进行拼接操作,该拼接操作的具体方法与现有技术中相同。并且,针对上文中得到的重叠特征形成一重叠特征向量,与形成的句子合并向量一起结合作为第二神经网络模型的输入数据。
本实施例中,最后通过第二神经网络模型处理得到两个句子样本的相似性度量,以作为判断两个句子样本的相似度的依据。
本发明的一个较佳的实施例中,相对于现有技术中对句子相似度的判断方法(如图1中所示),在图3中示出了本发明技术方案中做出改进的部分。主要在于引入了两个句子的重叠特征,并且将该重叠特征进行处理以分别作为第一神经网络模型的输入数据(重叠特征矩阵)以及作为第二神经网络模型的输入数据(重叠特征向量),因此使得神经网络模型较少依赖预训练的字词向量的质量,并且解决了未登录词的问题,同时,将现有技术中对句子向量进行拼接的方式更改为既可以拼接也可以相减。上述方法改进了计算句子相似度的模型,最终改进了计算句子相似性的度量方法。
本发明的较佳的实施例中,上述步骤S1中,每个句子样本的字词向量矩阵包括:
每个句子样本的字向量矩阵;或者
每个句子样本的词向量矩阵。
即上述字词向量矩阵包括每个句子样本的字/词向量矩阵。
则本实施例中,在上述步骤S1中:
将句子样本切分成字序列,并将字序列映射成字向量矩阵;或者
将句子样本切分成词序列,并将词序列映射成词向量矩阵。
本发明的较佳的实施例中,上述步骤S2中,采用如图4所示的下述方式处理形成重叠特征矩阵:
步骤S21,将两个句子样本中相互重叠的字或词分别替换成一第一字符;
步骤S22,将两个句子样本中不相重叠的字或词分别替换成一第二字符;
步骤S23,根据第一字符和第二字符分别形成关联于每个句子样本的重叠特征序列;
步骤S24,将每个重叠特征序列映射成重叠特征矩阵;
步骤S25,每个字词向量矩阵和对应的重叠特征矩阵分别结合作为第一神经网络模型的输入数据。
具体地,本实施例中,上述步骤中,为了方便计算机进行处理,上述第一字符可以为1,第二字符可以为0,则可以形成关联于每个句子样本的二进制的重叠特征向量。例如,对于两个句子样本“我要听歌”和“给我放首歌”,相互重叠的部分(即重叠特征)分别为“我”和“歌”,则针对“我要听歌”的重叠特征序列为1001,针对“给我放首歌”的重叠特征序列为01001,随后根据字词向量映射成字词向量矩阵的相同方法将上述两个重叠特征序列1001和01001分别映射形成重叠特征矩阵,即字符0映射成一维向量,字符1映射成一维向量,随后形成矩阵,并将每个句子样本的字词向量矩阵和重叠特征矩阵结合作为第一神经网络模型的输入数据。
本发明的其他实施例中,上述第一字符和第二字符也可以选择其他适于处理的形式,在此不再赘述。
本发明的较佳的实施例中,上述步骤S3中,重叠特征向量的形成方式可以包括如下几种:
1)以s1表示其中一个句子样本,s2表示另一个句子样本,并采用IDF_overlap表示两个句子样本中相互重叠的字词的IDF(Inverse Document Frequency,逆向文档频率)之和,采用length表示每个句子样本的句子长度,则重叠特征向量feat可以被表示为feat=IDF_overlap/(length(s1)+length(s2))。
上文中,某一个特定字/词的IDF数,可以由总文件的数目除以包含该字/词的文件数目,再将得到的商取对数得到。下文中不再赘述。
2)同样以s1表示其中一个句子样本,s2表示另一个句子样本,并采用IDF_overlap表示两个句子样本中相互重叠的字词的IDF之和,采用IDF_sum表示每个句子样本中所有字词的IDF之和,则重叠特征向量feat可以被表示为feat=IDF_overlap/(IDF_sum(s1)+IDF_sum(s2))。
3)同样以s1表示其中一个句子样本,s2表示另一个句子样本,并采用length表示每个句子样本的句子长度,采用word_overlap表示两个句子样本中的字重叠数,则上述重叠特征向量feat可以被表示为feat=word_overlap/(length(s1)+length(s2))。
上述三种方法都能处理得到重叠特征向量,并直接将重叠特征向量拼接到第二神经网络模型的输入数据中。
本发明的一个较佳的实施例中,计算上述重叠特征向量的时候,也可以先将句子中的停止词去掉,再计算重叠特征向量。所谓停止词(Stop Words),主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等,在文本处理过程中如果遇到停止词,则立即停止处理,将其扔掉。
本发明的较佳的实施例中,上述步骤S3中,对两个句子向量执行相减操作能够更好地找到两个句子向量之间的差异(如图3所示)。进一步地,可以采用下述几种方式实现两个句子向量的相减操作:
1)直接将两个句子向量相减得到结果;
2)将两个句子向量相减,再取绝对值得到结果;
3)上述第一神经网络模型可以为一卷积神经网络模型,卷积神经网络分为卷积层和采样层(如图5所示),则可以在卷积层处理之后直接应用上述两种方式中的一种对两个向量进行相减,随后再在采样层进行采样,最终得到结果。
本发明的较佳的实施例中,在上述步骤S3中,在采用相减的方式对两个句子向量进行处理的同时,处理得到两个句子向量的相似度乘积,并将相似度乘积、句子向量相减的结果以及重叠特征向量结合作为第二神经网络的输入数据(如图3所示)。
具体地,上述相似度乘积可以采用下述几种方式处理得到:
1)计算两个句子向量的点积,以作为上述相似度乘积;
2)引入一参数矩阵M,并以x和y分别表示两个句子向量,则上述相似度乘积可以被表示为x*M*y。本发明的较佳的实施例中,上述参数矩阵M可以在训练形成句子相似度判断模型(即统一训练形成第一神经网络模型和第二神经网络模型时)时一起训练形成。
本发明的其他实施例中,上述步骤S3中,可以不对句子向量进行相减操作,而采用与现有技术中类似的句子向量拼接方式对两个句子向量进行拼接处理,并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据(如图3中所示,在图3中,可以选择采用句子向量拼接或者句子向量相减的方式进行处理)。
本发明的较佳的实施例中,上述第一神经网络模型可以为深度神经网络模型,进一步地可以为卷积神经网络模型(Convolutional Neural Network,CNN),或者为循环神经网络模型(Recurrent Neural Network,RNN),甚至可以为循环神经网络模型的变体,例如长短期记忆神经网络模型(Long Short Term Memory,LSTM)或者门限循环神经网络模型(Gated Recurrent Unit,GRU)。
本发明的较佳的实施例中,上述第二神经网络模型可以为分类神经网络模型,如图6所示为第二神经网络模型的一般结构,该第二神经网络模型可以被划分为输入层、隐层和输出层,输出层也就是分类层,上述隐层也可以去除,即只存在输入层和输出层(分类层)。
本发明技术方案中提供了一种句子相似度判断方法,该方法引入了句子向量的重叠特征并分别作为深度神经网络模型和分类神经网络模型的输入数据,并且在处理过程中将句子向量的拼接过程更改为对句子向量做相减操作的过程,因此能够解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量以及未登录词的问题,从而改进计算句子相似度的度量方法。
值得注意的是,在不考虑相似性度量的质量比较依赖预训练的字/词以及未登录词等问题的前提下,本发明技术方案中的一些技术特征都可以被替代或者被移除,而依然可以作为一个完整的句子相似度判断方法进行应用。例如:
1)对句子向量进行相减操作的过程可以修改为传统流程中对句子向量进行拼接的过程,不影响整体判断流程的进行;
2)在第一神经网络模型的输入数据中去除由重叠特征形成的重叠特征矩阵,而只将重叠特征形成的重叠特征向量作为第二神经网络模型的输入数据,同样不影响整体判断流程的进行;
3)在第二神经网络模型的输入数据中去除由重叠特征形成的重叠特征向量,而只将重叠特征形成的重叠特征矩阵作为第一神经网络模型的输入数据,同样不影响整体判断流程的进行;
4)去除重叠特征,只将现有技术中的句子向量拼接的操作修改为句子向量相减,同样不影响整体判断流程的进行。
本发明技术方案中提供的句子相似度判断方法,能够适用于使用者与智能设备之间进行“聊天”的场景。例如:当使用者向智能设备说一句话时,智能设备通过后台处理给出应答的过程通常为:通过智能设备后台的备选资料库检索得到初步的候选句子集,随后采用本发明技术方案中提供的句子相似度判断方法从候选句子集中得到关联于使用者说的话的相似句子,随后将该相似句子对应的回答反馈给使用者。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (8)

1.一种句子相似度判断方法,其特征在于,通过预先训练形成一句子相似度判断模型,所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型;
所述句子相似度判断方法还包括:
步骤S1,根据两个外部输入的句子样本,分别获取每个所述句子样本中的字词向量矩阵;
步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵,并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据;
步骤S3,根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量,并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据;
步骤S4,根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出,以作为判断两个所述句子样本的相似度的依据;
所述步骤S3中,采用所述句子向量直接相减的操作方式形成所述句子合并向量,或者采用拼接所述句子向量的操作方式形成所述句子合并向量。
2.如权利要求1所述的句子相似度判断方法,其特征在于,所述步骤S1中,每个所述句子样本的字词向量矩阵包括:
每个所述句子样本的字向量矩阵;或者
每个所述句子样本的词向量矩阵;
则所述步骤S1中:
将所述句子样本切分成字序列,并将所述字序列映射成所述字向量矩阵;或者
将所述句子样本切分成词序列,并将所述词序列映射成所述词向量矩阵。
3.如权利要求1所述的句子相似度判断方法,其特征在于,所述步骤S2中,采用下述方式处理形成所述重叠特征矩阵:
步骤S21,将所述两个所述句子样本中相互重叠的字或词分别替换成一第一字符;
步骤S22,将所述两个句子样本中不相重叠的字或词分别替换成一第二字符;
步骤S23,根据所述第一字符和所述第二字符分别形成关联于每个所述句子样本的重叠特征序列;
步骤S24,将每个所述重叠特征序列映射成所述重叠特征矩阵;
步骤S25,每个所述字词向量矩阵和对应的所述重叠特征矩阵分别结合作为所述第一神经网络模型的所述输入数据。
4.如权利要求1所述的句子相似度判断方法,其特征在于,所述步骤S3中,处理得到两个所述句子向量的相似度乘积,随后对两个所述句子向量做相减操作,并与所述相似度乘积以及所述重叠特征向量结合作为所述第二神经网络的所述输入数据。
5.如权利要求4所述的句子相似度判断方法,其特征在于,通过计算两个所述句子向量之间的点积得到所述相似度乘积;或者
根据一参数矩阵处理得到所述相似度乘积;
在预先对所述句子相似度判断模型进行训练的过程中,同时训练得到所述参数矩阵。
6.如权利要求1所述的句子相似度判断方法,其特征在于,所述第一神经网络模型为深度神经网络模型。
7.如权利要求7所述的句子相似度判断方法,其特征在于,所述第一神经网络模型为卷积神经网络模型或者循环神经网络模型。
8.如权利要求1所述的句子相似度判断方法,其特征在于,所述第二神经网络模型为分类神经网络模型。
CN201710109324.2A 2017-02-27 2017-02-27 一种句子相似度判断方法 Active CN108509408B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710109324.2A CN108509408B (zh) 2017-02-27 2017-02-27 一种句子相似度判断方法
US16/488,572 US10949709B2 (en) 2017-02-27 2018-01-26 Method for determining sentence similarity
PCT/CN2018/074336 WO2018153217A1 (zh) 2017-02-27 2018-01-26 一种句子相似度判断方法
TW107105171A TWI657342B (zh) 2017-02-27 2018-02-13 一種句子相似度判斷方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710109324.2A CN108509408B (zh) 2017-02-27 2017-02-27 一种句子相似度判断方法

Publications (2)

Publication Number Publication Date
CN108509408A true CN108509408A (zh) 2018-09-07
CN108509408B CN108509408B (zh) 2019-11-22

Family

ID=63252399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710109324.2A Active CN108509408B (zh) 2017-02-27 2017-02-27 一种句子相似度判断方法

Country Status (4)

Country Link
US (1) US10949709B2 (zh)
CN (1) CN108509408B (zh)
TW (1) TWI657342B (zh)
WO (1) WO2018153217A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522921A (zh) * 2018-09-18 2019-03-26 义语智能科技(上海)有限公司 语句相似度判别方法及设备
CN109614485A (zh) * 2018-11-19 2019-04-12 中山大学 一种基于语法结构的分层Attention的句子匹配方法及装置
CN109740728A (zh) * 2018-12-10 2019-05-10 杭州世平信息科技有限公司 一种基于多种神经网络组合的量刑计算方法
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN109992659A (zh) * 2019-02-12 2019-07-09 阿里巴巴集团控股有限公司 用于文本排序的方法和装置
CN110298035A (zh) * 2019-06-04 2019-10-01 平安科技(深圳)有限公司 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110362681A (zh) * 2019-06-19 2019-10-22 平安科技(深圳)有限公司 问答系统重复问题识别方法、装置及存储介质
CN110689023A (zh) * 2019-08-15 2020-01-14 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
WO2020140635A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
CN111400462A (zh) * 2019-01-02 2020-07-10 珠海格力电器股份有限公司 问答机器人训练方法、系统及问答机器人
CN111737991A (zh) * 2020-07-01 2020-10-02 携程计算机技术(上海)有限公司 文本断句位置的识别方法及系统、电子设备及存储介质
CN113688571A (zh) * 2021-08-25 2021-11-23 哈尔滨工程大学 一种基于卷积相似度的水声环境参数分类方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509408B (zh) * 2017-02-27 2019-11-22 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN111489754A (zh) * 2019-01-28 2020-08-04 国家电网有限公司客户服务中心 一种基于智能语音技术的话务数据分析方法
CN111666482B (zh) * 2019-03-06 2022-08-02 珠海格力电器股份有限公司 查询方法及装置、存储介质和处理器
WO2020198855A1 (en) * 2019-03-29 2020-10-08 Knowtions Research Inc. Method and system for mapping text phrases to a taxonomy
CN110287312B (zh) * 2019-05-10 2023-08-25 平安科技(深圳)有限公司 文本相似度的计算方法、装置、计算机设备及计算机存储介质
CN110347776A (zh) * 2019-07-17 2019-10-18 北京百度网讯科技有限公司 兴趣点名称匹配方法、装置、设备及存储介质
TWI745724B (zh) * 2019-07-25 2021-11-11 國泰人壽保險股份有限公司 行動文件辨識系統
KR102098734B1 (ko) * 2019-08-06 2020-04-08 전자부품연구원 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
CN110750977B (zh) * 2019-10-23 2023-06-02 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN111666755A (zh) * 2020-06-24 2020-09-15 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置
CN111814717B (zh) * 2020-07-17 2022-09-27 腾讯科技(深圳)有限公司 人脸识别方法、装置及电子设备
CN111783458B (zh) * 2020-08-20 2024-05-03 支付宝(杭州)信息技术有限公司 叠字错误检测方法及装置
CN113468872B (zh) * 2021-06-09 2024-04-16 大连理工大学 基于句子级别图卷积的生物医学关系抽取方法及系统
CN113378970B (zh) * 2021-06-28 2023-08-22 山东浪潮成方数字服务有限公司 语句相似性检测方法、装置、电子设备及存储介质
CN115017915B (zh) * 2022-05-30 2023-05-30 北京三快在线科技有限公司 一种模型训练、任务执行的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
JP3099797B2 (ja) * 1998-03-19 2000-10-16 日本電気株式会社 文字認識装置
FR2825814B1 (fr) * 2001-06-07 2003-09-19 Commissariat Energie Atomique Procede de creation automatique d'une base de donnees images interrogeable par son contenu semantique
EP1668541A1 (en) * 2003-09-30 2006-06-14 British Telecommunications Public Limited Company Information retrieval
US8176054B2 (en) * 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US7646940B2 (en) * 2006-04-04 2010-01-12 Microsoft Corporation Robust indexing and retrieval of electronic ink
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
US9607245B2 (en) * 2014-12-02 2017-03-28 Xerox Corporation Adapted vocabularies for matching image signatures with fisher vectors
CN108509408B (zh) * 2017-02-27 2019-11-22 芋头科技(杭州)有限公司 一种句子相似度判断方法
US10268676B1 (en) * 2017-06-09 2019-04-23 Act, Inc. Automated detection of linguistic uniqueness
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
US10437936B2 (en) * 2018-02-01 2019-10-08 Jungle Disk, L.L.C. Generative text using a personality model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522921A (zh) * 2018-09-18 2019-03-26 义语智能科技(上海)有限公司 语句相似度判别方法及设备
CN109614485A (zh) * 2018-11-19 2019-04-12 中山大学 一种基于语法结构的分层Attention的句子匹配方法及装置
CN109614485B (zh) * 2018-11-19 2023-03-14 中山大学 一种基于语法结构的分层Attention的句子匹配方法及装置
CN109740728A (zh) * 2018-12-10 2019-05-10 杭州世平信息科技有限公司 一种基于多种神经网络组合的量刑计算方法
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN109766547B (zh) * 2018-12-26 2022-10-18 重庆邮电大学 一种句子相似度计算方法
CN111400462A (zh) * 2019-01-02 2020-07-10 珠海格力电器股份有限公司 问答机器人训练方法、系统及问答机器人
WO2020140635A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
CN109992659B (zh) * 2019-02-12 2023-02-17 创新先进技术有限公司 用于文本排序的方法和装置
CN109992659A (zh) * 2019-02-12 2019-07-09 阿里巴巴集团控股有限公司 用于文本排序的方法和装置
CN110298035A (zh) * 2019-06-04 2019-10-01 平安科技(深圳)有限公司 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110298035B (zh) * 2019-06-04 2023-12-01 平安科技(深圳)有限公司 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110362681A (zh) * 2019-06-19 2019-10-22 平安科技(深圳)有限公司 问答系统重复问题识别方法、装置及存储介质
CN110689023A (zh) * 2019-08-15 2020-01-14 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
CN110689023B (zh) * 2019-08-15 2024-01-16 平安科技(深圳)有限公司 可靠组合特征提取方法、装置、计算机设备及存储介质
CN111737991A (zh) * 2020-07-01 2020-10-02 携程计算机技术(上海)有限公司 文本断句位置的识别方法及系统、电子设备及存储介质
CN111737991B (zh) * 2020-07-01 2023-12-12 携程计算机技术(上海)有限公司 文本断句位置的识别方法及系统、电子设备及存储介质
CN113688571A (zh) * 2021-08-25 2021-11-23 哈尔滨工程大学 一种基于卷积相似度的水声环境参数分类方法
CN113688571B (zh) * 2021-08-25 2023-06-30 哈尔滨工程大学 一种基于卷积相似度的水声环境参数分类方法

Also Published As

Publication number Publication date
US20200193217A1 (en) 2020-06-18
TWI657342B (zh) 2019-04-21
WO2018153217A1 (zh) 2018-08-30
TW201839630A (zh) 2018-11-01
CN108509408B (zh) 2019-11-22
US10949709B2 (en) 2021-03-16

Similar Documents

Publication Publication Date Title
CN108509408B (zh) 一种句子相似度判断方法
CN107464210B (zh) 一种基于生成式对抗网络的图像风格迁移方法
CN105046277B (zh) 特征显著性在图像质量评价中的鲁棒机理研究方法
CN110032635B (zh) 一种基于深度特征融合神经网络的问题对匹配方法和装置
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN108170736A (zh) 一种基于循环注意力机制的文档快速扫描定性方法
CN108182175B (zh) 一种文本质量指标获取方法及装置
CN108536681A (zh) 基于情感分析的智能问答方法、装置、设备及存储介质
CN107766506A (zh) 一种基于层次化注意力机制的多轮对话模型构建方法
CN108694225A (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
CN107870964A (zh) 一种应用于答案融合系统的语句排序方法及系统
CN110019685A (zh) 基于排序学习的深度文本匹配方法及装置
CN109992788B (zh) 基于未登录词处理的深度文本匹配方法及装置
CN107145573A (zh) 人工智能客服机器人的问题解答方法及系统
CN106527757A (zh) 一种输入纠错方法及装置
CN110188775A (zh) 一种基于联合神经网络模型的图像内容描述自动生成方法
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
US20160098437A1 (en) Information retrieval method and apparatus
CN108874889A (zh) 基于目标体图像的目标体检索方法、系统及装置
CN107122492A (zh) 基于图片内容的歌词生成方法和装置
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN110516251A (zh) 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN112232086A (zh) 一种语义识别方法、装置、计算机设备及存储介质
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
CN104077524B (zh) 用于病毒鉴定的训练方法和病毒鉴定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1252739

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant