CN111639661A - 文本相似度判别方法 - Google Patents
文本相似度判别方法 Download PDFInfo
- Publication number
- CN111639661A CN111639661A CN201910808602.2A CN201910808602A CN111639661A CN 111639661 A CN111639661 A CN 111639661A CN 201910808602 A CN201910808602 A CN 201910808602A CN 111639661 A CN111639661 A CN 111639661A
- Authority
- CN
- China
- Prior art keywords
- judged
- text
- distinguished
- vector
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种文本相似度判别方法,对去停用词后的第一和第二待判别文本均按词级和字符级分割;对词级分割后的第一和第二待判别分割文本训练量化获得第一和第二词级待判别数字向量,对字符级分割后的第一和第二待判别分割文本训练量化获得第一和第二字符级待判别数字向量;将第一词级和字符级待判别数字向量输入第一编码器训练,将第二词级和字符级待判别数字向量输入第二编码器训练;两编码器的输出结果分别相减及点乘并拼接;将拼接后数字向量进行平均池化和最大池化并拼接;将池化拼接后数字向量作为全连接层的输入以输出二维数字向量;将二维数字向量作为分类器的输入以获得分类二维数字向量,分析第一待判别文本和第二待判别文本的相似度。
Description
技术领域
本发明涉及文本相似度判别技术领域,特别是涉及一种文本相似度判别方法。
背景技术
在人机对话领域,文本相似度计算在问答检索中有着重要的应用。随着深度学习的广泛应用,越来越多的神经网络模型在计算文本相似度时有很好的效果。在深度学习中,用于文本相似度计算的模型,代表性的有基于LSTM和CNN编码结构的孪生网络,但是这些文本计算模型存在特征提取不全,泛化性差的的缺点,为了解决上述问题,提出一种新型文本相似度判断方法。
发明内容
本发明针对现有技术存在的问题和不足,提供一种新的文本相似度判别方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种文本相似度判别方法,其特点在于,其包括以下步骤:
S1、对第一待判别文本和第二待判别文本进行去停用词预处理,对作为训练语料的去停用词后的第一待判别文本和第二待判别文本均按照词级和字符级进行分割;
S2、对词级分割后的第一待判别分割文本和第二待判别分割文本进行训练量化以获得第一词级待判别数字向量和第二词级待判别数字向量,对字符级分割后的第一待判别分割文本和第二待判别分割文本进行训练量化以获得第一字符级待判别数字向量和第二字符级待判别数字向量;
S3、将第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第一层神经网络中进行训练以输出第一层待判别数字向量一,将第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第一层神经网络中进行训练以输出第一层待判别数字向量二;
S4、将第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第二层神经网络中进行训练以输出第二层待判别数字向量一,将第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第二层神经网络中进行训练以输出第二层待判别数字向量二;
S5、将第二层待判别数字向量一、第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量,得到第一待判别文本的表示矩阵,将第二层待判别数字向量二、第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量,得到第二待判别文本的表示矩阵;
S6、将第一待判别文本的表示矩阵输入至第一编码器的卷积神经网络中进行训练以输出第一卷积待判别数字向量,将第二待判别文本的表示矩阵输入至第二编码器的卷积神经网络中进行训练以输出第二卷积待判别数字向量;
S7、分别将第一卷积待判别数字向量和第二卷积待判别数字向量进行相减以及点乘,将相减后的数字向量和点乘后的数字向量进行融合拼接;
S8、将拼接后的数字向量进行平均池化和最大池化,将平均池化后的数字向量和最大池化后的数字向量进行融合拼接;
S9、将池化拼接后的数字向量作为全连接层的输入以输出一行两列的二维数字向量;
S10、将二维数字向量作为分类器的输入以获得分类二维数字向量,从而分析出第一待判别文本和第二待判别文本的相似度。
较佳地,在步骤S2中,对词级分割后的第一待判别分割文本和第二待判别分割文本按照skip-gram方法进行训练量化。
较佳地,在步骤S2中,对字符级分割后的第一待判别分割文本和第二待判别分割文本按照glove方法进行训练量化。
较佳地,在步骤S10中,分类二维数字向量中的行第一列表示的是第一待判别文本和第二待判别文本不相似的概率,分类二维数字向量中的行第二列表示的是第一待判别文本和第二待判别文本相似的概率,若相似的概率大于不相似的概率输出数字1,若不相似的概率大于相似的概率输出数字0。
较佳地,第一编码器和第二编码器均采用biGRU编码器。
较佳地,分类器采用softmax分类器。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明根据输入的文本对,判断文本是否相似度,由于其新型的编码结构,文本相似度的判别准确度得到有效的提高。
附图说明
图1和图2为本发明较佳实施例的文本相似度判别方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本实施例提供一种文本相似度判别方法,其包括以下步骤:
步骤101、对第一待判别文本和第二待判别文本进行去停用词预处理,对作为训练语料的去停用词后的第一待判别文本和第二待判别文本均按照词级和字符级进行分割。
步骤102、对词级分割后的第一待判别分割文本和第二待判别分割文本按照skip-gram方法进行训练量化以获得第一词级待判别数字向量和第二词级待判别数字向量,对字符级分割后的第一待判别分割文本和第二待判别分割文本按照glove方法进行训练量化以获得第一字符级待判别数字向量和第二字符级待判别数字向量。
步骤103、将第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第一层神经网络中进行训练以输出第一层待判别数字向量一,将第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第一层神经网络中进行训练以输出第一层待判别数字向量二。
其中,第一编码器和第二编码器均采用biGRU编码器。
步骤104、将第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第二层神经网络中进行训练以输出第二层待判别数字向量一,将第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第二层神经网络中进行训练以输出第二层待判别数字向量二。
步骤105、将第二层待判别数字向量一、第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量,得到第一待判别文本的表示矩阵,将第二层待判别数字向量二、第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量,得到第二待判别文本的表示矩阵。
步骤106、将第一待判别文本的表示矩阵输入至第一编码器的卷积神经网络中进行训练以输出第一卷积待判别数字向量,将第二待判别文本的表示矩阵输入至第二编码器的卷积神经网络中进行训练以输出第二卷积待判别数字向量。
步骤107、分别将第一卷积待判别数字向量和第二卷积待判别数字向量进行相减以及点乘,将相减后的数字向量和点乘后的数字向量进行融合拼接。
步骤108、将拼接后的数字向量进行平均池化和最大池化,将平均池化后的数字向量和最大池化后的数字向量进行融合拼接。
步骤109、将池化拼接后的数字向量作为全连接层的输入以输出一行两列的二维数字向量。
步骤110、将二维数字向量作为softmax分类器的输入以获得分类二维数字向量,从而分析出第一待判别文本和第二待判别文本的相似度。
其中,分类二维数字向量中的行第一列表示的是第一待判别文本和第二待判别文本不相似的概率,分类二维数字向量中的行第二列表示的是第一待判别文本和第二待判别文本相似的概率,若相似的概率大于不相似的概率输出数字1,若不相似的概率大于相似的概率输出数字0。
例如:第一待判别文本是“我要吃饭”,第二待判别文本是“我想要吃饭”,第一待判别文本和第二待判别文本经预处理、编码器训练、池化和分类器训练后输出二维数字向量,例如行第一列为0.3,行第二列为0.6,则相似的概率(0.6)大于不相似的概率(0.3)输出数字1,即表示“我要吃饭”和“我想要吃饭”文本相似。
本发明根据输入的文本对,判断文本是否相似度。由于其新型的编码结构,文本相似度的判别准确度得到有效的提高。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (6)
1.一种文本相似度判别方法,其特征在于,其包括以下步骤:
S1、对第一待判别文本和第二待判别文本进行去停用词预处理,对作为训练语料的去停用词后的第一待判别文本和第二待判别文本均按照词级和字符级进行分割;
S2、对词级分割后的第一待判别分割文本和第二待判别分割文本进行训练量化以获得第一词级待判别数字向量和第二词级待判别数字向量,对字符级分割后的第一待判别分割文本和第二待判别分割文本进行训练量化以获得第一字符级待判别数字向量和第二字符级待判别数字向量;
S3、将第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第一层神经网络中进行训练以输出第一层待判别数字向量一,将第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第一层神经网络中进行训练以输出第一层待判别数字向量二;
S4、将第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第二层神经网络中进行训练以输出第二层待判别数字向量一,将第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第二层神经网络中进行训练以输出第二层待判别数字向量二;
S5、将第二层待判别数字向量一、第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量,得到第一待判别文本的表示矩阵,将第二层待判别数字向量二、第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量,得到第二待判别文本的表示矩阵;
S6、将第一待判别文本的表示矩阵输入至第一编码器的卷积神经网络中进行训练以输出第一卷积待判别数字向量,将第二待判别文本的表示矩阵输入至第二编码器的卷积神经网络中进行训练以输出第二卷积待判别数字向量;
S7、分别将第一卷积待判别数字向量和第二卷积待判别数字向量进行相减以及点乘,将相减后的数字向量和点乘后的数字向量进行融合拼接;
S8、将拼接后的数字向量进行平均池化和最大池化,将平均池化后的数字向量和最大池化后的数字向量进行融合拼接;
S9、将池化拼接后的数字向量作为全连接层的输入以输出一行两列的二维数字向量;
S10、将二维数字向量作为分类器的输入以获得分类二维数字向量,从而分析出第一待判别文本和第二待判别文本的相似度。
2.如权利要求1所述的文本相似度判别方法,其特征在于,在步骤S2中,对词级分割后的第一待判别分割文本和第二待判别分割文本按照skip-gram方法进行训练量化。
3.如权利要求1所述的文本相似度判别方法,其特征在于,在步骤S2中,对字符级分割后的第一待判别分割文本和第二待判别分割文本按照glove方法进行训练量化。
4.如权利要求1所述的文本相似度判别方法,其特征在于,在步骤S10中,分类二维数字向量中的行第一列表示的是第一待判别文本和第二待判别文本不相似的概率,分类二维数字向量中的行第二列表示的是第一待判别文本和第二待判别文本相似的概率,若相似的概率大于不相似的概率输出数字1,若不相似的概率大于相似的概率输出数字0。
5.如权利要求1所述的文本相似度判别方法,其特征在于,第一编码器和第二编码器均采用biGRU编码器。
6.如权利要求1所述的文本相似度判别方法,其特征在于,分类器采用softmax分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910808602.2A CN111639661A (zh) | 2019-08-29 | 2019-08-29 | 文本相似度判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910808602.2A CN111639661A (zh) | 2019-08-29 | 2019-08-29 | 文本相似度判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111639661A true CN111639661A (zh) | 2020-09-08 |
Family
ID=72330421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910808602.2A Pending CN111639661A (zh) | 2019-08-29 | 2019-08-29 | 文本相似度判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639661A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
CN109829104A (zh) * | 2019-01-14 | 2019-05-31 | 华中师范大学 | 基于语义相似度的伪相关反馈模型信息检索方法及系统 |
CN109918652A (zh) * | 2019-02-20 | 2019-06-21 | 上海方立数码科技有限公司 | 一种语句相似度判断方法及判断系统 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN109992772A (zh) * | 2019-03-13 | 2019-07-09 | 众安信息技术服务有限公司 | 一种文本相似度计算方法及装置 |
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
CN110147548A (zh) * | 2019-04-15 | 2019-08-20 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
-
2019
- 2019-08-29 CN CN201910808602.2A patent/CN111639661A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109829104A (zh) * | 2019-01-14 | 2019-05-31 | 华中师范大学 | 基于语义相似度的伪相关反馈模型信息检索方法及系统 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN109918652A (zh) * | 2019-02-20 | 2019-06-21 | 上海方立数码科技有限公司 | 一种语句相似度判断方法及判断系统 |
CN109992772A (zh) * | 2019-03-13 | 2019-07-09 | 众安信息技术服务有限公司 | 一种文本相似度计算方法及装置 |
CN110147548A (zh) * | 2019-04-15 | 2019-08-20 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
Non-Patent Citations (2)
Title |
---|
YU WU等: "Knowledge Enhanced Hybrid Neural Network for Text Matching", 《THE THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-18)》 * |
郑诚等: "用于短文本分类的BLSTM_MLPCNN模型", 《计算机科学》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083833B (zh) | 中文字词向量和方面词向量联合嵌入情感分析方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN110188781B (zh) | 一种基于深度学习的古诗文自动识别方法 | |
CN112541355B (zh) | 一种实体边界类别解耦的少样本命名实体识别方法与系统 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN110097096B (zh) | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN110008699B (zh) | 一种基于神经网络的软件漏洞检测方法及装置 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN112052319B (zh) | 一种基于多特征融合的智能客服方法及系统 | |
CN113268675A (zh) | 一种基于图注意力网络的社交媒体谣言检测方法和系统 | |
CN112712855B (zh) | 一种基于联合训练的含缺失值基因微阵列的聚类方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN117521641A (zh) | 基于自然语言处理的文本自动校对系统及方法 | |
CN117332788A (zh) | 一种基于英语口语文本的语义分析方法 | |
CN113157913A (zh) | 一种基于社会新闻数据集的伦理行为判别方法 | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN110888944A (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 | |
CN111639661A (zh) | 文本相似度判别方法 | |
CN115688789A (zh) | 一种基于动态标签的实体关系抽取模型训练方法及系统 | |
CN112002306B (zh) | 语音类别的识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200908 |