CN110825852B - 面向长文本的语义匹配方法及系统 - Google Patents

面向长文本的语义匹配方法及系统 Download PDF

Info

Publication number
CN110825852B
CN110825852B CN201911082442.4A CN201911082442A CN110825852B CN 110825852 B CN110825852 B CN 110825852B CN 201911082442 A CN201911082442 A CN 201911082442A CN 110825852 B CN110825852 B CN 110825852B
Authority
CN
China
Prior art keywords
text
input text
layer
word
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911082442.4A
Other languages
English (en)
Other versions
CN110825852A (zh
Inventor
杨兰
展华益
孙锐
周兴发
饶璐
谭斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201911082442.4A priority Critical patent/CN110825852B/zh
Publication of CN110825852A publication Critical patent/CN110825852A/zh
Application granted granted Critical
Publication of CN110825852B publication Critical patent/CN110825852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言理解技术领域,公开了一种面向长文本的语义匹配方法及系统,用以解决现有技术中的文本语义理解方法的效果不理想的问题。本发明的方法包括:对输入文本进行数据处理,包括去掉特殊字符、分词和分字;将经过数据处理后的输入文本映射成为数值序列;将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量;基于特征向量进行聚类;基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP‑N类候选数据;将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP‑K个数据。本发明适用于长文本的语义匹配。

Description

面向长文本的语义匹配方法及系统
技术领域
本发明涉及自然语言理解技术领域,特别涉及面向长文本的语义匹配方法及系统。
背景技术
作为人工智能领域中重要方向之一的自然语言理解技术,一直是相关领域研究人员研究的热点。特别是近年来,随着移动互联网技术的迅速发展,信息化程度日益提高,人们越发渴望能让机器理解自然语言,从而实现减少人工投入、海量数据共享等目标。
相关技术中,主流方法是基于循环神经网络的文本语义理解方法和基于卷积神经网络的文本语义理解方法。但是,通常的循环神经网络和卷积神经网络都难以优化,具体而言,如果不增加深度,文本语义理解效果较差,而如果增加深度,训练和优化的错误率就会增加,难以得到准确的训练模型,从而语义理解错误率也较高。因此,相关技术中的文本语义理解方法的效果并不理想。
发明内容
本发明要解决的技术问题是:提供一种面向长文本的语义匹配方法及系统,用以解决现有技术中的文本语义理解方法的效果不理想的问题。
为解决上述问题,本发明采用的技术方案是:面向长文本的语义匹配方法,包括:
步骤s1:对输入文本进行数据处理,包括去掉特殊字符、分词和分字;
步骤s2:将经过数据处理后的输入文本映射成为数值序列;
步骤s3:将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量;
步骤s4:将数据库中的每条数据都经过步骤s1,步骤s2,步骤s3获取其各自的特征向量,并基于特征向量进行聚类;
步骤s5:基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据;
步骤s6:将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据。
进一步的,步骤s1具体可包括:去掉输入文本中的无效字符,接着将输入文本转换为以字为单位的文本序列,和以词单位的文本序列。
进一步的,步骤s2可包括:
步骤s21:基于数据库中的数据进行词向量训练,并产生字典,得到词向量模型;
步骤s22:基于词向量模型,将分词后的文本映射为以词为单位的数值序列;
步骤s23:基于字典,将分字后的文本映射为以字为单位的数值序列。
进一步的,所述特征提取模型可包含多个子特征提取模块,特征提取的输出结果是多个子特征提取模型输出结果的融合。
进一步的,步骤s5可基于已聚类的数据库,搜索输入文本的特征向量周围邻近群的数据,将这部分数据作为输入文本的相似候选集。
进一步的,步骤s6可将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算,并对结果进行排序,挑选出输入文本最相似的TOP-K个相似数据集。
面向长文本的语义匹配系统,包括:
文本处理模块,用于对输入文本进行数据处理,包括去掉特殊字符、分词和分字;
数值序列生成模块,用于将经过数据处理后的输入文本映射成为数值序列;
特征向量提取模块,用于将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量;
数据库处理模块,用于将数据库中的每条数据都经过文本处理模块、数值序列生成模块、特征向量提取模块,获取其各自的特征向量,并基于特征向量进行聚类;
候选集生成模块,用于基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据;
相似数据生成模块,用于将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据。
进一步的,文本处理模块对输入文本进行数据处理的步骤可包括:去掉输入文本中的无效字符,接着将输入文本转换为以字为单位的文本序列,和以词单位的文本序列。
进一步的,特征向量提取模块中可包含多个子特征提取模块,特征向量提取模块进行特征提取的输出结果是多个子特征提取模型输出结果的融合。
进一步的,相似数据生成模块可将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算,并对结果进行排序,挑选出输入文本最相似的TOP-K个相似数据集。
本发明的有益效果:本发明利用特征提取模型抽取文本的深层语义特征,然后计算文本的深层语义特征之间的距离,从而选出与输入数据最相似的TOP-K个数据。其中,特征提取模型包含多个子模块,每个子模块均采用的神经网络结构,特征提取的结果就是多个子模块结果的融合,采用聚类的方法缩小相似候选集,可以有效提高搜索速度。
本发明允许用户使用自然语言进行查询,并理解查询内容的深层语义特点,从数据库中检索出与查询数据最相似的TOP-K个数据,然后返回给用户,且搜索速度快,优化了用户体验,可有效解决现有技术中的文本语义理解方法的效果不理想的问题。
附图说明
图1为面向长文本的语义匹配方法流程图;
图2为子特征提取模型1的模型架构图;
图3为子特征提取模型2的模型架构图。
具体实施方式
为了解决现有技术中的文本语义理解方法的效果不理想的问题,本发明提供了一种面向长文本的语义匹配方法及系统,允许用户使用自然语言进行查询,并理解查询内容的深层语义特点,从数据库中检索出与查询数据最相似的TOP-K个数据,然后返回给用户。
下面结合附图1-3对本发明进行详细描述。
实施例一
实施例一提供了一种面向长文本的语义匹配方法,主要应用于长文本的语义匹配领域,寻找与目标文本相似的TOPK个文本数据,如图1所示具体实施步骤如下:
步骤s1:对输入文本进行数据处理,包括去掉特殊字符,分词,分字,文本预处理等操作。
步骤s1实施数据处理过程中,可去掉输入文本中的无效字符,接着将输入文本转换为以字为单位的文本序列,和以词单位的文本序列。
步骤s2:将经过数据处理后的输入文本映射成为数值序列。具体可包括:
步骤s21:基于数据库中的数据进行词向量训练,并产生字典,得到词向量模型,不同的子特征提取模块有不同的词向量模型;
步骤s22:基于词向量模型,将分词后的文本映射为以词为单位的数值序列;
步骤s23:基于字典,将分字后的文本映射为以字为单位的数值序列。
步骤s3:将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量。
步骤s3中,所述特征提取模型可包含多个子特征提取模型,其中子特征提取模块1,可表示为m1,其模型架构见图2,子特征提取模块2,可表示为m2,其模型架构见图3。在训练阶段,子特征模块作为分类模型进行训练;测试阶段,子特征提取模型用于预测输入文本的特征向量,预测过程如下:
步骤s31:通过m1获取输入文本的特征向量f1;
步骤s32:通过m2获取输入文本的文本特征向量f2;
步骤s33:f=f1+f2是经过模型融合后,得到的输入文本的特征向量。
进一步的,所述步骤s31的步骤包括:
步骤s311:子特征提取模块1(m1)的Embedding层采用的是字词混合的Embedding方式,输入以字为单位的文本序列,经过一个字Embedding层后得到字向量序列;然后将文本分词,通过一个预训练好的词向量模型来提取对应的词向量序列,为了得到跟字向量序列对齐的词向量序列,我们可以将每个词的词向量重复“词的字数”那么多次,得到对齐的词向量序列后,我们将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加;
步骤s312:m1的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L131,以及一层专门用于获取词向量在每一维上的max值的层L132,并顺序级联3个带有残差结构的卷积模块,将卷积模块的输出经过最大池化后,与层L131,层L132的输出结果进行拼接;
步骤s313:m1的损失函数采用的是Am-Softmax损失函数;
步骤s314:将训练数据中的相似数据划分为一个group,并打上类别标签,保证相似的数据为一个label,不相似的数据为不同的group,有不同的类别标签,采用Am-Softmax作为损失函数,保证一个group内的数据(相似数据)的特征表示尽量靠近,不同group的数据(非相似数据)的特征表示尽量远离;
步骤s315:基于训练数据,m1用作分类模型进行训练;
步骤s316:将输入文本数值序列化后,输入到m1网络中,提取输入文本的特征向量f1。
进一步的,所述步骤s32的步骤包括:
步骤s321:利用TF-IDF抓取数据集中的停用词,非关键词,制成停用词表,停用词表里的词参与词向量训练,但是,最终停用词表里的词的向量被固定为0,表示这类词不参与提取特征模型的训练;
步骤s322:对模型的输入文本内的词按照一定比列进行随机掩码,然后再输入到m2中;
步骤s323:m2的Embedding层采用的是词Embedding层,且m2的词向量模型与m1的词向量模型是不一样的,增加子模型之间的多样性,有助于后面模型的融合;
步骤s324:m2的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L231,以及一层专门用于获取词向量在每一维上的max值的层L232,和BiLSTM层,将BiLSTM层的输出结果与层L231,层L232的输出结果进行拼接;
步骤s325:m2的损失函数采用的是Am-Softmax损失函数;
步骤s326:将训练数据中的相似数据划分为一个group,并打上类别标签,保证相似的数据为一个label,不相似的数据为不同的group,有不同的类别标签,采用Am-Softmax作为损失函数,保证一个group内的数据(相似数据)的特征表示尽量靠近,不同group的数据(非相似数据)的特征表示尽量远离;
步骤s327:基于训练数据,m2用作分类模型进行训练;
步骤s328:将输入文本数值序列化后,输入到m2网络中,提取输入文本的特征向量f2。
步骤s4:将数据库中的每条数据都经过步骤s1,步骤s2,步骤s3获取其各自的特征向量,并基于特征向量进行聚类。
步骤s5:基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据。
步骤s5在实施过程中,可基于已聚类的数据库,搜索输入文本的特征向量周围邻近群的数据,将这部分数据作为输入文本的相似候选集。
步骤s6:将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据;
步骤s61在实施过程中,可将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算,并对结果进行排序,挑选出输入文本最相似的TOP-K个相似数据集。
实施例二
实施例二提供了一种面向长文本的语义匹配系统,包括:
文本处理模块,用于对输入文本进行数据处理,包括去掉特殊字符,分词,分字,文本预处理等操作;
数值序列生成模块,用于将经过数据处理后的输入文本映射成为以字为单位的数值序列和以词为单位的数值序列;
特征向量提取模块,用于将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量,特征提取模块包含多个子特征提取模型,输入文本的特征向量是多个子特征模型输出结果的融合;
数据库处理模块,用于将数据库中的每条数据都经过文本处理模块、数值序列生成模块、特征向量提取模块,获取其各自的特征向量,并基于特征向量进行聚类;
候选集生成模块,用于基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据;
相似数据生成模块,用于将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据;
实施例二实施语义匹配流程与实施例一一致,具体可参考实施例一和附图1-3,这里不再赘述。
以上所述仅为本发明的实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.面向长文本的语义匹配方法,其特征在于,包括:
步骤s1:对输入文本进行数据处理,包括去掉特殊字符、分词和分字;
步骤s2:将经过数据处理后的输入文本映射成为数值序列;
步骤s3:将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量;所述特征提取模型包括:子特征提取模块1,表示为m1;子特征提取模块2,表示为m2;获取输入文本的特征向量具体步骤为:
步骤s31:通过m1获取输入文本的特征向量f1;具体包括:
步骤s311:m1的Embedding层采用字词混合的Embedding方式,输入以字为单位的文本序列,经过一个字Embedding层后得到字向量序列;然后将文本分词,通过一个预训练好的词向量模型来提取对应的词向量序列,再者,将每个词的词向量重复,以使词向量序列与字向量序列对齐,得到对齐的词向量序列后,将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加;
步骤s312:m1的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L131,以及一层专门用于获取词向量在每一维上的max值的层L132,并顺序级联3个带有残差结构的卷积模块,将卷积模块的输出经过最大池化后,与层L131,层L132的输出结果进行拼接;
步骤s313:m1的损失函数采用的是Am-Softmax损失函数;
步骤s314:将训练数据中的相似数据划分为一个组,打上类别标签,并采用Am-Softmax作为损失函数;
步骤s315:基于训练数据,m1用作分类模型进行训练;
步骤s316:将输入文本数值序列化后,输入到m1网络中,提取输入文本的特征向量f1;
步骤s32:通过m2获取输入文本的文本特征向量f2;具体包括:
步骤s321:利用TF-IDF抓取数据集中的停用词,非关键词,制成停用词表,停用词表里的词参与词向量训练,但是,最终停用词表里的词的向量被固定为0,表示这类词不参与提取特征模型的训练;
步骤s322:对模型的输入文本内的词按照一定比列进行随机掩码,然后再输入到m2中;
步骤s323:m2的Embedding层采用词Embedding层,且m2的词向量模型与m1的词向量模型不一样;
步骤s324:m2的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L231,以及一层专门用于获取词向量在每一维上的max值的层L232,和BiLSTM层,将BiLSTM层的输出结果与层L231,层L232的输出结果进行拼接;
步骤s325:m2的损失函数采用的是Am-Softmax损失函数;
步骤s326:将训练数据中的相似数据划分为一个组,打上类别标签,并采用Am-Softmax作为损失函数;
步骤s327:基于训练数据,m2用作分类模型进行训练;
步骤s328:将输入文本数值序列化后,输入到m2网络中,提取输入文本的特征向量f2;
步骤s33:将f1与f2进行融合以得到输入文本的特征向量f,融合方式为:f=f1+f2;
步骤s4:将数据库中的每条数据都经过步骤s1,步骤s2,步骤s3获取其各自的特征向量,并基于特征向量进行聚类;
步骤s5:基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据;
步骤s6:将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据。
2.如权利要求1所述的面向长文本的语义匹配方法,其特征在于,步骤s1具体包括:去掉输入文本中的无效字符,接着将输入文本转换为以字为单位的文本序列,和以词单位的文本序列。
3.如权利要求1所述的面向长文本的语义匹配方法,其特征在于,步骤s2包括:
步骤s21:基于数据库中的数据进行词向量训练,并产生字典,得到词向量模型;
步骤s22:基于词向量模型,将分词后的文本映射为以词为单位的数值序列;
步骤s23:基于字典,将分字后的文本映射为以字为单位的数值序列。
4.如权利要求1所述的面向长文本的语义匹配方法,其特征在于,步骤s5基于已聚类的数据库,搜索输入文本的特征向量周围邻近群的数据,将这部分数据作为输入文本的相似候选集。
5.如权利要求1所述的面向长文本的语义匹配方法,其特征在于,步骤s6将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算,并对结果进行排序,挑选出输入文本最相似的TOP-K个相似数据集。
6.面向长文本的语义匹配系统,其特征在于,包括:
文本处理模块,用于对输入文本进行数据处理,包括去掉特殊字符、分词和分字;
数值序列生成模块,用于将经过数据处理后的输入文本映射成为数值序列;
特征向量提取模块,用于将输入文本的数值序列输入至特征提取模型中,获取输入文本的特征向量,所述特征提取模型包括:子特征提取模块1,表示为m1;子特征提取模块2,表示为m2;获取输入文本的特征向量具体步骤为:
通过m1获取输入文本的特征向量f1;具体包括:
m1的Embedding层采用字词混合的Embedding方式,输入以字为单位的文本序列,经过一个字Embedding层后得到字向量序列;然后将文本分词,通过一个预训练好的词向量模型来提取对应的词向量序列,再者,将每个词的词向量重复,以使词向量序列与字向量序列对齐,得到对齐的词向量序列后,将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加;
m1的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L131,以及一层专门用于获取词向量在每一维上的max值的层L132,并顺序级联3个带有残差结构的卷积模块,将卷积模块的输出经过最大池化后,与层L131,层L132的输出结果进行拼接;
m1的损失函数采用的是Am-Softmax损失函数;
将训练数据中的相似数据划分为一个组,打上类别标签,并采用Am-Softmax作为损失函数;
基于训练数据,m1用作分类模型进行训练;
将输入文本数值序列化后,输入到m1网络中,提取输入文本的特征向量f1;
通过m2获取输入文本的文本特征向量f2;具体包括:
利用TF-IDF抓取数据集中的停用词,非关键词,制成停用词表,停用词表里的词参与词向量训练,但是,最终停用词表里的词的向量被固定为0,表示这类词不参与提取特征模型的训练;
对模型的输入文本内的词按照一定比列进行随机掩码,然后再输入到m2中;
m2的Embedding层采用词Embedding层,且m2的词向量模型与m1的词向量模型不一样;
m2的Embedding层后接SpatialDropout1D层,SpatialDropout1D层后接GlobalAveragePooling1D层,标记为层L231,以及一层专门用于获取词向量在每一维上的max值的层L232,和BiLSTM层,将BiLSTM层的输出结果与层L231,层L232的输出结果进行拼接;
m2的损失函数采用的是Am-Softmax损失函数;
将训练数据中的相似数据划分为一个组,打上类别标签,并采用Am-Softmax作为损失函数;
基于训练数据,m2用作分类模型进行训练;
将输入文本数值序列化后,输入到m2网络中,提取输入文本的特征向量f2;
将f1与f2进行融合以得到输入文本的特征向量f,融合方式为:f=f1+f2;
数据库处理模块,用于将数据库中的每条数据都经过文本处理模块、数值序列生成模块、特征向量提取模块,获取其各自的特征向量,并基于特征向量进行聚类;
候选集生成模块,用于基于已聚类的数据库,从数据库中挑选出与输入文本最相似的TOP-N类候选数据;
相似数据生成模块,用于将输入文本的特征向量与所述候选数据的特征向量进行相似性度量,从所述候选数据中选出与输入文本最相似的TOP-K个数据。
7.如权利要求6所述的面向长文本的语义匹配系统,其特征在于,文本处理模块对输入文本进行数据处理的步骤包括:去掉输入文本中的无效字符,接着将输入文本转换为以字为单位的文本序列,和以词单位的文本序列。
8.如权利要求6所述的面向长文本的语义匹配系统,其特征在于,相似数据生成模块将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算,并对结果进行排序,挑选出输入文本最相似的TOP-K个相似数据集。
CN201911082442.4A 2019-11-07 2019-11-07 面向长文本的语义匹配方法及系统 Active CN110825852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911082442.4A CN110825852B (zh) 2019-11-07 2019-11-07 面向长文本的语义匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911082442.4A CN110825852B (zh) 2019-11-07 2019-11-07 面向长文本的语义匹配方法及系统

Publications (2)

Publication Number Publication Date
CN110825852A CN110825852A (zh) 2020-02-21
CN110825852B true CN110825852B (zh) 2022-06-14

Family

ID=69553376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911082442.4A Active CN110825852B (zh) 2019-11-07 2019-11-07 面向长文本的语义匹配方法及系统

Country Status (1)

Country Link
CN (1) CN110825852B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737460A (zh) * 2020-05-28 2020-10-02 思派健康产业投资有限公司 一种基于聚类算法的无监督学习多点匹配方法
CN116894427B (zh) * 2023-09-08 2024-02-27 联通在线信息科技有限公司 一种中英文信息融合的数据分级方法、服务器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830262A (zh) * 2018-07-25 2018-11-16 上海电力学院 自然状态下多角度人脸表情识别方法
CN110222748A (zh) * 2019-05-27 2019-09-10 西南交通大学 基于1d-cnn多域特征融合的ofdm雷达信号识别方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US8010534B2 (en) * 2006-08-31 2011-08-30 Orcatec Llc Identifying related objects using quantum clustering
CN106649768B (zh) * 2016-12-27 2021-03-16 北京百度网讯科技有限公司 基于深度问答的问答澄清方法和装置
CN106997375B (zh) * 2017-02-28 2020-08-18 浙江大学 基于深度学习的客服回复推荐方法
CN106997376B (zh) * 2017-02-28 2020-12-08 浙江大学 一种基于多级特征的问题和答案句子相似度计算方法
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法
CN108304437B (zh) * 2017-09-25 2020-01-31 腾讯科技(深圳)有限公司 一种自动问答方法、装置及存储介质
CN107818164A (zh) * 2017-11-02 2018-03-20 东北师范大学 一种智能问答方法及其系统
CN108846077B (zh) * 2018-06-08 2022-01-11 泰康保险集团股份有限公司 问答文本的语义匹配方法、装置、介质及电子设备
CN109145299B (zh) * 2018-08-16 2022-06-21 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN109145099B (zh) * 2018-08-17 2021-02-23 百度在线网络技术(北京)有限公司 基于人工智能的问答方法和装置
CN109543020B (zh) * 2018-11-27 2022-11-04 科大讯飞股份有限公司 问询处理方法及系统
CN109726396A (zh) * 2018-12-20 2019-05-07 泰康保险集团股份有限公司 问答文本的语义匹配方法、装置、介质及电子设备
CN110032738A (zh) * 2019-04-16 2019-07-19 中森云链(成都)科技有限责任公司 基于上下文图随机游走及音形码的微博文本规范化方法
CN110287296A (zh) * 2019-05-21 2019-09-27 平安科技(深圳)有限公司 一种问题答案选取方法、装置、计算机设备及存储介质
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
CN110321419B (zh) * 2019-06-28 2021-06-15 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830262A (zh) * 2018-07-25 2018-11-16 上海电力学院 自然状态下多角度人脸表情识别方法
CN110222748A (zh) * 2019-05-27 2019-09-10 西南交通大学 基于1d-cnn多域特征融合的ofdm雷达信号识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Overlapping Toxic Sentiment Classification Using Deep Neural Architectures;Hafiz Hassaan Saeed;《2018 IEEE International Conference on Data Mining Workshops (ICDMW)》;20181231;1361-1366 *

Also Published As

Publication number Publication date
CN110825852A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
Li et al. Dn-detr: Accelerate detr training by introducing query denoising
CN106407333B (zh) 基于人工智能的口语查询识别方法及装置
CN107944559B (zh) 一种实体关系自动识别方法及系统
CN107122375B (zh) 基于图像特征的图像主体的识别方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
WO2018010365A1 (zh) 一种跨媒体检索方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN106295796A (zh) 基于深度学习的实体链接方法
Ghosh et al. Bangla handwritten character recognition using MobileNet V1 architecture
CN110168535A (zh) 一种信息处理方法及终端、计算机存储介质
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN108765383A (zh) 基于深度迁移学习的视频描述方法
KR102015218B1 (ko) 기계 학습을 이용한 텍스트 분류 방법 및 장치
CN105609116B (zh) 一种语音情感维度区域的自动识别方法
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
CN109213853A (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN110825852B (zh) 面向长文本的语义匹配方法及系统
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
Zhang et al. Hierarchical scene parsing by weakly supervised learning with image descriptions
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN114154570A (zh) 一种样本筛选方法、系统及神经网络模型训练方法
CN106971180A (zh) 一种基于语音字典稀疏迁移学习的微表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant