CN109101494A - 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 - Google Patents

一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN109101494A
CN109101494A CN201810909436.0A CN201810909436A CN109101494A CN 109101494 A CN109101494 A CN 109101494A CN 201810909436 A CN201810909436 A CN 201810909436A CN 109101494 A CN109101494 A CN 109101494A
Authority
CN
China
Prior art keywords
sentence
word
semantic similarity
chinese
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810909436.0A
Other languages
English (en)
Inventor
彭子军
魏玉良
辛国栋
黄俊恒
王佰玲
王巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN201810909436.0A priority Critical patent/CN109101494A/zh
Publication of CN109101494A publication Critical patent/CN109101494A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质,对字级别词向量进行预训练;基于句子语义相似度训练集表示句子向量;提取手工特征;基于TCN的神经网络计算,输出句子之间的语义相似度结果。对中文句子不进行分词处理,构建字级别的词向量,用时间卷积网络分别对两个句子进行时间卷积操作提取特征向量,结合手工提取的特征,然后将两个句子的特征向量和手工特征拼接起来,最后计算出两个句子语义相似度。可以很好地避免分词结果的误差传播,也解决了lstm训练速度慢、cnn只有局部特征的问题,可以很好地完成中文句子语义相似度的计算。

Description

一种用于中文句子语义相似度计算的方法,设备以及计算机 可读存储介质
技术领域
本发明涉及句子语义数据处理领域,尤其涉及一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质。
背景技术
句子语义相似度计算在信息检索、数据挖掘、机器翻译、文档抄袭检测、自动问答等领域有着广泛的应用。
中文语句相似度计算和英文语句相似度计算存在着相同之处,如语句简短包含的信息量少和没有上下文环境。但是,中文语句相似度计算也有自身的特点和难点,如中文语句的自然语言处理更难、语句结构更加复杂等。从而,中文的语句相似度计算如果直接借鉴英文语句相似度的计算方法,效果并没有原来的好,所以需要根据中文语句的特点重现设计方法。
目前,中文语句相似度计算大致有下面几种方法:基于统计信息的方法、基于规则的方法、基于语义信息的方法。
基于统计信息的方法的优点是简单易实现,效率高。但是它是对关键词的词频进行统计,为了更好的反应统计特征,适合于处理长文本的数据。另外,该方法不能很好的处理一次多义的情况,主要是因为只引入了词的统计信息,没考虑蕴含的语义信息。
基于规则的方法是利用词的相似度的不同组合计算语句之间的相似度,其中词的相似度是根据词之间的语义距离、词的形态变化和反义词等等。在广泛的情况下,很难人为的设定规则,就需要更多考虑语句之间的语义关系。
基于语义信息的语句相似度更能深入的了解语句内容的信息。要做语义相似度计算必须得构建语义知识资源,主要利用HowNet进行词的语义相似度计算,然后利用最大匹配法得到语句的相似度值。基于语义的方法会因使用词典的不全面从而使计算带来一定的误差。另外,基于语义信息的语句相似度计算没有考虑语句的结构信息,准确度有待进一步提高。
近几年,深度学习在图像、语音处理等领域取得了巨大的成功,学术界和工业界也都在自然语言处理领域进行着探索和研究。在自然语言处理任务中,中文和英文有一个很大的不同点在于英文句子本身就是由单词组成,而中文是由字组成句子,所以往往需要先对中文句子做分词。很显然,中文分词结果的准确度很影响后续自然语言处理任务的效果,如果分词结果不够好,那么分词的误差就会传递下去。目前的分词任务,主要是基于结巴分词、Hanlp分词、LTP分词等等的分词工具,这些分词工具在处理歧义、新词等方面还是有着不少的问题,分词效果仍有不少提高的空间。将深度学习应用在句子相似度计算上,用基于分词工具的结果来构建word2vec模型的词向量,分词的误差限制了句子相似度计算的效果。另外,用lstm作为句子特征的提取,有着训练速度很慢的问题,用cnn做句子特征提取,只能提取出句子的局部特征。
发明内容
为了克服上述现有技术中的不足,本发明提出了一种基于TCN的中文句子语义相似度的计算方法,可以很好地避免分词结果的误差传播,也解决了lstm训练速度慢、cnn只有局部特征的问题,可以很好地完成中文句子语义相似度的计算;
本方法包括:
步骤一,对字级别词向量进行预训练;
步骤二,基于句子语义相似度训练集表示句子向量;
步骤三,提取手工特征;
步骤四,基于TCN的神经网络计算,输出的句子之间的语义相似度结果。
在本发明中,步骤一还包括:
(1)获取中文语料库资源,将xml文件处理为txt文件,再将繁体中文转为简体中文;
(2)将每个字用空格符分隔开,然后用工具Word2vec进行训练,得到200 维的字级别词向量;
(3)将训练好的字级别词向量保存为bin格式的文件。
在本发明中,步骤二还包括:
(1)将训练好的字级别词向量配置成训练集,训练集的每一行的形式为:“行号\t句子1\t句子2\t相似度”;将整个训练集的所有句子的每个字放到一个集合里面,并对每个字定义一个连续不重复的整数编号id;
(2)加载步骤一中训练好的词向量,如果句子语义相似度训练集中存在有未在步骤一词向量中出现的字,则统一设定为字“UNK”,整数编号设为0;
(3)遍历训练集的每个句子,将每个字替换为对应的id,设定句子长度为 30,若句子长度超出30会被截断至30的长度,若句子长度不足30,则会被补0 使得长度为30;
(4)将预训练的字级别词向量作为word Embedding层的权重,然后将用id 表示的句子输入到word Embedding层,得到的就是30个词向量组成的句子表示。
在本发明中,步骤三还包括:
(1)统计特征:获取训练集中句子之间的长度之差;按分词结果计算相同的词的数量;判断每个句子是否以“为什么”、“怎么”、“如何”、“为何”开头;
(2)nlp特征:编辑距离、tf-idf表示下的余弦相似度、曼哈顿距离、欧氏距离;
(3)将上面得到的特征作为一个手工特征向量。
在本发明中,步骤四还包括:
(1)如果是训练阶段,将样本的句子向量以及手工特征向量作为输入,对应到TCN的神经网络结构中,将样本的相似度作为输出的相似度,进入(2);如果不是训练阶段,进入(4)
(2)将训练集的样本经过多次训练,直到模型收敛到一定程度,进入(3);
(3)保存训练好的训练集;
(4)加载训练好的训练集,对于预测的样本提取手工特征,然后将样本表示为句子向量,一起作为计算句子语义相似度数据输入,得到句子之间的语义相似度结果。
一种用于实现中文句子语义相似度计算方法的设备,包括:
存储器,用于存储计算机程序及实现中文句子语义相似度计算方法;
处理器,用于执行所述计算机程序及实现中文句子语义相似度计算方法,以实现中文句子语义相似度计算方法的步骤。
一种具有用于中文句子语义相似度计算方法的计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现用于中文句子语义相似度计算方法的步骤。
从以上技术方案可以看出,本发明具有以下优点:
本发明提出一种用于中文句子语义相似度计算的方法,本方法对中文句子不进行分词处理,构建字级别的词向量,用时间卷积网络分别对两个句子进行时间卷积操作提取特征向量,结合手工提取的特征,然后将两个句子的特征向量和手工特征拼接起来,最后计算出两个句子语义相似度。可以很好地避免分词结果的误差传播,也解决了lstm训练速度慢、cnn只有局部特征的问题,可以很好地完成中文句子语义相似度的计算。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为用于中文句子语义相似度计算的方法流程图;
图2为TCN时间卷积网络结构图;
图3为用于中文句子语义相似度计算的网络结构图;
图4为用于中文句子语义相似度计算的方法实施例流程图。
图5为句子语义相似度训练集的处理示意图;
图6为两个句子的语义相似度结果示意图。
具体实施方式
本发明提供一种基于TCN的中文句子语义相似度的计算方法,可以很好地避免分词结果的误差传播,也解决了lstm训练速度慢、cnn只有局部特征的问题,可以很好地完成中文句子语义相似度的计算;如图1所示,本方法包括:
S1,对字级别词向量进行预训练;
S2,基于句子语义相似度训练集表示句子向量;
S3,提取手工特征;
S4,基于TCN的神经网络计算,输出的句子之间的语义相似度结果。
本方法中,步骤一还包括:
(1)获取中文语料库资源,将xml文件处理为txt文件,再将繁体中文转为简体中文;
(2)将每个字用空格符分隔开,然后用工具Word2vec进行训练,得到200 维的字级别词向量;
(3)将训练好的字级别词向量保存为bin格式的文件。
本方法中,步骤二还包括:
(1)将训练好的字级别词向量配置成训练集,训练集的每一行的形式为:“行号\t句子1\t句子2\t相似度”;将整个训练集的所有句子的每个字放到一个集合里面,并对每个字定义一个连续不重复的整数编号id;
(2)加载步骤一中训练好的词向量,如果句子语义相似度训练集中存在有未在步骤一词向量中出现的字,则统一设定为字“UNK”,整数编号设为0;
(3)遍历训练集的每个句子,将每个字替换为对应的id,设定句子长度为 30,若句子长度超出30会被截断至30的长度,若句子长度不足30,则会被补0 使得长度为30;
(4)将预训练的字级别词向量作为word Embedding层的权重,然后将用id 表示的句子输入到word Embedding层,得到的就是30个词向量组成的句子表示。
本方法中,步骤三还包括:
(1)统计特征:获取训练集中句子之间的长度之差;按分词结果计算相同的词的数量;判断每个句子是否以“为什么”、“怎么”、“如何”、“为何”开头;
(2)nlp特征:编辑距离、tf-idf表示下的余弦相似度、曼哈顿距离、欧氏距离;
(3)将上面得到的特征作为一个手工特征向量。
本方法中,步骤四还包括:
(1)如果是训练阶段,将样本的句子向量以及手工特征向量作为输入,对应到TCN的神经网络结构中,将样本的相似度作为输出的相似度,进入(2);如果不是训练阶段,进入(4)
(2)将训练集的样本经过多次训练,直到模型收敛到一定程度,进入(3);
(3)保存训练好的训练集;
(4)加载训练好的训练集,对于预测的样本提取手工特征,然后将样本表示为句子向量,一起作为计算句子语义相似度数据输入,得到句子之间的语义相似度结果。
本发明中的用于中文句子语义相似度计算的深度学习网络结构,图2是时间卷积网络(TCN),可以有效地用于提取句子特征,图3基于TCN网络,对句子 1、句子2进行特征提取,同时结合手工特征向量,包括编辑距离、TF-IDF向量的余弦相似度、句子长度之差等手工特征,最后经过全连接层的计算,得出两个句子的相似度。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将运用具体的实施例及附图,对本发明保护的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。
本发明中,根据深度学习网络结构,本文提出了一种用于中文句子语义相似度计算的方法。图4详细介绍了本发明提出的中文句子相似度的计算方法,先是准备好大规模的语料,然后按字将语料分割,训练出字级别的词向量。训练集采用“行号\t句子1\t句子2\t相似度”的形式,然后将句子1、句子2分别用训练好的词向量表示,作为input1、input2,同时对两个句子做一些手工特征的提取作为手工特征向量,这三个向量作为本文设计的用于中文句子语义相似度计算的深度学习网络结构的输入,最终输出两个句子的相似度,结束计算。
本发明提供的实施例中,包括步骤如下:
字级别词向量的预训练:
(1)获取维基百科中文语料库资源,将xml文件处理为txt文件,再将繁体中文转为简体中文。
(2)然后将每个字用空格符分隔开,然后用工具Word2vec进行训练,得到 200维的字级别词向量。
(3)将训练好的字级别词向量保存为bin格式的文件,方便接下来直接加载使用。
句子语义相似度训练集的句子向量表示:
(1)训练集每一行的形式为:“行号\t句子1\t句子2\t相似度”,先将整个训练集的所有句子的每个字放到一个集合里面,并对每个字定义一个连续不重复的整数编号id,从1开始。
(2)加载A中训练好的词向量,如果句子语义相似度训练集中存在有未在A 步骤词向量中出现的字,则统一设定为字“UNK”,整数编号设为0。
(3)遍历训练集的每个句子,将每个字替换为对应的id,设定句子长度为30,若句子长度超出30会被截断至30的长度,若句子长度不足30,则会被补0使得长度为30。
(4)将预训练的字级别词向量作为word Embedding层的权重,然后将用id 表示的句子输入到word Embedding层,得到的就是30个词向量组成的句子表示了。
手工特征提取:
(1)统计特征:样本中两个句子的长度之差、按分词结果计算相同的词的数量、是否以“为什么”、“怎么”、“如何”、“为何”开头。
(2)nlp特征:编辑距离、tf-idf表示下的余弦相似度、曼哈顿距离、欧氏距离。
(3)将上面得到的特征作为一个手工特征向量。
基于TCN的神经网络计算:
(1)如果是训练阶段,将样本的两个句子的句子向量还有手工特征向量作为输入,对应到本发明设计的网络结构中,将样本的相似度作为输出的相似度,进入(2);如果不是训练阶段,进入(4)
(2)将训练集的样本经过多次训练,直到模型收敛到一定程度,进入(3);
(3)将训练好的模型保存起来。
(4)预测阶段,加载训练好的模型,对于要预测的样本提取好手工特征,然后将样本表示为句子向量,一起作为模型的输入,得到的就是两个句子的语义相似度结果了。
进一步本发明还提供一个实施例为:
方法,包括步骤如下:
A、字级别词向量的预训练:
(1)获取维基百科中文语料库资源,将xml文件处理为txt文件,再将繁体中文转为简体中文。
(2)然后将每个字用空格符分隔开,然后用工具Word2vec进行训练,得到200 维的字级别词向量。
(3)将训练好的字级别词向量保存为bin格式的文件,方便接下来直接加载使用。B、句子语义相似度训练集的处理:
(1)训练集每一行的形式为:“行号\t句子1\t句子2\t相似度”,先将整个训练集的所有句子的每个字放到一个集合里面,并对每个字定义一个连续不重复的整数编号id,从1开始,如图5所示。
(2)加载A中训练好的词向量,如果句子语义相似度训练集中存在有未在A步骤词向量中出现的字,则统一设定为字“UNK”,整数编号设为0。
(3)遍历训练集的每个句子,将每个字替换为对应的id,设定句子长度为30,若句子长度超出30会被截断至30的长度,若句子长度不足30,则会被补0使得长度为30。
(4)将预训练的字级别词向量作为word Embedding层的权重,然后将用id表示的句子输入到word Embedding层,得到的就是30个词向量组成的句子表示了。C、手工特征提取:
(1)统计特征:样本中两个句子的长度之差、按分词结果计算相同的词的数量、是否以“为什么”、“怎么”、“如何”、“为何”开头。
(2)nlp特征:编辑距离、tf-idf表示下的余弦相似度、曼哈顿距离、欧氏距离。
(3)将上面得到的特征作为一个手工特征向量。
D、基于TCN的神经网络计算
(1)如果是训练阶段,将样本的两个句子的句子向量还有手工特征向量作为输入,对应到本发明设计的网络结构中,将样本的相似度作为输出的相似度,进入 (2);如果不是训练阶段,进入(4)
(2)将训练集的样本经过多次训练,直到模型收敛到一定程度,进入(3);
(3)将训练好的模型保存起来。
(4)预测阶段,加载训练好的模型,对于要预测的样本提取好手工特征,然后将样本表示为句子向量,一起作为模型的输入,得到的就是两个句子的语义相似度结果了,如图6所示。
本发明提出一种用于中文句子语义相似度计算的方法,本方法对中文句子不进行分词处理,构建字级别的词向量,用时间卷积网络分别对两个句子进行时间卷积操作提取特征向量,结合手工提取的特征,然后将两个句子的特征向量和手工特征拼接起来,最后计算出两个句子语义相似度。可以很好地避免分词结果的误差传播,也解决了lstm训练速度慢、cnn只有局部特征的问题,可以很好地完成中文句子语义相似度的计算。
本发明提出的计算中文句子相似度的网络结构和计算中文句子相似度的方法,可以效果很好地计算出句子间的语义相似度,并且在很多的场景都适用,比如:信息检索,机器翻译,文档抄袭检测,问答系统等。
本发明适用范围包括任何需要计算中文句子相似度的任务,比如信息检索、机器翻译、问答系统、文档抄袭检测等等,任何需要计算中文句子相似度的科研机构、企业、公司、个人等,前景广泛。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种用于中文句子语义相似度计算的方法,其特征在于,本方法包括:
步骤一,对字级别词向量进行预训练;
步骤二,基于句子语义相似度训练集表示句子向量;
步骤三,提取手工特征;
步骤四,基于TCN的神经网络计算,输出的句子之间的语义相似度结果。
2.根据权利要求1所述的用于中文句子语义相似度计算的方法,其特征在于,步骤一还包括:
(1)获取中文语料库资源,将xml文件处理为txt文件,再将繁体中文转为简体中文;
(2)将每个字用空格符分隔开,然后用工具Word2vec进行训练,得到200维的字级别词向量;
(3)将训练好的字级别词向量保存为bin格式的文件。
3.根据权利要求1所述的用于中文句子语义相似度计算的方法,其特征在于,步骤二还包括:
(1)将训练好的字级别词向量配置成训练集,训练集的每一行的形式为:“行号\t句子1\t句子2\t相似度”;将整个训练集的所有句子的每个字放到一个集合里面,并对每个字定义一个连续不重复的整数编号id;
(2)加载步骤一中训练好的词向量,如果句子语义相似度训练集中存在有未在步骤一词向量中出现的字,则统一设定为字“UNK”,整数编号设为0;
(3)遍历训练集的每个句子,将每个字替换为对应的id,设定句子长度为30,若句子长度超出30会被截断至30的长度,若句子长度不足30,则会被补0使得长度为30;
(4)将预训练的字级别词向量作为word Embedding层的权重,然后将用id表示的句子输入到word Embedding层,得到的就是30个词向量组成的句子表示。
4.根据权利要求1所述的用于中文句子语义相似度计算的方法,其特征在于,步骤三还包括:
(1)统计特征:获取训练集中句子之间的长度之差;按分词结果计算相同的词的数量;判断每个句子是否以“为什么”、“怎么”、“如何”、“为何”开头;
(2)nlp特征:编辑距离、tf-idf表示下的余弦相似度、曼哈顿距离、欧氏距离;
(3)将上面得到的特征作为一个手工特征向量。
5.根据权利要求1所述的用于中文句子语义相似度计算的方法,其特征在于,步骤四还包括:
(1)如果是训练阶段,将样本的句子向量以及手工特征向量作为输入,对应到TCN的神经网络结构中,将样本的相似度作为输出的相似度,进入(2);如果不是训练阶段,进入(4)
(2)将训练集的样本经过多次训练,直到模型收敛到一定程度,进入(3);
(3)保存训练好的训练集;
(4)加载训练好的训练集,对于预测的样本提取手工特征,然后将样本表示为句子向量,一起作为计算句子语义相似度数据输入,得到句子之间的语义相似度结果。
6.一种用于实现中文句子语义相似度计算方法的设备,其特征在于,包括:
存储器,用于存储计算机程序及实现中文句子语义相似度计算方法;
处理器,用于执行所述计算机程序及实现中文句子语义相似度计算方法,以实现如权利要求1至5任意一项所述实现中文句子语义相似度计算方法的步骤。
7.一种具有用于中文句子语义相似度计算方法的计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至5任意一项所述用于中文句子语义相似度计算方法的步骤。
CN201810909436.0A 2018-08-10 2018-08-10 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 Pending CN109101494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810909436.0A CN109101494A (zh) 2018-08-10 2018-08-10 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810909436.0A CN109101494A (zh) 2018-08-10 2018-08-10 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109101494A true CN109101494A (zh) 2018-12-28

Family

ID=64849305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810909436.0A Pending CN109101494A (zh) 2018-08-10 2018-08-10 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109101494A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740164A (zh) * 2019-01-09 2019-05-10 国网浙江省电力有限公司舟山供电公司 基于深度语义匹配的电力缺陷等级识别方法
CN109960798A (zh) * 2019-03-01 2019-07-02 国网新疆电力有限公司信息通信公司 维吾尔语文本突发事件要素识别方法
CN109992659A (zh) * 2019-02-12 2019-07-09 阿里巴巴集团控股有限公司 用于文本排序的方法和装置
CN110457690A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利创造性的判断方法
CN110516240A (zh) * 2019-08-28 2019-11-29 南京璇玑信息技术有限公司 一种基于Transformer的语义相似度计算模型DSSM技术
CN110688452A (zh) * 2019-08-23 2020-01-14 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110765755A (zh) * 2019-10-28 2020-02-07 桂林电子科技大学 一种基于双重选择门的语义相似度特征提取方法
CN111221939A (zh) * 2019-11-22 2020-06-02 华中师范大学 评分方法、装置和电子设备
CN111427995A (zh) * 2020-02-26 2020-07-17 平安科技(深圳)有限公司 基于内部对抗机制的语义匹配方法、装置及存储介质
CN111737988A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置
CN113312908A (zh) * 2021-01-26 2021-08-27 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN114742029A (zh) * 2022-04-20 2022-07-12 中国传媒大学 一种汉语文本比对方法、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003102740A2 (en) * 2002-06-03 2003-12-11 Arizona Board Of Regents Acting For And On Behalf Of Arizona State University System and method of analyzing the temporal evolution of text using dynamic centering resonance analysis
CN108021555A (zh) * 2017-11-21 2018-05-11 浪潮金融信息技术有限公司 一种基于深度卷积神经网络的问句相似度度量方法
CN108287824A (zh) * 2018-03-07 2018-07-17 北京云知声信息技术有限公司 语义相似度计算方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003102740A2 (en) * 2002-06-03 2003-12-11 Arizona Board Of Regents Acting For And On Behalf Of Arizona State University System and method of analyzing the temporal evolution of text using dynamic centering resonance analysis
CN108021555A (zh) * 2017-11-21 2018-05-11 浪潮金融信息技术有限公司 一种基于深度卷积神经网络的问句相似度度量方法
CN108287824A (zh) * 2018-03-07 2018-07-17 北京云知声信息技术有限公司 语义相似度计算方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHAOJIE BAI ET AL: "An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling", 《ARXIV:1803.01271V2》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740164A (zh) * 2019-01-09 2019-05-10 国网浙江省电力有限公司舟山供电公司 基于深度语义匹配的电力缺陷等级识别方法
CN109740164B (zh) * 2019-01-09 2023-08-15 国网浙江省电力有限公司舟山供电公司 基于深度语义匹配的电力缺陷等级识别方法
CN109992659A (zh) * 2019-02-12 2019-07-09 阿里巴巴集团控股有限公司 用于文本排序的方法和装置
CN109992659B (zh) * 2019-02-12 2023-02-17 创新先进技术有限公司 用于文本排序的方法和装置
CN109960798A (zh) * 2019-03-01 2019-07-02 国网新疆电力有限公司信息通信公司 维吾尔语文本突发事件要素识别方法
CN110457690A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利创造性的判断方法
CN110688452B (zh) * 2019-08-23 2022-09-13 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110688452A (zh) * 2019-08-23 2020-01-14 重庆兆光科技股份有限公司 一种文本语义相似度评估方法、系统、介质和设备
CN110516240A (zh) * 2019-08-28 2019-11-29 南京璇玑信息技术有限公司 一种基于Transformer的语义相似度计算模型DSSM技术
CN110765755A (zh) * 2019-10-28 2020-02-07 桂林电子科技大学 一种基于双重选择门的语义相似度特征提取方法
CN111221939A (zh) * 2019-11-22 2020-06-02 华中师范大学 评分方法、装置和电子设备
CN111221939B (zh) * 2019-11-22 2023-09-08 华中师范大学 评分方法、装置和电子设备
CN111427995A (zh) * 2020-02-26 2020-07-17 平安科技(深圳)有限公司 基于内部对抗机制的语义匹配方法、装置及存储介质
CN111427995B (zh) * 2020-02-26 2023-05-26 平安科技(深圳)有限公司 基于内部对抗机制的语义匹配方法、装置及存储介质
CN111737988A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置
CN113312908A (zh) * 2021-01-26 2021-08-27 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN113312908B (zh) * 2021-01-26 2024-02-06 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN114742029A (zh) * 2022-04-20 2022-07-12 中国传媒大学 一种汉语文本比对方法、存储介质及设备

Similar Documents

Publication Publication Date Title
CN109101494A (zh) 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
Hasan et al. Recognizing Bangla grammar using predictive parser
Vel Pre-processing techniques of text mining using computational linguistics and python libraries
Doush et al. A novel Arabic OCR post-processing using rule-based and word context techniques
CN104572634A (zh) 一种交互式抽取可比语料与双语词典的方法及其装置
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN112507124A (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
CN113221559A (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
Li et al. Markbert: Marking word boundaries improves chinese bert
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
Shanmugalingam et al. Language identification at word level in Sinhala-English code-mixed social media text
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN114722774A (zh) 数据压缩方法、装置、电子设备及存储介质
Singh et al. Statistical tagger for Bhojpuri (employing support vector machine)
CN114564912A (zh) 一种文档格式智能检查校正方法及系统
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
Coavoux et al. Learning to match mathematical statements with proofs
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
CN113065002A (zh) 一种基于知识图谱和上下文语境的中文语义消歧方法
Sarkar et al. Bengali noun phrase chunking based on conditional random fields
Sagar et al. Complete Kannada Optical Character Recognition with syntactical analysis of the script
Shetty et al. An approach to identify Indic languages using text classification and natural language processing
CN106681982B (zh) 英文长篇小说摘要生成方法
Bhatti et al. Sindhi Text Corpus using XML and Custom Tags

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228