CN109145299A - 一种文本相似度确定方法、装置、设备及存储介质 - Google Patents

一种文本相似度确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109145299A
CN109145299A CN201810937072.7A CN201810937072A CN109145299A CN 109145299 A CN109145299 A CN 109145299A CN 201810937072 A CN201810937072 A CN 201810937072A CN 109145299 A CN109145299 A CN 109145299A
Authority
CN
China
Prior art keywords
text
feature vector
analyzed
sentence
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810937072.7A
Other languages
English (en)
Other versions
CN109145299B (zh
Inventor
史文丽
王晨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201810937072.7A priority Critical patent/CN109145299B/zh
Publication of CN109145299A publication Critical patent/CN109145299A/zh
Application granted granted Critical
Publication of CN109145299B publication Critical patent/CN109145299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种文本相似度确定方法、装置、设备及存储介质,其中,该方法包括;确定待分析文本;对待分析文本进行分句,得到待分析文本对应的多个句子;针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量,其中,神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的;根据每个句子对应的语义特征向量,确定待分析文本对应的特定特征向量;计算待分析文本对应的特定特征向量之间的相似度,并将该相似度作为待分析文本之间的相似度。如此,能够提高文本相似度确定的准确度。

Description

一种文本相似度确定方法、装置、设备及存储介质
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种文本相似度确定方法、装置、设备及存储介质。
背景技术
文本相似度用于评价文本之间的相似程度,被广泛应用于文本聚类分析、文本匹配及重复率检测等场景中。例如,可以被用于检测论文的抄袭等。
现有技术中,基于词语方法确定文本之间的相似度。具体地可以为:对待分析相似度的待分析文本进行分词;计算待分析文本之间相同词语的个数或者相同词语的概率等;然后通过相同词语的个数或者概率确定待分析文本之间的相似度,例如,两个文本中80%的词语相同,确定两个文本之间的相似度为0.8等等。
现有技术中,确定文本相似度时仅考虑词语之间是否相同,如此会导致确定的相似度的准确度较低。例如,待分析文本1中包括:“一只狗在追赶我”,待分析文本2中包括:“我在追赶一只狗”。按照目前已有的分词方式确定待分析文本1和待分析文本2的分词基本相同,则通过现有技术中基于词语确定文本之间的相似度的方式,得到的待分析文本1和待分析文本2的相似度会比较高。但实际上待分析文本1和待分析文本2是完全不同的,如此会导致确定的相似度的准确度较低。
发明内容
本发明实施例的目的在于提供一种文本相似度确定方法、装置、设备及存储介质,以提高文本相似度确定的准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种文本相似度确定方法,包括:
确定待分析文本;
对所述待分析文本进行分句,得到所述待分析文本对应的多个句子;
针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量,其中,所述神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的;
根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的特定特征向量;
计算所述待分析文本对应的所述特定特征向量之间的相似度,并将该相似度作为所述待分析文本之间的相似度。
可选的,所述方法还包括:
确定表示所述待分析文本主题的主题特征向量;
所述根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的特定特征向量,包括:
根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的总语义特征向量;
将所述主题特征向量与所述总语义特征向量结合,将结合得到的特征向量作为所述特定特征向量。
可选的,所述根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的特定特征向量,包括:
根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的总语义特征向量;
将所述总语义特征向量作为所述特定特征向量。
可选的,预先训练神经网络模型包括:
获取多个训练文本中的多个句子作为第一训练样本;
针对每个第一训练样本,将该第一训练样本以及该第一训练样本对应的关联语句作为第一预设神经网络模型的输入,对第一预设神经网络模型进行训练,得到所述神经网络模型;其中,该第一训练样本对应的关联语句包括该第一训练样本对应的训练文本中、该第一训练样本之前的句子以及该第一训练样本之后的句子。
可选的,所述确定表示所述待分析文本主题的主题特征向量,包括:
基于预先训练的主题模型,确定表示所述待分析文本主题的所述主题特征向量;其中,所述主题模型是根据多个第二训练样本以及多个第二训练样本分别对应的主题属性训练得到的。
可选的,预先训练所述主题模型包括:
分别对各个第二训练样本进行分词和去停词,得到各个第二训练样本分别对应的预处理第二训练样本;
针对各个预处理第二训练样本,将该预处理第二训练样本以及该预处理第二训练样本对应的第二训练样本的主题属性,作为第二预设神经网络模型的输入,对第二预设神经网络模型进行训练,得到所述主题模型。
可选的,所述计算所述待分析文本对应的所述特定特征向量之间的相似度,包括:
计算所述待分析文本对应的所述特定特征向量之间的余弦相似度。
第二方面,本发明实施例提供了一种文本相似度确定装置,包括:
第一确定模块,用于确定待分析文本;
分句模块,用于对所述待分析文本进行分句,得到所述待分析文本对应的多个句子;
输入模块,用于针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量,其中,所述神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的;
第二确定模块,用于根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的特定特征向量;
计算模块,用于计算所述待分析文本对应的所述特定特征向量之间的相似度,并将该相似度作为所述待分析文本之间的相似度。
可选的,所述装置还包括:
第三确定模块,用于确定表示所述待分析文本主题的主题特征向量;
所述第二确定模块,包括:
确定子模块,用于根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的总语义特征向量;
结合子模块,用于将所述主题特征向量与所述总语义特征向量结合,将结合得到的特征向量作为所述特定特征向量。
可选的,所述第二确定模块,具体用于根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的总语义特征向量;将所述总语义特征向量作为所述特定特征向量。
可选的,所述装置还包括:
获取模块,用于获取多个训练文本中的多个句子作为第一训练样本;
第一训练模块,用于针对每个第一训练样本,将该第一训练样本以及该第一训练样本对应的关联语句作为第一预设神经网络模型的输入,对第一预设神经网络模型进行训练,得到所述神经网络模型;其中,该第一训练样本对应的关联语句包括该第一训练样本对应的训练文本中、该第一训练样本之前的句子以及该第一训练样本之后的句子。
可选的,所述第三确定模块,具体用于基于预先训练的主题模型,确定表示所述待分析文本主题的所述主题特征向量;其中,所述主题模型是根据多个第二训练样本以及多个第二训练样本分别对应的主题属性训练得到的。
可选的,所述装置还包括:
预处理模块,用于分别对各个第二训练样本进行分词和去停词,得到各个第二训练样本分别对应的预处理第二训练样本;
第二训练模块,用于针对各个预处理第二训练样本,将该预处理第二训练样本以及该预处理第二训练样本对应的第二训练样本的主题属性,作为第二预设神经网络模型的输入,对第二预设神经网络模型进行训练,得到所述主题模型。
可选的,所述计算模块,具体用于计算所述待分析文本对应的所述特定特征向量之间的余弦相似度。
第三方面,本发明实施例提供了一种文本相似度确定设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。
本发明实施例提供的文本相似度确定方法、装置、设备及存储介质,可以确定待分析文本;对待分析文本进行分句,得到待分析文本对应的多个句子;针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量,其中,神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的;根据每个句子对应的语义特征向量,确定待分析文本对应的特定特征向量;计算待分析文本对应的特定特征向量之间的相似度,并将该相似度作为待分析文本之间的相似度。通过语义特征向量表示句子的含义,在确定文本相似度的过程中,考虑句子在文本语境中的实际语义,能够提高文本相似度确定的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本相似度确定方法的一种流程图;
图2为本发明实施例提供的文本相似度确定方法的另一种流程图;
图3为本发明实施例提供的文本相似度确定装置的结构示意图;
图4为本发明实施例提供的文本相似度确定设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,确定文本相似度过程中仅考虑词语之间是否相同,并没有考虑词语在文本语境中的含义。而实际应用中,相同的词语在不同的语境中有可能表示不同的含义。如此有可能将词语虽然相同,但是语境含义不同的词语判定为相同的词语,或者将词语写法不同,但是语境含义相同的词语判定为不同的词语,会造成确定的相似度的准确度较低。
为了提高文本相似度确定的准确度,本发明实施例在确定文本相似度的过程中考虑句子在文本语境中的实际语义,即考虑文本中句子与句子之间的联系等。
例如,待分析文本1中包括:A:您现在讲话方便吗?B:方便!待分析文本2中包括:A:你去哪?B:方便!可以看出,待分析文本1和待分析文本2中B的回答“方便”仅从词语上看是完全相同的,但实际上两者的语义完全不同。如此,如果不考虑句子之间的联系、句子在待分析文本中的含义的话,即会影响相似度确定的准确性。本发明实施例中在确定待分析文本1和待分析文本2相似度的过程中考虑B的回答“方便”分别在待分析文本1和待分析文本2中的不同含义。
具体地,基于预先训练的神经网络模型确定待分析文本中句子对应的语义特征向量,并根据各个句子对应的语义特征向量确定待分析文本的特定特征向量,并通过待分析文件对应的特定特征向量之间的相似度,表示文本之间的相似度。下面对本发明实施例提供的文本相似度方法进行详细说明。
本发明实施例提供了一种文本相似度确定方法,如图1所示,包括:
S101,确定待分析文本。
本发明实施例提供的文本相似度确定方法可以应用于电子设备。其中,该电子设备可以包括台式计算机、便携式计算机、智能移动终端等。
待分析文本是任何待分析相似度的文本,如论文等。具体可以是多种不同形式的文本,例如,word格式的文本、txt格式的文本等等。
本发明实施例中,待分析文本可以为两个;或者也可以为多个,如几十个、甚至几百个等等。
具体地,确定待分析文本的过程如,待确定论文1是否涉及抄袭,可以将该论文1与已有的多个论文,如论文2、论文3等进行比较,并根据比较的结果确定论文1是否涉及抄袭。如此,可以确定论文1以及论文2、论文3等为待分析文本。
S102,对待分析文本进行分句,得到待分析文本对应的多个句子。
具体地,可以根据标点符号对待分析文本进行分句,例如,句号等。
另外,可以将待分析文本进行分句后得到的多个句子按行存储在文本文件中,以便于后续确定句子对应的语义特征向量。
S103,针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量。
其中,神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的。
第一训练样本可以是文本中的句子。第一训练样本对应的关联句子可以包括第一训练样本在文本中的前一句、以及后一句等。
为了提高训练的准确性,电子设备可以获取一定数量的第一训练样本,如500个、1000个等。根据多个第一训练样本训练得到用于确定语义特征向量的神经网络模型。
如此,将各个待分析文本分别对应的多个句子输入中该神经网络模型,可以基于该神经网络模型得到每个句子对应的语义特征向量。
S104,根据每个句子对应的语义特征向量,确定待分析文本对应的特定特征向量。
一种实现方式中,可以根据每个句子对应的语义特征向量,确定待分析文本对应的总语义特征向量;并将该总语义特征向量作为特定特征向量。具体地,可以将待分析文本对应的每个句子对应的语义特征向量进行融合,得到待分析文本对应的总语义特征向量。如可以对每个句子对应的各个语义特征向量进行求和等。
另一种实现方式中,可以将每个句子对应的语义特征向量,与具有其他含义的特征向量结合,如,表示待分析文本的主题的主题特征向量、表示待分析文本应用领域的特征向量等;并将结合后得到的特征向量确定为待分析文本对应的特定特征向量。
S105,计算待分析文本对应的特定特征向量之间的相似度,并将该相似度作为待分析文本之间的相似度。
简单理解,待分析文本对应的特定特征向量之间的相似度越高,则表明待分析文本之间相似度越高。
具体地,可以通过计算待分析文本对应的特定特征向量之间的欧氏距离计算待分析文本对应的特定特征向量之间的相似度。或者可以计算待分析文本对应的特定特征向量之间的余弦相似度,等等。
一种可实现方式中,包括待分析文本1和待分析文本2,可以通过如下公式计算待分析文本对应的特定特征向量之间的相似度:
Sim=cossin(N1_V,N2_V)
其中,Sim为确定的待分析文本对应的特定特征向量之间的相似度,取值范围在【-1,1】之间,Sim的值越趋近于1,表示待分析文本1对应的特定特征向量N1_V和待分析文本2对应的特定特征向量N2_V越接近,即待分析文本1和待分析文本2越相似。
本发明实施例中,基于预先训练的神经网络模型,确定待分析文本中各个句子对应的语义特征向量,在确定文本相似度的过程中,考虑句子在文本语境中的实际语义,能够提高文本相似度确定的准确度。
本发明实施例中,基于预先训练的神经网络模型确定待分析文本包括的句子对应的语义特征向量。具体地,预先训练神经网络模型的步骤可以包括:
A1,获取多个训练文本中的多个句子作为第一训练样本。
电子设备获取一定数量的第一训练样本,如500个、1000个等。
A2,针对每个第一训练样本,将该第一训练样本以及该第一训练样本对应的关联语句作为第一预设神经网络模型的输入,对第一预设神经网络模型进行训练,得到神经网络模型。
其中,该第一训练样本对应的关联语句包括该第一训练样本对应的训练文本中、该第一训练样本之前的句子以及该第一训练样本之后的句子。
训练过程中,将第一训练样本以及该第一训练样本对应的关联语句输入至第一预设神经网络模型;调整第一预设神经网络模型包括的待测参数,使得第一训练样本对应的输出数据与第一训练样本对应的关联语句之间的代价函数收敛,在该代价函数收敛时确定待测参数。如此,可以训练得到包括确定的待测参数的神经网络模型。其中,待测参数可以包括:隐藏层层数,隐藏层神经元的数量,批尺寸,学习速率,和/或迭代次数,等等。
如此,可以基于预先训练的神经网络模型,快速、准确地确定待分析文本中句子对应的语义特征向量,进而可以根据待分析文本包括的句子对应的语义特征向量确定待分析文本对应的特定特征向量,并根据各个待分析文本对应的特定特征向量之间的相似度,确定待分析文本之间的相似度。
本发明实施例中,可以将每个句子对应的语义特征向量,与具有其他含义的特征向量结合确定待分析文本对应的特定特征向量。在上述实施例的基础上,如图2所示,还可以包括:
S106,确定表示待分析文本主题的主题特征向量。
一种实现方式中,可以对待分析文本进行分词,确定出现次数超过预设阈值的词语,或者确定出现次数从高到低的预设个数个词语为待分析文本对应的关键词;确定关键词对应的特征向量为主题特征向量。
其中,预设阈值可以根据实际需求来确定,例如,可以是10次、20次等等。预设个数也可以根据实际需求来确定,例如,可以是1个、2个、5个等等。
另一种实现方式中,可以基于预先训练的主题模型,确定表示待分析文本主题的主题特征向量。其中,主题模型是根据多个第二训练样本以及多个第二训练样本分别对应的主题属性训练得到的。
具体地,预先训练主题模型的步骤可以包括:
B1,分别对各个第二训练样本进行分词和去停词,得到各个第二训练样本分别对应的预处理第二训练样本。
其中,第二训练样本可以是文本。本发明实施例中可以获取一定数量个第二训练文本,如500个、1000个等。
本发明实施例中分别对各个第二训练样本进行分词和去停词,可以将处理后的结果以空格键为分隔符号存储在预处理第二训练样本。即预处理第二训练样本中包括第二训练样本中包括的各个词语。
B2,针对各个预处理第二训练样本,将该预处理第二训练样本以及该预处理第二训练样本对应的第二训练样本的主题属性,作为第二预设神经网络模型的输入,对第二预设神经网络模型进行训练,得到主题模型。
第二训练样本的主题属性可以是预先确定的,例如,第二训练样本是关于通信领域的论文,可以确定该第二训练样本的主题属性是通信。
训练过程中,将该预处理第二训练样本以及该预处理第二训练样本对应的第二训练样本的主题属性输入至第二预设神经网络模型,调整第二预设神经网络模型包括的待测参数,使得预处理第二训练样本对应的输出数据与输入的第二训练样本的主题属性之间的代价函数收敛,在该代价函数收敛时确定待测参数,如此,可以训练得到包括确定的待测参数的主题模型。
如此,步骤S104:根据每个句子对应的语义特征向量,确定待分析文本对应的特定特征向量,可以包括:
S1041,根据每个句子对应的语义特征向量,确定待分析文本对应的总语义特征向量。
本发明实施例中可以包括待分析文本1和待分析文本2。具体地,可以通过如下公式确定待分析文本对应的总语义特征向量。
其中,S1_V,即<V1 0,V1 1,.......,V1 m-1>为待分析文本1对应的总语义特征向量,k为待分析文本1中包括的句子总数,<Vi 0,Vi 1,.......,Vi m-1>为待分析文本1中句子i对应的语义特征向量,Vi 0,Vi 1,.......,Vi m-1为句子i对应的语义特征向量中的向量元素,S2_V,即<V2 0,V2 1,.......,V2 m-1>为待分析文本2对应的总语义特征向量,l为待分析文本2中包括的句子总数,<Vj 0,Vj 1,.......,Vj m-1>为待分析文本2中句子j对应的语义特征向量,Vj 0,Vj 1,.......,Vj m-1为句子j对应的语义特征向量的向量元素,m为基于神经网络模型确定的语义特征向量的维度,具体为可调超参数,例如,可以为300、600、2400等等。
S1042,将主题特征向量与总语义特征向量结合,将结合得到的特征向量作为特定特征向量。
如通过上述步骤S106确定待分析文本1对应的主题特征向量为:
L1_V=<v1 0,v1 2,.......,v1 n-1>
确定待分析文本2对应的主题特征向量为:
L2_V=<v2 0,v2 2,.......,v2 n-1>
其中,v1 0,v1 2,.......,v1 n-1分别为待分析文本1对应的主题特征向量中的向量元素,v2 0,v2 2,.......,v2 n-1分别为待分析文本2对应的主题特征向量中的向量元素,n为主题特征向量的维度,具体为可调超参数,例如,可以为20、50、100等等。
在确定待分析文本对应的主题特征向量和总语义特征向量之后,可以将主题特征向量和总语义特征向量进行结合,得到待分析文本对应的特定特征向量。如上述得到待分析文本1和待分析文本2对应的主题特征向量和总语义特征向量之后,通过下式的聚合确定分别待分析文本1和待分析文本2对应特定特征向量。
N1_V=<V1 0,V1 2,.......,V1 m-1,v1 0,v1 2,.......,v1 n-1>;
N2_V=<V2 0,V2 1,.......,V2 m-1,v2 0,v2 2,.......,v2 n-1>。
其中,N1_V为待分析文本1对应特定特征向量,V1 0,V1 2,.......,V1 m-1,v1 0,v1 2,.......,v1 n-1分别为待分析文本1对应特定特征向量中的向量元素,N2_V待分析文本2对应特定特征向量,V2 0,V2 1,.......,V2 m-1,v2 0,v2 2,.......,v2 n-1分别为待分析文本2对应特定特征向量的向量元素。
需要说明的是,本发明实施例不对确定主题特征向量步骤与确定总语义特征向量步骤的先后顺序作限制,也即在实际应用过程中,可以先执行步骤S106,然后再执行步骤S1041,也可以先执行步骤S1041,然后再执行步骤S106。
本发明实施例中,在确定待分析文本之间相似度的过程中,考虑文本的语境,通过语义特征向量,增强语义表达的能力;同时,通过结合主题特征向量表示待分析文本主题的分布特点,反映待分析文本中词语的重要程度等。如此,能够更加准确、有效地确定待分析文本之间的相似度。
本发明实施例提供了一种文本相似度确定装置,如图3所示,包括:
第一确定模块301,用于确定待分析文本。
分句模块302,用于对待分析文本进行分句,得到待分析文本对应的多个句子。
输入模块303,用于针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量,其中,神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的。
第二确定模块304,用于根据每个句子对应的语义特征向量,确定待分析文本对应的特定特征向量。
计算模块305,用于计算待分析文本对应的特定特征向量之间的相似度,并将该相似度作为待分析文本之间的相似度。
本发明实施例中,基于预先训练的神经网络模型,确定待分析文本中各个句子对应的语义特征向量,在确定文本相似度的过程中,考虑句子在文本语境中的实际语义,能够提高文本相似度确定的准确度。
可选的,该装置还包括:
第三确定模块,用于确定表示待分析文本主题的主题特征向量。
第二确定模块304,包括:
确定子模块,用于根据每个句子对应的语义特征向量,确定待分析文本对应的总语义特征向量。
结合子模块,用于将主题特征向量与总语义特征向量结合,将结合得到的特征向量作为特定特征向量。
可选的,第二确定模块304,具体用于根据每个句子对应的语义特征向量,确定待分析文本对应的总语义特征向量;将总语义特征向量作为特定特征向量。
可选的,装置还包括:
获取模块,用于获取多个训练文本中的多个句子作为第一训练样本。
第一训练模块,用于针对每个第一训练样本,将该第一训练样本以及该第一训练样本对应的关联语句作为第一预设神经网络模型的输入,对第一预设神经网络模型进行训练,得到神经网络模型;其中,该第一训练样本对应的关联语句包括该第一训练样本对应的训练文本中、该第一训练样本之前的句子以及该第一训练样本之后的句子。
可选的,第三确定模块,具体用于基于预先训练的主题模型,确定表示待分析文本主题的主题特征向量;其中,主题模型是根据多个第二训练样本以及多个第二训练样本分别对应的主题属性训练得到的。
可选的,该装置还包括:
预处理模块,用于分别对各个第二训练样本进行分词和去停词,得到各个第二训练样本分别对应的预处理第二训练样本。
第二训练模块,用于针对各个预处理第二训练样本,将该预处理第二训练样本以及该预处理第二训练样本对应的第二训练样本的主题属性,作为第二预设神经网络模型的输入,对第二预设神经网络模型进行训练,得到主题模型。
可选的,计算模块305,具体用于计算待分析文本对应的特定特征向量之间的余弦相似度。
需要说明的是,本发明实施例提供的文本相似度确定装置是应用上述文本相似度确定方法的装置,则上述文本相似度确定方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
本发明实施例还提供了一种文本相似度确定设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。
存储器403,用于存放计算机程序。
处理器401,用于执行存储器403上所存放的程序时,实现上述实施例中文本相似度确定方法的方法步骤。
本发明实施例中,基于预先训练的神经网络模型,确定待分析文本中各个句子对应的语义特征向量,在确定文本相似度的过程中,考虑句子在文本语境中的实际语义,能够提高文本相似度确定的准确度。
上述文本相似度确定设备提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述文本相似度确定设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述实施例中文本相似度确定方法的方法步骤。
本发明实施例中,基于预先训练的神经网络模型,确定待分析文本中各个句子对应的语义特征向量,在确定文本相似度的过程中,考虑句子在文本语境中的实际语义,能够提高文本相似度确定的准确度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种文本相似度确定方法,其特征在于,包括:
确定待分析文本;
对所述待分析文本进行分句,得到所述待分析文本对应的多个句子;
针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量,其中,所述神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的;
根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的特定特征向量;
计算所述待分析文本对应的所述特定特征向量之间的相似度,并将该相似度作为所述待分析文本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定表示所述待分析文本主题的主题特征向量;
所述根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的特定特征向量,包括:
根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的总语义特征向量;
将所述主题特征向量与所述总语义特征向量结合,将结合得到的特征向量作为所述特定特征向量。
3.根据权利要求1所述的方法,其特征在于,所述根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的特定特征向量,包括:
根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的总语义特征向量;
将所述总语义特征向量作为所述特定特征向量。
4.根据权利要求1所述的方法,其特征在于,预先训练神经网络模型包括:
获取多个训练文本中的多个句子作为第一训练样本;
针对每个第一训练样本,将该第一训练样本以及该第一训练样本对应的关联语句作为第一预设神经网络模型的输入,对第一预设神经网络模型进行训练,得到所述神经网络模型;其中,该第一训练样本对应的关联语句包括该第一训练样本对应的训练文本中、该第一训练样本之前的句子以及该第一训练样本之后的句子。
5.根据权利要求2所述的方法,其特征在于,所述确定表示所述待分析文本主题的主题特征向量,包括:
基于预先训练的主题模型,确定表示所述待分析文本主题的所述主题特征向量;其中,所述主题模型是根据多个第二训练样本以及多个第二训练样本分别对应的主题属性训练得到的。
6.根据权利要求5所述的方法,其特征在于,预先训练所述主题模型包括:
分别对各个第二训练样本进行分词和去停词,得到各个第二训练样本分别对应的预处理第二训练样本;
针对各个预处理第二训练样本,将该预处理第二训练样本以及该预处理第二训练样本对应的第二训练样本的主题属性,作为第二预设神经网络模型的输入,对第二预设神经网络模型进行训练,得到所述主题模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述计算所述待分析文本对应的所述特定特征向量之间的相似度,包括:
计算所述待分析文本对应的所述特定特征向量之间的余弦相似度。
8.一种文本相似度确定装置,其特征在于,包括:
第一确定模块,用于确定待分析文本;
分句模块,用于对所述待分析文本进行分句,得到所述待分析文本对应的多个句子;
输入模块,用于针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量,其中,所述神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的;
第二确定模块,用于根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的特定特征向量;
计算模块,用于计算所述待分析文本对应的所述特定特征向量之间的相似度,并将该相似度作为所述待分析文本之间的相似度。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于确定表示所述待分析文本主题的主题特征向量;
所述第二确定模块,包括:
确定子模块,用于根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的总语义特征向量;
结合子模块,用于将所述主题特征向量与所述总语义特征向量结合,将结合得到的特征向量作为所述特定特征向量。
10.根据权利要求8所述的装置,其特征在于,所述第二确定模块,具体用于根据每个句子对应的所述语义特征向量,确定所述待分析文本对应的总语义特征向量;将所述总语义特征向量作为所述特定特征向量。
CN201810937072.7A 2018-08-16 2018-08-16 一种文本相似度确定方法、装置、设备及存储介质 Active CN109145299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810937072.7A CN109145299B (zh) 2018-08-16 2018-08-16 一种文本相似度确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810937072.7A CN109145299B (zh) 2018-08-16 2018-08-16 一种文本相似度确定方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109145299A true CN109145299A (zh) 2019-01-04
CN109145299B CN109145299B (zh) 2022-06-21

Family

ID=64789908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810937072.7A Active CN109145299B (zh) 2018-08-16 2018-08-16 一种文本相似度确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109145299B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083834A (zh) * 2019-04-24 2019-08-02 北京百度网讯科技有限公司 语义匹配模型训练方法、装置、电子设备及存储介质
CN110188180A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 相似问题的确定方法、装置、电子设备及可读存储介质
CN110321558A (zh) * 2019-06-18 2019-10-11 平安普惠企业管理有限公司 一种基于自然语义理解的反作弊方法及相关设备
CN110516250A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 新词的发现方法和装置
CN110674260A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
CN110825852A (zh) * 2019-11-07 2020-02-21 四川长虹电器股份有限公司 面向长文本的语义匹配方法及系统
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111767737A (zh) * 2019-05-30 2020-10-13 北京京东尚科信息技术有限公司 文本意图相似度确定方法、装置、电子设备和存储介质
CN112182166A (zh) * 2020-10-29 2021-01-05 腾讯科技(深圳)有限公司 一种文本匹配方法、装置、电子设备及存储介质
CN112699657A (zh) * 2020-12-30 2021-04-23 广东德诚大数据科技有限公司 一种异常文本的检测方法、装置、电子设备及存储介质
CN112861757A (zh) * 2021-02-23 2021-05-28 天津汇智星源信息技术有限公司 基于文本语义理解的笔录智能审核方法及电子设备
WO2022061833A1 (zh) * 2020-09-27 2022-03-31 西门子股份公司 文本相似度确定方法、装置及工业诊断方法、系统
WO2022156180A1 (zh) * 2021-01-19 2022-07-28 深圳壹账通智能科技有限公司 相似文本确定方法及相关设备
US20230005283A1 (en) * 2021-06-30 2023-01-05 Beijing Baidu Netcom Science Technology Co., Ltd. Information extraction method and apparatus, electronic device and readable storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及系统
CN104021115A (zh) * 2014-06-13 2014-09-03 北京理工大学 基于神经网络的中文比较句识别方法及装置
US20160196258A1 (en) * 2015-01-04 2016-07-07 Huawei Technologies Co., Ltd. Semantic Similarity Evaluation Method, Apparatus, and System
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN107729392A (zh) * 2017-09-19 2018-02-23 广州市妇女儿童医疗中心 文本结构化方法、装置、系统和非易失性存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及系统
CN104021115A (zh) * 2014-06-13 2014-09-03 北京理工大学 基于神经网络的中文比较句识别方法及装置
US20160196258A1 (en) * 2015-01-04 2016-07-07 Huawei Technologies Co., Ltd. Semantic Similarity Evaluation Method, Apparatus, and System
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN107729392A (zh) * 2017-09-19 2018-02-23 广州市妇女儿童医疗中心 文本结构化方法、装置、系统和非易失性存储介质

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083834B (zh) * 2019-04-24 2023-05-09 北京百度网讯科技有限公司 语义匹配模型训练方法、装置、电子设备及存储介质
CN110083834A (zh) * 2019-04-24 2019-08-02 北京百度网讯科技有限公司 语义匹配模型训练方法、装置、电子设备及存储介质
CN111767737A (zh) * 2019-05-30 2020-10-13 北京京东尚科信息技术有限公司 文本意图相似度确定方法、装置、电子设备和存储介质
CN110188180B (zh) * 2019-05-31 2021-06-01 腾讯科技(深圳)有限公司 相似问题的确定方法、装置、电子设备及可读存储介质
CN110188180A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 相似问题的确定方法、装置、电子设备及可读存储介质
CN110321558A (zh) * 2019-06-18 2019-10-11 平安普惠企业管理有限公司 一种基于自然语义理解的反作弊方法及相关设备
CN110321558B (zh) * 2019-06-18 2023-10-27 重庆软江图灵人工智能科技有限公司 一种基于自然语义理解的反作弊方法及相关设备
CN110516250A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 新词的发现方法和装置
CN110674260A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
CN110674260B (zh) * 2019-09-27 2022-05-24 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
CN110825852A (zh) * 2019-11-07 2020-02-21 四川长虹电器股份有限公司 面向长文本的语义匹配方法及系统
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111488931B (zh) * 2020-04-10 2023-04-07 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
WO2022061833A1 (zh) * 2020-09-27 2022-03-31 西门子股份公司 文本相似度确定方法、装置及工业诊断方法、系统
CN112182166A (zh) * 2020-10-29 2021-01-05 腾讯科技(深圳)有限公司 一种文本匹配方法、装置、电子设备及存储介质
CN112699657A (zh) * 2020-12-30 2021-04-23 广东德诚大数据科技有限公司 一种异常文本的检测方法、装置、电子设备及存储介质
WO2022156180A1 (zh) * 2021-01-19 2022-07-28 深圳壹账通智能科技有限公司 相似文本确定方法及相关设备
CN112861757B (zh) * 2021-02-23 2022-11-22 天津汇智星源信息技术有限公司 基于文本语义理解的笔录智能审核方法及电子设备
CN112861757A (zh) * 2021-02-23 2021-05-28 天津汇智星源信息技术有限公司 基于文本语义理解的笔录智能审核方法及电子设备
US20230005283A1 (en) * 2021-06-30 2023-01-05 Beijing Baidu Netcom Science Technology Co., Ltd. Information extraction method and apparatus, electronic device and readable storage medium

Also Published As

Publication number Publication date
CN109145299B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN109145299A (zh) 一种文本相似度确定方法、装置、设备及存储介质
US20210182611A1 (en) Training data acquisition method and device, server and storage medium
US10114809B2 (en) Method and apparatus for phonetically annotating text
CN110222791B (zh) 样本标注信息的审核方法及装置
JP6179305B2 (ja) 分類装置、分類方法及び電子設備
WO2017190527A1 (zh) 一种文本数据分类方法及服务器
WO2018161917A1 (zh) 智能评分方法及装置、计算机设备及计算机可读介质
CN109902307A (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN110705302B (zh) 命名实体的识别方法、电子设备及计算机存储介质
WO2021114841A1 (zh) 一种用户报告的生成方法及终端设备
CN110135441B (zh) 一种图像的文本描述方法及装置
CN108228758A (zh) 一种文本分类方法及装置
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN111460155B (zh) 一种基于知识图谱的信息可信度评估方法及装置
CN110134961A (zh) 文本的处理方法、装置和存储介质
CN112052331A (zh) 一种处理文本信息的方法及终端
EP2707808A2 (en) Exploiting query click logs for domain detection in spoken language understanding
CN111368037A (zh) 基于Bert模型的文本相似度计算方法和装置
WO2020252935A1 (zh) 声纹验证方法、装置、设备及存储介质
CN106910512A (zh) 语音文件的分析方法、装置及系统
CN109800309A (zh) 课堂话语类型分类方法及装置
CN115394318A (zh) 一种音频检测方法和装置
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN110929532A (zh) 数据处理方法、装置、设备及存储介质
CN112732910B (zh) 跨任务文本情绪状态评估方法、系统、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant