CN111291272A - 文件识别方法和装置以及电子设备 - Google Patents

文件识别方法和装置以及电子设备 Download PDF

Info

Publication number
CN111291272A
CN111291272A CN201811489953.3A CN201811489953A CN111291272A CN 111291272 A CN111291272 A CN 111291272A CN 201811489953 A CN201811489953 A CN 201811489953A CN 111291272 A CN111291272 A CN 111291272A
Authority
CN
China
Prior art keywords
data
detected
sample
similarity
target content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811489953.3A
Other languages
English (en)
Inventor
周笑添
康杨杨
高喆
孙常龙
刘晓钟
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811489953.3A priority Critical patent/CN111291272A/zh
Publication of CN111291272A publication Critical patent/CN111291272A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文件识别方法和装置以及电子设备。该方法包括:将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;计算各所述数据对中的待检测数据与样本数据的相似度;根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。本发明实施例通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,使得在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应。

Description

文件识别方法和装置以及电子设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种文件识别方法和装置以及电子设备。
背景技术
随着互联网技术的快速发展,海量的信息通过各种渠道传输,对于网络中传输的各种文件(如,文本、语音、图像等),基于其内容进行识别显得尤为重要。例如,为了净化网络环境,需要过滤内容涉及色情、违禁等的垃圾文件。
传统的反垃圾系统中,一般根据垃圾文件样本预先训练出分类模型,然后通过分类模型来判断输入模型的文件是否为垃圾文件。
发明人在实现本发明的过程中,发现现有技术至少存在如下问题:传统的方案中,对于变种样本(即,分类模型未能识别出的、但人工判断出的新的垃圾文件),需要重新收集以进行学习,从而获得新的分类模型。因此,需要耗费较长的时间,使得无法针对变种样本做出快速响应。
发明内容
本发明实施例提供一种文件识别方法和装置以及电子设备,以解决现有技术中训练数据的获取效率低的缺陷。
为达到上述目的,本发明实施例提供了一种文件识别方法,包括:
将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
计算各所述数据对中的待检测数据与样本数据的相似度;
根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
本发明实施例还提供了一种文件识别装置,包括:
数据处理模块,用于将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
相似度计算模块,用于计算各所述数据对中的待检测数据与样本数据的相似度;
文件确定模块,用于根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
本发明实施例还提供一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以用于:
将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
计算各所述数据对中的待检测数据与样本数据的相似度;
根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
本发明实施例提供的文件识别方法和装置以及电子设备,通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,使得在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的业务系统的系统框图;
图2为本发明提供的文件识别方法一个实施例的流程图;
图3为本发明提供的文件识别方法另一个实施例的流程图;
图4为本发明提供的文件识别方法具体实施例的示意图;
图5为本发明提供的文件识别装置一个实施例的结构示意图;
图6为本发明提供的文件识别装置另一个实施例的结构示意图;
图7为本发明提供的电子设备实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在现有技术中,传统的反垃圾系统中,一般根据垃圾文件样本预先训练出分类模型,然后通过分类模型来判断输入模型的文件是否为垃圾文件。传统的方案对于变种样本(即,分类模型未能识别出的、但人工判断出的新的垃圾文件),需要重新收集以进行学习,从而获得新的分类模型。需要耗费较长的时间,使得无法针对变种样本做出快速响应。因此,本申请提出了一种基于内容的文件识别方案,其主要原理是:构建针对目标内容的样本库(例如,内容涉及色情、违禁、政治等的垃圾文件样本库),将待检测数据与样本库中的样本数据逐一组成数据对以进行相似度计算,从而根据相似度计算结果来确定待检测数据是否包括目标内容。通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,使得在发现变种样本(即,未识别出的、但人工判断出的新的目标内容文件)时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应。当待检测数据与某个样本数据的相似度高于预设相似度阈值时,则直接确定该待检测数据包括目标内容,因此,能够更加快速地进行目标内容文件的识别,提高文件识别效率。
本发明实施例提供的方法可应用于任何具有数据处理能力的业务系统。图1为本发明实施例提供的业务系统的系统框图,图1所示的结构仅仅是本发明的技术方案可以应用的业务系统的示例之一。如图1所示,该业务系统中包括文件识别装置。该装置包括:数据处理模块、相似度计算模块和文件确定模块,可以用来执行下述图2和图3所示的处理流程。在该业务系统中,首先,将待检测数据与样本库中的样本数据逐一组成数据对,该样本库包括针对目标内容的样本库;然后,计算各个数据对中的待检测数据与样本数据的相似度;最后,根据待检测数据与样本数据的相似度,来确定待检测数据是否包括目标内容。通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,使得在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应。
上述实施例是对本发明实施例的技术原理和示例性的应用框架的说明,下面通过多个实施例来进一步对本发明实施例具体技术方案进行详细描述。
实施例一
图2为本发明提供的文件识别方法一个实施例的流程图,该方法的执行主体可以为上述业务系统,也可以为具有数据处理能力的各种服务器设备,也可以为集成在这些服务器设备上的装置或芯片。如图2所示,该文件识别方法包括如下步骤:
S201,将待检测数据与样本库中的样本数据逐一组成数据对。
在本发明实施例中,需要预先构建针对目标内容的样本库,例如,可以针对内容涉及色情、违禁、政治等的垃圾文件,构建垃圾文件样本库。在进行文件识别时,首先,将待检测数据(即,将要进行基于内容的识别的文件)与已构建的样本库中的每一个样本数据,逐一组成数据对。
S202,计算各数据对中的待检测数据与样本数据的相似度。
S203,根据待检测数据与样本数据的相似度,确定待检测数据是否包括目标内容。
在本发明实施例中,样本库中的样本数据具有同样性质的内容,例如,垃圾样本库中的样本数据均为内容涉及色情、违禁、政治等的垃圾样本数据。当待检测数据与具有某性质内容的样本数据的相似度较高时,说明该待检测数据也具有该性质的内容,因此,可以将该待检测数据确定为具有相同性质的目标内容的文件。
本发明实施例提供的文件识别方法,通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,使得在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应。
实施例二
图3为本发明提供的文件识别方法另一个实施例的流程图。如图3所示,在上述图2所示实施例的基础上,本实施例提供的文件识别方法还可以包括以下步骤:
S301,将待检测数据与样本库中的样本数据逐一组成数据对。
在本发明实施例中,将待检测数据与已构建的样本库中的每一个样本数据逐一组成数据对之后,可以将每个数据对输入到两个神经网络中计算待检测数据与样本数据的相似度。可以将数据对输入到孪生神经网络中计算待检测数据与样本数据的相似度,其中,孪生神经网络由两个相同的神经网络组成,且这两个神经网络之间共享参数。具体地,可以如下述步骤S302至S304所示:
S302,将待检测数据与样本数据分别输入到两个双向长短期记忆(Long Short-Term Memory;以下简称:LSTM)模型进行向量化处理,分别得到第一特征向量和第二特征向量。
在本发明实施例中,待检测数据与样本库中的样本数据为同类型的文件数据,其类型可以包括但不限于:文本、语音、图像等。为了计算待检测数据与样本数据之间的相似度,需要分别对其进行向量化处理,以通过计算向量之间的相似度来计算文件之间的相似度。在本发明实施例中,可以采用LSTM模型的方式,将待检测数据输入到一个双向LSTM模型中,得到第一特征向量;并将样本数据输入到另一个双向LSTM模型中,得到第二特征向量。作为孪生神经网络,这两个双向LSTM模型之间共享参数。
S303,将第一特征向量和第二特征向量分别输入到全连接层进行降维处理,得到第一降维向量和第二降维向量。
在本发明实施例中,可以对生成的特征向量进行降维处理,以抽取更有价值的特征,能够提升拟合能力并保证收敛。具体地,可以将第一特征向量输入到全连接层,以得到第一降维向量;并将第二特征向量输入到全连接层,以得到第二降维向量。
S304,计算第一降维向量与第二降维向量的向量距离。
S305,根据上述向量距离,确定待检测数据与样本数据的相似度。
在本发明实施例中,向量之间的距离越小,意味着两个向量越接近,因此,可以根据第一降维向量与第二降维向量之间的向量距离,来判断两个向量之间的相似度,也就是待检测数据与样本数据之间的相似度。即,第一降维向量与第二降维向量的向量距离越小,则待检测数据与样本数据的相似度越高;反之,第一降维向量与第二降维向量的向量距离越大,则待检测数据与样本数据的相似度越低。
进一步地,在确定待检测数据是否包括目标内容时,本发明实施例提供的文件识别方法还可以包括以下步骤:
S306,在任一数据对中,当待检测数据与样本数据的相似度高于预设相似度阈值时,确定该待检测数据包括目标内容。
S307,在各数据对中,当待检测数据与样本数据的相似度均不高于预设相似度阈值时,确定该待检测数据包括的内容为非目标内容。
在本发明实施例中,可以预先设置相似度阈值。在逐一计算相似度时,当待检测数据与某个样本数据组成的数据对中,计算出的相似度高于预设相似度阈值时,可以直接确定该待检测数据为目标文件(即,包括目标内容)。当待检测数据与所有的样本数据组成的数据对中,计算出的相似度均不高于预设相似度阈值时,则可以确定该待检测数据为非目标文件(即,不包括目标内容)。
更进一步地,通过上述方式确定的非目标内容文件中,可以进行人工干预,将接近于目标内容的文件标记为错误检测数据,则,本发明实施例提供的文件识别方法还可以包括以下步骤:
S308,将内容为非目标内容的待检测数据中被标记为错误检测数据的数据添加到样本库。
在本发明实施例中,可以将错误检测的数据作为变种样本实时添加到样本库,以实时更新样本库。
本发明实施例提供的文件识别方法,通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应;同时,在逐一进行相似度计算时,当计算出的相似度高于预设相似度阈值,则可以直接确定该待检测数据包括目标内容,从而能够更加快速地识别目标内容文件,提高文件识别效率。
实施例三
图4为本发明提供的文件识别方法具体实施例的示意图。在上述实施例的基础上,本发明实施例提供了一种具体的实施方式,用于检测当前文本是否为垃圾文本,也就是说,在本发明实施例中,待检测数据为待检测文本,而构建的针对目标内容的样本库为垃圾样本库。
如图4所示,将待检测文本T’与垃圾样本库中的n个垃圾样本T1、T2、T3、…、Tn逐一组成数据对,计算其文本距离。判断T’与T1的文本距离是否小于预设的阈值,若是,确定该待检测文本T’为垃圾文本;否则,判断T’与T2的文本距离是否小于预设的阈值,若是,确定该待检测文本T’为垃圾文本;以此类推,直至遍历所有的垃圾样本。
本发明实施例提供的文件识别方法,通过对待检测文本与垃圾样本库中的垃圾样本逐一进行文本距离计算来识别垃圾文本,使得在发现变种样本时能够实时更新垃圾样本库,从而能够快速识别出与变种样本相类似的垃圾文本,以便做出快速响应;同时,在逐一进行文本距离计算时,当计算出的文本距离小于预设的阈值时,则可以直接确定该待检测文本为垃圾文本,从而能够垃圾文本的识别效率。
实施例四
图5为本发明提供的文件识别装置一个实施例的结构示意图,可用于执行如图2所示的方法步骤。如图5所示,该文件识别装置可以包括:数据处理模块51、相似度计算模块52和文件确定模块53。
其中,数据处理模块51用于将待检测数据与样本库中的样本数据逐一组成数据对,该样本库包括针对目标内容的样本库;相似度计算模块52用于计算各数据对中的待检测数据与样本数据的相似度;文件确定模块53用于根据待检测数据与样本数据的相似度,确定待检测数据是否包括目标内容。
在本发明实施例中,需要预先构建针对目标内容的样本库,例如,可以针对内容涉及色情、违禁、政治等的垃圾文件,构建垃圾文件样本库。在进行文件识别时,首先,数据处理模块51将待检测数据(即,将要进行基于内容的识别的文件)与已构建的样本库中的每一个样本数据,逐一组成数据对。样本库中的样本数据具有同样性质的内容,例如,垃圾样本库中的样本数据均为内容涉及色情、违禁、政治等的垃圾样本数据。然后,由相似度计算模块52计算各数据对中的待检测数据与样本数据的相似度。当待检测数据与具有某性质内容的样本数据的相似度较高时,说明该待检测数据也具有该性质的内容,因此,文件确定模块53可以将该待检测数据确定为具有相同性质内容的目标内容的文件。
本发明实施例提供的文件识别装置,通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,使得在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应。
实施例五
图6为本发明提供的文件识别装置另一个实施例的结构示意图,可以用于执行如图3所示的方法步骤。如图6所示,在上述图5所示实施例的基础上,本发明实施例提供的文件识别装置中,文件确定模块53可以包括:第一确定单元531。该第一确定单元531可以用于针对任一数据对,在待检测数据与样本数据的相似度高于预设相似度阈值的情况下,确定待检测数据包括目标内容。
另外,文件确定模块53还可以包括:第二确定单元532。该第二确定单元532可以用于针对各数据对,在待检测数据与样本数据的相似度均不高于预设相似度阈值的情况下,确定待检测数据包括的内容为非目标内容。
在本发明实施例中,可以预先设置相似度阈值。在逐一计算相似度时,当待检测数据与某个样本数据组成的数据对中,计算出的相似度高于预设相似度阈值时,第一确定单元531可以直接确定该待检测数据为目标文件(即,包括目标内容)。当待检测数据与所有的样本数据组成的数据对中,计算出的相似度均不高于预设相似度阈值时,第二确定单元532则可以确定该待检测数据为非目标文件(即,不包括目标内容)。
进一步地,本发明实施例提供的文件识别装置,还可以包括:样本库更新模块61。该样本库更新模块61可以用于将内容为非目标内容的待检测数据中被标记为错误检测数据的数据添加到样本库。
在本发明实施例中,可以对第二确定单元532确定的非目标内容文件进行人工干预,将接近于目标内容的文件标记为错误检测数据,因此,样本库更新模块61可以将错误检测的数据作为变种样本实时添加到样本库,以实时更新样本库。
更进一步地,相似度计算模块52可以具体用于将数据对输入到两个神经网络(例如,输入到孪生神经网络)中计算待检测数据与样本数据的相似度。具体地,该相似度计算模块52可以包括:向量化处理单元521、降维处理单元522、距离计算单元523和相似度确定单元524。
具体地,向量化处理单元521可以用于将待检测数据与样本数据分别输入到两个双向长短期记忆LSTM模型进行向量化处理,分别得到第一特征向量和第二特征向量,这两个双向LSTM模型之间共享参数;降维处理单元522可以用于将第一特征向量和第二特征向量分别输入到全连接层进行降维处理,得到第一降维向量和第二降维向量;距离计算单元523可以用于计算第一降维向量与第二降维向量的向量距离;相似度确定单元524可以用于根据距离计算单元计算出的向量距离确定待检测数据与样本数据的相似度。
在本发明实施例中,待检测数据与样本库中的样本数据为同类型的文件数据,其类型可以包括但不限于:文本、语音、图像等。为了计算待检测数据与样本数据之间的相似度,需要分别对其进行向量化处理,以通过计算向量之间的相似度来计算文件之间的相似度。在本发明实施例中,向量化处理单元521可以采用LSTM模型的方式,将待检测数据输入到一个双向LSTM模型中,得到第一特征向量;并将样本数据输入到另一个双向LSTM模型中,得到第二特征向量。作为孪生神经网络,这两个双向LSTM模型之间共享参数。降维处理单元522可以对向量化处理单元521生成的特征向量进行降维处理,以抽取更有价值的特征,能够提升拟合能力并保证收敛。具体地,降维处理单元522可以将第一特征向量输入到全连接层,以得到第一降维向量;并将第二特征向量输入到全连接层,以得到第二降维向量。然后,由距离计算单元523计算第一降维向量与第二降维向量之间的向量距离。向量之间的距离越小,意味着两个向量越接近,因此,相似度确定单元524可以根据第一降维向量与第二降维向量之间的向量距离,来判断两个向量之间的相似度,也就是待检测数据与样本数据之间的相似度。即,第一降维向量与第二降维向量的向量距离越小,则待检测数据与样本数据的相似度越高;反之,第一降维向量与第二降维向量的向量距离越大,则待检测数据与样本数据的相似度越低。
本发明实施例提供的文件识别装置,通过对待检测数据与样本库中的样本数据逐一进行相似度计算来识别待检测数据是否包括目标内容,在发现变种样本时能够实时更新样本库,从而能够快速识别出与变种样本相类似的文件,以便做出快速响应;同时,在逐一进行相似度计算时,当计算出的相似度高于预设相似度阈值,则可以直接确定该待检测数据包括目标内容,从而能够更加快速地识别目标内容文件,提高文件识别效率。
实施例六
以上描述了文件识别装置的内部功能和结构,该装置可实现为一种电子设备。图7为本发明提供的电子设备实施例的结构示意图。如图7所示,该电子设备包括存储器71和处理器72。
存储器71,用于存储程序。除上述程序之外,存储器71还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器72,与存储器71耦合,执行存储器71所存储的程序,以用于:
将待检测数据与样本库中的样本数据逐一组成数据对,该样本库包括针对目标内容的样本库;
计算各数据对中的待检测数据与样本数据的相似度;
根据待检测数据与样本数据的相似度,确定待检测数据是否包括目标内容。
进一步,如图7所示,电子设备还可以包括:通信组件73、电源组件74、音频组件75、显示器76等其它组件。图7中仅示意性给出部分组件,并不意味着电子设备只包括图7所示组件。
通信组件73被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件73经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件73还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件74,为电子设备的各种组件提供电力。电源组件74可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件75被配置为输出和/或输入音频信号。例如,音频组件75包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器71或经由通信组件73发送。在一些实施例中,音频组件75还包括一个扬声器,用于输出音频信号。
显示器76包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种文件识别方法,其特征在于,包括:
将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
计算各所述数据对中的待检测数据与样本数据的相似度;
根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
2.根据权利要求1所述的文件识别方法,还包括:
在任一所述数据对中,当所述待检测数据与所述样本数据的相似度高于预设相似度阈值时,确定所述待检测数据包括目标内容;
在各所述数据对中,当所述待检测数据与所述样本数据的相似度均不高于预设相似度阈值时,确定所述待检测数据包括的内容为非目标内容。
3.根据权利要求2所述的文件识别方法,其特征在于,还包括:
将内容为非目标内容的所述待检测数据中被标记为错误检测数据的数据添加到所述样本库。
4.根据权利要求1至3中任一权利要求所述的文件识别方法,还包括:
将所述数据对输入到两个神经网络中计算所述待检测数据与所述样本数据的相似度。
5.根据权利要求4所述的文件识别方法,其特征在于,还包括:
将所述数据对输入到孪生神经网络中计算所述待检测数据与所述样本数据的相似度,所述孪生神经网络由两个相同的神经网络组成,且所述两个相同的神经网络之间共享参数。
6.根据权利要求5所述的文件识别方法,其特征在于,还包括:
将所述待检测数据与所述样本数据分别输入到两个双向长短期记忆LSTM模型进行向量化处理,分别得到第一特征向量和第二特征向量,所述两个双向LSTM模型之间共享参数;
将所述第一特征向量和所述第二特征向量分别输入到全连接层进行降维处理,得到第一降维向量和第二降维向量;
计算所述第一降维向量与所述第二降维向量的向量距离;
根据所述向量距离,确定所述待检测数据与所述样本数据的相似度。
7.一种文件识别装置,其特征在于,包括:
数据处理模块,用于将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
相似度计算模块,用于计算各所述数据对中的待检测数据与样本数据的相似度;
文件确定模块,用于根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
8.根据权利要求7所述的文件识别装置,其特征在于,所述文件确定模块包括:
第一确定单元,用于针对任一所述数据对,在所述待检测数据与所述样本数据的相似度高于预设相似度阈值的情况下,确定所述待检测数据包括目标内容;
第二确定单元,用于针对各所述数据对,在所述待检测数据与所述样本数据的相似度均不高于预设相似度阈值的情况下,确定所述待检测数据包括的内容为非目标内容。
9.根据权利要求8所述的文件识别装置,其特征在于,还包括:
样本库更新模块,用于将内容为非目标内容的所述待检测数据中被标记为错误检测数据的数据添加到所述样本库。
10.根据权利要求7至9中任一权利要求所述的文件识别装置,其特征在于,所述相似度计算模块具体用于,将所述数据对输入到两个神经网络中计算所述待检测数据与所述样本数据的相似度。
11.根据权利要求10所述的文件识别装置,其特征在于,所述相似度计算模块包括:
向量化处理单元,用于将所述待检测数据与所述样本数据分别输入到两个双向长短期记忆LSTM模型进行向量化处理,分别得到第一特征向量和第二特征向量,所述两个双向LSTM模型之间共享参数;
降维处理单元,用于将所述第一特征向量和所述第二特征向量分别输入到全连接层进行降维处理,得到第一降维向量和第二降维向量;
距离计算单元,用于计算所述第一降维向量与所述第二降维向量的向量距离;
相似度确定单元,用于根据所述向量距离确定所述待检测数据与所述样本数据的相似度。
12.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以用于:
将待检测数据与样本库中的样本数据逐一组成数据对,所述样本库包括针对目标内容的样本库;
计算各所述数据对中的待检测数据与样本数据的相似度;
根据所述待检测数据与所述样本数据的相似度,确定所述待检测数据是否包括目标内容。
CN201811489953.3A 2018-12-06 2018-12-06 文件识别方法和装置以及电子设备 Pending CN111291272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811489953.3A CN111291272A (zh) 2018-12-06 2018-12-06 文件识别方法和装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811489953.3A CN111291272A (zh) 2018-12-06 2018-12-06 文件识别方法和装置以及电子设备

Publications (1)

Publication Number Publication Date
CN111291272A true CN111291272A (zh) 2020-06-16

Family

ID=71023016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811489953.3A Pending CN111291272A (zh) 2018-12-06 2018-12-06 文件识别方法和装置以及电子设备

Country Status (1)

Country Link
CN (1) CN111291272A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615785B2 (en) * 2019-05-10 2023-03-28 Robert Bosch Gmbh Speech recognition using natural language understanding related knowledge via deep feedforward neural networks

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1696943A (zh) * 2004-05-13 2005-11-16 上海极软软件技术有限公司 一种自适应、安全过滤垃圾邮件的方法
CN101026593A (zh) * 2006-02-23 2007-08-29 腾讯科技(深圳)有限公司 一种反垃圾邮件的方法及系统
CN102722709A (zh) * 2012-05-23 2012-10-10 杭州朗和科技有限公司 一种垃圾图片识别方法和装置
CN105183784A (zh) * 2015-08-14 2015-12-23 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
CN107562805A (zh) * 2017-08-08 2018-01-09 浙江大华技术股份有限公司 一种以图搜图的方法及装置
US20180349350A1 (en) * 2017-06-01 2018-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for checking text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1696943A (zh) * 2004-05-13 2005-11-16 上海极软软件技术有限公司 一种自适应、安全过滤垃圾邮件的方法
CN101026593A (zh) * 2006-02-23 2007-08-29 腾讯科技(深圳)有限公司 一种反垃圾邮件的方法及系统
CN102722709A (zh) * 2012-05-23 2012-10-10 杭州朗和科技有限公司 一种垃圾图片识别方法和装置
CN105183784A (zh) * 2015-08-14 2015-12-23 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
US20180349350A1 (en) * 2017-06-01 2018-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for checking text
CN107562805A (zh) * 2017-08-08 2018-01-09 浙江大华技术股份有限公司 一种以图搜图的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAARTEN VERSTEEGH等: "Learning Text Similarity with Siamese Recurrent Networks", 《RESEARCHGATE》 *
沈雁等: "基于改进深度孪生网络的分类器及其应用", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615785B2 (en) * 2019-05-10 2023-03-28 Robert Bosch Gmbh Speech recognition using natural language understanding related knowledge via deep feedforward neural networks

Similar Documents

Publication Publication Date Title
US20180322411A1 (en) Automatic evaluation and validation of text mining algorithms
CN110489578B (zh) 图片处理方法、装置及计算机设备
KR20220009965A (ko) 네트워크 트레이닝 방법 및 장치, 타깃 검출 방법 및 장치와 전자 기기
CN111061874A (zh) 敏感信息检测方法和装置
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
CN105447750A (zh) 信息识别方法、装置、终端及服务器
CN110990273A (zh) 克隆代码检测方法及装置
CN108197177B (zh) 业务对象的监测方法、装置、存储介质和计算机设备
CN110929785A (zh) 数据分类方法、装置、终端设备及可读存储介质
CN115129848A (zh) 一种视觉问答任务的处理方法、装置、设备和介质
CN111768242A (zh) 下单率预测方法、设备及可读存储介质
US8705800B2 (en) Profiling activity through video surveillance
CN111881740A (zh) 人脸识别方法、装置、电子设备及介质
CN111382064A (zh) 一种测试方法、装置、介质和电子设备
CN111291272A (zh) 文件识别方法和装置以及电子设备
CN109460458B (zh) 查询改写意图的预测方法及装置
CN116756576A (zh) 数据处理方法、模型训练方法、电子设备及存储介质
CN111435411B (zh) 命名体类型识别方法和装置以及电子设备
CN113486978B (zh) 文本分类模型的训练方法、装置、电子设备及存储介质
CN115146633A (zh) 一种关键词识别方法、装置、电子设备及存储介质
CN112017634B (zh) 数据的处理方法、装置、设备以及存储介质
CN114153954A (zh) 测试用例推荐方法、装置、电子设备及存储介质
CN110334177B (zh) 语义相似模型的训练、语义相似识别方法、装置及电子设备
KR102282328B1 (ko) Lstm을 이용한 국가별 선호도 예측 시스템 및 방법
CN116415595A (zh) 对话意图识别方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination