发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种动态确认样本相似的方法,该方法可以高效准确且适时的计算和判断样本之间是否相似。本发明的另一个目的在于提出一个动态确认样本相似的装置。
为了实现上述目的,本发明第一方面的实施例提供一种动态确认样本相似的方法,包括以下步骤:分别获得多个样本;根据所述多个样本的内容获得所述总样本额度;根据所述总样本额度以及预设规则确定相似度浮动阈值,其中,所述总样本额度与所述相似度浮动阈值成反比;获取所述多个样本之间的相似度;以及如果所述多个样本之间的真实相似度大于所述相似度浮动阈值,则判断所述多个样本之间相似。
根据本发明实施例的动态确认样本相似的方法,可以根据样本的总额度调整相似度浮动阈值,从而使得相似度浮动阈值与样本总额度建立关联,采用这种方式计算得到的相似度浮动阈值更为恰当,在利用该阈值判断相似度时,得到的结果也更为精确。并且,该样本相似判断方法对于判断样本相似效率高、准确度高,具有适时性和易用性。
在本发明的一个实施例中,所述根据总样本额度获得相似度浮动阈值进一步包括:获得所述总样本额度与曲线基准计算样本之间的差值;根据所述差值获得调节因子;根据所述调节因子、预设最大相似度浮动阈值和预设最小相似度浮动阈值获得所述相似度浮动阈值。
在本发明的一个实施例中,所述曲线基准计算样本为所述预设最大相似度浮动阈值和所述预设最小相似度浮动阈值的中点值。
由此,根据预设最大相似度浮动阈值和预设最小相似度浮动阈值求出的曲线基准计算样本更有合理性,适用性。
在本发明的一个实施例中,所述多个样本为两个样本或两个以上样本。
由此,改进了利用样本相似度判断方法进行相似度判断多个样本数量的局限性。
在本发明的又一个实施例中,所述样本为文字样本或字符样本。
由此,扩大了样本相似度判断方法进行相似度判断样本的应用范围,使得样本相似度判断方法适用类型更加宽泛。
在本发明的又一个实施例中,所述总样本额度为以下三种之一:所述多个样本的加权平均值、所述多个样本的并集或所述多个样本中的最大样本。
由此,可使根据多个样本内容计算总样本额度的方式多样化,易于实际情况的多个样本的计算总样本额度。
本发明第二方面的实施例提出一个动态确认样本相似的装置,包括:样本获取模块,用于获得所述多个样本;阈值确定模块,用于接收来自所述样本获取模块的所述多个样本,并根据所述多个样本的内容获得所述总样本额度,以及根据所述总样本额度以及预设规则确定所述相似度浮动阈值,其中,所述总样本额度与所述相似度浮动阈值风反比;相似度获取模块,用于获取所述多个样本之间的真实相似度;判断模块,用于分别接受来自阈值确定模块的所述相似度浮动阈值和来自所述相似度获取模块的所述多个样本之间的真实相似度,并将所述相似度浮动阈值和所述多个样本的真实相似度进行比较,并在所述多个样本的真实相似度大于所述相似度浮动阈值时,判断所述多个样本之间相似。
根据本发明实施例的动态确认样本相似的装置,可以根据样本的总额度调整相似度浮动阈值,从而使得相似度浮动阈值与样本总额度建立关联,采用这种方式计算得到的相似度浮动阈值更为恰当,在利用该阈值判断相似度时,得到的结果也更为精确。并且,该样本相似判断方法对于判断样本相似效率高、准确度高,具有适时性和易用性。
在本发明的一个实施例中,所述阈值确定模块获得所述总样本额度与曲线基准计算样本之间的差值,根据所述差值获得调节因子,并根据所述调节因子、预设最大相似度浮动阈值和预设最小相似度浮动阈值获得所述相似度浮动阈值。
在本发明的一个实施例中,所述曲线基准计算样本为所述预设最大相似度浮动阈值和所述预设最小相似度浮动阈值的中点值。
由此,根据预设最大相似度浮动阈值和预设最小相似度浮动阈值求出的曲线基准计算样本更有合理性,适用性。
在本发明的又一个实施例中,所述样本获取模块可以获得两个或两个以上的样本。
由此,改进了利用样本相似度判断方法进行相似度判断多个样本数量的局限性。
在本发明的又一个实施例中,所述样本获取模块获取的样本为文字样本或字符样本。
由此,扩大了样本相似度判断方法进行相似度判断样本的应用范围。使得样本相似度判断方法适用类型更加宽泛。
在本发明的又一个实施例中,所述总样本额度为以下三种之一:所述多个样本的加权平均值、所述多个样本的并集或所述多个样本中的最大样本。
由此,使根据多个样本内容计算总样本额度的方式多样化,易于实际情况的多个样本的计算总样本额度。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解是对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如:可以是固定连接,也可以使可拆卸连接,或一体地连接;可以使机械连接,也可以是电连接;可以使直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
下面参考图1是描述本发明实施例的动态确认样本相似的流程图。
如图1所示,本发明实施例的动态确认样本相似的方法,包括以下步骤:
步骤S101,分别获得多个样本。其中,多个样本包括两个样本或两个以上样本。
在本发明的一个实施例中,多个样本为文字样本或字符样本。可以理解的是,样本的类型不限于此,还可以为其他可以识别区分的形式。
步骤S102,根据多个样本的内容获得总样本额度。
在本发明的一个实施例中,总样本额度可以为多个样本的加权平均值、多个样本的并集或多个样本中的最大样本。
步骤S103,根据总样本额度以及预设规则确定相似度浮动阈值
具体地,预设规则为首先获得总样本额度与曲线基准计算样本之间的差值,然后根据差值获得调节因子。根据调节因子、预设最大相似度浮动阈值和预设最小相似度浮动阈值获得相似度浮动阈值。具体地,通过以下公式计算获得相似度浮动阈值:
图2示出了总样本额度与相似度浮动阈值的关系曲线。如图中所示,x为总样本额度;y为相似度浮动阈值;b为预设最大相似度浮动阈值;c为预设最小相似度浮动阈值;a为曲线基准计算样本;d为预设的倾斜度。其中,d值越大,代表浮动阈值曲线越平滑。
曲线基准计算样本a为预设最大相似度浮动阈值b和预设最小相似度浮动阈值c的中点值,即a=(b/2+c/2)。
步骤S104,获取多个样本之间真实的相似度。
步骤S105,对步骤S104获取的多个样本之间真实的相似度与步骤S103确定的相似度浮动阈值进行比较。
如果多个样本之间真实的相似度大于或等于相似度浮动阈值时,则判断多个样本之间为相似。如果多个样本之间真实的相似度小于相似度浮动阈值时,判断多个样本之间为不相似。
下面以同一用户两次提交的内容为例对本发明实施例的样本相似度判断方法进行描述。
当总字数(样本总额度)为5时,利用公式(1)确定的相似度浮动阈值为100%,即样本之间的相似度达到100%时,才判断为相似。
当总字数(样本总额度)为10时,利用公式(1)确定的相似度浮动阈值为80%,即样本之间的相似度超过80%时,才判断为相似。
当总字数(样本总额度)为100时,利用公式(1)确定的相似度浮动阈值为60%,即样本之间的相似度超过60%时,才判断为相似。
由上可知,本发明的样本相似度判断方法可以根据样本总额度的不同而调整相似度浮动阈值,从而使得样本之间的相似度判断更为精确。
根据本发明实施例的动态确认样本相似的方法,可以根据样本的总额度调整相似度浮动阈值,从而使得相似度浮动阈值与样本总额度建立关联,采用这种方式计算得到的相似度浮动阈值更为恰当,在利用该阈值判断相似度时,得到的结果也更为精确。并且,该动态确认样本相似的方法解决了利用样本相似度判断方法进行相似度判断样本数量的局限性,对于判断样本相似效率高、准确度高,具有适时性和易用性。
本发明实施例的动态确认样本相似的方法,可应用在社区网站防止重复灌水、内容网站相似用户的内容推荐、学术剽窃等领域,可有效减少命中的失败率。
如图3所示,本发明实施例的动态确认样本相似的装置3000,包括:样本获取模块310、阈值确定模块320、相似度获取模块330和判断模块340。
样本获取模块310可以分别获得多个样本。其中,多个样本包括两个样本或两个以上样本。
在本发明的一个实施例中,多个样本为文字样本或字符样本。可以理解的是,样本的类型不限于此,还可以为其他可以识别区分的形式。
阈值确定模块320接收来自样本获取模块310的多个样本,根据多个样本的内容获得总样本额度,且根据总样本额度和预设规则确定相似度浮动阈值。
具体地,预设规则为阈值确定模块320首先获得总样本额度与曲线基准计算样本之间的差值,然后根据差值获得调节因子。根据调节因子、预设最大相似度浮动阈值和预设最小相似度浮动阈值获得相似度浮动阈值。
具体地,阈值确定模块320通过以下公式计算获得相似度浮动阈值:
图2示出了总样本额度与相似度浮动阈值的关系曲线。如图中所示,x为总样本额度;y为相似度浮动阈值;b为预设最大相似度浮动阈值;c为预设最小相似度浮动阈值;a为曲线基准计算样本;d为预设的倾斜度。其中,d值越大,代表浮动阈值曲线越平滑。
曲线基准计算样本a为预设最大相似度浮动阈值b和预设最小相似度浮动阈值c的中点值,即a=(b/2+c/2)。
在本发明的一个实施例中,总样本额度可以为多个样本的加权平均值,多个样本的并集或多个样本的最大样本。
相似度获取模块330获取多个样本之间的真实相似度。
判断模块340对来自相似度获取模块330获取的多个样本之间真实的相似度与阈值确定模块320确定的相似度浮动阈值进行比较判断。如果多个样本之间真实的相似度大于或等于相似度浮动阈值时,则判断多个样本之间为相似。如果多个样本之间真实的相似度小于相似度浮动阈值时,判断多个样本之间为不相似。
根据本发明实施例的动态确认样本相似的装置,可以根据样本的总额度调整相似度浮动阈值,从而使得相似度浮动阈值与样本总额度建立关联,采用这种方式计算得到的相似度浮动阈值更为恰当,在利用该阈值判断相似度时,得到的结果也更为精确。并且,该动态确认样本相似的装置对于判断样本相似效率高、准确度高,具有适时性和易用性。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。