【发明内容】
本发明所要解决的技术问题是提供一种判断文件内容与标题间一致性的方法及装置,以对文件内容与标题间不一致的情况做出准确判断。
本发明为解决技术问题而采用的技术方案是提供一种判断文件内容与标题间一致性的方法,包括:A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;B.将所述目标文件及各候选文件基于内容之间的相似度进行聚类;C.确定聚类结果中的最优类簇;D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
根据本发明之一优选实施例,所述方法在所述步骤D后进一步包括:E.当所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
根据本发明之一优选实施例,所述步骤B包括:B1.提取所述目标文件及各候选文件的内容特征;B2.基于所述内容特征对所述目标文件及各候选文件进行聚类。
根据本发明之一优选实施例,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
根据本发明之一优选实施例,当所述目标文件的类型为视频时,所述步骤B1包括:B11.分别从所述目标文件及各候选文件中分离出各自的音频;B12.提取每个音频的音频指纹特征作为对应文件的内容特征。
根据本发明之一优选实施例,所述步骤B2包括:B21.依次将所述目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识;B22.将具有相同标识的文件确定为一个类簇。
根据本发明之一优选实施例,所述步骤C包括:C1.从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;C2.从各有效类簇中选取最优类簇。
根据本发明之一优选实施例,所述步骤C2包括:C21.基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;C22.根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;C23.选取得分最高的有效类簇为最优类簇。
本发明还提供了一种判断文件内容与标题间一致性的装置,包括:检索单元,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;聚类单元,用于将所述目标文件及各候选文件基于内容之间的相似度进行聚类;确定单元,用于确定聚类结果中的最优类簇;判断单元,用于当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
根据本发明之一优选实施例,所述装置进一步还包括:替换单元,用于当所述判断单元确定所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
根据本发明之一优选实施例,所述聚类单元包括:特征提取单元,用于提取所述目标文件及各候选文件的内容特征;文件聚类单元,用于基于所述内容特征对所述目标文件及各候选文件进行聚类。
根据本发明之一优选实施例,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
根据本发明之一优选实施例,当所述目标文件的类型为视频时,所述特征提取单元包括:分离单元,用于分别从所述目标文件及各候选文件中分离出各自的音频;提取单元,用于提取每个音频的音频指纹特征作为对应文件的内容特征。
根据本发明之一优选实施例,所述文件聚类单元包括:迭代单元,用于依次将所述目标文件及各候选文件中每个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每一内容特征对应一个文件标识;结果生成单元,用于将具有相同标识的文件确定为一个类簇。
根据本发明之一优选实施例,所述确定单元包括:类簇确定单元,用于从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;类簇选取单元,用于从各有效类簇中选取最优类簇。
根据本发明之一优选实施例,所述类簇选取单元包括:文件得分确定单元,用于基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;类簇得分确定单元,用于根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;最终类簇确定单元,用于选取得分最高的有效类簇为最优类簇。
由以上技术方案可以看出,本发明通过利用目标文件的标题在候选网站获取候选文件,并基于内容之间的相似度对目标文件和候选文件进行聚类,能够充分利用互联网上绝大多数正确的资源为目标文件内容与标题之间的关联性判断提供依据,当目标文件不属于最优类簇时,说明目标文件的内容与标题之间的联系不符合互联网上可信资源的规律,从而使得目标文件内容与标题间不一致的判断的准确性大大增加。通过本发明的方法,能够很好的对文件内容和标题之间的一致性进行判断,从而使得解决由于文件内容和标题间不一致而导致的各种问题成为可能,如对数据库中内容与标题不一致的数据进行修正,或者对用户上传的内容与标题不一致的数据进行警示等。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中判断文件内容与标题间一致性的方法的流程示意图。如图1所示,该方法包括:
步骤S101:利用目标文件的标题在至少一个候选网站进行检索,以获取与目标文件类型相同的候选文件。
步骤S102:将目标文件及各候选文件基于内容之间的相似度进行聚类。
步骤S103:确定聚类结果中的最优类簇。
步骤S104:当目标文件不属于最优类簇时,确定目标文件内容与标题不一致,否则确定目标文件内容与标题一致。
为了便于理解,下面的例子中主要以目标文件为音频类型的文件来对上述步骤进行介绍,本领域技术人员应该理解,根据本发明的思想,将本发明的目标文件类型扩展到文本类型或视频类型并不影响本发明的实施。
本发明中的目标文件的标题,不仅仅局限于文件名的范围,凡是能够用于定位目标文件的属性特征,均可归属于本发明中标题的概念范围。例如对于歌曲音频文件而言,其标题可包括歌曲名、歌手名以及专辑名等要素。
步骤S101中得到的候选文件是与目标文件类型相同的文件,这是指如果目标文件为文本类型的文件,则候选文件也为文本类型,如果目标文件为音频类型的文件,则候选文件也为音频类型。
假设目标文件为刘德华专辑《笨小孩》中的《冰雨》音频文件,则步骤S101中,可利用冰雨、刘德华、笨小孩,即歌曲名、歌手名、专辑名组成的检索词在候选网站A中进行检索,得到若干个候选文件,同时利用冰雨、刘德华,即歌曲名、歌手名组成的检索词在候选网站B中进行检索,得到若干个候选文件,可见,在获取候选文件时,可以选择不同的检索词或候选网站。因此,在本发明中可以预先设置检索词置信度C1和网站置信度C2来对候选文件进行评价。例如:预先将包含歌曲名、歌手名及专辑名三个维度的检索词X的置信度值设置为1,而仅包含歌曲名、歌手名两个维度的检索词Y的置信度值设置为0.9,则使用X检索得到的候选文件的检索词置信度C1的值就等于1,使用Y检索得到的候选文件的检索词置信度C1的值就等于0.9。又如,预先将百度的网站置信度值设置为1,腾讯的网站置信度值设置为0.9,则来源于百度的候选文件的网站置信度C2的值就是1,来源于腾讯的候选文件的网站置信度C2的值就是0.9。候选文件的检索词置信度C1和网站置信度C2可在步骤S103中用于确定最优类簇,具体的使用方式将在后续介绍。
步骤S102具体地包括:
步骤S1021:提取目标文件及各候选文件的内容特征。
步骤S1022:基于上述内容特征对目标文件及各候选文件进行聚类。
其中,本发明对不同类型的目标文件,步骤S1021提取的内容特征也不相同。
如果目标文件是文本类型的文件,则根据步骤S101中所述,候选文件也是文本类型的文件,则步骤S1021中提取的内容特征,可以是现有技术为了对文本文件进行聚类时采用的任何特征,例如由特征词构成的特征向量,甚至可以将整个文本文件作为内容特征,使得聚类结果中的每个类簇包含的文本内容是完全一致的。由于现有技术的文本内容特征提取技术已经非常成熟,本发明在此不再赘述。
如果目标文件为音频文件,则步骤S1021中提取的内容特征为音频指纹特征。具体地,步骤S1021中提取音频指纹特征的方式,于本领域有多种已知的做法,例如可以参考中国发明专利申请号为201110218558.3的专利文件(下面称为专利文件一),该专利文件即公开了一种提取音频指纹的方式。
如果目标文件为视频文件,则作为一种实施方式,步骤S1021具体包括:
步骤S1021_1:分别从目标文件及各候选文件中分离出各自的音频。
步骤S1021_2:提取每个音频的音频指纹特征作为对应文件的内容特征。
如将目标文件A和候选文件B中的音频分别分离出来,这通过现有技术即可实现,然后采用专利文件一中公开的音频指纹特征提取方法对A的音频提取音频指纹特征作为A的内容特征,以及对B的音频提取音频指纹特征作为B的内容特征。本实施方式充分利用了视频中的声音来对视频的内容进行定位,计算量小,方便实施。
此外,也可以提取视频指纹特征作为视频目标文件和候选文件的内容特征,提取视频指纹特征于本领域也有多种做法,例如可以参考中国发明专利申请号为200910046777.0的专利文件(下面称为专利文件二),该专利文件即公开了一种提取视频指纹特征的方式。
在得到目标文件及各候选文件的内容特征后,步骤S1022中可采用各种已知的聚类算法对目标文件及各候选文件进行聚类,其中聚类采用的特征即为步骤S1021中提取的内容特征。
此外,本发明还给出了步骤S1022的一个优选实施方式,在该实施方式下,步骤S1022包括:
步骤S1022_1:依次将目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在内容特征库中以供与下一个未被标识的文件的内容特征比对时使用。
步骤S1022_2:将具有相同标识的文件确定为一个类簇。
下面以目标文件和候选文件为音频类型文件对上述聚类过程进行进一步说明。请参考图2,图2为本发明中对音频类型的目标文件和候选文件进行聚类的示意流程图。如图2所示,对由目标文件和各候选文件构成的集合,每次从中取一个未被标识的文件W与预设的音频指纹特征库中的音频指纹特征进行比对,如果比对成功,则将音频指纹特征库中相匹配的音频指纹特征对应的文件标识赋予W,转向下一个未被标识的文件比对,否则为W赋予一个新的文件标识,并将W的音频指纹特征保存到音频指纹特征库,转向下一个未被标识的文件比对。上述过程重复进行直到目标文件和各候选文件均比对完成。
其中上述的音频指纹特征库初始包含的音频指纹特征数为非负整数,且每个音频指纹特征对应一个文件标识。这里的音频指纹特征库可以是一个已建立好的音频指纹特征库,其中包含了若干数量的音频指纹特征,每个音频指纹特征对应一个文件标识,此外,这里的音频指纹特征库也可以为空,即音频指纹特征库中初始包含零个音频指纹特征,这种情况下,随着上述比对过程的进行,音频指纹特征库中的音频指纹特征会增加。
当目标文件和各候选文件均完成比对之后,目标文件和各候选文件均会得到一个文件标识,在步骤S1022_2中,即可根据文件标识将目标文件和各候选文件分为不同的类簇。
将两个音频指纹特征进行比对以确定是否比对成功的方式,可以参考专利文件一中的相关描述,本发明在此不再赘述。
请继续参考图1。在步骤S102得到聚类结果后,步骤S103确定最优类簇的方式具体包括:
步骤S1031:从聚类结果中确定有效类簇。
步骤S1032:从有效类簇中选取最优类簇。
其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇。例如目标文件及候选文件,即参与聚类的文件数为100,假设设定阈值为0.2,则类簇中文件数大于20的类簇都属于有效类簇。
通过设定阈值,可以对有效类簇的多样性进行控制,设定阈值越高,则步骤S1031得到的有效类簇数量越少。
若步骤S1031得到的有效类簇有多个,则步骤S1032还需要在多个有效类簇中选取出最优类簇。
具体地,步骤S1032包括:
步骤S1032_1:基于以下至少一个因素确定每个有效类簇中的各候选文件的得分:候选文件的检索词置信度、候选文件的网站置信度、候选文件标题与目标文件标题之间的匹配度。
候选文件的检索词置信度,就是前文在说明步骤S101时提到的C1,候选文件的网站置信度,则是前文在说明步骤S101时提到的C2。候选文件标题与目标文件标题之间的匹配度,可以通过编辑距离、余弦相似度、汉明距离等现有技术的手段来确定,本文不再详述。
优选的,一个候选文件的得分,可以参见下列公式:
SF=w1*C1+w2*C2+w3*C3
其中,SF是一个候选文件的得分,C1、C2、C3分别为该候选文件的检索词置信度、该候选文件的网站置信度及该候选文件标题与目标文件标题之间的匹配度,而w1、w2、w3分别是预先为C1、C2、C3这三个参数确定的权重。
候选文件的网站置信度C2预先可根据经验值设定,随着使用本发明方法对大量目标文件进行判断后,可以看出来源于哪个网站的候选文件的质量更好,从而对网站置信度的值进行调整。
步骤S1032_2:根据每个有效类簇包含的候选文件的得分确定该有效类簇的得分。
一个有效类簇包含了若干候选文件,作为一种实施方式,步骤S1032_2中可将有效类簇中的各候选文件的得分相加后作为该有效类簇的得分,如下列公式所示:
其中,SC是一个有效类簇的得分,SFK为该有效类簇中一个候选文件的得分。
此外,步骤S1032_2中还可以将每个有效类簇中的候选文件的平均得分作为该有效类簇的得分,如下列公式所示:
其中n为有效类簇中的候选文件数量。
步骤S1032_3:选取得分最高的有效类簇为最优类簇。
在得到最优类簇之后,如果目标文件在最优类簇中,则说明目标文件与大量可信的候选文件的内容是相同的,由于候选文件是通过目标文件的标题获取得来的,因此本发明可以推断,目标文件的内容与标题应该具有一致性,反之,如果目标文件不属于最优类簇,则可以推断目标文件与标题之间不一致。
假设目标文件是保存在文件库中的文件,则在判断出目标文件内容与标题不一致之后,还可以进一步使用最优类簇中的候选文件替换保存在文件库中的目标文件,这样,本发明就可以实现对文件库中内容与标题不符的文件进行修正的目的,从而使得文件库中的数据更准确。例如原文件库中有一内容为“北京一夜”的音频文件M,其文件名保存为“北京欢迎您”,通过上述方法的步骤S101至步骤S104之后,可以判断M的内容与标题不一致,此时最优类簇中的候选音频文件应该是内容为“北京欢迎您”的音频文件,这时,将最优类簇中的候选音频文件替换文件库中的M,就能够在文件库中得到内容与标题都是“北京欢迎您”的音频文件了,从而实现了对文件库中错误数据的修正。这样,当用户使用“北京欢迎您”在音频文件库中进行检索时,就不会得到内容不符的音频文件了。
请参考图3,图3为本发明中判断文件内容与标题间一致性的装置的实施例的结构示意框图。如图3所示,该装置包括:检索单元201、聚类单元202、确定单元203及判断单元204。
其中,检索单元201,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与目标文件类型相同的候选文件。
聚类单元202,用于将目标文件及各候选文件基于内容之间的相似度进行聚类。
确定单元203,用于确定聚类结果中的最优类簇。
判断单元204,用于当目标文件不属于最优类簇时,确定目标文件的内容与标题不一致,否则确定目标文件的内容与标题一致。
其中聚类单元202包括特征提取单元2021及文件聚类单元2022。特征提取单元2021,用于提取目标文件及各候选文件的内容特征。文件聚类单元2022,用于基于提取的内容特征对目标文件及各候选文件进行聚类。
其中确定单元203包括类簇确定单元2031及类簇选取单元2032。其中类簇确定单元2031,用于从聚类结果中确定有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇。类簇选取单元2032,用于从各有效类簇中选取最优类簇。
在一个实施例中,如果目标文件为音频类型的文件,则特征提取单元2021可以提取目标文件的音频指纹特征作为内容特征。具体地,特征提取单元2021提取音频指纹特征的方式可参考专利文件一。
在一个实施例中,如果目标文件为视频类型的文件,则请参考图4,图4为本发明中特征提取单元的一个实施例的结构示意框图。当目标文件为视频类型的文件时,特征提取单元2021包括分离单元2021_1和提取单元2021_2。其中分离单元2021_1,用于分别从目标文件及各候选文件中分离出各自的音频。提取单元2021_2,用于提取每个音频的音频指纹特征作为对应文件的内容特征。
在一个实施例中,文件聚类单元2022可以将提取的内容特征作为聚类特征并采用现有技术中任意的聚类算法对目标文件和各候选文件进行聚类。
请参考图5,图5是本发明中文件聚类单元的一个优选实施例的结构示意框图。如图5所示,文件聚类单元2022包括迭代单元2022_1和结果生成单元2022_2。其中文件聚类单元2022,用于依次将目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识。结果生成单元2022_2,用于将具有相同标识的文件确定为一个类簇。
请参考图6,图6为本发明中类簇选取单元的一个优选实施例的结构示意框图。如图6所示,类簇选取单元2032包括文件得分确定单元2032_1、类簇得分确定单元2032_2及最终类簇确定单元2032_3。其中文件得分确定单元2032_1,用于基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与目标文件标题之间的匹配度。类簇得分确定单元2032_2,用于根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分。具体地,包括将每个有效类簇中的各个候选文件的得分之和作为该有效类簇的得分,或者,将每个有效类簇中各个候选文件的平均得分作为该有效类簇的得分。最终类簇确定单元2032_3,用于选取得分最高的有效类簇为最优类簇。
在本发明的判断文件内容与标题间一致性的装置的另一个实施例中,该装置还包括一替换单元(图中未示出),用于当判断单元204确定目标文件内容与标题不一致时,使用最优类簇中的候选文件替换保存在文件库中的目标文件。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。