CN103631769B - 一种判断文件内容与标题间一致性的方法及装置 - Google Patents

一种判断文件内容与标题间一致性的方法及装置 Download PDF

Info

Publication number
CN103631769B
CN103631769B CN201210303895.7A CN201210303895A CN103631769B CN 103631769 B CN103631769 B CN 103631769B CN 201210303895 A CN201210303895 A CN 201210303895A CN 103631769 B CN103631769 B CN 103631769B
Authority
CN
China
Prior art keywords
file
class cluster
content
cluster
alternative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210303895.7A
Other languages
English (en)
Other versions
CN103631769A (zh
Inventor
朱中的
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Taile Culture Technology Co ltd
Original Assignee
Beijing Yinzhibang Culture Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yinzhibang Culture Technology Co ltd filed Critical Beijing Yinzhibang Culture Technology Co ltd
Priority to CN201210303895.7A priority Critical patent/CN103631769B/zh
Publication of CN103631769A publication Critical patent/CN103631769A/zh
Application granted granted Critical
Publication of CN103631769B publication Critical patent/CN103631769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种判断文件内容与标题间一致性的方法及装置,其中判断文件内容与标题间一致性的方法包括:A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;B.将所述目标文件及各候选文件基于内容之间的相似度进行聚类;C.确定聚类结果中的最优类簇;D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。通过上述方式,能够准确判断文件内容与标题间是否一致。

Description

一种判断文件内容与标题间一致性的方法及装置
【技术领域】
本发明涉及数据处理技术,特别涉及一种判断文件内容与标题间一致性的方法及装置。
【背景技术】
随着互联网技术的发展,网络上资源越来越丰富,用户通过向搜索引擎输入检索关键字,即可得到自己想要的信息资源。例如,用户向音乐网站的搜索引擎输入“北京欢迎您”,就可以从音乐网站得到与“北京欢迎您”相关的音乐文件。然而,由于互联网上存在大量的资源,在音乐网站的数据库中,有可能存在歌曲名为“北京欢迎您”的音乐文件,其实质的音频内容却是“北京一夜”,即现有网络资源中存在着文件内容与标题不一致的现象,这种现象会导致向用户返回数据时出现错误。
此外,由于互联网成为越来越开放的平台,用户除了可以从网络上获取资源,也可以将自己的资源分享到网络上。当用户将文件上传到网络上时,用户有可能出于有意或无意的目的,将文件内容与标题保存得不一致。例如有的用户故意将某个非法视频的名称保存为“建国大业”,或者有的用户误将音频内容为“北京一夜”的文件名记错为“北京欢迎您”而导致错误上传。
【发明内容】
本发明所要解决的技术问题是提供一种判断文件内容与标题间一致性的方法及装置,以对文件内容与标题间不一致的情况做出准确判断。
本发明为解决技术问题而采用的技术方案是提供一种判断文件内容与标题间一致性的方法,包括:A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;B.将所述目标文件及各候选文件基于内容之间的相似度进行聚类;C.确定聚类结果中的最优类簇;D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
根据本发明之一优选实施例,所述方法在所述步骤D后进一步包括:E.当所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
根据本发明之一优选实施例,所述步骤B包括:B1.提取所述目标文件及各候选文件的内容特征;B2.基于所述内容特征对所述目标文件及各候选文件进行聚类。
根据本发明之一优选实施例,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
根据本发明之一优选实施例,当所述目标文件的类型为视频时,所述步骤B1包括:B11.分别从所述目标文件及各候选文件中分离出各自的音频;B12.提取每个音频的音频指纹特征作为对应文件的内容特征。
根据本发明之一优选实施例,所述步骤B2包括:B21.依次将所述目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识;B22.将具有相同标识的文件确定为一个类簇。
根据本发明之一优选实施例,所述步骤C包括:C1.从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;C2.从各有效类簇中选取最优类簇。
根据本发明之一优选实施例,所述步骤C2包括:C21.基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;C22.根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;C23.选取得分最高的有效类簇为最优类簇。
本发明还提供了一种判断文件内容与标题间一致性的装置,包括:检索单元,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;聚类单元,用于将所述目标文件及各候选文件基于内容之间的相似度进行聚类;确定单元,用于确定聚类结果中的最优类簇;判断单元,用于当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
根据本发明之一优选实施例,所述装置进一步还包括:替换单元,用于当所述判断单元确定所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
根据本发明之一优选实施例,所述聚类单元包括:特征提取单元,用于提取所述目标文件及各候选文件的内容特征;文件聚类单元,用于基于所述内容特征对所述目标文件及各候选文件进行聚类。
根据本发明之一优选实施例,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
根据本发明之一优选实施例,当所述目标文件的类型为视频时,所述特征提取单元包括:分离单元,用于分别从所述目标文件及各候选文件中分离出各自的音频;提取单元,用于提取每个音频的音频指纹特征作为对应文件的内容特征。
根据本发明之一优选实施例,所述文件聚类单元包括:迭代单元,用于依次将所述目标文件及各候选文件中每个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每一内容特征对应一个文件标识;结果生成单元,用于将具有相同标识的文件确定为一个类簇。
根据本发明之一优选实施例,所述确定单元包括:类簇确定单元,用于从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;类簇选取单元,用于从各有效类簇中选取最优类簇。
根据本发明之一优选实施例,所述类簇选取单元包括:文件得分确定单元,用于基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;类簇得分确定单元,用于根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;最终类簇确定单元,用于选取得分最高的有效类簇为最优类簇。
由以上技术方案可以看出,本发明通过利用目标文件的标题在候选网站获取候选文件,并基于内容之间的相似度对目标文件和候选文件进行聚类,能够充分利用互联网上绝大多数正确的资源为目标文件内容与标题之间的关联性判断提供依据,当目标文件不属于最优类簇时,说明目标文件的内容与标题之间的联系不符合互联网上可信资源的规律,从而使得目标文件内容与标题间不一致的判断的准确性大大增加。通过本发明的方法,能够很好的对文件内容和标题之间的一致性进行判断,从而使得解决由于文件内容和标题间不一致而导致的各种问题成为可能,如对数据库中内容与标题不一致的数据进行修正,或者对用户上传的内容与标题不一致的数据进行警示等。
【附图说明】
图1为本发明中判断文件内容与标题间一致性的方法的流程示意图;
图2为本发明中对音频类型的目标文件和候选文件进行聚类的示意流程图;
图3为本发明中判断文件内容与标题间一致性的装置的实施例的结构示意框图;
图4为本发明中特征提取单元的一个实施例的结构示意框图;
图5为本发明中文件聚类单元的一个优选实施例的结构示意框图;
图6为本发明中类簇选取单元的一个优选实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中判断文件内容与标题间一致性的方法的流程示意图。如图1所示,该方法包括:
步骤S101:利用目标文件的标题在至少一个候选网站进行检索,以获取与目标文件类型相同的候选文件。
步骤S102:将目标文件及各候选文件基于内容之间的相似度进行聚类。
步骤S103:确定聚类结果中的最优类簇。
步骤S104:当目标文件不属于最优类簇时,确定目标文件内容与标题不一致,否则确定目标文件内容与标题一致。
为了便于理解,下面的例子中主要以目标文件为音频类型的文件来对上述步骤进行介绍,本领域技术人员应该理解,根据本发明的思想,将本发明的目标文件类型扩展到文本类型或视频类型并不影响本发明的实施。
本发明中的目标文件的标题,不仅仅局限于文件名的范围,凡是能够用于定位目标文件的属性特征,均可归属于本发明中标题的概念范围。例如对于歌曲音频文件而言,其标题可包括歌曲名、歌手名以及专辑名等要素。
步骤S101中得到的候选文件是与目标文件类型相同的文件,这是指如果目标文件为文本类型的文件,则候选文件也为文本类型,如果目标文件为音频类型的文件,则候选文件也为音频类型。
假设目标文件为刘德华专辑《笨小孩》中的《冰雨》音频文件,则步骤S101中,可利用冰雨、刘德华、笨小孩,即歌曲名、歌手名、专辑名组成的检索词在候选网站A中进行检索,得到若干个候选文件,同时利用冰雨、刘德华,即歌曲名、歌手名组成的检索词在候选网站B中进行检索,得到若干个候选文件,可见,在获取候选文件时,可以选择不同的检索词或候选网站。因此,在本发明中可以预先设置检索词置信度C1和网站置信度C2来对候选文件进行评价。例如:预先将包含歌曲名、歌手名及专辑名三个维度的检索词X的置信度值设置为1,而仅包含歌曲名、歌手名两个维度的检索词Y的置信度值设置为0.9,则使用X检索得到的候选文件的检索词置信度C1的值就等于1,使用Y检索得到的候选文件的检索词置信度C1的值就等于0.9。又如,预先将百度的网站置信度值设置为1,腾讯的网站置信度值设置为0.9,则来源于百度的候选文件的网站置信度C2的值就是1,来源于腾讯的候选文件的网站置信度C2的值就是0.9。候选文件的检索词置信度C1和网站置信度C2可在步骤S103中用于确定最优类簇,具体的使用方式将在后续介绍。
步骤S102具体地包括:
步骤S1021:提取目标文件及各候选文件的内容特征。
步骤S1022:基于上述内容特征对目标文件及各候选文件进行聚类。
其中,本发明对不同类型的目标文件,步骤S1021提取的内容特征也不相同。
如果目标文件是文本类型的文件,则根据步骤S101中所述,候选文件也是文本类型的文件,则步骤S1021中提取的内容特征,可以是现有技术为了对文本文件进行聚类时采用的任何特征,例如由特征词构成的特征向量,甚至可以将整个文本文件作为内容特征,使得聚类结果中的每个类簇包含的文本内容是完全一致的。由于现有技术的文本内容特征提取技术已经非常成熟,本发明在此不再赘述。
如果目标文件为音频文件,则步骤S1021中提取的内容特征为音频指纹特征。具体地,步骤S1021中提取音频指纹特征的方式,于本领域有多种已知的做法,例如可以参考中国发明专利申请号为201110218558.3的专利文件(下面称为专利文件一),该专利文件即公开了一种提取音频指纹的方式。
如果目标文件为视频文件,则作为一种实施方式,步骤S1021具体包括:
步骤S1021_1:分别从目标文件及各候选文件中分离出各自的音频。
步骤S1021_2:提取每个音频的音频指纹特征作为对应文件的内容特征。
如将目标文件A和候选文件B中的音频分别分离出来,这通过现有技术即可实现,然后采用专利文件一中公开的音频指纹特征提取方法对A的音频提取音频指纹特征作为A的内容特征,以及对B的音频提取音频指纹特征作为B的内容特征。本实施方式充分利用了视频中的声音来对视频的内容进行定位,计算量小,方便实施。
此外,也可以提取视频指纹特征作为视频目标文件和候选文件的内容特征,提取视频指纹特征于本领域也有多种做法,例如可以参考中国发明专利申请号为200910046777.0的专利文件(下面称为专利文件二),该专利文件即公开了一种提取视频指纹特征的方式。
在得到目标文件及各候选文件的内容特征后,步骤S1022中可采用各种已知的聚类算法对目标文件及各候选文件进行聚类,其中聚类采用的特征即为步骤S1021中提取的内容特征。
此外,本发明还给出了步骤S1022的一个优选实施方式,在该实施方式下,步骤S1022包括:
步骤S1022_1:依次将目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在内容特征库中以供与下一个未被标识的文件的内容特征比对时使用。
步骤S1022_2:将具有相同标识的文件确定为一个类簇。
下面以目标文件和候选文件为音频类型文件对上述聚类过程进行进一步说明。请参考图2,图2为本发明中对音频类型的目标文件和候选文件进行聚类的示意流程图。如图2所示,对由目标文件和各候选文件构成的集合,每次从中取一个未被标识的文件W与预设的音频指纹特征库中的音频指纹特征进行比对,如果比对成功,则将音频指纹特征库中相匹配的音频指纹特征对应的文件标识赋予W,转向下一个未被标识的文件比对,否则为W赋予一个新的文件标识,并将W的音频指纹特征保存到音频指纹特征库,转向下一个未被标识的文件比对。上述过程重复进行直到目标文件和各候选文件均比对完成。
其中上述的音频指纹特征库初始包含的音频指纹特征数为非负整数,且每个音频指纹特征对应一个文件标识。这里的音频指纹特征库可以是一个已建立好的音频指纹特征库,其中包含了若干数量的音频指纹特征,每个音频指纹特征对应一个文件标识,此外,这里的音频指纹特征库也可以为空,即音频指纹特征库中初始包含零个音频指纹特征,这种情况下,随着上述比对过程的进行,音频指纹特征库中的音频指纹特征会增加。
当目标文件和各候选文件均完成比对之后,目标文件和各候选文件均会得到一个文件标识,在步骤S1022_2中,即可根据文件标识将目标文件和各候选文件分为不同的类簇。
将两个音频指纹特征进行比对以确定是否比对成功的方式,可以参考专利文件一中的相关描述,本发明在此不再赘述。
请继续参考图1。在步骤S102得到聚类结果后,步骤S103确定最优类簇的方式具体包括:
步骤S1031:从聚类结果中确定有效类簇。
步骤S1032:从有效类簇中选取最优类簇。
其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇。例如目标文件及候选文件,即参与聚类的文件数为100,假设设定阈值为0.2,则类簇中文件数大于20的类簇都属于有效类簇。
通过设定阈值,可以对有效类簇的多样性进行控制,设定阈值越高,则步骤S1031得到的有效类簇数量越少。
若步骤S1031得到的有效类簇有多个,则步骤S1032还需要在多个有效类簇中选取出最优类簇。
具体地,步骤S1032包括:
步骤S1032_1:基于以下至少一个因素确定每个有效类簇中的各候选文件的得分:候选文件的检索词置信度、候选文件的网站置信度、候选文件标题与目标文件标题之间的匹配度。
候选文件的检索词置信度,就是前文在说明步骤S101时提到的C1,候选文件的网站置信度,则是前文在说明步骤S101时提到的C2。候选文件标题与目标文件标题之间的匹配度,可以通过编辑距离、余弦相似度、汉明距离等现有技术的手段来确定,本文不再详述。
优选的,一个候选文件的得分,可以参见下列公式:
SF=w1*C1+w2*C2+w3*C3
其中,SF是一个候选文件的得分,C1、C2、C3分别为该候选文件的检索词置信度、该候选文件的网站置信度及该候选文件标题与目标文件标题之间的匹配度,而w1、w2、w3分别是预先为C1、C2、C3这三个参数确定的权重。
候选文件的网站置信度C2预先可根据经验值设定,随着使用本发明方法对大量目标文件进行判断后,可以看出来源于哪个网站的候选文件的质量更好,从而对网站置信度的值进行调整。
步骤S1032_2:根据每个有效类簇包含的候选文件的得分确定该有效类簇的得分。
一个有效类簇包含了若干候选文件,作为一种实施方式,步骤S1032_2中可将有效类簇中的各候选文件的得分相加后作为该有效类簇的得分,如下列公式所示:
其中,SC是一个有效类簇的得分,SFK为该有效类簇中一个候选文件的得分。
此外,步骤S1032_2中还可以将每个有效类簇中的候选文件的平均得分作为该有效类簇的得分,如下列公式所示:
其中n为有效类簇中的候选文件数量。
步骤S1032_3:选取得分最高的有效类簇为最优类簇。
在得到最优类簇之后,如果目标文件在最优类簇中,则说明目标文件与大量可信的候选文件的内容是相同的,由于候选文件是通过目标文件的标题获取得来的,因此本发明可以推断,目标文件的内容与标题应该具有一致性,反之,如果目标文件不属于最优类簇,则可以推断目标文件与标题之间不一致。
假设目标文件是保存在文件库中的文件,则在判断出目标文件内容与标题不一致之后,还可以进一步使用最优类簇中的候选文件替换保存在文件库中的目标文件,这样,本发明就可以实现对文件库中内容与标题不符的文件进行修正的目的,从而使得文件库中的数据更准确。例如原文件库中有一内容为“北京一夜”的音频文件M,其文件名保存为“北京欢迎您”,通过上述方法的步骤S101至步骤S104之后,可以判断M的内容与标题不一致,此时最优类簇中的候选音频文件应该是内容为“北京欢迎您”的音频文件,这时,将最优类簇中的候选音频文件替换文件库中的M,就能够在文件库中得到内容与标题都是“北京欢迎您”的音频文件了,从而实现了对文件库中错误数据的修正。这样,当用户使用“北京欢迎您”在音频文件库中进行检索时,就不会得到内容不符的音频文件了。
请参考图3,图3为本发明中判断文件内容与标题间一致性的装置的实施例的结构示意框图。如图3所示,该装置包括:检索单元201、聚类单元202、确定单元203及判断单元204。
其中,检索单元201,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与目标文件类型相同的候选文件。
聚类单元202,用于将目标文件及各候选文件基于内容之间的相似度进行聚类。
确定单元203,用于确定聚类结果中的最优类簇。
判断单元204,用于当目标文件不属于最优类簇时,确定目标文件的内容与标题不一致,否则确定目标文件的内容与标题一致。
其中聚类单元202包括特征提取单元2021及文件聚类单元2022。特征提取单元2021,用于提取目标文件及各候选文件的内容特征。文件聚类单元2022,用于基于提取的内容特征对目标文件及各候选文件进行聚类。
其中确定单元203包括类簇确定单元2031及类簇选取单元2032。其中类簇确定单元2031,用于从聚类结果中确定有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇。类簇选取单元2032,用于从各有效类簇中选取最优类簇。
在一个实施例中,如果目标文件为音频类型的文件,则特征提取单元2021可以提取目标文件的音频指纹特征作为内容特征。具体地,特征提取单元2021提取音频指纹特征的方式可参考专利文件一。
在一个实施例中,如果目标文件为视频类型的文件,则请参考图4,图4为本发明中特征提取单元的一个实施例的结构示意框图。当目标文件为视频类型的文件时,特征提取单元2021包括分离单元2021_1和提取单元2021_2。其中分离单元2021_1,用于分别从目标文件及各候选文件中分离出各自的音频。提取单元2021_2,用于提取每个音频的音频指纹特征作为对应文件的内容特征。
在一个实施例中,文件聚类单元2022可以将提取的内容特征作为聚类特征并采用现有技术中任意的聚类算法对目标文件和各候选文件进行聚类。
请参考图5,图5是本发明中文件聚类单元的一个优选实施例的结构示意框图。如图5所示,文件聚类单元2022包括迭代单元2022_1和结果生成单元2022_2。其中文件聚类单元2022,用于依次将目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识。结果生成单元2022_2,用于将具有相同标识的文件确定为一个类簇。
请参考图6,图6为本发明中类簇选取单元的一个优选实施例的结构示意框图。如图6所示,类簇选取单元2032包括文件得分确定单元2032_1、类簇得分确定单元2032_2及最终类簇确定单元2032_3。其中文件得分确定单元2032_1,用于基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与目标文件标题之间的匹配度。类簇得分确定单元2032_2,用于根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分。具体地,包括将每个有效类簇中的各个候选文件的得分之和作为该有效类簇的得分,或者,将每个有效类簇中各个候选文件的平均得分作为该有效类簇的得分。最终类簇确定单元2032_3,用于选取得分最高的有效类簇为最优类簇。
在本发明的判断文件内容与标题间一致性的装置的另一个实施例中,该装置还包括一替换单元(图中未示出),用于当判断单元204确定目标文件内容与标题不一致时,使用最优类簇中的候选文件替换保存在文件库中的目标文件。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种判断文件内容与标题间一致性的方法,包括:
A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;
B.将所述目标文件及各候选文件基于内容之间的相似度进行聚类;
C.确定聚类结果中的最优类簇,包括:C1.根据所述聚类结果确定有效类簇,其中有效类簇为聚类所得到的各类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;C2.从所述有效类簇中选取满足预设要求的有效类簇作为最优类簇;
D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
2.根据权利要求1所述的方法,其特征在于,所述方法在所述步骤D后进一步包括:
E.当所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
3.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
B1.提取所述目标文件及各候选文件的内容特征;
B2.基于所述内容特征对所述目标文件及各候选文件进行聚类。
4.根据权利要求3所述的方法,其特征在于,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
5.根据权利要求3所述的方法,其特征在于,当所述目标文件的类型为视频时,所述步骤B1包括:
B11.分别从所述目标文件及各候选文件中分离出各自的音频;
B12.提取每个音频的音频指纹特征作为对应文件的内容特征。
6.根据权利要求3所述的方法,其特征在于,所述步骤B2包括:
B21.依次将所述目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识;
B22.将具有相同标识的文件确定为一个类簇。
7.根据权利要求1所述的方法,其特征在于,所述步骤C2包括:
C21.基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;
C22.根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;
C23.选取得分最高的有效类簇为最优类簇。
8.一种判断文件内容与标题间一致性的装置,包括:
检索单元,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;
聚类单元,用于将所述目标文件及各候选文件基于内容之间的相似度进行聚类;
确定单元,用于确定聚类结果中的最优类簇,包括:类簇确定单元,用于根据所述聚类结果确定有效类簇,其中有效类簇为聚类所得到的各类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;类簇选取单元,用于从所述有效类簇中选取满足预设要求的有效类簇作为最优类簇;
判断单元,用于当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
9.根据权利要求8所述的装置,其特征在于,所述装置进一步还包括:
替换单元,用于当所述判断单元确定所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
10.根据权利要求8所述的装置,其特征在于,所述聚类单元包括:
特征提取单元,用于提取所述目标文件及各候选文件的内容特征;
文件聚类单元,用于基于所述内容特征对所述目标文件及各候选文件进行聚类。
11.根据权利要求10所述的装置,其特征在于,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
12.根据权利要求10所述的装置,其特征在于,当所述目标文件的类型为视频时,所述特征提取单元包括:
分离单元,用于分别从所述目标文件及各候选文件中分离出各自的音频;
提取单元,用于提取每个音频的音频指纹特征作为对应文件的内容特征。
13.根据权利要求10所述的装置,其特征在于,所述文件聚类单元包括:
迭代单元,用于依次将所述目标文件及各候选文件中每个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每一内容特征对应一个文件标识;
结果生成单元,用于将具有相同标识的文件确定为一个类簇。
14.根据权利要求8所述的装置,其特征在于,所述类簇选取单元包括:
文件得分确定单元,用于基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;
类簇得分确定单元,用于根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;
最终类簇确定单元,用于选取得分最高的有效类簇为最优类簇。
CN201210303895.7A 2012-08-23 2012-08-23 一种判断文件内容与标题间一致性的方法及装置 Active CN103631769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210303895.7A CN103631769B (zh) 2012-08-23 2012-08-23 一种判断文件内容与标题间一致性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210303895.7A CN103631769B (zh) 2012-08-23 2012-08-23 一种判断文件内容与标题间一致性的方法及装置

Publications (2)

Publication Number Publication Date
CN103631769A CN103631769A (zh) 2014-03-12
CN103631769B true CN103631769B (zh) 2017-10-17

Family

ID=50212845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210303895.7A Active CN103631769B (zh) 2012-08-23 2012-08-23 一种判断文件内容与标题间一致性的方法及装置

Country Status (1)

Country Link
CN (1) CN103631769B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979279A (zh) * 2015-12-18 2016-09-28 乐视致新电子科技(天津)有限公司 对传统电视节目上配置的网络资源进行纠错的方法和装置
CN106095898A (zh) * 2016-06-07 2016-11-09 武汉斗鱼网络科技有限公司 一种视频标题管理方法及装置
CN109729126A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 文本资源的推送方法、装置、存储介质及处理器
CN108304379B (zh) * 2018-01-15 2020-12-01 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN111984466B (zh) * 2020-07-30 2022-10-25 苏州浪潮智能科技有限公司 一种基于icc的数据一致性检验方法及系统
CN111814028B (zh) * 2020-09-14 2021-02-26 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN113254583B (zh) * 2021-05-28 2021-11-02 北京明略软件系统有限公司 一种基于语义向量的文档标记方法、装置及介质
CN113032575B (zh) * 2021-05-28 2022-05-17 北京明略昭辉科技有限公司 一种基于主题模型的文档血缘关系挖掘的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694592A (en) * 1993-11-05 1997-12-02 University Of Central Florida Process for determination of text relevancy
EP1587010A2 (en) * 2004-04-15 2005-10-19 Microsoft Corporation Verifying relevance between keywords and web site contents
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102314875A (zh) * 2011-08-01 2012-01-11 北京百度网讯科技有限公司 一种音频文件的识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI387890B (zh) * 2008-12-01 2013-03-01 Esobi Inc A method of converting a hypertext label language file into a plain text file

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694592A (en) * 1993-11-05 1997-12-02 University Of Central Florida Process for determination of text relevancy
EP1587010A2 (en) * 2004-04-15 2005-10-19 Microsoft Corporation Verifying relevance between keywords and web site contents
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102314875A (zh) * 2011-08-01 2012-01-11 北京百度网讯科技有限公司 一种音频文件的识别方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《基于Web的社会网络搜索中人名同一性判断方法研究》;庞永杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120715(第7期);全文 *
《基于标题类别语义识别的文本分类算法研究》;王强等;《电子与信息学报》;20071231;第29卷(第12期);全文 *
《基于语义相似度的Web文档聚类算法》;李毅等;《合肥工业大学学报(自然科学版)》;20091231;第32卷(第12期);全文 *
《改进的K-mean算法在网络舆情分析中的应用》;汤寒青等;《计算机系统应用》;20110331;第20卷(第3期);全文 *

Also Published As

Publication number Publication date
CN103631769A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN103631769B (zh) 一种判断文件内容与标题间一致性的方法及装置
US9195738B2 (en) Tokenization platform
CN104462253B (zh) 一种面向网络文本大数据的话题检测或跟踪方法
CN101449271B (zh) 通过搜索进行注释
US8046347B2 (en) Method and apparatus for reconstructing a search query
CN102866782B (zh) 一种提高整句生成效率的输入法和输入法系统
Jiang et al. Learning query and document relevance from a web-scale click graph
US8577882B2 (en) Method and system for searching multilingual documents
CN103885987B (zh) 一种音乐推荐方法和系统
Reinanda et al. Mining, ranking and recommending entity aspects
CN106095595B (zh) 一种应用程序间的信息共享方法及终端
US10146775B2 (en) Apparatus, system and method for string disambiguation and entity ranking
WO2014032492A1 (zh) 媒体内容推荐方法及设备
CN106528894B (zh) 设置标签信息的方法及装置
CN107729578B (zh) 一种音乐推荐方法及装置
CN108766451B (zh) 一种音频文件处理方法、装置和存储介质
CN110636345B (zh) 一种同一身份账号下的多媒体信息共享方法和系统
CN104090880A (zh) 音频文件均衡器参数配置的方法和装置
CN106294473B (zh) 一种实体词挖掘方法、信息推荐方法及装置
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
CN106033417B (zh) 视频搜索系列剧的排序方法和装置
CN109446417A (zh) 一种智能化检索方法和装置
CN107077509B (zh) 一种改进浏览体验的方法、装置和设备
CN105653533A (zh) 一种更新分类关联词集合的方法和装置
Lu et al. Genderpredictor: a method to predict gender of customers from e-commerce website

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160311

Address after: 100027 Haidian District, Qinghe Qinghe East Road, No. 23, building two, floor 2108, No., No. 18

Applicant after: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220509

Address after: 518057 3305, floor 3, building 1, aerospace building, No. 51, Gaoxin South ninth Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen Taile Culture Technology Co.,Ltd.

Address before: 2108, floor 2, building 23, No. 18, anningzhuang East Road, Qinghe, Haidian District, Beijing 100027

Patentee before: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.