CN105653540B - 文件属性信息的处理方法和装置 - Google Patents
文件属性信息的处理方法和装置 Download PDFInfo
- Publication number
- CN105653540B CN105653540B CN201410642415.9A CN201410642415A CN105653540B CN 105653540 B CN105653540 B CN 105653540B CN 201410642415 A CN201410642415 A CN 201410642415A CN 105653540 B CN105653540 B CN 105653540B
- Authority
- CN
- China
- Prior art keywords
- description information
- attribute
- information
- target
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文件属性信息的处理方法和装置。其中,该方法包括:获取待处理文件中属于第一属性的第一描述信息;获取用于对第一属性进行匹配的匹配条件,其中,匹配条件用于指示目标描述信息和目标描述信息所属的第二属性;比较第一描述信息与目标描述信息;若第一描述信息包含目标描述信息,则将目标描述信息从第一描述信息中删除;以及将目标描述信息设置为待处理文件中属于第二属性的第二描述信息。通过本发明,解决了现有技术中对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题,实现了自动去除第一描述信息中不符合待处理文件的第一属性的信息,信息处理效率高的效果。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文件属性信息的处理方法和装置。
背景技术
现有技术中提供了越来越多的音乐平台,这些音乐平台一般拥有百万量级的乐库,在用户使用这些音乐平台时,往往通过音乐属性信息对音乐数据进行了解和选择,其中的音乐属性信息为描述音乐数据的属性信息,如音乐属性信息中可以包括音乐数据的名称,现有的音乐属性信息中往往存在着大量的噪音,如,音乐数据中的歌曲名、专辑名的属性信息中夹杂的歌手、版本等其他信息,例如,刘德华-忘情水(live in beijing),这个歌曲名的文件属性信息里夹杂了歌手“刘德华”、版本“live in Beijing”的噪音。
现有技术中,为了去除这些音乐属性信息中的噪音,从全量数据(即数据库中的全部数据中)中提取中可能有噪音的歌曲名,再由人工去掉噪音。
上述的音乐属性信息去噪依赖人工,人工去噪操作效率低,对大量的文件属性信息无法完成去噪工作;并且依赖人工去除噪音,操作的准确率也很低,无法准确进行去噪。
其中,上述的噪音为文件属性信息中存在的不符合该信息所描述属性的数据。如,文件属性信息描述的为文件的名称属性,但是该文件属性信息中存在文件大小的数据(如,12M),该数据即为本申请的文件属性信息中的噪音。上述的文件属性信息可以为音乐文件、图片文件等文件的属性信息。
针对上述的对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文件属性信息的处理方法和装置,以至少解决对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题。
根据本发明实施例的一个方面,提供了一种文件属性信息的处理方法,该方法包括:获取待处理文件中属于第一属性的第一描述信息;获取用于对第一属性进行匹配的匹配条件,其中,匹配条件用于指示目标描述信息和目标描述信息所属的第二属性;比较第一描述信息与目标描述信息;若第一描述信息包含目标描述信息,则将目标描述信息从第一描述信息中删除;以及将目标描述信息设置为待处理文件中属于第二属性的第二描述信息。
根据本发明实施例的另一方面,还提供了一种文件属性信息的处理装置,该装置包括:第一获取模块,用于获取待处理文件中属于第一属性的第一描述信息;第二获取模块,用于获取用于对第一属性进行匹配的匹配条件,其中,匹配条件用于指示目标描述信息和目标描述信息所属的第二属性;比较模块,用于比较第一描述信息与目标描述信息;删除模块,用于若第一描述信息包含目标描述信息,则将目标描述信息从第一描述信息中删除;以及设置模块,用于将目标描述信息设置为待处理文件中属于第二属性的第二描述信息。
在本发明实施例中,可以获取待处理文件的第一属性的第一描述信息和对第一属性进行匹配的匹配条件,比较第一描述信息与匹配条件中的目标描述信息,然后可以根据比较结果删除目标描述信息,并将目标描述信息设置为目标属性信息所属的第二属性的第二描述信息。通过上述实施例,无需人工去噪,在第一描述信息中包含目标描述信息时,自动地将目标描述信息从第一描述信息中删除,解决了现有技术中对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题,实现了自动去除第一描述信息中不符合待处理文件的第一属性的信息,信息处理效率高的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的文件属性信息的处理方法的环境示意图;
图2是根据本发明实施例的文件属性信息的处理方法的流程图;
图3是根据本发明实施例的文件属性信息的处理方法对的示意图;
图4是根据本发明实施例的一种可选的文件属性信息的处理方法的流程图;
图5是根据本发明实施例的另一种可选的文件属性信息的处理方法的流程图;
图6是根据本发明实施例的去噪词表管理的界面图;
图7是根据本发明实施例的去噪结果查询的界面图;
图8是根据本发明实施例的文件属性信息的处理装置的示意图;
图9是根据本发明实施例的一种可选的文件属性信息的处理装置的示意图;
图10是根据本发明实施例的文件属性信息的处理装置中的删除模块和设置模块的示意图;以及
图11是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文件属性信息的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
可选地,在本实施例中,上述文件属性信息的处理方法可以应用于如图1所示的终端101和服务器102所构成的硬件环境中。如图1所示,终端101通过网络或数据线与服务器102连接,对服务器102上的待处理文件的第一描述信息进行处理;也可以直接在服务器102上对待处理器文件使用文件属性信息的处理方法。
上述网络包括但不限于:广域网、城域网或局域网。在本发明实施例中,上述的终端可以为移动终端、个人电脑上,具体地,终端可以为智能手机、平板电脑、PDA等终端。
根据本发明实施例,提供了一种文件属性信息的处理方法,图2是根据本发明实施例的文件属性信息的处理方法的流程图。如图2所示,该方法可以通过如下步骤实现:
步骤S202:获取待处理文件中属于第一属性的第一描述信息。
步骤S204:获取用于对第一属性进行匹配的匹配条件,其中,匹配条件用于指示目标描述信息和目标描述信息所属的第二属性。
步骤S206:比较第一描述信息与目标描述信息。
步骤S208:若第一描述信息包含目标描述信息,则将目标描述信息从第一描述信息中删除。
步骤S210:将目标描述信息设置为待处理文件中属于第二属性的第二描述信息。
采用本发明实施例,可以获取待处理文件的第一属性的第一描述信息和对第一属性进行匹配的匹配条件,比较第一描述信息与匹配条件中的目标描述信息,然后可以根据比较结果删除目标描述信息,并将目标描述信息设置为目标属性信息所属的第二属性的第二描述信息。通过上述实施例,无需人工去噪,在第一描述信息中包含目标描述信息时,自动地将目标描述信息从第一描述信息中删除,解决了现有技术中对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题,实现了自动去除第一描述信息中不符合待处理文件的第一属性的信息,信息处理效率高的效果。
通过上述实施例,还可以在去除目标描述信息之后,使用目标描述信息设置第二属性的第二描述信息,从而可以进一步地完善该待处理文件的属性信息。
其中,上述的第一描述信息用于描述文件的第一属性,每个匹配条件也具有该匹配条件的匹配属性。如,第一属性可以为文件的名称属性、数据容量属性、或存储位置属性等;匹配条件的匹配属性也可以为:名称属性、数据容量属性、或存储位置属性。
在上述实施例中,执行步骤S204可以通过如下方法实现:若第一描述信息的第一属性与匹配条件的匹配属性相同,则确定该匹配条件为用于对第一属性进行匹配的条件。如,第一属性为待处理文件的名称属性,若匹配条件1的匹配属性也为名称属性,则确定匹配条件1为用于对第一属性进行匹配的条件。
具体地,上述的待处理文件可以为音乐文件、或图片文件等,如第一属性可以为音乐文件的名称属性、歌手属性、或版本属性等。具体地,第一属性为名称属性,第一描述信息为“刘德华-忘情水(live in beijing)”可以为描述音乐文件的名称属性的信息。
在本发明实施例中的信息处理过程中,进行字符串比对时可以使用哈希映照(即hash-map)的多模式匹配方法实现,使用该种方法进行信息的比较,可以加快处理的速度。
根据本发明的上述实施例,为了使得信息处理的结果更加地准确,可以将待处理文件的第一属性的第一描述信息逐个与多个匹配条件中的目标描述信息做匹配处理。
如图3所示的,待处理文件的第一属性的属性描述信息中包括五个字段“字段1、字段2、字段3、字段4以及字段5”,图3中五个字段中包含四个匹配条件的四个目标描述信息,使用上述的处理方法处理之后,将第一属性的属性描述信息中的字段2至字段5删除,并分别将其设置为对应的第二属性(在图3中为四个,为第二属性1至第二属性4)的属性描述值。
需要进一步说明的是,在执行步骤S210的过程中,若获取到的待处理文件不具有第二属性的情况下,为待处理文件增添第二属性,并设置第二属性的第二描述信息;若待处理文件具有第二属性,则直接使用目标描述信息设置第二属性的第二描述信息。
在本发明的上述实施例中,将目标描述信息从第一描述信息中删除可以包括:检测第一描述信息包含的目标描述信息是否具有标识符;若第一描述信息包含的目标描述信息具有标识符,则将目标描述信息从第一描述信息中删除。
具体地,检测第一描述信息包含的目标描述信息是否具有标识符包括:获取标识符集合,其中,标识符集合中保存有多个预设的标识符;检测第一描述信息包含的目标描述信息前后存在的字符是否存在于标识符集合;若第一描述信息包含的目标描述信息前后存在的字符存在于标识符集合,则检测出第一描述信息包含的目标描述信息具有标识符。
需要进一步说明的是,将目标描述信息从第一描述信息中删除可以包括:将目标描述信息和/或目标描述信息的标识符从第一描述信息中删除。
在识别出第一描述信息中的目标描述信息之后,可以将目标描述信息从第一描述信息中删除,也可以将目标信息和目标描述信息的标识符一并从第一描述信息中删除。
在上述实施例中,若第一描述信息中包括目标描述信息,并且第一描述信息中包含的目标描述信息包括标识符(如分隔符),才将从第一描述信息中删除目标描述信息,这样可以防止对第一描述信息的误伤,保证信息处理的准确性。
如,待处理文件为音乐文件,第一属性为名称属性,第一描述信息为《如果我是陈奕迅》,在使用的匹配条件的目标描述信息为“陈奕迅”时,比较发现第一描述信息中包含目标描述信息,但是进一步地处理发现第一描述信息包含的目标描述信息没有标识符,则不执行从第一描述信息中删除目标描述信息的操作。如果执行了从第一描述信息中删除目标描述信息的操作,则造成了对第一描述信息的误伤。通过上述实施例,可以保证删除目标描述信息的准确性。
下面结合附图4详细介绍本发明上述实施例,如图4所示,该实施例可以通过如下方法实现:
步骤S402:统计标识符得到标识符集合。
具体地,在第一描述信息中大多依赖标识符分割不同的描述信息,通过这些标识符得到标识符集合,可以将标识符集合作为配置文件。在标识符为分隔符的情况下,标识符可以包括前缀和后缀,如,前缀为“《”,后缀为“》”;或前缀为空,后缀为“—”等。
步骤S404:获取预先设置的多个匹配条件。
具体地,多个匹配条件可以包括两种格式的条件:有限集合匹配条件和前后缀匹配条件。
其中,有限集合匹配条件的格式为:
优先级type_id 属性名 噪音串 第二属性 第二属性值
其中,type_id表示类型ID,优先级可以是为该有限集合匹配条件设置的优先级,优先级可以用自然数表示,数值越大则表明优先级越小。噪音串即为上述实施中的目标描述信息,第二属性值即为上述实施例中的第二属性的第二描述信息。
如表1所示的有限集合匹配条件的格式,其中的属性名即为上述实施例中的匹配属性:
表1
优先级 | type_id | 属性名 | 噪音串 | 第二属性名 | 第二属性值 |
1 | 歌曲 | 名称 | 刘德华 | 歌手 |
由于有些匹配条件之间会存在冲突,为每条匹配条件赋予一个优先级,优先级高的匹配条件优先生效。
在上述实施例中的前后缀匹配条件的格式可以为:
优先级type_id 属性名 前缀 后缀 第二属性 是否保留前后缀
其中,type_id表示类型ID;优先级可以是为该有限集合匹配条件设置的优先级,优先级可以用自然数表示,数值越大则表明优先级越小。噪音串即为上述实施中的目标描述信息,第二属性值即为上述实施例中的第二属性的第二描述信息;是否保留前后缀即为删除目标描述信息的模式,如,只删除目标描述信息,或删除目标描述信息的标识符的前缀,或删除目标描述信息的标识符的后缀,或将目标描述信息的标识符和目标描述信息一并删掉。在每个前后缀匹配条件中均可以包括一个第二属性;其中的前缀和后缀可以为对应每个前后缀匹配条件设置的值。
如表2所示的前后缀匹配条件的格式,其中的属性名即为上述实施例中的匹配属性:
表2
优先级 | type_id | 属性名 | 噪音串 | 第二属性名 | 是否保留前后缀 |
5 | 歌曲 | 名称 | 刘德华 | 歌手 | 保留前后缀 |
由于有些匹配条件之间会存在冲突,为每条匹配条件赋予一个优先级,优先级高的匹配条件优先生效。
步骤S406:检测第一描述信息是否包含目标描述信息。
若第一描述信息包含目标描述信息,则执行步骤S408;若第一描述信息不包含目标描述信息,则返回执行步骤S406,检测第一描述信息是否包含下一条对应的匹配条件的目标描述信息。
步骤S408:获取标识符集合。
具体地,可以从数据库中读取标识符集合。
步骤S410:检测第一描述信息包含的目标描述信息的标识符是否存在于标识符集合。
若是,则执行步骤S412:检测出第一描述信息包含的目标描述信息的标识符存在于标识符集合;若第一描述信息包含的目标描述信息的标识符不存在于标识符集合,则结束流程。
在标识符为分隔符的情况下,上述步骤可以通过检测第一描述信息包含的目标描述信息前后的字符是否存在于标识符集合实现。
具体地,可以使用哈希匹配的算法检测目标描述信息的标识符是否存在于标识符集合中。
步骤S414:将目标描述信息从第一描述信息中删除。
在该实施例中,若标识符为分隔符(包括前缀和后缀),还可以确定去除目标描述信息时是否一并除去前后缀。具体地,将目标描述信息从第一描述信息中去除可以包括:将目标描述信息和/或目标描述信息的分隔符从第一描述信息中去除。进一步地,在去除目标描述信息时可以同时将前后缀去除,仅仅去除前后缀,或者仅仅去除目标描述信息。
步骤S416:将目标描述信息设置为第二属性的第二描述信息。
其中,该步骤的实现方法与上述实施例中对应步骤的实现方法一致,在此不再赘述。
具体地,若当前的匹配条件为有限集合匹配条件,该有限集合匹配条件的匹配属性(即上述的属性名)对应的第一属性的第一描述信息中包含目标描述信息及其标识符,则将目标描述信息从第一描述信息中删除,并将目标描述信息设置为第二属性的第二描述信息。
又若当前进行匹配处理的匹配条件为前后缀匹配条件,若第一描述信息中包含目标描述信息,且目标描述信息具有标识符,则把目标描述信息去除,并将目标描述信息设置为第二属性的第二描述信息。
根据本发明的上述实施例,在将目标描述信息从第一描述信息中删除之后,处理方法还包括:判断删除目标描述信息之后的第一描述信息是否为空字符串;若去除目标描述信息之后的第一描述信息为空字符串,则回退将目标描述信息从第一描述信息中删除的处理。
具体地,若描述第一属性的第一描述信息与描述第二属性的第二描述信息相同,如描述音乐文件的名称属性的第一描述信息为“刘德华-刘德华”(对该歌曲名,同时也是一位歌手名),使用匹配属性为“名称属性”的匹配条件,则可能将原串(即上述的第一描述信息)去除成空(即“”)。对这种无法确定的目标描述信息,可以将删除的结果进行回退。执行回退操作时,如果直接将它回退成原始数据,则有一些确定的噪音会无法处理掉,因此可以将数据在优先级内进行回退,即回退当前的将目标描述信息从第一描述信息中删除的步骤。
在本发明的上述实施例中,将目标描述信息设置为待处理文件中属于第二属性的第二描述信息包括:判断目标描述信息所属的第二属性是否存在原始描述信息;若目标描述信息所属的第二属性不存在原始描述信息,则将目标描述信息设置为第二属性的第二描述信息;若目标描述信息对应的第二属性存在原始描述信息,则判断第二属性的原始描述信息是否为符合豁免保护的信息;若第二属性的原始描述信息为符合豁免保护的信息,则使用目标描述信息替换原始描述信息。
具体地,若待处理文件的原始数据中第二属性的原始描述信息不为符合豁免保护的值,若确定第一描述信息中包含目标描述信息,可以在第二属性的第二描述信息中追加描述信息。
进一步地,对于已经存在原始描述信息的第二属性,则判断该原始描述信息是否为豁免保护的值,若是,则使用目标描述信息替换原始描述信息;若否,则保留第二属性的原始描述信息。
其中,豁免保护的值保存在一个预设的豁免保护值的集合中,如群星、网络歌手。
上述实施例中,对特定的第二属性,当在原始数据中已存在属性值时,会进行保护,使命中的规则不生效。而对一些泛指的属性值,如群星、网络歌手等,进行豁免保护。通过该实施例,进一步保证了补充音乐数据的属性的准确性。
下面结合附图5详细介绍本发明实施例,如图5所示,该实施例可以通过如下方法实现:
步骤S502:判断第一描述信息中是否包含目标描述信息。
其中,若确定第一描述信息中包含目标描述信息,则执行步骤S504;若第一描述信息中不包含目标描述信息,则结束流程。
步骤S504:判断匹配条件的第二属性是否存在原始描述信息。
若匹配条件的第二属性存在原始描述信息,则执行步骤S506;若匹配条件的第二属性不存在原始描述信息,则执行步骤S508。
步骤S506:判断原始描述信息是否为豁免保护的值。
若原始描述信息为豁免保护的值,则执行步骤S508;若原始描述信息不为豁免保护的值,则执行步骤S514:保留原始描述信息。
步骤S508:在第一描述信息中删除目标描述信息,并将目标描述信息作为第二属性的第二描述信息。
步骤S510:判断删除目标描述信息的第一描述信息是否为空字符串。
若删除目标描述信息的第一描述信息为空字符串,则执行步骤S512;若否,则结束流程。
步骤S512:将删除目标描述信息的第一描述信息及其第二属性的第二描述信息回退至当前优先级删除信息前。
需要进一步说明的是,在获取用于对第一属性进行匹配的匹配条件之前,处理方法还包括:按照下述生成方法中至少之一生成多个匹配条件:从预先获取的知识库中导出文件的一个或多个属性的属性描述信息,按照预设格式将属性描述信息生成多个有限集合匹配条件;使用标识符分割知识库中的属性描述信息得到多个属性子信息,统计各个属性子信息,得到各个属性子信息的统计频率,将超过预设统计频率的属性子信息进行过滤得到过滤后的属性子信息,将过滤后的属性子信息按照预设格式生成多个有限集合匹配条件;按照预设输入格式输入前后缀匹配条件,其中,匹配条件包括有限集合匹配条件和前后缀匹配条件。
具体到音乐文件中,可以将音乐知识库中所有已经存在的歌手和版本(即上述的一个或多个属性及其属性描述信息)导出,作为有限集合匹配条件;还可以用标识符(如分隔符)将音乐知识库中所有的属性描述信息(如歌曲名称)分割得到属性子信息(如歌曲名称片段),并统计歌曲名称片段,然后将出现频率高的歌曲名称片段作为可疑的目标描述信息集合,进行审核和添加,生成有限集合匹配条件;还可以按照预设格式输入前后缀匹配条件。
在生成匹配条件之后,还可以对其进行匹配条件管理。例如,待处理文件为音乐文件,如图6所示,可以通过该“匹配条件管理”界面输入匹配条件。其中的词条类别即为上述的匹配条件的类别,可以包括“有限集合匹配条件”和“前后缀匹配条件”,在该界面上还包括:优先级、实体类型(即上述实施例中的类型ID,类型ID可以包括音乐类_歌曲,还可以包括音乐类_专辑)、属性(此处的属性为匹配属性)、前缀、后缀、第二属性、是否保留前后缀。
具体地,在“匹配条件管理”的界面可以在选定匹配条件的类别之后,通过点击查询按钮查询所有符合该类别的匹配条件;可以通过点击新增词条的按钮,获取输入匹配条件的对话框,如图6所示的输入前后缀匹配条件的对话框,在将参数输入对话框之后,点击提交按钮即可生成一个新的匹配条件。
根据本发明的上述实施例,在生成匹配条件之后,可以对匹配条件进行条件测试得到测试结果,若测试结果的值符合预设值,则确定匹配条件合格;若测试结果不符合预设值,获取测试结果中的测试过程数据,确定不合格的匹配条件,修正或删除不合格的匹配条件。
具体地,可以输入测试指示信息对匹配条件进行测试。如图7所示,待处理文件为音乐类_歌曲,可以输入类型ID、匹配属性和测试指示信息,然后通过点击归一化按钮启动对匹配条件的测试,得到测试结果的值(如,归一化后值“忘情水”),在该实施例中测试结果符合预设值,确定该匹配条件合格。其中,进行去噪处理的过程还可以称之为归一化处理的过程,测试结果的值还可以称为归一化后的值。
表3
如图7所示的实施例,还可以通过点击“重新加载匹配条件”对其他的匹配条件进行条件测试。如表3所示的测试过程数据,其中,归一化前的值即为进行当前的信息处理时的第一描述信息。
其中的伴唱歌手即feat。
具体地,在对匹配条件进行条件测试得到的测试结果,不仅可以显示测试结果的值,还可以显示测试的测试过程数据,如图4所示的,每行为一条过程数据。
通过上述的测试过程数据可以检查每条过程数据中的归一化后的值是否符合预设归一化值,来确定该过程数据中的匹配条件是否为合格的匹配条件。
根据本发明的上述实施例,在对数据库中的待处理文件的第一描述信息进行处理之后,处理方法还可以包括:对处理结果进行查询。具体地,可以根据数据库中的待处理文件的地址(如URL地址)查询音乐数据的处理结果,该处理结果可以包括待处理文件的所有属性的属性描述信息。
进一步地,在显示该处理结果时,可以突出显示在处理过程中发生变化的属性的属性描述信息。其中,突出显示可以为使用不同颜色显示、加粗显示以及加标注显示等。
例如,可以在选定类型ID之后,输入音乐文件的URL地址,查询处理结果。如表4所示的处理结果的属性名可以包括:版本、歌手、名称、权威度、热度、下载链接以及语言。
其中,在表4中的下载链接未表述完整,表4仅是对该实施例的处理结果(如去噪结果)作示例性说明,不对本发明作出限定。其中,表4中加粗的属性值“【刘德华‖1】”、“【你是我一生中最大的骄傲‖1】”以及“【国语‖1】”即为通过去噪处理突出显示的发生变化的属性描述信息。
表4
在获取处理结果之后,更新数据库中的待处理文件的第一描述信息,则可以获取准确地第一描述信息,用户再次查询待处理文件时,则可以获取准确地第一描述信息,如用户使用播放器搜索某个音乐数据,获取得属性数据将很准确。
本发明的上述实施例中均以音乐文件为例进行了详细的描述,表5和表6以图片文件为例详细介绍本发明实施例。表5为待处理文件的属性和属性描述信息对应表,若名称为第一属性,第一描述信息为123.jpeg-576k,则位置、占用空间、文件类型均为第二属性,对第一属性的第一描述信息进行处理得到表6,如表6所示,表5中第一属性的第一描述信息中的目标描述信息(576k和jpeg)删除,并使用该删除掉的目标描述信息设置第二属性的第二描述信息。
表5
属性 | 属性描述信息 |
名称 | 123.jpeg-576k |
位置 | C:\\桌面\abc |
占用空间 | |
文件类型 |
表6
属性 | 属性描述信息 |
名称 | 123 |
位置 | C:\\桌面\abc |
占用空间 | 576k |
文件类型 | jpeg |
通过上述实施例,无需人工去噪,在第一描述信息中包含目标描述信息时,自动地将目标描述信息从第一描述信息中删除,解决了现有技术中对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题,实现了自动去除第一描述信息中不符合待处理文件的第一属性的信息,信息处理效率高的效果;在去除目标描述信息之后,使用目标描述信息设置第二属性的第二描述信息,从而可以进一步地完善该待处理文件的属性信息。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述文件属性信息的处理方法的文件属性信息的处理装置,如图8所示,该装置可以包括:第一获取模块10、第二获取模块30、比较模块50、删除模块70以及设置模块90。
其中,第一获取模块10用于获取待处理文件中属于第一属性的第一描述信息;第二获取模块30用于获取用于对第一属性进行匹配的匹配条件,其中,匹配条件用于指示目标描述信息和目标描述信息所属的第二属性;比较模块50用于比较第一描述信息与目标描述信息;删除模块70用于若第一描述信息包含目标描述信息,则将目标描述信息从第一描述信息中删除;以及设置模块90用于将目标描述信息设置为待处理文件中属于第二属性的第二描述信息。
采用本发明实施例,可以获取待处理文件的第一属性的第一描述信息和对第一属性进行匹配的匹配条件,比较第一描述信息与匹配条件中的目标描述信息,然后可以根据比较结果删除目标描述信息,并将目标描述信息设置为目标属性信息所属的第二属性的第二描述信息。通过上述实施例,无需人工去噪,在第一描述信息中包含目标描述信息时,自动地将目标描述信息从第一描述信息中删除,解决了现有技术中对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题,实现了自动去除第一描述信息中不符合待处理文件的第一属性的信息,信息处理效率高的效果。
通过上述实施例,还可以在去除目标描述信息之后,使用目标描述信息设置第二属性的第二描述信息,从而可以进一步地完善该待处理文件的属性信息。
其中,上述的第一描述信息用于描述文件的第一属性,每个匹配条件也具有该匹配条件的匹配属性。如,第一属性可以为文件的名称属性、数据容量属性、或存储位置属性等;匹配条件的匹配属性也可以为:名称属性、数据容量属性、或存储位置属性。
在上述实施例中,上述的比较模块可以通过如下方法实现其功能:若第一描述信息的第一属性与匹配条件的匹配属性相同,则确定该匹配条件为用于对第一属性进行匹配的条件。如,第一属性为待处理文件的名称属性,若匹配条件1的匹配属性也为名称属性,则确定匹配条件1为用于对第一属性进行匹配的条件。
具体地,上述的待处理文件可以为音乐文件、或图片文件等,如第一属性可以为音乐文件的名称属性、歌手属性、或版本属性等。具体地,第一属性为名称属性,第一描述信息为“刘德华-忘情水(live in beijing)”可以为描述音乐文件的名称属性的信息。
在本发明实施例中的信息处理过程中,进行字符串比对时可以使用哈希映照(即hash-map)的多模式匹配方法实现,使用该种方法进行信息的比较,可以加快处理的速度。
根据本发明的上述实施例,为了使得信息处理的结果更加地准确,可以将待处理文件的第一属性的第一描述信息逐个与多个匹配条件中的目标描述信息做匹配处理。
需要进一步说明的是,在设置模块设置第二属性的第二描述信息的过程中,若获取到的待处理文件不具有第二属性的情况下,为待处理文件增添第二属性,并设置第二属性的第二描述信息;若待处理文件具有第二属性,则直接使用目标描述信息设置第二属性的第二描述信息。
在本发明的上述实施例中,删除模块可以包括如图9所示的检测模块71,用于检测第一描述信息包含的目标描述信息是否具有标识符;第一删除子模块73,用于若第一描述信息包含的目标描述信息具有标识符,则将目标描述信息从第一描述信息中删除。
具体地,检测模块71可以包括:第一获取子模块711,用于获取标识符集合,其中,标识符集合中保存有多个预设的标识符;检测子模块713,用于检测第一描述信息包含的目标描述信息前后存在的字符是否存在于标识符集合;确定模块715,用于若第一描述信息包含的目标描述信息前后存在的字符存在于标识符集合,则检测出第一描述信息包含的目标描述信息具有标识符。
在第一描述信息中大多依赖标识符分割不同的描述信息,通过这些标识符得到标识符集合,可以将标识符集合作为配置文件。
需要进一步说明的是,第一删除子模块可以包括:第二删除子模块,用于将目标描述信息和/或目标描述信息的标识符从第一描述信息中删除。
在识别出第一描述信息中的目标描述信息之后,可以将目标描述信息从第一描述信息中删除,也可以将目标信息和目标描述信息的标识符一并从第一描述信息中删除。
在上述实施例中,若第一描述信息中包括目标描述信息,并且第一描述信息中包含的目标描述信息包括标识符(如分隔符),才将从第一描述信息中删除目标描述信息,这样可以防止对第一描述信息的误伤,保证信息处理的准确性。
如,待处理文件为音乐文件,第一属性为名称属性,第一描述信息为《如果我是陈奕迅》,在使用的匹配条件的目标描述信息为“陈奕迅”时,比较发现第一描述信息中包含目标描述信息,但是进一步地处理发现第一描述信息包含的目标描述信息没有标识符,则不执行从第一描述信息中删除目标描述信息的操作。如果执行了从第一描述信息中删除目标描述信息的操作,则造成了对第一描述信息的误伤。通过上述实施例,可以保证删除目标描述信息的准确性。
上述的多个匹配条件可以包括两种格式的条件:有限集合匹配条件和前后缀匹配条件。
其中,有限集合匹配条件的格式和前后缀匹配条件参照表1和表2,在此不再赘述。
具体地,若当前的匹配条件为有限集合匹配条件,该有限集合匹配条件的匹配属性(即上述的属性名)对应的第一属性的第一描述信息中包含目标描述信息及其标识符,则将目标描述信息从第一描述信息中删除,并将目标描述信息设置为第二属性的第二描述信息。
又若当前进行匹配处理的匹配条件为前后缀匹配条件,若第一描述信息中包含目标描述信息,且目标描述信息具有标识符,则把目标描述信息去除,并将目标描述信息设置为第二属性的第二描述信息。
根据本发明的上述实施例,处理装置还可以包括:判断模块20,用于在将目标描述信息从第一描述信息中删除之后,判断删除目标描述信息之后的第一描述信息是否为空字符串;回退模块40,用于若去除目标描述信息之后的第一描述信息为空字符串,则回退将目标描述信息从第一描述信息中删除的处理。
具体地,若描述第一属性的第一描述信息与描述第二属性的第二描述信息相同,如描述音乐文件的名称属性的第一描述信息为“刘德华-刘德华”(对该歌曲名,同时也是一位歌手名),使用匹配属性为“名称属性”的匹配条件,则可能将原串(即上述的第一描述信息)去除成空(即“”)。对这种无法确定的目标描述信息,可以将删除的结果进行回退。执行回退操作时,如果直接将它回退成原始数据,则有一些确定的噪音会无法处理掉,因此可以将数据在优先级内进行回退,即回退当前的将目标描述信息从第一描述信息中删除的操作。
可选地,设置模块可以包括如图10所示的第一判断子模块91,用于判断目标描述信息所属的第二属性是否存在原始描述信息;设置子模块93,用于若目标描述信息所属的第二属性不存在原始描述信息,则将目标描述信息设置为第二属性的第二描述信息;第二判断子模块95,用于若目标描述信息对应的第二属性存在原始描述信息,则判断第二属性的原始描述信息是否为符合豁免保护的信息;替换模块97,用于若第二属性的原始描述信息为符合豁免保护的信息,则使用目标描述信息替换原始描述信息。
设置模块还可以包括:保留模块99,用于若第二属性的原始描述信息为不符合豁免保护的信息,则保留第二属性的原始描述信息。
具体地,若待处理文件的原始数据中第二属性的原始描述信息不为符合豁免保护的值,若确定第一描述信息中包含目标描述信息,可以在第二属性的第二描述信息中追加描述信息。
进一步地,对于已经存在原始描述信息的第二属性,则判断该原始描述信息是否为豁免保护的值,若是,则使用目标描述信息替换原始描述信息;若否,则保留第二属性的原始描述信息。
其中,豁免保护的值保存在一个预设的豁免保护值的集合中,如群星、网络歌手。
上述实施例中,对特定的第二属性,当在原始数据中已存在属性值时,会进行保护,使命中的规则不生效。而对一些泛指的属性值,如群星、网络歌手等,进行豁免保护。通过该实施例,进一步保证了补充音乐数据的属性的准确性。
需要进一步说明的是,处理装置还可以包括:生成模块,用于使用下述生成子模块中至少之一生成多个匹配条件:第一生成子模块,用于从预先获取的知识库中导出文件的一个或多个属性的属性描述信息,按照预设格式将属性描述信息生成多个有限集合匹配条件;第二生成子模块,用于使用标识符分割知识库中的属性描述信息得到多个属性子信息,统计各个属性子信息,得到各个属性子信息的统计频率,将超过预设统计频率的属性子信息进行过滤得到过滤后的属性子信息,将过滤后的属性子信息按照预设生成格式生成多个有限集合匹配条件;第三生成子模块,用于按照预设输入格式输入前后缀匹配条件,其中,匹配条件包括有限集合匹配条件和前后缀匹配条件。
具体到音乐文件中,可以将音乐知识库中所有已经存在的歌手和版本(即上述的一个或多个属性及其属性描述信息)导出,作为有限集合匹配条件;还可以用标识符(如分隔符)将音乐知识库中所有的属性描述信息(如歌曲名称)分割得到属性子信息(如歌曲名称片段),并统计歌曲名称片段,然后将出现频率高的歌曲名称片段作为可疑的目标描述信息集合,进行审核和添加,生成有限集合匹配条件;还可以按照预设格式输入前后缀匹配条件。
根据本发明的上述实施例,处理装置还可以包括测试模块,该测试模块用于在生成匹配条件之后,可以对匹配条件进行条件测试得到测试结果,若测试结果的值符合预设值,则确定匹配条件合格;若测试结果不符合预设值,获取测试结果中的测试过程数据,确定不合格的匹配条件,修正或删除不合格的匹配条件。
具体地,可以输入测试指示信息对匹配条件进行测试。如图7所示,待处理文件为音乐类_歌曲,可以输入类型ID、匹配属性和测试指示信息,然后通过点击归一化按钮启动对匹配条件的测试,得到测试结果的值(如,归一化后值“忘情水”),在该实施例中测试结果符合预设值,确定该匹配条件合格。其中,进行去噪处理的过程还可以称之为归一化处理的过程,测试结果的值还可以称为归一化后的值。
在本发明的上述实施例中,处理装置还可以包括:查询模块,用于在对数据库中的待处理文件的第一描述信息进行处理之后,对处理结果进行查询。具体地,可以根据数据库中的待处理文件的地址(如URL地址)查询音乐数据的处理结果,该处理结果可以包括待处理文件的所有属性的属性描述信息。
进一步地,在显示该处理结果时,可以突出显示在处理过程中发生变化的属性的属性描述信息。其中,突出显示可以为使用不同颜色显示、加粗显示以及加标注显示等。
在获取处理结果之后,更新数据库中的待处理文件的第一描述信息,则可以获取准确地第一描述信息,用户再次查询待处理文件时,则可以获取准确地第一描述信息,如用户使用播放器搜索某个音乐数据,获取得属性数据将很准确。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
实施例3
本发明的实施例还提供了一种终端或服务器。可选地,在本实施例中,上述终端可以执行文件属性信息的处理方法,上述实施例中的文件属性信息的处理装置可以设置在该终端或服务器上。
图11是根据本发明实施例的一种终端的结构框图。如图11所示,该终端200可以包括:一个或多个(图中仅示出一个)处理器201、存储器203、传输装置205以及输入输出设备207。
其中,存储器203可用于存储软件程序以及模块,如本发明实施例中的文件属性信息的处理方法和装置对应的程序指令/模块,处理器201通过运行存储在存储器203内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文件属性信息的处理方法。存储器203可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器203可进一步包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至终端200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置205用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置205包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置205为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器203用于存储应用程序。
处理器201可以通过传输装置205调用存储器203存储的应用程序,以执行下述步骤:获取待处理文件中属于第一属性的第一描述信息;获取用于对第一属性进行匹配的匹配条件,其中,匹配条件用于指示目标描述信息和目标描述信息所属的第二属性;比较第一描述信息与目标描述信息;若第一描述信息包含目标描述信息,则将目标描述信息从第一描述信息中删除;将目标描述信息设置为待处理文件中属于第二属性的第二描述信息。
采用本发明实施例,可以获取待处理文件的第一属性的第一描述信息和对第一属性进行匹配的匹配条件,比较第一描述信息与匹配条件中的目标描述信息,然后可以根据比较结果删除目标描述信息,并将目标描述信息设置为目标属性信息所属的第二属性的第二描述信息。通过上述实施例,无需人工去噪,在第一描述信息中包含目标描述信息时,自动地将目标描述信息从第一描述信息中删除,解决了现有技术中对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题,实现了自动去除第一描述信息中不符合待处理文件的第一属性的信息,信息处理效率高的效果。
通过上述实施例,还可以在去除目标描述信息之后,使用目标描述信息设置第二属性的第二描述信息,从而可以进一步地完善该待处理文件的属性信息。
其中,上述的第一描述信息用于描述文件的第一属性,每个匹配条件也具有该匹配条件的匹配属性。如,第一属性可以为文件的名称属性、数据容量属性、或存储位置属性等;匹配条件的匹配属性也可以为:名称属性、数据容量属性、或存储位置属性。
在上述实施例中,执行比较第一描述信息和目标描述信息可以通过如下方法实现:若第一描述信息的第一属性与匹配条件的匹配属性相同,则确定该匹配条件为用于对第一属性进行匹配的条件。如,第一属性为待处理文件的名称属性,若匹配条件1的匹配属性也为名称属性,则确定匹配条件1为用于对第一属性进行匹配的条件。
具体地,上述的待处理文件可以为音乐文件、或图片文件等,如第一属性可以为音乐文件的名称属性、歌手属性、或版本属性等。具体地,第一属性为名称属性,第一描述信息为“刘德华-忘情水(live in beijing)”可以为描述音乐文件的名称属性的信息。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
需要进一步说明的是,寄存区域为系统的内存和系统处理器中的寄存器。
本领域普通技术人员可以理解,图11所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如,终端200还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图11所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述的存储介质存储用于执行文件属性信息的处理方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于实施例所示的终端上。
可选地,在本实施例中,上述存储介质可以位于网络中的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
步骤S2:获取待处理文件中属于第一属性的第一描述信息。
步骤S4:获取用于对第一属性进行匹配的匹配条件,其中,匹配条件用于指示目标描述信息和目标描述信息所属的第二属性。
步骤S6:比较第一描述信息与目标描述信息。
步骤S8:若第一描述信息包含目标描述信息,则将目标描述信息从第一描述信息中删除。
步骤S10:将目标描述信息设置为待处理文件中属于第二属性的第二描述信息。
采用本发明实施例,可以获取待处理文件的第一属性的第一描述信息和对第一属性进行匹配的匹配条件,比较第一描述信息与匹配条件中的目标描述信息,然后可以根据比较结果删除目标描述信息,并将目标描述信息设置为目标属性信息所属的第二属性的第二描述信息。通过上述实施例,无需人工去噪,在第一描述信息中包含目标描述信息时,自动地将目标描述信息从第一描述信息中删除,解决了现有技术中对音乐属性信息的人工去除不符合音乐属性的描述信息的效率低的问题,实现了自动去除第一描述信息中不符合待处理文件的第一属性的信息,信息处理效率高的效果。
通过上述实施例,还可以在去除目标描述信息之后,使用目标描述信息设置第二属性的第二描述信息,从而可以进一步地完善该待处理文件的属性信息。
其中,上述的第一描述信息用于描述文件的第一属性,每个匹配条件也具有该匹配条件的匹配属性。如,第一属性可以为文件的名称属性、数据容量属性、或存储位置属性等;匹配条件的匹配属性也可以为:名称属性、数据容量属性、或存储位置属性。
在上述实施例中,执行比较第一描述信息和目标描述信息可以通过如下方法实现:若第一描述信息的第一属性与匹配条件的匹配属性相同,则确定该匹配条件为用于对第一属性进行匹配的条件。如,第一属性为待处理文件的名称属性,若匹配条件1的匹配属性也为名称属性,则确定匹配条件1为用于对第一属性进行匹配的条件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种文件属性信息的处理方法,其特征在于,包括:
获取待处理文件中属于第一属性的第一描述信息;
获取用于对所述第一属性进行匹配的匹配条件,其中,所述匹配条件用于指示目标描述信息和所述目标描述信息所属的第二属性;
比较所述第一描述信息与所述目标描述信息;
若所述第一描述信息包含所述目标描述信息,则将所述目标描述信息从所述第一描述信息中删除,其中,所述将所述目标描述信息从所述第一描述信息中删除包括:检测所述第一描述信息包含的所述目标描述信息是否具有标识符;若所述第一描述信息包含的所述目标描述信息具有所述标识符,则将所述目标描述信息从所述第一描述信息中删除;以及
使用所述目标描述信息设置所述待处理文件中属于所述第二属性的第二描述信息。
2.根据权利要求1所述的处理方法,其特征在于,检测所述第一描述信息包含的所述目标描述信息是否具有标识符包括:
获取标识符集合,其中,所述标识符集合中保存有多个预设的所述标识符;
检测所述第一描述信息包含的所述目标描述信息前后存在的字符是否存在于所述标识符集合;
若所述第一描述信息包含的所述目标描述信息前后存在的字符存在于所述标识符集合,则检测出所述第一描述信息包含的所述目标描述信息具有所述标识符。
3.根据权利要求1所述的处理方法,其特征在于,将所述目标描述信息从所述第一描述信息中删除包括:
将所述目标描述信息和/或所述目标描述信息的标识符从所述第一描述信息中删除。
4.根据权利要求1所述的处理方法,其特征在于,在将所述目标描述信息从所述第一描述信息中删除之后,所述处理方法还包括:
判断删除所述目标描述信息之后的第一描述信息是否为空字符串;
若去除所述目标描述信息之后的第一描述信息为所述空字符串,则回退所述将所述目标描述信息从所述第一描述信息中删除的处理。
5.根据权利要求1所述的处理方法,其特征在于,使用所述目标描述信息设置所述待处理文件中属于所述第二属性的第二描述信息包括:
判断所述目标描述信息所属的所述第二属性是否存在原始描述信息;
若所述目标描述信息所属的所述第二属性不存在所述原始描述信息,则使用所述目标描述信息设置所述第二属性的所述第二描述信息;
若所述目标描述信息对应的所述第二属性存在所述原始描述信息,则判断所述第二属性的所述原始描述信息是否为符合豁免保护的信息;
若所述第二属性的所述原始描述信息为所述符合豁免保护的信息,则使用所述目标描述信息替换所述原始描述信息。
6.根据权利要求1至5中任意一项所述的处理方法,其特征在于,在获取用于对所述第一属性进行匹配的匹配条件之前,所述处理方法还包括:按照下述生成方法中至少之一生成多个所述匹配条件:
从预先获取的知识库中导出文件的一个或多个属性的属性描述信息,按照预设格式将所述属性描述信息生成多个有限集合匹配条件;
使用标识符分割所述知识库中的属性描述信息得到多个属性子信息,统计各个所述属性子信息,得到各个所述属性子信息的统计频率,将超过预设统计频率的属性子信息进行过滤得到过滤后的属性子信息,将所述过滤后的属性子信息按照所述预设格式生成多个所述有限集合匹配条件;
按照预设输入格式输入前后缀匹配条件,
其中,所述匹配条件包括所述有限集合匹配条件和所述前后缀匹配条件。
7.一种文件属性信息的处理装置,其特征在于,包括:
第一获取模块,用于获取待处理文件中属于第一属性的第一描述信息;
第二获取模块,用于获取用于对所述第一属性进行匹配的匹配条件,其中,所述匹配条件用于指示目标描述信息和所述目标描述信息所属的第二属性;
比较模块,用于比较所述第一描述信息与所述目标描述信息;
删除模块,用于若所述第一描述信息包含所述目标描述信息,则将所述目标描述信息从所述第一描述信息中删除;以及
设置模块,用于使用所述目标描述信息设置所述待处理文件中属于所述第二属性的第二描述信息;
其中,所述删除模块包括:检测模块,用于检测所述第一描述信息包含的所述目标描述信息是否具有标识符;第一删除子模块,用于若所述第一描述信息包含的所述目标描述信息具有所述标识符,则将所述目标描述信息从所述第一描述信息中删除。
8.根据权利要求7所述的处理装置,其特征在于,所述检测模块包括:
第一获取子模块,用于获取标识符集合,其中,所述标识符集合中保存有多个预设的所述标识符;
检测子模块,用于检测所述第一描述信息包含的所述目标描述信息前后存在的字符是否存在于所述标识符集合;
确定模块,用于若所述第一描述信息包含的所述目标描述信息前后存在的字符存在于所述标识符集合,则检测出所述第一描述信息包含的所述目标描述信息具有所述标识符。
9.根据权利要求7所述的处理装置,其特征在于,所述第一删除子模块包括:
第二删除子模块,用于将所述目标描述信息和/或所述目标描述信息的标识符从所述第一描述信息中删除。
10.根据权利要求7所述的处理装置,其特征在于,所述处理装置还包括:
判断模块,用于在将所述目标描述信息从所述第一描述信息中删除之后,判断删除所述目标描述信息之后的第一描述信息是否为空字符串;
回退模块,用于若去除所述目标描述信息之后的第一描述信息为所述空字符串,则回退所述将所述目标描述信息从所述第一描述信息中删除的处理。
11.根据权利要求7所述的处理装置,其特征在于,所述设置模块包括:
第一判断子模块,用于判断所述目标描述信息所属的所述第二属性是否存在原始描述信息;
设置子模块,用于若所述目标描述信息所属的所述第二属性不存在所述原始描述信息,则使用所述目标描述信息设置所述第二属性的所述第二描述信息;
第二判断子模块,用于若所述目标描述信息对应的所述第二属性存在所述原始描述信息,则判断所述第二属性的所述原始描述信息是否为符合豁免保护的信息;
替换模块,用于若所述第二属性的所述原始描述信息为所述符合豁免保护的信息,则使用所述目标描述信息替换所述原始描述信息。
12.根据权利要求7至11中任意一项所述的处理装置,其特征在于,所述处理装置还包括:生成模块,用于使用下述生成子模块中至少之一生成多个所述匹配条件:
第一生成子模块,用于从预先获取的知识库中导出文件的一个或多个属性的属性描述信息,按照预设格式将所述属性描述信息生成多个有限集合匹配条件;
第二生成子模块,用于使用标识符分割所述知识库中的属性描述信息得到多个属性子信息,统计各个所述属性子信息,得到各个所述属性子信息的统计频率,将超过预设统计频率的属性子信息进行过滤得到过滤后的属性子信息,将所述过滤后的属性子信息按照所述预设格式生成多个所述有限集合匹配条件;
第三生成子模块,用于按照预设输入格式输入前后缀匹配条件,
其中,所述匹配条件包括所述有限集合匹配条件和所述前后缀匹配条件。
13.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410642415.9A CN105653540B (zh) | 2014-11-13 | 2014-11-13 | 文件属性信息的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410642415.9A CN105653540B (zh) | 2014-11-13 | 2014-11-13 | 文件属性信息的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105653540A CN105653540A (zh) | 2016-06-08 |
CN105653540B true CN105653540B (zh) | 2019-12-17 |
Family
ID=56478798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410642415.9A Active CN105653540B (zh) | 2014-11-13 | 2014-11-13 | 文件属性信息的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105653540B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018094689A1 (zh) * | 2016-11-25 | 2018-05-31 | 深圳前海达闼云端智能科技有限公司 | 一种改进浏览体验的方法、装置和设备 |
CN106874442B (zh) * | 2017-02-08 | 2023-08-18 | 三和智控(北京)系统集成有限公司 | 通过数据名称命名实现数据自携带特征信息的方法及装置 |
CN109271569B (zh) * | 2018-09-30 | 2021-10-22 | 联想(北京)有限公司 | 输出方法、装置、系统和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737109A (zh) * | 2011-04-12 | 2012-10-17 | 尼尔森(美国)有限公司 | 生成媒体内容的标签的方法和装置 |
CN103544138A (zh) * | 2012-07-11 | 2014-01-29 | 阿里巴巴集团控股有限公司 | 识别异常输入信息的方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8433619B2 (en) * | 2007-08-31 | 2013-04-30 | Ebay Inc. | System and method for product review information generation and management |
-
2014
- 2014-11-13 CN CN201410642415.9A patent/CN105653540B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737109A (zh) * | 2011-04-12 | 2012-10-17 | 尼尔森(美国)有限公司 | 生成媒体内容的标签的方法和装置 |
CN103544138A (zh) * | 2012-07-11 | 2014-01-29 | 阿里巴巴集团控股有限公司 | 识别异常输入信息的方法与装置 |
Non-Patent Citations (1)
Title |
---|
guessit-io/guessit at 0.9.4;Toilal等;《https://github.com/guessit-io/guessit/tree/0.9.4》;20141110;第1-2页及第10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105653540A (zh) | 2016-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5575902B2 (ja) | クエリのセマンティックパターンに基づく情報検索 | |
CN105653537B (zh) | 一种数据库应用系统的分页查询方法和装置 | |
US20160188723A1 (en) | Cloud website recommendation method and system based on terminal access statistics, and related device | |
CN108228799B (zh) | 对象索引信息的存储方法及装置 | |
CN108304426B (zh) | 标识的获取方法及装置 | |
CN107247722B (zh) | 一种文件扫描方法、装置及智能终端 | |
CN110647562B (zh) | 一种数据查询方法和装置、电子设备、存储介质 | |
CN107239701B (zh) | 识别恶意网站的方法及装置 | |
CN105653540B (zh) | 文件属性信息的处理方法和装置 | |
CN112307297B (zh) | 一种基于优先级规则的用户标识统一方法及系统 | |
CN109582155B (zh) | 输入联想词的推荐方法、装置、存储介质及电子设备 | |
CN106227893A (zh) | 一种文件类型获取方法及装置 | |
CN104462396A (zh) | 字符串处理方法和装置 | |
CN112115153A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN107193870B (zh) | 网页内容的提取方法和系统 | |
CN107748772B (zh) | 一种商标识别方法及装置 | |
CN110266598B (zh) | 一种路由信息处理方法、装置、设备及可读存储介质 | |
CN106933907B (zh) | 数据表扩展指标的处理方法及装置 | |
CN106933903B (zh) | 应用于分布式存储的存储方法及装置 | |
CN112559913B (zh) | 一种数据处理方法、装置、计算设备及可读存储介质 | |
CN106844406B (zh) | 检索方法和检索装置 | |
CN104408188B (zh) | 数据处理方法和装置 | |
CN110058995B (zh) | 一种可避免数据库类型的干扰的数据库测试方法以及系统 | |
CN108376054B (zh) | 一种对标识数据进行索引的处理方法及装置 | |
CN107657026B (zh) | 用户界面单元测试方法、装置、可读存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20160608 Assignee: Ocean interactive (Beijing) Information Technology Co., Ltd. Assignor: Shenzhen Tencent Computer System Co., Ltd. Contract record no.: 2016990000421 Denomination of invention: Method and device for processing file attribute information License type: Common License Record date: 20161009 |
|
LICC | Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |