CN103383697B - 确定对象标题的对象表征信息的方法与设备 - Google Patents

确定对象标题的对象表征信息的方法与设备 Download PDF

Info

Publication number
CN103383697B
CN103383697B CN201310260162.4A CN201310260162A CN103383697B CN 103383697 B CN103383697 B CN 103383697B CN 201310260162 A CN201310260162 A CN 201310260162A CN 103383697 B CN103383697 B CN 103383697B
Authority
CN
China
Prior art keywords
information
title
titles
determines
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310260162.4A
Other languages
English (en)
Other versions
CN103383697A (zh
Inventor
徐兴军
潘昕婷
李成洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310260162.4A priority Critical patent/CN103383697B/zh
Publication of CN103383697A publication Critical patent/CN103383697A/zh
Application granted granted Critical
Publication of CN103383697B publication Critical patent/CN103383697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明的目的是提供一种确定对象标题关于对应目标对象的对象表征信息的方法与设备,具体地,获取多个训练标题;根据多个训练标题中的标号模式信息,建立或更新对应的标号模式词典;获取待处理的目标对象的对象标题;根据标号模式词典,对对象标题进行过滤处理;根据过滤处理后的对象标题中的标题词语的词语相关信息,确定对象标题关于目标对象的对象表征信息。其中,与现有技术相比,本发明通过根据标号模式词典对目标对象的对象标题进行过滤处理,以根据过滤处理后的对象标题中的标题词语的词语相关信息,确定对象标题关于所述目标对象的对象表征信息,实现了有效识别低质量的对象标题,提高了用户获取信息的效率,提升了用户的信息分享体验。

Description

确定对象标题的对象表征信息的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于确定对象标题的对象表征信息的技术。
背景技术
当前,随着互联网技术的发展及互联网应用对用户学习、工作与生活的渗透,人们越来越多地通过网络获取信息,并将其拥有的信息通过网络进行分享,如在百度文库、豆丁、空间等网络平台上传其拥有的资料内容。然而,用户上传的目标对象如文档、视频、图片等的对象标题质量参差不齐,低质量的对象标题通常不能反映对应目标对象内容的真实信息,现有技术无法有效地判断低质量的对象标题,相应地,也无法对低质量的对象标题给出优化指示信息,以提示用户对对象标题进行改进,不仅降低了用户获取信息的效率,也影响了用户的信息分享体验。
发明内容
本发明的目的是提供一种用于确定对象标题关于对应目标对象的对象表征信息的方法与设备。
根据本发明的一个方面,提供了一种用于确定对象标题关于对应目标对象的对象表征信息的方法,其中,该方法包括以下步骤:
x获取多个训练标题;
y根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息;
其中,该方法还包括:
a获取待处理的目标对象的对象标题;
b根据所述标号模式词典,对所述对象标题进行过滤处理;
c根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。
根据本发明的另一方面,还提供了一种用于确定对象标题关于对应目标对象的对象表征信息的信息确定设备,其中,该信息确定设备包括:
训练获取装置,用于获取多个训练标题;
词典建立装置,用于根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息;
其中,该信息确定设备还包括:
标题获取装置,用于获取待处理的目标对象的对象标题;
过滤处理装置,用于根据所述标号模式词典,对所述对象标题进行过滤处理;
表征确定装置,用于根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。
根据本发明的再一个方面,还提供了一种计算机设备,包括如前述根据本发明另一个方面的用于确定对象标题关于对应目标对象的对象表征信息的信息确定设备。
根据本发明的又一个方面,还提供了一种浏览器,包括如前述根据本发明另一个方面的用于确定对象标题关于对应目标对象的对象表征信息的信息确定设备。
根据本发明的又一个方面,还提供了一种浏览器插件,包括如前述根据本发明另一个方面的用于确定对象标题关于对应目标对象的对象表征信息的信息确定设备。
与现有技术相比,本发明通过根据建立或更新的标号模式词典,对获取的目标对象的对象标题进行过滤处理,以根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息,实现了有效识别低质量的对象标题,不仅提高了信息分享的价值及用户获取信息的效率,也提升了用户的信息分享体验。而且,当所述对象表征信息低于预定表征阈值信息时,本发明还可确定关于所述对象标题的优化指示信息,以将所述优化指示信息提供给所述目标对象所对应的用户,从而进一步地提高了信息分享的价值及用户获取信息的效率,提升了用户的信息分享体验。此外,当所述目标对象的对象语言类型信息与所述对象标题的标题语言类型信息不一致时,本发明还可将所述对象标题在所述对象语言类型信息下对应的参考标题信息包含于所述优化指示信息,从而更进一步地提高了信息分享的价值及用户获取信息的效率,提升了用户的信息分享体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于确定对象标题关于对应目标对象的对象表征信息的设备示意图;
图2示出根据本发明一个优选实施例的用于确定对象标题关于对应目标对象的对象表征信息的设备示意图;
图3示出根据本发明另一个方面的用于确定对象标题关于对应目标对象的对象表征信息的方法流程图;
图4示出根据本发明一个优选实施例的用于确定对象标题关于对应目标对象的对象表征信息的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于确定对象标题关于对应目标对象的对象表征信息的信息确定设备1,其中,信息确定设备1包括训练获取装置11、词典建立装置12、标题获取装置13、过滤处理装置14和表征确定装置15。具体地,训练获取装置11获取多个训练标题;词典建立装置12根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息;标题获取装置13获取待处理的目标对象的对象标题;过滤处理装置14根据所述标号模式词典,对所述对象标题进行过滤处理;表征确定装置15根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。在此,信息确定设备1包括但不限于如:1)不仅用于为其登录用户提供信息存储空间,以实现该用户上传以分享其目标对象如文档、视频、图片;还可用于为用户提供在线阅读、下载、交换其他用户分享的目标对象的网络平台或终端平台,如百度文库、豆丁、新浪爱问、道客巴巴等,其中,所述终端平台包括但不限于移动终端、PC等用户设备;2)用于实现为其登录用户提供信息访问、信息共享、信息发布或同步的网络平台或终端平台,如社交网站、论坛、空间、博客、微博等第三方网站。在此,信息确定设备1包括但不限于用户网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络确定设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述信息确定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,训练获取装置11通过诸如浏览器、搜索引擎等第三方设备提供的应用程序接口(API),获取多个训练标题;或者,首先通过搜索引擎、浏览器等第三方设备提供的获取用户上传日志的应用程序接口(API),获取多个用户上传日志;然后,从该多个用户上传日志中获取多个训练标题。例如,训练获取装置11通过浏览器提供的提供获取上传日志的应用程序接口(API),获取到多个用户上传日志,如在某段时间内,用户上传了哪些文档、视频、图片等;然后,训练获取装置11从该多个用户上传日志中获得多个训练标题以下训练标题I至VIII等等如:
I“第6章 串行接口2010春”
II“基于页面分块的网页排序算法”
III“第8章 应用层”
IV“5-5_最小费用最大流问题-xfj”
V“3-6质点的角动量和角动量定理-1”
VI“2011-12地结”
VII“实验七 网络嗅探”
VIII“面向移动设备的WEB页面分块算法”
............
本领域技术人员应能理解上述获取多个训练标题的方式仅为举例,其他现有的或今后可能出现的获取多个训练标题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
词典建立装置12根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息。具体地,词典建立装置12可首选对所述多个训练标题进行归一化处理;然后,对归一化处理后的所述多个训练标题中的标号模式信息进行去标号处理,以确定所述多个训练标题所对应的一个或多个标号模式;接着,再对所述一个或多个标号模式进行统计处理,获得所述标号模式词典。在此,所述归一化处理包括但不限于以下至少任一项:1)对所述训练标题中的字母大小写进行归一化处理,即将所述训练标题中的字母大小写进行统一;2)对所述训练标题中的字符进行全角/半角归一化处理。在此,所述标号模式信息表示训练标题中存在的标识训练标题所属的章节、标识训练标题中包含的时间等不表征实质意义的内容部分,如“第6章”、“2.1节”、“实验七”、“3-6”、“2011-12”等。本领域技术人员应能理解上述标号模式信息和归一化处理方式仅为举例,其他现有的或今后可能出现的标号模式信息或归一化处理方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,接上例,词典建立装置12对训练获取装置11获取到的训练标题I至VIII等进行归一化处理后,对归一化处理后的多个训练标题I至VIII等中的标号模式信息进行去标号处理,如将数字标号替换成字符“_”,以确定所述多个训练标题所对应的一个或多个标号模式,如得到训练标题II与VIII中没有标号模式,而训练标题I、III至VII中分别包含标号模式“第_章”、第_章”、“_-_”、“_-_”、“____-__”、“实验_”;接着,词典建立装置12再对所述一个或多个标号模式进行统计处理,将标号模式及其对应的频次信息存入标号模式词典中,如得到如以下表1所示的测标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息,并可按一定方式更新该标号模式词典,如按照预定周期、定时更新、立即更新所述标号模式词典:
标号模式 频次信息
第_章 449291
____-__-__ 144205
____-__ 49938
实验_ 90522
第__章 80418
(_) 57856
表1
优选地,词典建立装置12还可首先对对训练获取装置11获取到的训练标题I至VIII等进行去标号处理,以确定所述多个训练标题所对应的一个或多个标号模式;然后,对所述标号模式进行统计处理,以获得对应的初始标号模式词典,其中,所述初始标号模式词典包括所述多个训练标题中所包括的标号模式及其对应的频次信息;接着,再根据所述频次信息,对所述初始标题模式词典中的标号模式进行筛选处理,以获得所述标号模式词典。例如,还接上例,词典建立装置12首先对所述多个训练标题进行去标号处理,如将数字标号替换成字符“_”,以确定所述多个训练标题所对应的一个或多个标号模式,如得到训练标题II与VIII中没有标号模式,而训练标题I、III至VII中分别包含标号模式“第_章”、第_章”、“_-_”、“_-_”、“____-__”、“实验_”;然后,对所述标号模式进行统计处理,以获得对应的初始标号模式词典,其中,所述初始标号模式词典包括所述多个训练标题中所包括的标号模式及其对应的频次信息,如得到上述表1所示的初始标号模式词典;接着,再根据所述频次信息,对所述初始标题模式词典中的标号模式进行筛选处理,以获得所述标号模式词典,如将频次信息低于预定阈值如50000的标号模式进行去除,获得所述标号模式词典,如得到如表2所示的标号模式词典:
标号模式 频次信息
第_章 449291
____-__-__ 144205
实验_ 90522
第__章 80418
(_) 57856
表2
本领域技术人员应能理解上述建立或更新对应的标号模式词典的方式仅为举例,其他现有的或今后可能出现的建立或更新对应的标号模式词典的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
标题获取装置13通过诸如浏览器、搜索引擎等第三方设备提供的应用程序接口(API),获取待处理的目标对象的对象标题;或者,通过ASP、JSP等动态网页技术,获取用户通过其用户设备PC上传的目标对象的对象标题,以作为待处理的目标对象的对象标题。在此,所述目标对象包括但不限于用户上传的以文档、视频、图片、日志等媒体形式或其组合、或其中一种或多种的组合,承载用于分享的信息。例如,假设用户A登录百度文库http://wenku.baidu.com/后,上传了PDF格式文档document1,其标题为title1“LTE物理下行控制信道盲检过程研究”及document2,其标题为title2“第5章MCS-51系列单片机的片内接口及中断”,则标题获取装置13通过百度文库提供的应用程序接口(API),便可获取到用户A通过其用户设备PC上传的目标对象的对象标题“LTE物理下行控制信道盲检过程研究”及“第5章MCS-51系列单片机的片内接口及中断”。
本领域技术人员应能理解上述获取待处理的目标对象的对象标题的方式仅为举例,其他现有的或今后可能出现的获取待处理的目标对象的对象标题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
过滤处理装置14根据所述标号模式词典,对所述对象标题进行过滤处理,如滤除所述对象标题中符合所述标号模式词典中的标号模式对应的标号模式信息。例如,接上例,过滤处理装置14根据词典建立装置12建立的所述标号模式词典,对标题获取装置13获取到的用户A上传的文档document1的对象标题title1“LTE物理下行控制信道盲检过程研究”及文档document2的对象标题title2“第5章MCS-51系列单片机的片内接口及中断”进行过滤处理,如滤除文档document1和文档document2各自对象标题中符合所述标号模式词典中的标号模式对应的标号模式信息,如滤除文档document2对象标题title2“第5章MCS-51系列单片机的片内接口及中断”中的标号模式信息“第5章”,而document1的对象标题title1“LTE物理下行控制信道盲检过程研究”中不存在符合所述标号模式词典中的标号模式对应的标号模式信息,则过滤处理装置14不对document1的对象标题title1“LTE物理下行控制信道盲检过程研究”进行过滤处理。
本领域技术人员应能理解上述对所述对象标题进行过滤处理的方式仅为举例,其他现有的或今后可能出现的对所述对象标题进行过滤处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
表征确定装置15根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。具体地,表征确定装置15首先对过滤处理后的所述对象标题进行分词处理,以获得所述对象标题中的标题词语;然后,再根据所述标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。在此,所述词语相关信息包括但不限于之下至少任一项:1)所述对象标题中的标题词语的词频信息,在此,所述标题词语的词频信息可通过查询词语频率数据库获得,其中,所述词语频率数据库可是预先设置的,也可通过对多个训练标题中的标题词语进行统计获得;2)所述对象标题中的标题词语的数量信息;3)所述对象标题中的字符的数量信息。在此,所述对象表征信息用于表示所述对象标题的质量信息,其不仅反映了所述对象标题对所述目标对象的内容信息的表征能力,也体现了所述对象标题是否能够很好地表征所述目标对象的内容信息的度量,其可以定量表示,如采用数值表示,其还可以定性表示,如高、低等。例如,过滤处理装置14对document2对象标题title2“第5章MCS-51系列单片机的片内接口及中断”进行过滤处理后得到过滤对象标题titile2’“MCS-51系列单片机的片内接口及中断”,则表征确定装置15首先对过滤对象标题titile1’进行分词处理,以获得过滤对象标题titile2’经分词处理后得到的词袋信息“MCS-51单片机接口中断”,即获得过滤对象标题titile1’所对应的标题词语信息;然后,表征确定装置15根据标题词语“MCS-51单片机接口中断”的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息,如假设过滤对象标题titile2’中的标题词语“MCS-51单片机接口中断”对应的词频信息分别为9486、503200、664560、432598,即标题词语“MCS-51单片机接口中断”中具有大于预定阈值如400000词频的标题词语“单片机接口中断”,则表征确定装置15可确定对象标题title2“第5章MCS-51系列单片机的片内接口及中断”关于所述目标对象document2的对象表征信息为高;再如,假设过滤对象标题titile2’中的标题词语“MCS-51单片机接口中断”对应的词频信息分别为9486、303200、264560、392598,即标题词语“MCS-51单片机接口中断”中不具有大于预定阈值如400000的词频的标题词语,但标题词语“MCS-51单片机接口中断”的数量信息满足大于等于预定阈值4,则表征确定装置15可确定对象标题title2“第5章MCS-51系列单片机的片内接口及中断”关于所述目标对象document2的对象表征信息为高;还如,若标题词语“MCS-51单片机接口中断”中不具有大于预定阈值如400000的词频的标题词语和/或标题词语的数量信息也不满足预定阈值4,则表征确定装置15可确定对象标题title2“第5章MCS-51系列单片机的片内接口及中断”关于所述目标对象document2的对象表征信息为低。在此,所述词语频率数据库可位于信息确定设备1中,也可位于与信息确定设备1通过网络相连的网络设备中。
在此,本发明通过根据过滤处理后的所述对象标题中的标题词语的词语相关信息,因过滤处理后的所述对象标题提供了更接近于真实质量的对象标题内容,实现了低质标题识别率及识别准确率分别达到93%及91%的有益效果。
本领域技术人员应能理解上述确定所述对象标题关于所述目标对象的对象表征信息的方式仅为举例,其他现有的或今后可能出现的确定所述对象标题关于所述目标对象的对象表征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
信息确定设备1的各个装置之间是持续不断工作的。具体地,训练获取装置11持续获取多个训练标题;词典建立装置12持续根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息;标题获取装置13持续获取待处理的目标对象的对象标题;过滤处理装置14持续根据所述标号模式词典,对所述对象标题进行过滤处理;表征确定装置15持续根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。在此,本领域技术人员应当理解“持续”是指信息确定设备1的各装置之间分别不断地进行训练标题的获取、标号模式词典库的建立或更新、对象标题的获取、对所述对象标题进行过滤处理与对象表征信息的确定,直至信息确定设备1在较长时间内停止“对象标题”的获取。
优选地,信息确定设备1还包括预处理装置(未示出),具体地,预处理装置对过滤处理后的所述对象标题进行预处理,以获得预处理后的所述对象标题;其中,表征确定装置15根据预处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。
具体地,预处理装置对过滤处理后的所述对象标题进行预处理,以获得预处理后的所述对象标题。在此,所述预处理包括但不限于以下至少任一项:1)对过滤处理后的所述对象标题进行标点符号去噪处理,即去除过滤处理后的所述对象标题中的标点符号;2)对过滤处理后的所述对象标题进行ASCII符号去除处理,但同时根据预定外文词典,保留过滤处理后的所述对象标题中具有的所述预定外文词典中的外文字词,其中,所述预定外文词典可是预先设置的,如现有的收集英语词汇按某种顺序排列并加以解释供人检查参考的英文词典;也可通过对多个英文训练标题中的标题词语进行统计获得。
例如,对于文档document1的对象标题title1“LTE物理下行控制信道盲检过程研究”,过滤处理装置14对titile1进行过滤处理后得到过滤对象标题title1’“LTE物理下行控制信道盲检过程研究”,则预处理装置对过滤对象标题title1’“LTE物理下行控制信道盲检过程研究”进行预处理,假设过滤对象标题title1’中的英文词语“LTE”存在于预定外文词典中,则过滤处理装置对过滤对象标题title1’进行预处理后,获得预处理后的所述对象标题如titile1”“LTE物理下行控制信道盲检过程研究”;再如,对于document2的对象标题title2“第5章MCS-51系列单片机的片内接口及中断”,过滤处理装置14对titile2进行过滤处理后得到过滤对象标题title2’“MCS-51系列单片机的片内接口及中断”,则预处理装置对过滤对象标题title2’“MCS-51系列单片机的片内接口及中断”进行预处理,假设过滤对象标题title2’中的英文词语“MCS-51”不存在于预定外文词典中,则过滤处理装置对过滤对象标题title2’进行预处理后,获得预处理后的所述对象标题如titile2”“系列单片机的片内接口及中断”。
本领域技术人员应能理解上述对过滤处理后的所述对象标题进行预处理的方式仅为举例,其他现有的或今后可能出现的对过滤处理后的所述对象标题进行预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,表征确定装置15根据预处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。在此,表征确定装置15根据预处理后的所述对象标题中的标题词语的词语相关信息确定所述对象标题关于所述目标对象的对象表征信息与前述表征确定装置15根据过滤处理后的所述对象标题中的标题词语的词语相关信息确定所述对象标题关于所述目标对象的对象表征信息的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
在另一优选实施例中,可将上述用于确定对象标题关于对应目标对象的对象表征信息的信息确定设备1,与现有的浏览器相结合,构成一种新的浏览器,现有的浏览器包括例如Microsoft公司的IE浏览器、Netscape公司的Netscape浏览器、Mozilla公司的Firefox浏览器、Google公司的Chrome浏览器、遨游公司的Maxthon浏览器、Opera公司的opera浏览器、360公司的360浏览器、搜狐公司的搜狗浏览器、腾讯公司的腾讯TT浏览器等。
在另一优选实施例中,可将上述用于确定对象标题关于对应目标对象的对象表征信息的信息确定设备1,与现有的浏览器插件相结合,构成一种新的浏览器插件,现有的浏览器插件包括如Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等。
图2示出根据本发明一个优选实施例的用于确定对象标题关于对应目标对象的对象表征信息的设备示意图,其中,信息确定设备1包括训练获取装置11’、词典建立装置12’、标题获取装置13’、过滤处理装置14’、表征确定装置15’、优化确定装置16’和提供装置17’。具体地,训练获取装置11’获取多个训练标题;词典建立装置12’根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息;标题获取装置13’获取待处理的目标对象的对象标题;过滤处理装置14’根据所述标号模式词典,对所述对象标题进行过滤处理;表征确定装置15’根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息;当所述对象表征信息低于预定表征阈值信息时,优化确定装置16’确定关于所述对象标题的优化指示信息;提供装置17’将所述优化指示信息提供给所述目标对象所对应的用户。在此,训练获取装置11’、词典建立装置12’、标题获取装置13’、过滤处理装置14’、表征确定装置15’与图1实施例中对应装置的内容相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
具体地,当所述对象表征信息低于预定表征阈值信息时,优化确定装置16’确定关于所述对象标题的优化指示信息。在此,所述优化指示信息包括指示用户如何对所述对象标题进行修改、优化以获得高质量的对象标题的信息,如关于所述对象标题的修改建议等。在此,优化确定装置16’确定关于所述对象标题的优化指示信息的方式包括但不限于以下至少任一项:
1)根据所述目标对象的摘要信息,确定所述优化指示信息。具体地,优化确定装置16’首先可对所述目标对象的摘要信息进行语义分析处理,以获得一个或多个摘要关键词;然后,再根据所述一个或多个摘要关键词,在标题用语库中进行匹配查询,以根据查询结果确定所述优化指示信息。例如,假设标题获取装置13’获取到待处理的以下目标对象object-document:
标题title:实验七网络嗅探
摘要信息abstract:基于Ethereal嗅探器软件嗅探数据包,并根据嗅探到的数据包判断网络状况。
正文内容信息content:【实验原理】网络监听是一种常用的被动式网络攻击方法,能帮助入侵者轻易地获得用其他方法很难获得的信息,包括用户口令、账号、敏感数据、IP地址、路由信息、TCP套接字号等。......
假设表征确定装置15’确定标题title关于目标对象object-document的所述对象表征信息低于预定表征阈值信息,则优化确定装置16’首先可对目标对象object-document的摘要信息abstract进行语义分析处理,以获得一个或多个摘要关键词,如“Ethereal嗅探数据包网络状况”;然后,优化确定装置16’再根据该摘要关键词“Ethereal嗅探数据包网络状况”,在标题用语库中进行匹配查询,以根据查询结果确定所述优化指示信息,如当在所述标题用语库中匹配查询到与所述摘要关键词“Ethereal嗅探数据包网络状况”相匹配的标题用语和/或所述摘要关键词“Ethereal嗅探数据包网络状况”中与所述标题用语库中的标题用语相匹配的数量占所述关键词的总数量的比值满足预定阈值如0.8时,则优化确定装置16’确定的所述优化指示信息包括“可结合摘要信息对所述对象标题进行优化”,否则,优化确定装置16’确定的所述优化指示信息包括“建议对所述对象标题进行优化”。在此,所述标题用语库可位于信息确定设备1中,也可位于与信息确定设备1通过网络相连的网络设备中。
2)根据所述对象标题与所述目标对象的正文内容信息的相关度,结合所述目标对象的正文内容信息的正文词语的数量信息,确定所述优化指示信息。具体地,优化确定装置16’首先可通过诸如所述对象标题所对应的标题词语信息匹配于所述目标对象的正文内容信息所对应的正文词语信息的标题词语数量信息,或者,通过所述对象标题与所述目标对象的正文内容信息的匹配度,确定所述对象标题与所述目标对象的正文内容信息的相关度;然后,优化确定装置16’根据该相关度,结合所述目标对象的正文内容信息的正文词语的数量信息,确定所述优化指示信息。例如,接上例,优化确定装置16’首先对所述对象标题,以及所述目标对象的正文内容信息进行语义分析处理,获得所述对象标题所对应的标题词语信息“网络嗅探”,以及目标对象的正文内容信息所对应的正文词语信息“网络监听嗅探数据包网卡实验服务配置”;然后,优化确定装置16’根据所述对象标题所对应的标题词语信息中匹配于所述目标对象的正文内容信息所对应的正文词语信息的标题词语数量信息,确定所述对象标题与所述目标对象的正文内容信息的相关度,如将匹配于所述目标对象的正文内容信息所对应的正文词语信息的标题词语数量信息与所述标题词语总数量的比值,作为所述相关度;然后,优化确定装置16’根据该相关度,结合所述目标对象的正文内容信息的正文词语的数量信息,确定所述优化指示信息,如假设标题title所对应的标题词语信息“网络嗅探”中匹配于所述目标对象的正文内容信息所对应的正文词语信息的标题词语数量信息与所述标题词语总数量的比值为100%,则优化确定装置16’确定所述对象标题与所述目标对象的正文内容信息的相关度为1;接着,优化确定装置16’根据该相关度1,结合目标对象object-document的正文内容信息content:的正文词语的数量信息,如假设所述目标对象的正文内容信息的正文词语的数量信息具有20个,确定所述优化指示信息,如“可结合正文内容信息对所述对象标题进行优化”,否则,优化确定装置16’确定的所述优化指示信息包括“建议对所述对象标题进行优化”。
在此,本发明通过结合目标对象的摘要信息和/或结合所述目标对象的正文内容信息,实现了确定的所述优化指示信息的准确率达到100%的有益效果。
本领域技术人员应能理解上述确定关于所述对象标题的优化指示信息的方式仅为举例,其他现有的或今后可能出现的确定关于所述对象标题的优化指示信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,当所述目标对象的对象语言类型信息与所述对象标题的标题语言类型信息不一致时,优化确定装置16’还可将所述对象标题在所述对象语言类型信息下对应的参考标题信息包含于所述优化指示信息。例如,假设目标对象object-document的对象语言类型信息为英文,而对象标题titile的标题语言类型信息为中文,则优化确定装置16’还可将所述对象标题titile在所述对象语言类型信息下对应的参考标题信息包含于所述优化指示信息,即将对象标题titile对应的英文参考标题信息包含于所述优化指示信息。
提供装置17’通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,将所述优化指示信息提供给所述目标对象所对应的用户,如该用户的用户设备,供用户阅读和浏览。
优选地,优选确定装置16’包括相关度确定单元(未示出)和优化确定单元(未示出)。具体地,当所述对象表征信息低于预定表征阈值信息时,相关度确定单元确定所述目标对象的正文内容信息与所述标题用语库的相关度;优化确定单元根据所述相关度,确定所述优化指示信息。
具体地,当所述对象表征信息低于预定表征阈值信息时,相关度确定单元确定所述目标对象的正文内容信息与所述标题用语库的相关度。具体地,当所述对象表征信息低于预定表征阈值信息时,相关度确定单元根据所述正文内容信息所对应的内容关键词匹配于所述标题用语库中的标题用语的关键词数量信息,确定所述相关度,如将所述内容关键词中匹配于所述标题用语库中的标题用语的关键词数量信息与所述内容关键词总数量的比值,作为所述相关度。例如,假设表征确定装置15’确定标题title关于目标对象object-document的所述对象表征信息低于预定表征阈值信息,则相关度确定单元首先对目标对象object-document的正文内容信息content进行语义分析处理,获得正文内容信息content所对应的内容关键词“网络监听嗅探数据包网卡实验服务配置”;然后,相关度确定单元根据所述正文内容信息所对应的内容关键词匹配于所述标题用语库中的标题用语的关键词数量信息,确定所述对象标题与所述目标对象的正文内容信息的相关度,如将匹配于所述标题用语库中的标题用语的关键词数量信息与所述内容关键词总数量的比值,作为所述相关度,如假设正文内容信息content所对应的内容关键词匹配于所述标题用语库中的标题用语的关键词数量信息占所述内容关键词总数量的92%,则相关度确定单元可确定目标对象object-document的正文内容信息content与所述标题用语库的相关度为0.92。
本领域技术人员应能理解上述确定所述目标对象的正文内容信息与所述标题用语库的相关度的方式仅为举例,其他现有的或今后可能出现的确定所述目标对象的正文内容信息与所述标题用语库的相关度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,优化确定单元根据所述相关度,确定所述优化指示信息,如当所述相关度大于预定阈值时,确定所述优化指示信息包括可结合正文内容信息对所述对象标题进行优化”,否则,确定所述优化指示信息包括“建议对所述对象标题进行优化”。例如,接上例,相关度确定单元确定目标对象object-document的正文内容信息content与所述标题用语库的相关度为0.92,大于预定阈值如0.85,则优化确定单元根据该相关度0.92,确定所述优化指示信息,如“可结合正文内容信息对所述对象标题进行优化”,否则,优化确定单元确定的所述优化指示信息包括“建议对所述对象标题进行优化”。
图3示出根据本发明另一个方面的用于确定对象标题关于对应目标对象的对象表征信息的方法流程图。
具体地,在步骤S1中,信息确定设备1获取多个训练标题;在步骤S2中,信息确定设备1根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息;在步骤S3中,信息确定设备1获取待处理的目标对象的对象标题;在步骤S4中,信息确定设备1根据所述标号模式词典,对所述对象标题进行过滤处理;在步骤S5中,信息确定设备1根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。在此,信息确定设备1包括但不限于如:1)不仅用于为其登录用户提供信息存储空间,以实现该用户上传以分享其目标对象如文档、视频、图片;还可用于为用户提供在线阅读、下载、交换其他用户分享的目标对象的网络平台或终端平台,如百度文库、豆丁、新浪爱问、道客巴巴等,其中,所述终端平台包括但不限于移动终端、PC等用户设备;2)用于实现为其登录用户提供信息访问、信息共享、信息发布或同步的网络平台或终端平台,如社交网站、论坛、空间、博客、微博等第三方网站。在此,信息确定设备1包括但不限于用户网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络确定设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述信息确定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,在步骤S1中,信息确定设备1通过诸如浏览器、搜索引擎等第三方设备提供的应用程序接口(API),获取多个训练标题;或者,首先通过搜索引擎、浏览器等第三方设备提供的获取用户上传日志的应用程序接口(API),获取多个用户上传日志;然后,从该多个用户上传日志中获取多个训练标题。例如,在步骤S1中,信息确定设备1通过浏览器提供的提供获取上传日志的应用程序接口(API),获取到多个用户上传日志,如在某段时间内,用户上传了哪些文档、视频、图片等;然后,在步骤S1中,信息确定设备1从该多个用户上传日志中获得多个训练标题以下训练标题I至VIII等等如:
I“第6章 串行接口2010春”
II“基于页面分块的网页排序算法”
III“第8章 应用层”
IV“5-5_最小费用最大流问题-xfj”
V“3-6质点的角动量和角动量定理-1”
VI“2011-12地结”
VII“实验七 网络嗅探”
VIII“面向移动设备的WEB页面分块算法”
............
本领域技术人员应能理解上述获取多个训练标题的方式仅为举例,其他现有的或今后可能出现的获取多个训练标题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,信息确定设备1根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息。具体地,在步骤S2中,信息确定设备1可首选对所述多个训练标题进行归一化处理;然后,对归一化处理后的所述多个训练标题中的标号模式信息进行去标号处理,以确定所述多个训练标题所对应的一个或多个标号模式;接着,再对所述一个或多个标号模式进行统计处理,获得所述标号模式词典。在此,所述归一化处理包括但不限于以下至少任一项:1)对所述训练标题中的字母大小写进行归一化处理,即将所述训练标题中的字母大小写进行统一;2)对所述训练标题中的字符进行全角/半角归一化处理。在此,所述标号模式信息表示训练标题中存在的标识训练标题所属的章节、标识训练标题中包含的时间等不表征实质意义的内容部分,如“第6章”、“2.1节”、“实验七”、“3-6”、“2011-12”等。本领域技术人员应能理解上述标号模式信息、归一化处理方式仅为举例,其他现有的或今后可能出现的标号模式信息或归一化处理方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,接上例,在步骤S2中,信息确定设备1对其在步骤S1中获取到的训练标题I至VIII等进行归一化处理后,对归一化处理后的多个训练标题I至VIII等中的标号模式信息进行去标号处理,如将数字标号替换成字符“_”,以确定所述多个训练标题所对应的一个或多个标号模式,如得到训练标题II与VIII中没有标号模式,而训练标题I、III至VII中分别包含标号模式“第_章”、第_章”、“_-_”、“_-_”、“____-__”、“实验_”;接着,在步骤S2中,信息确定设备1再对所述一个或多个标号模式进行统计处理,将标号模式及其对应的频次信息存入标号模式词典中,如得到如以下表3所示的测标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息,并可按一定方式更新该标号模式词典,如按照预定周期、定时更新、立即更新所述标号模式词典:
表3
优选地,在步骤S2中,信息确定设备1还可首先对其在步骤S1中获取到的训练标题I至VIII等进行去标号处理,以确定所述多个训练标题所对应的一个或多个标号模式;然后,对所述标号模式进行统计处理,以获得对应的初始标号模式词典,其中,所述初始标号模式词典包括所述多个训练标题中所包括的标号模式及其对应的频次信息;接着,再根据所述频次信息,对所述初始标题模式词典中的标号模式进行筛选处理,以获得所述标号模式词典。例如,还接上例,在步骤S2中,信息确定设备1首先对所述多个训练标题进行去标号处理,如将数字标号替换成字符“_”,以确定所述多个训练标题所对应的一个或多个标号模式,如得到训练标题II与VIII中没有标号模式,而训练标题I、III至VII中分别包含标号模式“第_章”、第_章”、“_-_”、“_-_”、“____-__”、“实验_”;然后,对所述标号模式进行统计处理,以获得对应的初始标号模式词典,其中,所述初始标号模式词典包括所述多个训练标题中所包括的标号模式及其对应的频次信息,如得到上述表3所示的初始标号模式词典;接着,再根据所述频次信息,对所述初始标题模式词典中的标号模式进行筛选处理,以获得所述标号模式词典,如将频次信息低于预定阈值如50000的标号模式进行去除,获得所述标号模式词典,如得到如表4所示的标号模式词典:
标号模式 频次信息
第_章 449291
____-__-__ 144205
实验_ 90522
第__章 80418
(_) 57856
表4
本领域技术人员应能理解上述建立或更新对应的标号模式词典的方式仅为举例,其他现有的或今后可能出现的建立或更新对应的标号模式词典的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S3中,信息确定设备1通过诸如浏览器、搜索引擎等第三方设备提供的应用程序接口(API),获取待处理的目标对象的对象标题;或者,通过ASP、JSP等动态网页技术,获取用户通过其用户设备PC上传的目标对象的对象标题,以作为待处理的目标对象的对象标题。在此,所述目标对象包括但不限于用户上传的以文档、视频、图片、日志等媒体形式或其组合、或其中一种或多种的组合,承载用于分享的信息。例如,假设用户A登录百度文库http://wenku.baidu.com/后,上传了PDF格式文档document1,其标题为title1“LTE物理下行控制信道盲检过程研究”及document2,其标题为title2“第5章MCS-51系列单片机的片内接口及中断”,则在步骤S3中,信息确定设备1通过百度文库提供的应用程序接口(API),便可获取到用户A通过其用户设备PC上传的目标对象的对象标题“LTE物理下行控制信道盲检过程研究”及“第5章MCS-51系列单片机的片内接口及中断”。
本领域技术人员应能理解上述获取待处理的目标对象的对象标题的方式仅为举例,其他现有的或今后可能出现的获取待处理的目标对象的对象标题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S4中,信息确定设备1根据所述标号模式词典,对所述对象标题进行过滤处理,如滤除所述对象标题中符合所述标号模式词典中的标号模式对应的标号模式信息。例如,接上例,在步骤S4中,信息确定设备1根据其在步骤S2中建立的所述标号模式词典,对其在步骤S3中获取到的用户A上传的文档document1的对象标题title1“LTE物理下行控制信道盲检过程研究”及文档document2的对象标题title2“第5章MCS-51系列单片机的片内接口及中断”进行过滤处理,如滤除文档document1和文档document2各自对象标题中符合所述标号模式词典中的标号模式对应的标号模式信息,如滤除文档document2对象标题title2“第5章MCS-51系列单片机的片内接口及中断”中的标号模式信息“第5章”,而document1的对象标题title1“LTE物理下行控制信道盲检过程研究”中不存在符合所述标号模式词典中的标号模式对应的标号模式信息,则在步骤S4中,信息确定设备1不对document1的对象标题title1“LTE物理下行控制信道盲检过程研究”进行过滤处理。
本领域技术人员应能理解上述对所述对象标题进行过滤处理的方式仅为举例,其他现有的或今后可能出现的对所述对象标题进行过滤处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S5中,信息确定设备1根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。具体地,在步骤S5中,信息确定设备1首先对过滤处理后的所述对象标题进行分词处理,以获得所述对象标题中的标题词语;然后,再根据所述标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。在此,所述词语相关信息包括但不限于之下至少任一项:1)所述对象标题中的标题词语的词频信息,在此,所述标题词语的词频信息可通过查询词语频率数据库获得,其中,所述词语频率数据库可是预先设置的,也可通过对多个训练标题中的标题词语进行统计获得;2)所述对象标题中的标题词语的数量信息;3)所述对象标题中的字符的数量信息。在此,所述对象表征信息用于表示所述对象标题的质量信息,其不仅反映了所述对象标题对所述目标对象的内容信息的表征能力,也体现了所述对象标题是否能够很好地表征所述目标对象的内容信息的度量,其可以定量表示,如采用数值表示,其还可以定性表示,如高、低等。例如,在步骤S4中,信息确定设备1对document2对象标题title2“第5章MCS-51系列单片机的片内接口及中断”进行过滤处理后得到过滤对象标题titile2’“MCS-51系列单片机的片内接口及中断”,则在步骤S5中,信息确定设备1首先对过滤对象标题titile1’进行分词处理,以获得过滤对象标题titile2’经分词处理后得到的词袋信息“MCS-51单片机接口中断”,即获得过滤对象标题titile1’所对应的标题词语信息;然后,在步骤S5中,信息确定设备1根据标题词语“MCS-51单片机接口中断”的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息,如假设过滤对象标题titile2’中的标题词语“MCS-51单片机接口中断”对应的词频信息分别为9486、503200、664560、432598,即标题词语“MCS-51单片机接口中断”中具有大于预定阈值如400000词频的标题词语“单片机接口中断”,则在步骤S5中,信息确定设备1可确定对象标题title2“第5章MCS-51系列单片机的片内接口及中断”关于所述目标对象document2的对象表征信息为高;再如,假设过滤对象标题titile2’中的标题词语“MCS-51单片机接口中断”对应的词频信息分别为9486、303200、264560、392598,即标题词语“MCS-51单片机接口中断”中不具有大于预定阈值如400000的词频的标题词语,但标题词语“MCS-51单片机接口中断”的数量信息满足大于等于预定阈值4,则在步骤S5中,信息确定设备1可确定对象标题title2“第5章MCS-51系列单片机的片内接口及中断”关于所述目标对象document2的对象表征信息为高;还如,若标题词语“MCS-51单片机接口中断”中不具有大于预定阈值如400000的词频的标题词语和/或标题词语的数量信息也不满足预定阈值4,则在步骤S5中,信息确定设备1可确定对象标题title2“第5章MCS-51系列单片机的片内接口及中断”关于所述目标对象document2的对象表征信息为低。在此,所述词语频率数据库可位于信息确定设备1中,也可位于与信息确定设备1通过网络相连的网络设备中。
在此,本发明通过根据过滤处理后的所述对象标题中的标题词语的词语相关信息,因过滤处理后的所述对象标题提供了更接近于真实质量的对象标题内容,实现了低质标题识别率及识别准确率分别达到93%及91%的有益效果。
本领域技术人员应能理解上述确定所述对象标题关于所述目标对象的对象表征信息的方式仅为举例,其他现有的或今后可能出现的确定所述对象标题关于所述目标对象的对象表征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
信息确定设备1的各个步骤之间是持续不断工作的。具体地,在步骤S1中,信息确定设备1持续获取多个训练标题;在步骤S2中,信息确定设备1持续根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息;在步骤S3中,信息确定设备1持续获取待处理的目标对象的对象标题;在步骤S4中,信息确定设备1持续根据所述标号模式词典,对所述对象标题进行过滤处理;在步骤S5中,信息确定设备1持续根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。在此,本领域技术人员应当理解“持续”是指信息确定设备1的各步骤之间分别不断地进行训练标题的获取、标号模式词典库的建立或更新、对象标题的获取、对所述对象标题进行过滤处理与对象表征信息的确定,直至信息确定设备1在较长时间内停止“对象标题”的获取。
优选地,信息确定设备1还包括步骤S8(未示出),具体地,在步骤S8中,信息确定设备1对过滤处理后的所述对象标题进行预处理,以获得预处理后的所述对象标题;其中,在步骤S5中,信息确定设备1根据预处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。
具体地,在步骤S8中,信息确定设备1对过滤处理后的所述对象标题进行预处理,以获得预处理后的所述对象标题。在此,所述预处理包括但不限于以下至少任一项:1)对过滤处理后的所述对象标题进行标点符号去噪处理,即去除过滤处理后的所述对象标题中的标点符号;2)对过滤处理后的所述对象标题进行ASCII符号去除处理,但同时根据预定外文词典,保留过滤处理后的所述对象标题中具有的所述预定外文词典中的外文字词,其中,所述预定外文词典可是预先设置的,如现有的收集英语词汇按某种顺序排列并加以解释供人检查参考的英文词典;也可通过对多个英文训练标题中的标题词语进行统计获得。
例如,对于文档document1的对象标题title1“LTE物理下行控制信道盲检过程研究”,在步骤S4中,信息确定设备1对titile1进行过滤处理后得到过滤对象标题title1’“LTE物理下行控制信道盲检过程研究”,则在步骤S8中,信息确定设备1对过滤对象标题title1’“LTE物理下行控制信道盲检过程研究”进行预处理,假设过滤对象标题title1’中的英文词语“LTE”存在于预定外文词典中,则在步骤S8中,信息确定设备1对过滤对象标题title1’进行预处理后,获得预处理后的所述对象标题如titile1”“LTE物理下行控制信道盲检过程研究”;再如,对于document2的对象标题title2“第5章MCS-51系列单片机的片内接口及中断”,在步骤S4中,信息确定设备1对titile2进行过滤处理后得到过滤对象标题title2’“MCS-51系列单片机的片内接口及中断”,则在步骤S8中,信息确定设备1对过滤对象标题title2’“MCS-51系列单片机的片内接口及中断”进行预处理,假设过滤对象标题title2’中的英文词语“MCS-51”不存在于预定外文词典中,则在步骤S8中,信息确定设备1对过滤对象标题title2’进行预处理后,获得预处理后的所述对象标题如titile2”“系列单片机的片内接口及中断”。
本领域技术人员应能理解上述对过滤处理后的所述对象标题进行预处理的方式仅为举例,其他现有的或今后可能出现的对过滤处理后的所述对象标题进行预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S5中,信息确定设备1根据预处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。在此,在步骤S5中,信息确定设备1根据预处理后的所述对象标题中的标题词语的词语相关信息确定所述对象标题关于所述目标对象的对象表征信息与前述在步骤S5中,信息确定设备1根据过滤处理后的所述对象标题中的标题词语的词语相关信息确定所述对象标题关于所述目标对象的对象表征信息的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
图4示出根据本发明一个优选实施例的用于确定对象标题关于对应目标对象的对象表征信息的方法流程图。
其中,该方法包括步骤S1’、步骤S2’、步骤S3’、步骤S4’、步骤S5’、步骤S6’和步骤S7’。具体地,在步骤S1’中,信息确定设备1获取多个训练标题;在步骤S2’中,信息确定设备1根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息;在步骤S3’中,信息确定设备1获取待处理的目标对象的对象标题;在步骤S4’中,信息确定设备1根据所述标号模式词典,对所述对象标题进行过滤处理;在步骤S5’中,信息确定设备1根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息;当所述对象表征信息低于预定表征阈值信息时,在步骤S6’中,信息确定设备1确定关于所述对象标题的优化指示信息;在步骤S7’中,信息确定设备1将所述优化指示信息提供给所述目标对象所对应的用户。在此,步骤S1’、步骤S2’、步骤S3’、步骤S4’、步骤S5’与图3实施例中对应步骤的内容相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
具体地,当所述对象表征信息低于预定表征阈值信息时,在步骤S6’中,信息确定设备1确定关于所述对象标题的优化指示信息。在此,所述优化指示信息包括指示用户如何对所述对象标题进行修改、优化以获得高质量的对象标题的信息,如关于所述对象标题的修改建议等。在此,在步骤S6’中,信息确定设备1确定关于所述对象标题的优化指示信息的方式包括但不限于以下至少任一项:
1)根据所述目标对象的摘要信息,确定所述优化指示信息。具体地,在步骤S6’中,信息确定设备1首先可对所述目标对象的摘要信息进行语义分析处理,以获得一个或多个摘要关键词;然后,再根据所述一个或多个摘要关键词,在标题用语库中进行匹配查询,以根据查询结果确定所述优化指示信息。例如,假设在步骤S3’中,信息确定设备1获取到待处理的以下目标对象object-document:
标题title:实验七网络嗅探
摘要信息abstract:基于Ethereal嗅探器软件嗅探数据包,并根据嗅探到的数据包判断网络状况。
正文内容信息content:【实验原理】网络监听是一种常用的被动式网络攻击方法,能帮助入侵者轻易地获得用其他方法很难获得的信息,包括用户口令、账号、敏感数据、IP地址、路由信息、TCP套接字号等。......
假设在步骤S5’中,信息确定设备1确定标题title关于目标对象object-document的所述对象表征信息低于预定表征阈值信息,则在步骤S6’中,信息确定设备1首先可对目标对象object-document的摘要信息abstract进行语义分析处理,以获得一个或多个摘要关键词,如“Ethereal嗅探数据包网络状况”;然后,在步骤S6’中,信息确定设备1再根据该摘要关键词“Ethereal嗅探数据包网络状况”,在标题用语库中进行匹配查询,以根据查询结果确定所述优化指示信息,如当在所述标题用语库中匹配查询到与所述摘要关键词“Ethereal嗅探数据包网络状况”相匹配的标题用语和/或所述摘要关键词“Ethereal嗅探数据包网络状况”中与所述标题用语库中的标题用语相匹配的数量占所述关键词的总数量的比值满足预定阈值如0.8时,则在步骤S6’中,信息确定设备1确定的所述优化指示信息包括“可结合摘要信息对所述对象标题进行优化”,否则,在步骤S6’中,信息确定设备1确定的所述优化指示信息包括“建议对所述对象标题进行优化”。在此,所述标题用语库可位于信息确定设备1中,也可位于与信息确定设备1通过网络相连的网络设备中。
2)根据所述对象标题与所述目标对象的正文内容信息的相关度,结合所述目标对象的正文内容信息的正文词语的数量信息,确定所述优化指示信息。具体地,在步骤S6’中,信息确定设备1首先可通过诸如所述对象标题所对应的标题词语信息匹配于所述目标对象的正文内容信息所对应的正文词语信息的标题词语数量信息,或者,通过所述对象标题与所述目标对象的正文内容信息的匹配度,确定所述对象标题与所述目标对象的正文内容信息的相关度;然后,在步骤S6’中,信息确定设备1根据该相关度,结合所述目标对象的正文内容信息的正文词语的数量信息,确定所述优化指示信息。例如,接上例,在步骤S6’中,信息确定设备1首先对所述对象标题,以及所述目标对象的正文内容信息进行语义分析处理,获得所述对象标题所对应的标题词语信息“网络嗅探”,以及目标对象的正文内容信息所对应的正文词语信息“网络监听嗅探数据包网卡实验服务配置”;然后,在步骤S6’中,信息确定设备1根据所述对象标题所对应的标题词语信息中匹配于所述目标对象的正文内容信息所对应的正文词语信息的标题词语数量信息,确定所述对象标题与所述目标对象的正文内容信息的相关度,如将匹配于所述目标对象的正文内容信息所对应的正文词语信息的标题词语数量信息与所述标题词语总数量的比值,作为所述相关度;然后,在步骤S6’中,信息确定设备1根据该相关度,结合所述目标对象的正文内容信息的正文词语的数量信息,确定所述优化指示信息,如假设标题title所对应的标题词语信息“网络嗅探”中匹配于所述目标对象的正文内容信息所对应的正文词语信息的标题词语数量信息与所述标题词语总数量的比值为100%,则在步骤S6’中,信息确定设备1确定所述对象标题与所述目标对象的正文内容信息的相关度为1;接着,在步骤S6’中,信息确定设备1根据该相关度1,结合目标对象object-document的正文内容信息content:的正文词语的数量信息,如假设所述目标对象的正文内容信息的正文词语的数量信息具有20个,确定所述优化指示信息,如“可结合正文内容信息对所述对象标题进行优化”,否则,在步骤S6’中,信息确定设备1确定的所述优化指示信息包括“建议对所述对象标题进行优化”。
在此,本发明通过结合目标对象的摘要信息和/或结合所述目标对象的正文内容信息,实现了确定的所述优化指示信息的准确率达到100%的有益效果。
本领域技术人员应能理解上述确定关于所述对象标题的优化指示信息的方式仅为举例,其他现有的或今后可能出现的确定关于所述对象标题的优化指示信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,当所述目标对象的对象语言类型信息与所述对象标题的标题语言类型信息不一致时,在步骤S6’中,信息确定设备1还可将所述对象标题在所述对象语言类型信息下对应的参考标题信息包含于所述优化指示信息。例如,假设目标对象object-document的对象语言类型信息为英文,而对象标题titile的标题语言类型信息为中文,则在步骤S6’中,信息确定设备1还可将所述对象标题titile在所述对象语言类型信息下对应的参考标题信息包含于所述优化指示信息,即将对象标题titile对应的英文参考标题信息包含于所述优化指示信息。
在步骤S7’中,信息确定设备1通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,将所述优化指示信息提供给所述目标对象所对应的用户,如该用户的用户设备,供用户阅读和浏览。
优选地,步骤S6’包括步骤S61’(未示出)和步骤S62’(未示出)。具体地,当所述对象表征信息低于预定表征阈值信息时,在步骤S61’中,信息确定设备1确定所述目标对象的正文内容信息与所述标题用语库的相关度;在步骤S62’中,信息确定设备1根据所述相关度,确定所述优化指示信息。
具体地,当所述对象表征信息低于预定表征阈值信息时,在步骤S61’中,信息确定设备1确定所述目标对象的正文内容信息与所述标题用语库的相关度。具体地,当所述对象表征信息低于预定表征阈值信息时,在步骤S61’中,信息确定设备1根据所述正文内容信息所对应的内容关键词匹配于所述标题用语库中的标题用语的关键词数量信息,确定所述相关度,如将所述内容关键词中匹配于所述标题用语库中的标题用语的关键词数量信息与所述内容关键词总数量的比值,作为所述相关度。例如,假设在步骤S5’中,信息确定设备1确定标题title关于目标对象object-document的所述对象表征信息低于预定表征阈值信息,则相关度确定单元首先对目标对象object-document的正文内容信息content进行语义分析处理,获得正文内容信息content所对应的内容关键词“网络监听嗅探数据包网卡实验服务配置”;然后,在步骤S61’中,信息确定设备1根据所述正文内容信息所对应的内容关键词匹配于所述标题用语库中的标题用语的关键词数量信息,确定所述对象标题与所述目标对象的正文内容信息的相关度,如将匹配于所述标题用语库中的标题用语的关键词数量信息与所述内容关键词总数量的比值,作为所述相关度,如假设正文内容信息content所对应的内容关键词匹配于所述标题用语库中的标题用语的关键词数量信息占所述内容关键词总数量的92%,则在步骤S61’中,信息确定设备1可确定目标对象object-document的正文内容信息content与所述标题用语库的相关度为0.92。
本领域技术人员应能理解上述确定所述目标对象的正文内容信息与所述标题用语库的相关度的方式仅为举例,其他现有的或今后可能出现的确定所述目标对象的正文内容信息与所述标题用语库的相关度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S62’中,信息确定设备1根据所述相关度,确定所述优化指示信息,如当所述相关度大于预定阈值时,确定所述优化指示信息包括可结合正文内容信息对所述对象标题进行优化”,否则,确定所述优化指示信息包括“建议对所述对象标题进行优化”。例如,接上例,在步骤S61’中,信息确定设备1确定目标对象object-document的正文内容信息content与所述标题用语库的相关度为0.92,大于预定阈值如0.85,则在步骤S62’中,信息确定设备1根据该相关度0.92,确定所述优化指示信息,如“可结合正文内容信息对所述对象标题进行优化”,否则,优化确定单元确定的所述优化指示信息包括“建议对所述对象标题进行优化”。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (19)

1.一种用于确定对象标题关于对应目标对象的对象表征信息的方法,其中,该方法包括以下步骤:
x获取多个训练标题;
y根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息,所述步骤y包括:
-对所述多个训练标题进行去标号处理,以确定所述多个训练标题所对应的一个或多个标号模式;
-对所述标号模式进行统计处理,以获得对应的初始标号模式词典,其中,所述初始标号模式词典包括所述多个训练标题中所包括的标号模式及其对应的频次信息;
-根据所述频次信息,对所述初始标题模式词典中的标号模式进行筛选处理,以获得所述标号模式词典;
其中,该方法还包括:
a获取待处理的目标对象的对象标题;
b根据所述标号模式词典,对所述对象标题进行过滤处理;
c根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。
2.根据权利要求1所述的方法,其中,该方法还包括:
-对过滤处理后的所述对象标题进行预处理,以获得预处理后的所述对象标题;
其中,所述步骤c包括:
-根据预处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。
3.根据权利要求1至2中任一项所述的方法,其中,该方法还包括:
m当所述对象表征信息低于预定表征阈值信息时,确定关于所述对象标题的优化指示信息;
-将所述优化指示信息提供给所述目标对象所对应的用户。
4.根据权利要求3所述的方法,其中,所述步骤m包括:
-当所述对象表征信息低于预定表征阈值信息时,根据所述目标对象的摘要信息,确定所述优化指示信息。
5.根据权利要求4所述的方法,其中,所述步骤m包括:
-当所述对象表征信息低于预定表征阈值信息时,对所述目标对象的摘要信息进行语义分析处理,以获得一个或多个摘要关键词;
-根据所述一个或多个摘要关键词,在标题用语库中进行匹配查询,以根据查询结果确定所述优化指示信息。
6.根据权利要求3所述的方法,其中,所述步骤m包括:
m1当所述对象表征信息低于预定表征阈值信息时,确定所述目标对象的正文内容信息与所述标题用语库的相关度;
-根据所述相关度,确定所述优化指示信息。
7.根据权利要求6所述的方法,其中,所述步骤m1包括:
-当所述对象表征信息低于预定表征阈值信息时,根据所述正文内容信息所对应的内容关键词匹配于所述标题用语库中的标题用语的关键词数量信息,确定所述相关度。
8.根据权利要求3所述的方法,其中,所述步骤m还包括:
-当所述目标对象的对象语言类型信息与所述对象标题的标题语言类型信息不一致时,将所述对象标题在所述对象语言类型信息下对应的参考标题信息包含于所述优化指示信息。
9.一种用于确定对象标题关于对应目标对象的对象表征信息的信息确定设备,其中,该信息确定设备包括:
训练获取装置,用于获取多个训练标题;
词典建立装置,用于根据所述多个训练标题中的标号模式信息,建立或更新对应的标号模式词典,其中,所述标号模式词典包括一个或多个标号模式及其频次信息,所述词典建立装置用于:
-对所述多个训练标题进行去标号处理,以确定所述多个训练标题所对应的一个或多个标号模式;
-对所述标号模式进行统计处理,以获得对应的初始标号模式词典,其中,所述初始标号模式词典包括所述多个训练标题中所包括的标号模式及其对应的频次信息;
-根据所述频次信息,对所述初始标题模式词典中的标号模式进行筛选处理,以获得所述标号模式词典;
其中,该信息确定设备还包括:
标题获取装置,用于获取待处理的目标对象的对象标题;
过滤处理装置,用于根据所述标号模式词典,对所述对象标题进行过滤处理;
表征确定装置,用于根据过滤处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。
10.根据权利要求9所述的信息确定设备,其中,该信息确定设备还包括:
预处理装置,用于对过滤处理后的所述对象标题进行预处理,以获得预处理后的所述对象标题;
其中,所述表征确定装置用于:
-根据预处理后的所述对象标题中的标题词语的词语相关信息,确定所述对象标题关于所述目标对象的对象表征信息。
11.根据权利要求9或10所述的信息确定设备,其中,该信息确定设备还包括:
优化确定装置,用于当所述对象表征信息低于预定表征阈值信息时,确定关于所述对象标题的优化指示信息;
提供装置,用于将所述优化指示信息提供给所述目标对象所对应的用户。
12.根据权利要求11所述的信息确定设备,其中,所述优化确定装置用于:
-当所述对象表征信息低于预定表征阈值信息时,根据所述目标对象的摘要信息,确定所述优化指示信息。
13.根据权利要求12所述的信息确定设备,其中,所述优化确定装置用于:
-当所述对象表征信息低于预定表征阈值信息时,对所述目标对象的摘要信息进行语义分析处理,以获得一个或多个摘要关键词;
-根据所述一个或多个摘要关键词,在标题用语库中进行匹配查询,以根据查询结果确定所述优化指示信息。
14.根据权利要求11所述的信息确定设备,其中,所述优化确定装置包括:
相关度确定单元,用于当所述对象表征信息低于预定表征阈值信息时,确定所述目标对象的正文内容信息与所述标题用语库的相关度;
优化确定单元,用于根据所述相关度,确定所述优化指示信息。
15.根据权利要求14所述的信息确定设备,其中,所述相关度确定单元用于:
-当所述对象表征信息低于预定表征阈值信息时,根据所述正文内容信息所对应的内容关键词匹配于所述标题用语库中的标题用语的关键词数量信息,确定所述相关度。
16.根据权利要求11所述的信息确定设备,其中,所述优化确定装置还用于:
-当所述目标对象的对象语言类型信息与所述对象标题的标题语言类型信息不一致时,将所述对象标题在所述对象语言类型信息下对应的参考标题信息包含于所述优化指示信息。
17.一种计算机设备,包括如权利要求9至16中任一项所述的信息确定设备。
18.一种浏览器,包括如权利要求9至16中任一项所述的信息确定设备。
19.一种浏览器插件,包括如权利要求9至16中任一项所述的信息确定设备。
CN201310260162.4A 2013-06-26 2013-06-26 确定对象标题的对象表征信息的方法与设备 Active CN103383697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310260162.4A CN103383697B (zh) 2013-06-26 2013-06-26 确定对象标题的对象表征信息的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310260162.4A CN103383697B (zh) 2013-06-26 2013-06-26 确定对象标题的对象表征信息的方法与设备

Publications (2)

Publication Number Publication Date
CN103383697A CN103383697A (zh) 2013-11-06
CN103383697B true CN103383697B (zh) 2017-02-15

Family

ID=49491487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310260162.4A Active CN103383697B (zh) 2013-06-26 2013-06-26 确定对象标题的对象表征信息的方法与设备

Country Status (1)

Country Link
CN (1) CN103383697B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630909A (zh) * 2015-12-21 2016-06-01 北京奇虎科技有限公司 规范化的标题信息展示方法及装置
CN109740130B (zh) * 2018-11-22 2022-12-09 厦门市美亚柏科信息股份有限公司 用于生成文件的方法和装置
CN109729348B (zh) * 2019-03-07 2020-06-02 腾讯科技(深圳)有限公司 一种确定视频质量的方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN102737017A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
EP2546760A1 (en) * 2011-07-11 2013-01-16 Accenture Global Services Limited Provision of user input in systems for jointly discovering topics and sentiment
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN102737017A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
EP2546760A1 (en) * 2011-07-11 2013-01-16 Accenture Global Services Limited Provision of user input in systems for jointly discovering topics and sentiment
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统

Also Published As

Publication number Publication date
CN103383697A (zh) 2013-11-06

Similar Documents

Publication Publication Date Title
CN103294781B (zh) 一种用于处理页面数据的方法与设备
US7739221B2 (en) Visual and multi-dimensional search
CN107862022B (zh) 文化资源推荐系统
US20170228469A1 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
US10776885B2 (en) Mutually reinforcing ranking of social media accounts and contents
CN109614550A (zh) 舆情监控方法、装置、计算机设备及存储介质
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN107220386A (zh) 信息推送方法和装置
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
CN107346326A (zh) 用于生成神经网络模型的方法和系统
CN103514191A (zh) 用于确定目标推广信息的关键词匹配模式的方法和设备
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN103544178A (zh) 一种用于提供与目标页面相对应的重构页面的方法和设备
CN103399862B (zh) 确定目标查询序列所对应的搜索引导信息的方法与设备
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
US20220417339A1 (en) Feature-based network embedding
CN103713894B (zh) 一种用于确定用户的访问需求信息的方法与设备
CN105677931A (zh) 信息搜索方法和装置
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN103886016B (zh) 一种用于确定页面中的垃圾文本信息的方法与设备
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN109977291A (zh) 基于物理知识图谱的检索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant