CN109948073A - 内容检索方法、终端、服务器、电子设备及存储介质 - Google Patents

内容检索方法、终端、服务器、电子设备及存储介质 Download PDF

Info

Publication number
CN109948073A
CN109948073A CN201710872842.XA CN201710872842A CN109948073A CN 109948073 A CN109948073 A CN 109948073A CN 201710872842 A CN201710872842 A CN 201710872842A CN 109948073 A CN109948073 A CN 109948073A
Authority
CN
China
Prior art keywords
content
pages
substance
page address
knowledge mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710872842.XA
Other languages
English (en)
Other versions
CN109948073B (zh
Inventor
金刚铭
叶骏
徐羽
范跃伟
胡博
李未
周疏影
王剑
钭伟雨
刘秀芳
吕雪
何枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710872842.XA priority Critical patent/CN109948073B/zh
Priority to PCT/CN2018/107273 priority patent/WO2019057191A1/zh
Publication of CN109948073A publication Critical patent/CN109948073A/zh
Application granted granted Critical
Publication of CN109948073B publication Critical patent/CN109948073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种内容检索方法,其包括:接收页面内容检索触发指令;根据页面内容检索触发指令获取页面内容的页面地址;基于所述页面地址生成所述页面内容对应的内容实体知识图谱;展示内容实体知识图谱,以便用户进行关键词内容检索操作。本发明还提供一种内容检索终端以及内容检索服务器,本发明的内容检索方法、终端及服务器通过页面内容生成对应的内容实体知识图谱,用户可通过内容实体知识图谱中的关键词进行内容检索操作,从而扩大了内容检索的应用场景范围,同时提高了内容检索的检索效率。

Description

内容检索方法、终端、服务器、电子设备及存储介质
技术领域
本发明涉及数据处理领域,特别是涉及一种内容检索方法、终端、服务器、电子设备及存储介质。
背景技术
随着科技的发展,人们对互联网的依赖越来越大,人们可随时通过互联网获取各种各样的信息。当用户想要了解某个内容时,可将该内容相应的关键词输入到搜索引擎,这样搜索引擎可通过搜索引擎结果页提供与该关键词相关的内容实体介绍,如以知识图谱的方式帮助用户了解该内容。
但是上述方式均需要用户输入内容关键词,如用户无法输入关键词(如输入法使用不方便等)或用户自己也不知道关键词(如用户想要查找某部电影中的某个演员的信息等),则搜索引擎是无法对用户提供较好的内容搜索服务的;这时用户可能会放弃对该内容进行搜索,或花较多时间去寻找该内容的关键词,因此导致现有的内容检索方法以及内容检索装置应用场景范围较小,且内容检索效率较为低下。
发明内容
本发明实施例提供一种具有较大的内容检索应用场景范围,且内容检索效率较高的内容检索方法、内容检索装置及计算机可读存储介质;以解决现有的内容检索方法以及内容检索装置的内容检索应用场景范围较小且内容检索效率较为低下的技术问题。
本发明实施例提供一种内容检索方法,其包括:
接收页面内容检索触发指令;
根据所述页面内容检索触发指令获取所述页面内容的页面地址;
基于所述页面地址生成所述页面内容对应的内容实体知识图谱;以及
展示所述内容实体知识图谱,以便用户进行关键词内容检索操作。
本发明实施例还提供一种内容检索方法,其包括:
从检索终端接收页面内容的页面地址;
根据所述页面地址提取页面内容;
使用页面爬虫对所述页面内容进行内容实体提取;
根据提取的所述内容实体以及所述内容实体之间的关联性,创建所述内容实体知识图谱;以及
将所述内容实体知识图谱发送至所述检索终端进行展示,以便用户进行关键词内容检索操作。
本发明实施例还提供一种内容检索终端,其包括:
触发指令接收模块,用于接收页面内容检索触发指令;
页面地址获取模块,用于根据所述页面内容检索触发指令获取所述页面内容的页面地址;
知识图谱生成模块,用于基于所述页面地址生成所述页面内容对应的内容实体知识图谱;以及
图谱展示模块,用于展示所述内容实体知识图谱,以便用户进行关键词内容检索操作。
本发明实施例还提供一种内容检索服务器,其包括:
页面地址接收模块,用于从检索终端接收页面内容的页面地址;
页面内容提取模块,用于根据所述页面地址提取页面内容;
内容实体提取模块,用于使用页面爬虫对所述页面内容进行内容实体提取;
知识图谱创建模块,用于根据提取的所述内容实体以及所述内容实体之间的关联性,创建所述内容实体知识图谱;以及
知识图谱发送模块,用于将所述内容实体知识图谱发送至所述检索终端进行展示,以便用户进行关键词内容检索操作。
本发明实施例还提供一种计算机可读存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行上述的内容检索方法。
本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器有计算机程序,其中所述处理器通过调用所述计算机程序,用于执行上述的内容检索方法。
相较于现有技术,本发明的内容检索方法、终端、服务器、电子设备及存储介质通过页面内容生成对应的内容实体知识图谱,用户可通过内容实体知识图谱中的关键词进行内容检索操作,从而扩大了内容检索的应用场景范围,同时提高了内容检索的检索效率;解决了现有的内容检索方法以及内容检索装置的内容检索应用场景范围较小且内容检索效率较为低下的技术问题。
附图说明
图1为本发明的内容检索方法的第一实施例的流程图;
图2为本发明的内容检索方法的第二实施例的流程图;
图3为本发明的内容检索方法的第二实施例的后台服务器生成页面内容的内容实体知识图谱的流程图;
图4为本发明的内容检索方法的第三实施例的流程图;
图5为本发明的内容检索终端的第一实施例的结构示意图;
图6为本发明的内容检索终端的第二实施例的结构示意图;
图7为本发明的内容检索终端的第二实施例对应的后台服务器的结构示意图;
图8为本发明的内容检索终端的第二实施例对应的后台服务器的页面内容提取模块的结构示意图;
图9为本发明的内容检索服务器的一实施例的结构示意图;
图10为本发明的内容检索服务器的一实施例的页面内容提取模块的结构示意图;
图11为本发明的内容检索方法、内容检索终端以及内容检索服务器的具体实施例的内容检索流程时序图;
图12a为本发明的内容检索方法、内容检索终端以及内容检索服务器的具体实施例的页面内容的示意图;
图12b和图12c为本发明的内容检索方法、内容检索终端以及内容检索服务器的具体实施例的内容实体知识图谱的示意图;
图13为本发明的内容检索终端以及内容检索服务器所在的电子设备的工作环境结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其中有数次提到为由计算机执行,包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的内容检索方法、终端以及服务器可设置在任何的电子设备中,用于对用户提供的某个页面内容进行内容检索操作,该内容检索操作的应用场景范围较大,且该内容检索的检索效率较高。该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。该内容检索终端优选为移动终端,该内容检索服务器优选为内容检索后台服务器,本发明的内容检索方法通过内容检索终端确定需要进行检索的页面内容,通过后台服务器对该页面内容进行关键词提取以及知识图谱的建立,扩大了内容检索终端的内容检索的应用场景范围,且提高了内容检索的检索效率。
请参照图1,图1为本发明的内容检索方法的第一实施例的流程图,本实施例的内容检索方法可使用上述的内容检索终端进行实施,本实施例的内容检索方法包括:
步骤S101,接收页面内容检索触发指令;
步骤S102,根据页面内容触发指令获取页面内容的页面地址;
步骤S103,基于页面地址生成所述页面内容对应的内容实体知识图谱;
步骤S104,展示内容实体知识图谱,以便用户进行关键词内容检索操作。
下面详细说明本实施例的内容检索方法的各步骤的具体流程。
在步骤S101中,内容检索终端接收页面内容检索触发指令,这里的页面内容检索触发指令是指用于触发将用户选定的页面内容发送至后台服务器进行内容检索的指令。用户可通过各种方式生成该页面内容检索触发指令,如通过点击某个页面设定位置的检索按键或对当前的页面内容进行触控操作,如通过触控操作对页面内容进行下拉操作,或通过触控操作对页面内容进行缩放操作等。
在步骤S102中,内容检索终端根据步骤S101获取的页面内容检索触发指令,获取当前内容检索终端正在显示的页面内容的页面地址。
在步骤S103中,内容检索终端基于步骤S102获取的页面地址生成页面内容对应的内容实体知识图谱;具体的,内容检索终端可将步骤S102获取的页面地址发送至对应的后台服务器,这样后台服务器可针对该页面地址获取对应的页面内容,随后后台服务器可获取该页面内容的页面内容关键词,并根据上述页面内容关键词生成该页面内容的内容实体知识图谱。当然这里内容检索终端也可自行根据页面地址生成该页面内容对应的内容实体知识图谱。
这里的内容实体知识图谱是指用可视化的方式描述该页面内容中多个内容实体之间的相互联系。这里可通过页面内容的内容实体知识图谱对页面内容进行图形化的描述,以便用户更好的获取页面内容的关键词以及关键词之间的关联性。
在步骤S104中,内容检索终端从后台服务器接收内容实体知识图谱,并在内容检索终端的屏幕展示该内容实体知识图谱,用户可通过选定内容实体知识图谱上的关键词进行关键词内容检索操作。
这样即完成了本实施例的内容检索方法的页面内容检索过程。
本实施例的内容检索方法通过页面内容生成对应的内容实体知识图谱,用户可通过内容实体知识图谱中的关键词进行内容检索操作,这样用户不需要主动输入关键词,甚至可一次性对页面内容中的多个关键词同时进行检索操作,从而扩大了内容检索的应用场景范围,同时提高了内容检索的检索效率。
请参照图2,图2为本发明的内容检索方法的第二实施例的流程图,本实施例的内容检索方法可使用上述的内容检索终端进行实施,本实施例的内容检索方法包括:
步骤S201,从后台服务器接收页面内容检索列表,并根据页面内容检索列表的内容进行页面内容检索触发提示;
步骤S202,根据用户在页面内容展示界面上的触控操作,生成页面内容检索触发指令;
步骤S203,根据页面内容检索触发指令获取页面内容的页面地址;
步骤S204,基于页面地址生成页面内容对应的内容实体知识图谱;
步骤S205,展示内容实体知识图谱,以便用户进行关键词内容检索操作。
下面详细说明本实施例的内容检索方法的各步骤的具体流程。
在步骤S201中,由于并非所有的页面内容均可以进行页面内容检索操作,如某些页面无法通过页面爬虫进行页面内容提取。因此内容检索终端会从后台服务器接收页面内容检索列表,该页面内容检索列表用来表示那些页面可以进行页面内容检索操作。
该页面内容检索列表可以是页面的白名单列表,如将www.qq.com下的页面内容设置为可进行页面内容检索的白名单列表;也可以是页面的黑名单列表,如将www.163.com下的页面内容设置为不可进行页面内容检索的黑名单列表;也可以是页面的黑白名单列表,或页面的黑白名单种类的列表,如将cn后缀的页面均设置为可进行页面内容检索的白名单网站种类,将org后缀的页面均设置为不可进行页面内容检索的黑名单网站种类等。
随后内容检索终端会根据该页面内容检索列表的内容对用户当前浏览页面进行页面内容检索触发提示,以便用户根据该页面内容检索触发提示发出页面内容检索触发指令。即如用户当前浏览页面可进行页面内容检索操作,则在该浏览页面的预设位置上进行页面内容检索触发提示,例如在页面的右上角标明“可检索”等;如用户当前浏览页面不可进行页面内容检索操作,则在页面的右上角表明“不可检索”。当然这里页面内容检索触发提示的展示方式可根据要求进行修改。
在步骤S202中,如用户当前浏览页面可进行页面内容检索操作,则内容检索终端可接收用户在页面展示界面上的触控操作,以生成页面内容检索触发指令。如通过点击用户当前浏览页面设定位置的检索按键或对用户当前浏览页面进行下拉操作或缩放操作等。这里的页面内容检索触发指令是指用于触发将用户选定的页面内容发送至后台服务器进行内容检索的指令。该触控操作需预先进行设定,即检测到用户进行上述触控操作且用户当前浏览页面可进行页面内容检索操作,则内容检索终端生成页面内容检索触发指令。
在步骤S203中,内容检索终端根据步骤S202生成的页面内容检索触发指令,获取当前内容检索终端正在显示的页面内容的页面地址。
在步骤S204中,内容检索终端基于步骤S203获取的页面地址生成页面内容对应的内容实体知识图谱,具体的,内容检索终端将步骤S203获取的页面地址发送至对应的后台服务器,这样后台服务器可根据页面地址生成页面内容的内容实体知识图谱。具体请参见图3,图3为本发明的内容检索方法的第二实施例的后台服务器生成页面内容的内容实体知识图谱的流程图。该步骤S204包括:
步骤S301,后台服务器根据获取的页面地址提取页面内容。
具体的,这里后台服务器可先对获取的页面地址进行归一化操作,以便后台服务器可较好的识别不同域名表示的相同页面地址。
随后后台服务器会判断服务器本地存储器是否存储有该归一化操作后的页面地址对应的页面内容。如服务器本地存储器存储有归一化操作后的页面地址对应的页面内容,则后台服务器可直接从服务器本地存储器提取该页面内容,这样可以较好的避免实时页面内容提取速度慢的问题,提高了页面内容的提取性能。如服务器本地存储器未存储有归一化操作后的页面地址对应的页面内容,则后台服务器直接从页面地址提取上述页面内容。
步骤S302,后台服务器使用页面爬虫对页面内容进行内容实体提取。具体可将页面内容中的标题、副标题、作者以及具体内容提取出来。随后对上述标题以及具体内容进行分词、命名实体识别(NER,Named Entity Recognition)以及词频-逆向文件频率(TF-IDF,term frequency–inverse document frequency)等文本处理操作,将页面内容抽象成若干个内容实体。这些内容实体可有效的反馈该页面内容的所有内容。
步骤S303,后台服务器以上述内容实体作为检索词,通过搜索引擎技术从后台数据库中提取内容实体的具体数据,并获取内容实体之间的关联性。即获取内容实体的实体属性(实体名称、实体种类以及实体信息等)以及相关内容实体之间的实体关系(如演唱者、表演者以及夫妻人物关系等)。
如内容实体为刘德华,则后台服务器以刘德华作为检索词,通过搜索引擎技术从后台数据库中提取内容实体的具体数据,如刘德华为演员、歌手、刘德华的出道时间、代表作品等;还可提取到刘德华与另一内容实体张学友的关系,如刘德华和张学友均为香港歌手,刘德华和张学友一起出演过电影“江湖”等。这样即可建立刘德华和张学友两个内容实体之间的实体关系。
这里的实体关系可如某部电视剧的演员在剧中的人物关系图谱以及演员在现实生活中的人物关系图谱等。电视剧的名称以及演员的名称即为内容实体的实体属性,剧中人物之间的夫妻关系、父子关系以及演员与该电视剧的演员关系即为内容实体的实体关系。
这样后台服务器可根据上述内容实体以及内容实体之间的关联性,创建内容实体知识图谱。这里的内容实体知识图谱是指用可视化的方式描述该页面内容中多个内容实体之间的相互联系。这里可通过页面内容的内容实体知识图谱对页面内容进行图形化的描述,以便用户更好的获取页面内容的关键词以及关键词之间的关联性。这里的内容实体知识图谱可通过多个层级结构来表示不同内容实体之间的相互联系,较为重要的内容实体应放置在层级结构的最高层级,以便对该内容实体的实体属性以及实体关系进行较好的展示。
步骤S304,由于页面内容包含的内容实体可能会过多,这样导致无法通过一个较少层级的内容实体知识图谱反馈所有的内容实体之间的关联性。这时后台服务器会读取内容检索终端用户的用户画像,该用户画像可预设在后台服务器或预设在内容检索终端中,该用户画像是指通过用户的如内容浏览、内容搜索以及内容购买等行为得出的用户对不同内容实体的兴趣值。如某些用户对电影兴趣较大,某些用户对歌曲兴趣较大等。
这样后台服务器可根据预设用户画像,对步骤S303获取的内容实体知识图谱中的内容实体进行优先级调整。即使得内容实体知识图谱可以优先显示用户最感兴趣的内容实体,将用户兴趣较差的内容实体放置到内容实体知识图谱的第二层级或第三层级,将判断用户不感兴趣的内容实体直接从内容实体知识图谱中删除等。
这样即完成后台服务器生成页面内容的实体知识图谱的过程。
步骤S205,内容检索终端从后台服务器接收进行优先级调整的内容实体知识图谱,并在内容检索终端的屏幕展示该内容实体知识图谱,用户可通过选定内容实体知识图谱上的关键词进行关键词内容检索操作或直接以用户选定的关键词再次生成新的内容实体知识图谱。
这样即完成了本实施例的内容检索方法的页面内容检索过程。
在第一实施例的基础上,本实施例的内容检索方法通过页面内容检索列表以及页面内容检索触发提示将无法进行页面内容检索的页面进行了过滤,进一步提高了页面内容检索的检索效率;通过用户在页面内容展示界面上的触控操作生成页面内容检索触发指令,提高了页面内容检索触发指令的多样性;页面检索过程可在后台服务器进行,内容检索终端仅仅对内容实体知识图谱进行展示操作,因此提高了内容检索终端的性能。
请参照图4,图4为本发明的内容检索方法的第三实施例的流程图,本实施例的内容检索方法可使用上述的内容检索服务器进行实施,本实施例的内容检索方法包括:
步骤S401,从检索终端接收页面内容的页面地址;
步骤S402,根据页面地址提取页面内容;
步骤S403,使用页面爬虫对页面内容进行内容实体提取;
步骤S404,根据提取的内容实体以及内容实体之间的关联性,创建内容实体知识图谱;
步骤S405,基于预设用户画像,对内容实体知识图谱进行内容实体优先级调整;
步骤S406,将内容实体知识图谱发送至检索终端进行展示,以便用户进行关键词内容检索操作。
下面详细说明本实施例的内容检索方法的各步骤的具体流程。
在步骤S401中,内容检索服务器从检索终端接收页面内容的页面地址,即检索终端当前正在显示的页面内容的页面地址。
在步骤S402中,内容检索服务器根据步骤S401获取的页面地址提取页面内容。
具体的,这里内容检索服务器可先对获取的页面地址进行归一化操作,以便内容检索服务器可较好的识别不同域名表示的相同页面地址。
随后内容检索服务器会判断服务器本地存储器是否存储有该归一化操作后的页面地址对应的页面内容。如服务器本地存储器存储有归一化操作后的页面地址对应的页面内容,则后台服务器可直接从服务器本地存储器提取该页面内容,这样可以较好的避免实时页面内容提取速度慢的问题,提高了页面内容的提取性能。如服务器本地存储器未存储有归一化操作后的页面地址对应的页面内容,则后台服务器直接从页面地址提取上述页面内容。
在步骤S403中,内容检索服务器使用页面爬虫对页面内容进行内容实体提取。具体可将页面内容中的标题、副标题、作者以及具体内容提取出来。随后对上述标题以及具体内容进行分词、命名实体识别(NER,Named Entity Recognition)以及词频-逆向文件频率(TF-IDF,term frequency–inverse document frequency)等文本处理操作,将页面内容抽象成若干个内容实体。这些内容实体可有效的反馈该页面内容的所有内容。
在步骤S404中,内容检索服务器以上述内容实体作为检索词,通过搜索引擎技术从后台数据库中提取所述内容实体的具体数据,并获取内容实体之间的关联性。即获取内容实体的实体属性(实体名称、实体种类以及实体信息等)以及相关内容实体之间的实体关系(如演唱者、表演者以及夫妻人物关系等)。
如内容实体为刘德华,则后台服务器以刘德华作为检索词,通过搜索引擎技术从后台数据库中提取内容实体的具体数据,如刘德华为演员、歌手、刘德华的出道时间、代表作品等;还可提取到刘德华与另一内容实体张学友的关系,如刘德华和张学友均为香港歌手,刘德华和张学友一起出演过电影“江湖”等。这样即可建立刘德华和张学友两个内容实体之间的实体关系。
这里的实体关系可如某部电视剧的演员在剧中的人物关系图谱以及演员在现实生活中的人物关系图谱等。电视剧的名称以及演员的名称即为内容实体的实体属性,剧中人物之间的夫妻关系、父子关系以及演员与该电视剧的演员关系即为内容实体的实体关系。
这样内容检索服务器可根据上述内容实体以及内容实体之间的关联性,创建内容实体知识图谱。这里的内容实体知识图谱是指用可视化的方式描述该页面内容中多个内容实体之间的相互联系。这里可通过页面内容的内容实体知识图谱对页面内容进行图形化的描述,以便用户更好的获取页面内容的关键词以及关键词之间的关联性。这里的内容实体知识图谱可通过多个层级结构来表示不同内容实体之间的相互联系,较为重要的内容实体应放置在层级结构的最高层级,以便对该内容实体的实体属性以及实体关系进行较好的展示。
在步骤S405中,由于页面内容包含的内容实体可能会过多,这样导致无法通过一个较少层级的内容实体知识图谱反馈所有的内容实体之间的关联性。这时后台服务器会读取内容检索终端用户的用户画像,该用户画像可预设在后台服务器或预设在内容检索终端中,该用户画像是指通过用户的如内容浏览、内容搜索以及内容购买等行为得出的用户对不同内容实体的兴趣值。如某些用户对电影兴趣较大,某些用户对歌曲兴趣较大等。
这样内容检索服务器可根据预设用户画像,对步骤S404获取的内容实体知识图谱中的内容实体进行优先级调整。即使得内容实体知识图谱可以优先显示用户最感兴趣的内容实体,将用户兴趣较差的内容实体放置到内容实体知识图谱的第二层级或第三层级,将判断用户不感兴趣的内容实体直接从内容实体知识图谱中删除等。
在步骤S406中,内容检索服务器将进行优先级调整后的内容实体知识图谱发送至检索终端进行展示,这样内容检索终端的用户可通过选定内容实体知识图谱上的关键词进行关键词内容检索操作或直接以用户选定的关键词再次生成新的内容实体知识图谱。
这样即完成了本实施例的内容检索方法的页面内容检索过程。
本实施例的内容检索方法通过页面内容生成对应的内容实体知识图谱,用户可通过内容实体知识图谱中的关键词进行内容检索操作,这样用户不需要主动输入关键词,甚至可一次性对页面内容中的多个关键词同时进行检索操作,从而扩大了内容检索的应用场景范围,同时提高了内容检索的检索效率。
且页面检索过程可在后台服务器进行,内容检索终端仅仅对内容实体知识图谱进行展示操作,因此可有效提高对应的内容检索终端的性能。
本发明还提供一种内容检索终端,请参照图5,图5为本发明的内容检索终端的第一实施例的结构示意图。本实施例的内容检索终端可使用上述的内容检索方法的第一实施例进行实施,本实施例的内容检索终端50包括触发指令接收模块51、页面地址获取模块52、知识图谱生成模块53以及图谱展示模块54。
触发指令接收模块51用于接收页面内容检索触发指令;页面地址获取模块52用于根据页面内容检索触发指令获取页面内容的页面地址;知识图谱生成模块53用于基于页面地址生成页面内容对应的内容实体知识图谱;图谱展示模块54用于接收并展示内容实体知识图谱,以便用户进行关键词内容检索操作。
本实施例的内容检索终端50使用时,首先触发指令接收模块51接收页面内容检索触发指令,这里的页面内容检索触发指令是指用于触发将用户选定的页面内容发送至后台服务器进行内容检索的指令。用户可通过各种方式生成该页面内容检索触发指令,如通过点击某个页面设定位置的检索按键或对当前的页面内容进行触控操作,如通过触控操作对页面内容进行下拉操作,或通过触控操作对页面内容进行缩放操作等。
随后页面地址获取模块52根据触发指令接收模块51获取的页面内容检索触发指令,获取当前内容检索终端正在显示的页面内容的页面地址。
然后知识图谱生成模块53基于页面地址获取模块52获取的页面地址生成页面内容对应的内容实体知识图谱;具体的,知识图谱生成模块53将页面地址获取模块52获取的页面地址发送至对应的后台服务器,这样后台服务器可针对该页面地址获取对应的页面内容,随后后台服务器可获取该页面内容的页面内容关键词,并根据上述页面内容关键词生成该页面内容的内容实体知识图谱。当然这里知识图谱生成模块53也可自行根据页面地址生成该页面内容对应的内容实体知识图谱。
这里的内容实体知识图谱是指用可视化的方式描述该页面内容中多个内容实体之间的相互联系。这里可通过页面内容的内容实体知识图谱对页面内容进行图形化的描述,以便用户更好的获取页面内容的关键词以及关键词之间的关联性。
最后图谱展示模块54从后台服务器接收内容实体知识图谱,并在内容检索终端的屏幕展示该内容实体知识图谱,用户可通过选定内容实体知识图谱上的关键词进行关键词内容检索操作。
这样即完成了本实施例的内容检索终端50的页面内容检索过程。
本实施例的内容检索终端通过页面内容生成对应的内容实体知识图谱,用户可通过内容实体知识图谱中的关键词进行内容检索操作,这样用户不需要主动输入关键词,甚至可一次性对页面内容中的多个关键词同时进行检索操作,从而扩大了内容检索的应用场景范围,同时提高了内容检索的检索效率。
请参照图6,图6为本发明的内容检索终端的第二实施例的结构示意图。本实施例的内容检索终端可使用上述的内容检索方法的第二实施例进行实施,本实施例的内容检索终端60包括检索触发提示模块61、触发指令接收模块62、页面地址获取模块63、知识图谱生成模块64以及图谱展示模块65。
检索触发提示模块61用于从后台服务器接收页面内容检索列表,并根据页面内容检索列表的内容进行页面内容检索触发提示,以便用户根据页面内容检索触发提示发出页面内容检索触发指令。触发指令接收模块62用于根据用户在页面内容展示界面上的触控操作,生成页面内容检索触发指令。页面地址获取模块63用于根据页面内容检索触发指令获取页面内容的页面地址;知识图谱生成模块用于基于页面地址生成所述页面内容对应的内容实体知识图谱;图谱展示模块65用于展示内容实体知识图谱,以便用户进行关键词内容检索操作。
请参照图7,图7为本发明的内容检索终端的第二实施例对应的后台服务器的结构示意图。该后台服务器70包括页面内容提取模块71、内容实体提取模块72、知识图谱创建模块73以及知识图谱优先级调整模块74。
页面内容提取模块71用于根据页面地址提取页面内容;内容实体提取模块72用于使用页面爬虫对页面内容进行内容实体提取;知识图谱创建模块73用于根据提取的内容实体以及内容实体之间的关联性,创建内容实体知识图谱。知识图谱优先级调整模块74用于基于预设用户画像,对内容实体知识图谱进行内容实体优先级调整。
请参照图8,图8为本发明的内容检索终端的第二实施例对应的后台服务器的页面内容提取模块的结构示意图。该页面内容提取模块71包括页面地址归一化单元81、页面内容存储判断单元82、第一页面内容提取单元83以及第二页面内容提取单元84。
页面地址归一化单元81用于对页面地址进行归一化操作;页面内容存储判断单元82用于判断服务器本地存储器是否存储有归一化操作后的页面地址对应的页面内容;第一页面内容提取单元83用于如存储有归一化操作后的页面地址对应的页面内容,则从服务器本地存储器提取页面内容;第二页面内容提取单元84用于如未存储有归一化操作后的页面地址对应的页面内容,则从页面地址提取页面内容。
本优选实施例的内容检索终端60使用时,由于并非所有的页面内容均可以进行页面内容检索操作,如某些页面无法通过页面爬虫进行页面内容提取。因此检索触发提示模块61会从后台服务器70接收页面内容检索列表,该页面内容检索列表用来表示那些页面可以进行页面内容检索操作。
该页面内容检索列表可以是页面的白名单列表,如将www.qq.com下的页面内容设置为可进行页面内容检索的白名单列表;也可以是页面的黑名单列表,如将www.163.com下的页面内容设置为不可进行页面内容检索的黑名单列表;也可以是页面的黑白名单列表,或页面的黑白名单种类的列表,如将cn后缀的页面均设置为可进行页面内容检索的白名单网站种类,将org后缀的页面均设置为不可进行页面内容检索的黑名单网站种类等。
随后检索触发提示模块61会根据该页面内容检索列表的内容对用户当前浏览页面进行页面内容检索触发提示,以便用户根据该页面内容检索触发提示发出页面内容检索触发指令。即如用户当前浏览页面可进行页面内容检索操作,则在该浏览页面的预设位置上进行页面内容检索触发提示,例如在页面的右上角标明“可检索”等;如用户当前浏览页面不可进行页面内容检索操作,则在页面的右上角表明“不可检索”。当然这里页面内容检索触发提示的展示方式可根据要求进行修改。
然后如用户当前浏览页面可进行页面内容检索操作,则触发指令接收模块62可接收用户在页面展示界面上的触控操作,以生成页面内容检索触发指令。如通过点击用户当前浏览页面设定位置的检索按键或对用户当前浏览页面进行下拉操作或缩放操作等。这里的页面内容检索触发指令是指用于触发将用户选定的页面内容发送至后台服务器进行内容检索的指令。该触控操作需预先进行设定,即检测到用户进行上述触控操作且用户当前浏览页面可进行页面内容检索操作,则内容检索终端生成页面内容检索触发指令。
随后页面地址获取模块63根据触发指令接收模块62生成的页面内容检索触发指令,获取当前内容检索终端正在显示的页面内容的页面地址。
然后知识图谱生成模块64基于页面地址获取模块63获取的页面地址生成页面内容对应的内容实体知识图谱,具体的,知识图谱生成模块64将页面地址获取模块63获取的页面地址发送至对应的后台服务器,这样后台服务器70可根据页面地址生成页面内容的内容实体知识图谱。具体过程包括:
后台服务器70的页面内容提取模块71根据获取页面地址提取页面内容。
具体的,页面内容提取模块71的页面地址归一化单元81可先对获取的页面地址进行归一化操作,以便后台服务器可较好的识别不同域名表示的相同页面地址。
随后页面内容提取模块71的页面内容存储判断单元82会判断服务器本地存储器是否存储有该归一化操作后的页面地址对应的页面内容。如服务器本地存储器存储有归一化操作后的页面地址对应的页面内容,则页面内容提取模块71的第一页面内容提取单元83可直接从服务器本地存储器提取该页面内容,这样可以较好的避免实时页面内容提取速度慢的问题,提高了页面内容的提取性能。如服务器本地存储器未存储有归一化操作后的页面地址对应的页面内容,则页面内容提取模块71的第二页面内容提取单元84直接从页面地址提取上述页面内容。
然后后台服务器70的内容实体提取模块72使用页面爬虫对页面内容进行内容实体提取。具体可将页面内容中的标题、副标题、作者以及具体内容提取出来。随后对上述标题以及具体内容进行分词、命名实体识别(NER,Named Entity Recognition)以及词频-逆向文件频率(TF-IDF,term frequency–inverse document frequency)等文本处理操作,将页面内容抽象成若干个内容实体。这些内容实体可有效的反馈该页面内容的所有内容。
随后后台服务器70的知识图谱创建模块73以上述内容实体作为检索词,通过搜索引擎技术从后台数据库中提取所述内容实体的具体数据,并获取内容实体之间的关联性。即获取内容实体的实体属性(实体名称、实体种类以及实体信息等)以及相关内容实体之间的实体关系(如演唱者、表演者以及夫妻人物关系等)。
如内容实体为刘德华,则后台服务器以刘德华作为检索词,通过搜索引擎技术从后台数据库中提取内容实体的具体数据,如刘德华为演员、歌手、刘德华的出道时间、代表作品等;还可提取到刘德华与另一内容实体张学友的关系,如刘德华和张学友均为香港歌手,刘德华和张学友一起出演过电影“江湖”等。这样即可建立刘德华和张学友两个内容实体之间的实体关系。
这里的实体关系可如某部电视剧的演员在剧中的人物关系图谱以及演员在现实生活中的人物关系图谱等。电视剧的名称以及演员的名称即为内容实体的实体属性,剧中人物之间的夫妻关系、父子关系以及演员与该电视剧的演员关系即为内容实体的实体关系。
这样知识图谱创建模块73可根据上述内容实体以及内容实体之间的关联性,创建内容实体知识图谱。这里的内容实体知识图谱是指用可视化的方式描述该页面内容中多个内容实体之间的相互联系。这里可通过页面内容的内容实体知识图谱对页面内容进行图形化的描述,以便用户更好的获取页面内容的关键词以及关键词之间的关联性。这里的内容实体知识图谱可通过多个层级结构来表示不同内容实体之间的相互联系,较为重要的内容实体应放置在层级结构的最高层级,以便对该内容实体的实体属性以及实体关系进行较好的展示。
由于页面内容包含的内容实体可能会过多,这样导致无法通过一个较少层级的内容实体知识图谱反馈所有的内容实体之间的关联性。最后后台服务器70的知识图谱优先级调整模块74会读取内容检索终端用户的用户画像,该用户画像可预设在后台服务器或预设在内容检索终端中,该用户画像是指通过用户的如内容浏览、内容搜索以及内容购买等行为得出的用户对不同内容实体的兴趣值。如某些用户对电影兴趣较大,某些用户对歌曲兴趣较大等。
这样知识图谱优先级调整模块74可根据预设用户画像,对知识图谱创建模块73获取的内容实体知识图谱中的内容实体进行优先级调整。即使得内容实体知识图谱可以优先显示用户最感兴趣的内容实体,将用户兴趣较差的内容实体放置到内容实体知识图谱的第二层级或第三层级,将判断用户不感兴趣的内容实体直接从内容实体知识图谱中删除等。
这样即完成后台服务器70生成页面内容的实体知识图谱的过程。
随后图谱展示模块65从后台服务器70接收进行优先级调整的内容实体知识图谱,并在内容检索终端60的屏幕展示该内容实体知识图谱,用户可通过选定内容实体知识图谱上的关键词进行关键词内容检索操作或直接以用户选定的关键词再次生成新的内容实体知识图谱。
这样即完成了本实施例的内容检索终端60的页面内容检索过程。
在第一实施例的基础上,本实施例的内容检索终端通过页面内容检索列表以及页面内容检索触发提示将无法进行页面内容检索的页面进行了过滤,进一步提高了页面内容检索的检索效率;通过用户在页面内容展示界面上的触控操作生成页面内容检索触发指令,提高了页面内容检索触发指令的多样性;页面检索过程可在后台服务器进行,内容检索终端仅仅对内容实体知识图谱进行展示操作,因此提高了内容检索终端的性能。
本发明还提供一种内容检索服务器,请参照图9,图9为本发明的内容检索服务器的一实施例的结构示意图。本实施例的内容检索服务器可使用上述的内容检索方法的第三实施例进行实施。本实施例的内容检索服务器90包括页面地址接收模块91、页面内容提取模块92、内容实体提取模块93、知识图谱创建模块94、知识图谱优先级调整模块95以及知识图谱发送模块96。
页面地址接收模块91用于从检索终端接收页面内容的页面地址;页面内容提取模块92用于根据页面地址提取页面内容;内容实体提取模块93用于使用页面爬虫对页面内容进行内容实体提取;知识图谱创建模块94用于根据提取的内容实体以及内容实体之间的关联性,创建内容实体知识图谱;知识图谱优先级调整模块95用于基于预设用户画像,对内容实体知识图谱进行内容实体优先级调整;知识图谱发送模块96用于将内容实体知识图谱发送至检索终端进行展示,以便用户进行关键词内容检索操作。
请参照图10,图10为本发明的内容检索服务器的一实施例的页面内容提取模块的结构示意图。该页面内容提取模块92包括页面地址归一化单元101、页面内容存储判断单元102、第一页面内容提取单元103以及第二页面内容提取单元104。
页面地址归一化单元101用于对页面地址进行归一化操作;页面内容存储判断单元102用于判断服务器本地存储器是否存储有归一化操作后的页面地址对应的页面内容;第一页面内容提取单元103用于如存储有归一化操作后的页面地址对应的页面内容,则从服务器本地存储器提取页面内容;第二页面内容提取单元104用于如未存储有归一化操作后的页面地址对应的页面内容,则从页面地址提取页面内容。
本实施例的内容检索服务器90使用时,首先页面地址接收模块91从检索终端接收页面内容的页面地址,即检索终端当前正在显示的页面内容的页面地址。
随后页面内容提取模块92根据页面地址接收模块91获取的页面地址提取页面内容。
具体的,这里页面内容提取模块92的页面地址归一化单元101可先对获取的页面地址进行归一化操作,以便内容检索服务器可较好的识别不同域名表示的相同页面地址。
随后页面内容提取模块92的页面内容存储判断单元102会判断服务器本地存储器是否存储有该归一化操作后的页面地址对应的页面内容。如服务器本地存储器存储有归一化操作后的页面地址对应的页面内容,则页面内容提取模块92的第一页面内容提取单元103可直接从服务器本地存储器提取该页面内容,这样可以较好的避免实时页面内容提取速度慢的问题,提高了页面内容的提取性能。如服务器本地存储器未存储有归一化操作后的页面地址对应的页面内容,则页面内容提取模块92的第二页面内容提取单元104直接从页面地址提取上述页面内容。
然后内容实体提取模块93使用页面爬虫对页面内容进行内容实体提取。具体可将页面内容中的标题、副标题、作者以及具体内容提取出来。随后对上述标题以及具体内容进行分词、命名实体识别(NER,Named Entity Recognition)以及词频-逆向文件频率(TF-IDF,term frequency–inverse document frequency)等文本处理操作,将页面内容抽象成若干个内容实体。这些内容实体可有效的反馈该页面内容的所有内容。
随后知识图谱创建模块94以上述内容实体作为检索词,通过搜索引擎技术从后台数据库中提取所述内容实体的具体数据,并获取内容实体之间的关联性。即获取内容实体的实体属性(实体名称、实体种类以及实体信息等)以及相关内容实体之间的实体关系(如演唱者、表演者以及夫妻人物关系等)。
如内容实体为刘德华,则后台服务器以刘德华作为检索词,通过搜索引擎技术从后台数据库中提取内容实体的具体数据,如刘德华为演员、歌手、刘德华的出道时间、代表作品等;还可提取到刘德华与另一内容实体张学友的关系,如刘德华和张学友均为香港歌手,刘德华和张学友一起出演过电影“江湖”等。这样即可建立刘德华和张学友两个内容实体之间的实体关系。
这里的实体关系可如某部电视剧的演员在剧中的人物关系图谱以及演员在现实生活中的人物关系图谱等。电视剧的名称以及演员的名称即为内容实体的实体属性,剧中人物之间的夫妻关系、父子关系以及演员与该电视剧的演员关系即为内容实体的实体关系。
这样知识图谱创建模块94可根据上述内容实体以及内容实体之间的关联性,创建内容实体知识图谱。这里的内容实体知识图谱是指用可视化的方式描述该页面内容中多个内容实体之间的相互联系。这里可通过页面内容的内容实体知识图谱对页面内容进行图形化的描述,以便用户更好的获取页面内容的关键词以及关键词之间的关联性。这里的内容实体知识图谱可通过多个层级结构来表示不同内容实体之间的相互联系,较为重要的内容实体应放置在层级结构的最高层级,以便对该内容实体的实体属性以及实体关系进行较好的展示。
由于页面内容包含的内容实体可能会过多,这样导致无法通过一个较少层级的内容实体知识图谱反馈所有的内容实体之间的关联性。这时知识图谱优先级调整模块会读取内容检索终端用户的用户画像,该用户画像可预设在内容检索服务器或预设在内容检索终端中,该用户画像是指通过用户的如内容浏览、内容搜索以及内容购买等行为得出的用户对不同内容实体的兴趣值。如某些用户对电影兴趣较大,某些用户对歌曲兴趣较大等。
这样知识图谱优先级调整模块95可根据预设用户画像,对知识图谱创建模块94获取的内容实体知识图谱中的内容实体进行优先级调整。即使得内容实体知识图谱可以优先显示用户最感兴趣的内容实体,将用户兴趣较差的内容实体放置到内容实体知识图谱的第二层级或第三层级,将判断用户不感兴趣的内容实体直接从内容实体知识图谱中删除等。
最后知识图谱发送模块96将进行优先级调整后的内容实体知识图谱发送至检索终端进行展示,这样内容检索终端的用户可通过选定内容实体知识图谱上的关键词进行关键词内容检索操作或直接以用户选定的关键词再次生成新的内容实体知识图谱。
这样即完成了本实施例的内容检索服务器90的页面内容检索过程。
本实施例的内容检索服务器通过页面内容生成对应的内容实体知识图谱,用户可通过内容实体知识图谱中的关键词进行内容检索操作,这样用户不需要主动输入关键词,甚至可一次性对页面内容中的多个关键词同时进行检索操作,从而扩大了内容检索的应用场景范围,同时提高了内容检索的检索效率。
且页面检索过程在内容检索服务器进行,内容检索终端仅仅对内容实体知识图谱进行展示操作,因此可有效提高对应的内容检索终端的性能。
下面通过一具体实施例说明本发明的内容检索方法、内容检索终端以及内容检索服务器的工作原理。请参照图11,图11为本发明的内容检索方法、内容检索终端以及内容检索服务器的具体实施例的内容检索流程时序图。本具体实施例中,内容检索终端为用户的移动终端,内容检索服务器为浏览器应用的后台服务器。本具体实施例的内容检索流程包括:
步骤S1101,移动终端用户在浏览器应用看到感兴趣的页面内容时,如该页面内容上设置有页面内容检索触发提示,则用户可以通过对页面内容进行下拉操作,发出页面内容检索触发指令。
步骤S1102,移动终端根据页面内容检索触发指令获取浏览器应用当前浏览的页面地址,并将该页面地址发送至浏览器应用的后台服务器。
步骤S1103,后台服务器对接收到的页面地址进行归一化操作后,通过本地缓存或直接通过页面地址获取对应的页面内容。
步骤S1104,后台服务器使用页面爬虫对页面内容进行内容实体提取,如将页面内容中的标题、副标题、作者以及具体内容提取出来。随后对上述标题以及具体内容进行分词、命名实体识别(NER,Named Entity Recognition)以及词频-逆向文件频率(TF-IDF,term frequency–inverse document frequency)等文本处理操作,将页面内容抽象成若干个内容实体。
如图12a为电视剧“楚乔传”的宣传页面,从页面内容中可提取出“楚乔传”、“楚乔”以及“赵丽颖”等内容实体。
步骤S1105,后台服务器以上述内容实体作为检索词,通过搜索引擎技术从后台数据库中提取该内容实体的具体数据,并基于内容实体之间的关联性,创建该页面内容对应的内容实体知识图谱。具体如图12b以及图12c所示。
步骤S1106,后台服务器根据移动终端用户之前的页面浏览记录形成的用户画像,确定用户对内容实体知识图谱中的内容实体的兴趣度,并依据该兴趣度对内容实体知识图谱中的内容实体的位置以及优先级进行调整。如用户对电视剧“楚乔传”的兴趣度较大,则生成图12b所示的内容实体知识图谱;如用户对演员“赵丽颖”的兴趣度较大,则生成图12c所示的内容实体知识图谱。
步骤S1107,后台服务器将调整后的内容实体知识图谱发送至移动终端进行展示,移动终端用户可通过选定内容实体知识图谱上的任何关键词进行关键词内容检索操作。这里用户可通过点击图12b中的“赵丽颖”的内容实体切换至图12c的内容实体知识图谱。
这样即完成了本具体实施例的内容检索方法、内容检索终端以及内容检索服务器的页面内容检索过程。
本发明的内容检索方法、内容检索终端、内容检索服务器以及电子设备通过页面内容生成对应的内容实体知识图谱,用户可通过内容实体知识图谱中的关键词进行内容检索操作,从而扩大了内容检索的应用场景范围,同时提高了内容检索的检索效率;解决了现有的内容检索方法以及内容检索装置的内容检索应用场景范围较小且内容检索效率较为低下的技术问题。
如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体:硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示,运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。
图13和随后的讨论提供了对实现本发明所述的内容检索终端以及内容检索服务器所在的电子设备的工作环境的简短、概括的描述。图13的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备1312包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。
尽管没有要求,但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块,比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地,该计算机可读指令的功能可以在各种环境中随意组合或分布。
图13图示了包括本发明的内容检索终端以及内容检索服务器中的一个或多个实施例的电子设备1312的实例。在一种配置中,电子设备1312包括至少一个处理单元1316和存储器1318。根据电子设备的确切配置和类型,存储器1318可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图13中由虚线1314图示。
在其他实施例中,电子设备1312可以包括附加特征和/或功能。例如,设备1312还可以包括附加的存储装置(例如可移除和/或不可移除的),其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图13中由存储装置1320图示。在一个实施例中,用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置1320中。存储装置1320还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器1318中由例如处理单元1316执行。
本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器1318和存储装置1320是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备1312访问的任何其他介质。任意这样的计算机存储介质可以是电子设备1312的一部分。
电子设备1312还可以包括允许电子设备1312与其他设备通信的通信连接1326。通信连接1326可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备1312连接到其他电子设备的其他接口。通信连接1326可以包括有线连接或无线连接。通信连接1326可以发射和/或接收通信媒体。
术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据,并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号:该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。
电子设备1312可以包括输入设备1324,比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备1312中也可以包括输出设备1322,比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备1324和输出设备1322可以经由有线连接、无线连接或其任意组合连接到电子设备1312。在一个实施例中,来自另一个电子设备的输入设备或输出设备可以被用作电子设备1312的输入设备1324或输出设备1322。
电子设备1312的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中,电子设备1312的组件可以通过网络互连。例如,存储器1318可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。
本领域技术人员将认识到,用于存储计算机可读指令的存储设备可以跨越网络分布。例如,可经由网络1328访问的电子设备1330可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备1312可以访问电子设备1330并且下载计算机可读指令的一部分或所有以供执行。可替代地,电子设备1312可以按需要下载多条计算机可读指令,或者一些指令可以在电子设备1312处执行并且一些指令可以在电子设备1330处执行。
本文提供了实施例的各种操作。在一个实施例中,所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令,其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且,应当理解,不是所有操作必需在本文所提供的每个实施例中存在。
而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的方法。
综上所述,虽然本发明已以实施例揭露如上,实施例前的序号仅为描述方便而使用,对本发明各实施例的顺序不造成限制。并且,上述实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。

Claims (11)

1.一种内容检索方法,其特征在于,包括:
接收页面内容检索触发指令;
根据所述页面内容检索触发指令获取所述页面内容的页面地址;
基于所述页面地址生成所述页面内容对应的内容实体知识图谱;以及
展示所述内容实体知识图谱,以便用户进行关键词内容检索操作。
2.根据权利要求1所述的内容检索方法,其特征在于,所述接收页面内容检索触发指令的步骤为:
根据用户在页面内容展示界面上的触控操作,生成所述页面内容检索触发指令。
3.根据权利要求1所述的内容检索方法,其特征在于,所述内容检索方法还包括:
从所述后台服务器接收页面内容检索列表,并根据所述页面内容检索列表的内容进行页面内容检索触发提示,以便用户根据所述页面内容检索触发提示发出所述页面内容检索触发指令。
4.根据权利要求1所述的内容检索方法,其特征在于,所述基于所述页面地址生成所述页面内容对应的内容实体知识图谱的步骤为:
将所述页面地址发送至对应的后台服务器,以便所述后台服务器根据所述页面地址生成所述页面内容的内容实体知识图谱。
5.一种内容检索方法,其特征在于,包括:
从检索终端接收页面内容的页面地址;
根据所述页面地址提取页面内容;
使用页面爬虫对所述页面内容进行内容实体提取;
根据提取的所述内容实体以及所述内容实体之间的关联性,创建所述内容实体知识图谱;以及
将所述内容实体知识图谱发送至所述检索终端进行展示,以便用户进行关键词内容检索操作。
6.根据权利要求5所述的内容检索方法,其特征在于,所述创建所述内容实体知识图谱的步骤之后还包括:
基于预设用户画像,对所述内容实体知识图谱进行内容实体优先级调整。
7.根据权利要求5所述的内容检索方法,其特征在于,所述根据所述页面地址提取页面内容的步骤包括:
对所述页面地址进行归一化操作;
判断服务器本地存储器是否存储有所述归一化操作后的页面地址对应的页面内容;
如存储有所述归一化操作后的页面地址对应的页面内容,则从所述服务器本地存储器提取所述页面内容;以及
如未存储有所述归一化操作后的页面地址对应的页面内容,则从所述页面地址提取所述页面内容。
8.一种内容检索终端,其特征在于,包括:
触发指令接收模块,用于接收页面内容检索触发指令;
页面地址获取模块,用于根据所述页面内容检索触发指令获取所述页面内容的页面地址;
知识图谱生成模块,用于基于所述页面地址生成所述页面内容对应的内容实体知识图谱;以及
图谱展示模块,用于展示所述内容实体知识图谱,以便用户进行关键词内容检索操作。
9.一种内容检索服务器,其特征在于,包括:
页面地址接收模块,用于从检索终端接收页面内容的页面地址;
页面内容提取模块,用于根据所述页面地址提取页面内容;
内容实体提取模块,用于使用页面爬虫对所述页面内容进行内容实体提取;
知识图谱创建模块,用于根据提取的所述内容实体以及所述内容实体之间的关联性,创建所述内容实体知识图谱;以及
知识图谱发送模块,用于将所述内容实体知识图谱发送至所述检索终端进行展示,以便用户进行关键词内容检索操作。
10.一种存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行如权利要求1至7中任一的内容检索方法。
11.一种电子设备,包括处理器和存储器,所述存储器有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至7任一项所述的内容检索方法。
CN201710872842.XA 2017-09-25 2017-09-25 内容检索方法、终端、服务器、电子设备及存储介质 Active CN109948073B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710872842.XA CN109948073B (zh) 2017-09-25 2017-09-25 内容检索方法、终端、服务器、电子设备及存储介质
PCT/CN2018/107273 WO2019057191A1 (zh) 2017-09-25 2018-09-25 内容检索方法、终端、服务器、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710872842.XA CN109948073B (zh) 2017-09-25 2017-09-25 内容检索方法、终端、服务器、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109948073A true CN109948073A (zh) 2019-06-28
CN109948073B CN109948073B (zh) 2023-05-23

Family

ID=65809522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710872842.XA Active CN109948073B (zh) 2017-09-25 2017-09-25 内容检索方法、终端、服务器、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN109948073B (zh)
WO (1) WO2019057191A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522967A (zh) * 2020-04-27 2020-08-11 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN112182239A (zh) * 2020-09-22 2021-01-05 中国建设银行股份有限公司 信息检索方法和装置
CN113722434A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 一种文本数据处理的方法、装置、计算机设备及存储介质
CN117454843A (zh) * 2023-11-14 2024-01-26 生命奇点(北京)科技有限公司 一种基于电子病历问答模型的数据预处理系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134796B (zh) * 2019-04-19 2023-06-02 平安科技(深圳)有限公司 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
CN111309872B (zh) * 2020-03-26 2023-08-08 北京百度网讯科技有限公司 搜索处理方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577595A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词推送方法及装置
CN104598613A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN105302881A (zh) * 2015-10-14 2016-02-03 上海大学 一种面向文献搜索系统的搜索提示词的生成方法
WO2016176099A1 (en) * 2015-04-28 2016-11-03 Alibaba Group Holding Limited Information search navigation method and apparatus
CN106156244A (zh) * 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 一种信息搜索导航方法及装置
CN106817271A (zh) * 2015-11-30 2017-06-09 阿里巴巴集团控股有限公司 流量图谱的形成方法和装置
CN107169010A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种推荐搜索关键词的确定方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102713B (zh) * 2014-07-16 2018-01-19 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置
CN106294596A (zh) * 2016-07-29 2017-01-04 北京小米移动软件有限公司 信息搜索的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577595A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词推送方法及装置
CN104598613A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
WO2016176099A1 (en) * 2015-04-28 2016-11-03 Alibaba Group Holding Limited Information search navigation method and apparatus
CN106156244A (zh) * 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 一种信息搜索导航方法及装置
CN105302881A (zh) * 2015-10-14 2016-02-03 上海大学 一种面向文献搜索系统的搜索提示词的生成方法
CN106817271A (zh) * 2015-11-30 2017-06-09 阿里巴巴集团控股有限公司 流量图谱的形成方法和装置
CN107169010A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种推荐搜索关键词的确定方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田萍芳: "《面向云出版的语义关键技术》", 30 April 2015 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522967A (zh) * 2020-04-27 2020-08-11 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN111522967B (zh) * 2020-04-27 2023-09-15 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN111931928B (zh) * 2020-07-16 2022-12-27 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN112182239A (zh) * 2020-09-22 2021-01-05 中国建设银行股份有限公司 信息检索方法和装置
CN113722434A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 一种文本数据处理的方法、装置、计算机设备及存储介质
CN113722434B (zh) * 2021-08-30 2024-05-03 平安科技(深圳)有限公司 一种文本数据处理的方法、装置、计算机设备及存储介质
CN117454843A (zh) * 2023-11-14 2024-01-26 生命奇点(北京)科技有限公司 一种基于电子病历问答模型的数据预处理系统

Also Published As

Publication number Publication date
WO2019057191A1 (zh) 2019-03-28
CN109948073B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN109948073A (zh) 内容检索方法、终端、服务器、电子设备及存储介质
RU2618910C2 (ru) Способ и устройство для отображения информации
JP5555327B2 (ja) 検索結果生成方法および情報検索システム
US8185524B2 (en) Method and system for locating events in-context
US9195754B2 (en) Expansion of search result information
CN108369600B (zh) web浏览器扩展
US7974964B2 (en) Context based search and document retrieval
US10521474B2 (en) Apparatus and method for web page access
CN108319489A (zh) 应用页面的启动方法、装置、存储介质及电子设备
CN102096667B (zh) 一种信息检索方法及系统
KR101393839B1 (ko) 링크된 용어들을 포함하는 활성 요약들을 제공하는 검색시스템
MX2011005930A (es) Vista previa de resultados de busqueda para terminos de refinamientos sugeridos y busquedas verticales.
JP2008192055A (ja) コンテンツ検索方法、およびコンテンツ検索装置
US7174513B1 (en) System and method for advanced network viewing
WO2010124511A1 (zh) 一种智能操作系统及方法
US8584001B2 (en) Managing bookmarks in applications
JP4386011B2 (ja) Webページ再編集方法及びシステム
JP2010518514A (ja) 電子装置上でコンテンツを表示しナビゲートするためのシステム及び方法
WO2022233276A1 (zh) 显示方法、装置和电子设备
CN106371706A (zh) 应用快捷方式位置选择的方法及装置
CN101231655A (zh) 用于处理搜索引擎结果的方法和系统
JP2006215681A (ja) 文書内容把握支援システム
JP2006107020A (ja) コンテンツ・マネジメント・システム及びコンテンツ・マネジメント方法、並びにコンピュータ・プログラム
US8825625B2 (en) Method and system for improved categorical searching
CN102799650B (zh) 一种移动通讯终端及其字符串搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant