CN106484840A - 自动更新垂直检索索引的方法和装置 - Google Patents

自动更新垂直检索索引的方法和装置 Download PDF

Info

Publication number
CN106484840A
CN106484840A CN201610875560.0A CN201610875560A CN106484840A CN 106484840 A CN106484840 A CN 106484840A CN 201610875560 A CN201610875560 A CN 201610875560A CN 106484840 A CN106484840 A CN 106484840A
Authority
CN
China
Prior art keywords
retrieval
search
word
vertical
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610875560.0A
Other languages
English (en)
Inventor
侍效
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Synacast Media Technology Co Ltd
Original Assignee
Shanghai Synacast Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Synacast Media Technology Co Ltd filed Critical Shanghai Synacast Media Technology Co Ltd
Priority to CN201610875560.0A priority Critical patent/CN106484840A/zh
Publication of CN106484840A publication Critical patent/CN106484840A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种自动更新垂直检索索引的方法和装置。该方法包括:响应于监视到对业务数据库的更新请求,将该更新请求复制引出;基于复制引出的更新请求,对垂直检索索引进行更新。本发明提供了一种不更改业务系统控制逻辑就能自动更新垂直检索索引的方案。

Description

自动更新垂直检索索引的方法和装置
技术领域
本发明涉及垂直检索领域,尤其涉及自动更新垂直检索索引的方法和装置、以及垂直检索的方法和装置。
背景技术
垂直检索(即垂直搜索)是针对某一个门类或行业的专业检索,是对某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。通用检索(即通用搜索)是对所有门类或行业的综合检索。例如,在百度上输入“周星驰”,属于通用检索。如果在PPTV中输入“周星驰主演的电影”,由于PPTV不是在各个网站上综合搜索,而是在PPTV自己网站的业务数据库中有版权的资料(如影片、电视剧等)中进行专业搜索,相比于通用检索的海量信息无序化,垂直检索则显得更加专注、具体和深入。
垂直检索中,检索不是直接针对业务数据库进行的,而是为业务数据库维护垂直检索索引,检索直接针对垂直检索索引进行。垂直检索索引是从业务数据库抽取转换来的,其中包含着业务数据库中的资料的关键信息,如影片的名称、分类、主演、导演、时长、类型、简介、照片等。垂直检索索引随业务数据库的更新而更新。
图1示出了现有技术中垂直检索应用的环境的一个示例。该环境包括业务系统1和检索系统2。业务系统1负责对业务数据库101的维护和更新。检索系统2负责对垂直检索索引201的维护和更新,并进行垂直检索。业务系统1中,在业务系统控制逻辑102的控制下完成对业务数据库101的更新。业务数据库101中存储着检索的资料(如影片、电视剧等)。当有资料更新时,由系统运营人员向业务系统控制逻辑102发起更新请求,通过业务系统控制逻辑102向业务数据库101进行更新操作。例如,在PPTV网站,当网站新引进影片或电视剧时,由系统运营人员发起更新请求,将影片或电视剧输入业务数据库101。现有技术中,需要更改业务系统控制逻辑102,使得当接收到更新请求时,业务系统控制逻辑102向检索系统2中的检索系统控制逻辑202发更新消息。检索系统控制逻辑202按照该更新消息,更新垂直检索索引201。例如,当业务数据库101增加了影片“大话西游”时,将“大话西游”的索引加到垂直检索索引201中。这样,当用户输入检索条件后,就根据更新了的垂直检索索引201进行检索,而不是根据旧的垂直检索索引201进行检索,提高检索准确度。
由于现有技术中,为了更新垂直检索索引,需要业务系统控制逻辑102在接收到更新请求时及时向检索系统2发更新消息。这需要更改业务系统控制逻辑102才能实现。然而业务系统控制逻辑102是不容易更改的,不但需要投入大量的人力和时间,而且存在影响现有业务正常运行的风险。期待一种不更改业务系统控制逻辑就能自动更新垂直检索索引的技术。
发明内容
本发明的一个目的在于,提供一种不更改业务系统控制逻辑就能自动更新垂直检索索引的方案。
根据本申请的一个实施例,提供了一种自动更新垂直检索中用的垂直检索索引的方法,包括:
响应于监视到对业务数据库的更新请求,将该更新请求复制引出;
基于复制引出的更新请求,对垂直检索索引进行更新。
根据本申请的一个实施例,提供了一种垂直检索的方法,包括:
响应于监视到对业务数据库的更新请求,将该更新请求复制引出;
基于复制引出的更新请求,对垂直检索索引进行更新;
基于获取的检索中心词,在更新后的垂直检索索引中进行检索。
根据本申请的一个实施例,提供了一种自动更新垂直检索中用的垂直检索索引的装置,包括:
用于响应于监视到对业务数据库的更新请求,将该更新请求复制引出的装置;
用于基于复制引出的更新请求,对垂直检索索引进行更新的装置。
根据本申请的一个实施例,提供了一种垂直检索的装置,包括:
用于响应于监视到对业务数据库的更新请求,将该更新请求复制引出的装置;
用于基于复制引出的更新请求,对垂直检索索引进行更新的装置;
用于基于获取的检索中心词,在更新后的垂直检索索引中进行检索的装置。
本发明不需要对业务系统控制逻辑进行更改,而是在业务系统控制逻辑外部监视对业务数据库的更新请求,一旦监视到对业务数据库的更新请求,就将该更新请求复制引出,据此对垂直检索索引进行更新,在整个过程中避免了对业务系统控制逻辑的更改,从而避免了对业务系统控制逻辑的更改需要的成本、实施风险等问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了现有技术中垂直检索应用的环境的一个示例。
图2示出了根据本发明的一个实施例的自动更新垂直检索中用的垂直检索索引的方法的流程图。
图3示出了本发明实施例中垂直检索应用的环境的一个示例。
图4示出了根据本发明的一个实施例的知识图谱的一个示例。
图5示出了根据本发明的一个实施例的垂直检索的方法的流程图。
图6示出了根据本发明的一个实施例的自动更新垂直检索中用的垂直检索索引的装置的框图。
图7示出了根据本发明的一个实施例的垂直检索的装置的框图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
如图2所示,根据本发明一个实施例的自动更新垂直检索中用的垂直检索索引的方法包括:
S401、响应于监视到对业务数据库的更新请求,将该更新请求复制引出;
S402、基于复制引出的更新请求,对垂直检索索引进行更新。
垂直检索、业务数据库、垂直检索索引的概念已在背景技术中描述。自动更新是指在不用改变业务系统控制逻辑的前提下更新。下面对步骤S401-S402进行详细描述。
步骤S401、响应于监视到对业务数据库的更新请求,将该更新请求复制引出。
业务数据库101中存储着检索的资料(如影片、电视剧等)。当有资料更新时,由业务运营人员向业务系统控制逻辑102发起更新请求,向业务数据库101进行更新操作。例如,在PPTV网站,当网站新引进影片或电视剧时,由业务运营人员发起更新请求,将影片或电视剧输入业务数据库101。更新请求中包含操作的时间、操作人员、操作类型(添加、删除、更改)、更新请求针对的对象(例如新加入的影片或电视剧名)、该对象所变化的域(例如影片或电视剧名的域,包括影片或电视剧的名称、分类、主演、导演、时长、类型、简介、照片等)等。本步骤监视用户输入的更新请求。
在一个实施例中,步骤S401包括:模拟业务数据库的从库,并开启业务数据库的主从复制功能,从而一旦监视到对业务数据库的更新请求,将该更新请求复制引出到从库。。
业务数据库101具有一个主从复制功能。当选择开启该主从复制功能时,相当于建立了一个业务数据库101的从库,从而业务数据库101接到的更新请求不仅会保存于业务数据库本身中,而且还会复制后引到从库。本发明实施例让检索系统控制逻辑202模拟业务数据库101的从库,并开启业务数据库的主从复制功能。这样,一旦业务数据库101监视到对业务数据库的更新请求,将该更新请求复制引出到模拟从库的检索系统控制逻辑202。
本发明的一个实施例正是利用了这种主从复制机制,将更新请求复制后引出进行步骤S402的处理。
步骤S402、基于复制引出的更新请求,对垂直检索索引进行更新。
在一个实施例中,步骤S403包括:
从复制引出的更新请求,确定更新请求针对的对象以及该对象所变化的域;
对于确定出的对象,基于确定出的该对象所变化的域,对该对象的域进行改变。
如上所述,更新请求包括操作的时间、操作人员、操作类型、更新请求针对的对象(例如新加入的影片或电视剧名)、该对象所变化的域(例如影片或电视剧名的域,包括影片或电视剧的名称、分类、主演、导演、时长、类型、简介、照片等)等,因此,从复制引出的更新请求,可以确定更新请求针对的对象以及该对象所变化的域。然后,对于确定出的对象,基于确定出的该对象所变化的域,对该对象的域进行改变。例如,从更新请求中,确定出业务数据库中增加了一个影片“大话西游”(更新请求针对的对象),并获得“大话西游”的域,将“大话西游”的域通过检索系统控制逻辑202加入图3的垂直检索索引201中。如果从更新请求中,确定操作人员请求改变业务数据库101中某个影片的域,例如将“大话西游”的导演从“王晶”改成了“周星驰”,则仅改变相应垂直检索索引201中的导演域。
由此,本发明在业务系统控制逻辑外部监视对业务数据库的更新请求,一旦监视到对业务数据库的更新请求,就将该更新请求复制引出,据此对垂直检索索引进行更新,在整个过程中避免了对业务系统控制逻辑的更改,从而避免了对业务系统控制逻辑的更改需要的成本和实施风险等问题。
在一个实施例中,如图5所示,本发明的方法还包括:
S403、基于获取的检索中心词,在更新后的垂直检索索引中进行检索。
检索中心词是根据用户输入的检索条件确定的、据此来在垂直检索索引中检索的名词。例如,用户输入“周星驰主演的电影”,则现有技术中会将“周星驰”、“电影”确定为检索中心词。当有多个检索中心词时,通常检索时要求在一个索引段落中多个检索中心词同时出现,但实际上这些检索中心词可能不会在一个索引段落中同时出现,但该索引可能实际上是应当命中的索引。另外,有的情况下尽管多个检索中心词在一个检索段落中同时出现,但可能该索引是不应当命中的索引。例如,在电视剧“大话西游”的索引的“简介”中介绍“此电视剧版的‘大话西游’比起周星驰主演的电影‘大话西游’有过之而无不及”,但显然这个电视剧不应是用户输入“周星驰主演的电影”所命中的对象。因此,现有技术的垂直检索方法,只考虑检索中心词本身,不考虑检索中心词的内在含义,造成检索结果不精确。
为了克服现有技术垂直检索不考虑检索中心词的内在含义、检索结果不准确的问题,在一个实施例中,步骤S403包括:
A1、获取检索中心词;
A2、基于获取的检索中心词,参照事先构建的知识图谱,构造检索表达式,其中所述知识图谱包含各检索中心词及其关系连接的图结构。
A3、按照构造的检索表达式,在更新后的垂直检索索引中进行检索。
下面对步骤A1-A3进行详细描述。
步骤A1、获取检索中心词。
在一个实施例中,步骤A1包括:
将用户输入的检索条件分词;
将分出的词中的名词作为检索中心词。
检索条件是用户输入的用于检索的条件。例如,用户输入检索条件“周星驰主演的电影”,则将检索条件分成词“周星驰”、“主演”、“的”、“电影”。分词目前已有成熟技术。将其中的名词“周星驰”、“电影”确定为检索中心词。
知识图谱是包含各检索中心词301用各检索中心词之间的关系302连接起来的图结构,如图4所示。一般事先采取人工和半人工编辑的方式,将垂直领域中可能用到的名词都放入知识图谱中,然后再分析各名词之间的关系,将有关系的名词用线关联起来,形成图。如图4所示,事先将“演员”、“电影”、“电视剧”、“赵薇”、“甄子丹”、“周星驰”、“大话西游”、“叶问”、“后会无期”、“还珠格格”、“宫锁连城”等检索中可能用到的名词放入知识图谱中,然后将用关系302的线将它们连起来,其中关系包括从属关系、主演关系、导演关系等等,例如,“赵薇”和“演员”之间是从属关系,“赵薇”和“还珠格格”之间是主演关系。最后形成如图4所示的知识图谱。
步骤A2、基于获取的检索中心词,参照事先构建的知识图谱,构造检索表达式,其中所述知识图谱是包含各检索中心词及其关系连接的图结构。
在一个实施例中,步骤A2包括:
在所述知识图谱中查找获取的检索中心词所从属于的上一级中心词,作为检索表达式的维度名称;
以获取的检索中心词作为维度值;
基于所述维度名称和维度值,构建检索表达式。
检索中心词所从属于的上一级中心词即知识图谱中与检索中心词有从属关系的中心词中检索中心词所从属于的中心词。例如,由检索条件“周星驰主演的电影”获得检索中心词“周星驰”、“电影”。在知识图谱中,与“周星驰”有从属关系的是“演员”,“周星驰”从属于“演员”;与“电影”有从属关系的是“戏剧门类”,“电影”从属于“戏剧门类”。这样,获得检索表达式的维度名称“演员”、“戏剧门类”。获取的检索中心词“周星驰”、“电影”作为检索表达式的维度值。构建出检索表达式“演员:周星驰&戏剧门类:电影”。这样,构造出的检索表达式就能够考虑检索中心词的内在含义,而不是仅考虑检索中心词的字眼本身,提高检索结果精确性。例如,在电视剧“大话西游”的索引的“简介”中介绍“此电视剧版的‘大话西游’比起周星驰主演的电影‘大话西游’有过之而无不及”,按照现有技术构建出的检索表达式为“周星驰&电影”,此条索引就被命中,但实际上它是针对电视剧“大话西游”,可能根本不是周星驰主演的,也不是电影,按照本发明实施例构建检索表达式“演员:周星驰&戏剧门类:电影”就容易发现这条索引不应被命中。
另外,在获取检索中心词的同时,还可以同时获得检索关系词,即在分词后,将分出的词中的动词作为检索关系词。在这种情况下,步骤A2进一步包括:基于所述维度名称和维度值、以及所述检索关系词,构建检索表达式。
例如,对于检索条件“周星驰主演的电影”,将“周星驰”、“电影”作为检索中心词,将“主演”作为检索关系词。这样,可以构造出检索表达式“演员:周星驰&主演&戏剧门类:电影”。这样构造的检索表达式使检索结果更精确。
步骤A3、按照构造的检索表达式,在更新后的垂直检索索引中进行检索。
按照构造好的检索表达式在检索索引中检索属于已知技术。
由于本发明实施例参照知识图谱构造出的检索表达式能够考虑检索中心词的内在含义,而不是仅考虑检索中心词的字眼本身,提高检索结果精确性。
如图5所示,根据本发明的一个实施例,还提供了一种垂直检索的方法,包括:
S401、响应于监视到对业务数据库的更新请求,将该更新请求复制引出;
S402、基于复制引出的更新请求,对垂直检索索引进行更新;
S403、基于获取的检索中心词,在更新后的垂直检索索引中进行检索。
步骤S401-S403已在上文详细描述,故不赘述。
如图6所示,根据本发明一个实施例的自动更新垂直检索中用的垂直检索索引的装置6包括:
用于响应于监视到对业务数据库的更新请求,将该更新请求复制引出的装置(以下简称为“更新请求复制引出装置”)610;
用于基于复制引出的更新请求,对垂直检索索引进行更新的装置(以下简称为“索引更新装置”)620。
垂直检索、业务数据库、垂直检索索引的概念已在背景技术中描述。自动更新是指在不用改变业务系统控制逻辑的前提下更新。下面对装置610-620进行详细描述。
更新请求复制引出装置610用于响应于监视到对业务数据库的更新请求,将该更新请求复制引出。
业务数据库101中存储着检索的资料(如影片、电视剧等)。当有资料更新时,由业务运营人员向业务系统控制逻辑102发起更新请求,向业务数据库101进行更新操作。例如,在PPTV网站,当网站新引进影片或电视剧时,由业务运营人员发起更新请求,将影片或电视剧输入业务数据库101。更新请求中包含操作的时间、操作人员、操作类型(添加、删除、更改)、更新请求针对的对象(例如新加入的影片或电视剧名)、该对象所变化的域(例如影片或电视剧名的域,包括影片或电视剧的名称、分类、主演、导演、时长、类型、简介、照片等)等。本装置610监视用户输入的更新请求。
在一个实施例中,更新请求复制引出装置610进一步用于:模拟业务数据库的从库,并开启业务数据库的主从复制功能,从而一旦监视到对业务数据库的更新请求,将该更新请求复制引出到从库。。
业务数据库101具有主从复制功能。当选择开启该主从复制功能时,相当于建立了一个业务数据库101的从库,从而业务数据库101接到的更新请求不仅会保存于业务数据库本身中,而且还会复制后引到从库。本发明实施例让检索系统控制逻辑202模拟业务数据库101的从库,并开启业务数据库的主从复制功能。这样,一旦业务数据库101监视到对业务数据库的更新请求,将该更新请求复制引出到模拟从库的检索系统控制逻辑202。
本发明的一个实施例正是利用了这种主从复制机制,将更新请求复制后引出进行索引更新装置620的处理。
索引更新装置620用于基于复制引出的更新请求,对垂直检索索引进行更新。
在一个实施例中,索引更新装置620进一步用于:
从复制引出的更新请求,确定更新请求针对的对象以及该对象所变化的域;
对于确定出的对象,基于确定出的该对象所变化的域,对该对象的域进行改变。
如上所述,更新请求包括操作的时间、操作人员、操作类型、更新请求针对的对象(例如新加入的影片或电视剧名)、该对象所变化的域(例如影片或电视剧名的域,包括影片或电视剧的名称、分类、主演、导演、时长、类型、简介、照片等)等,因此,从复制引出的更新请求,可以确定更新请求针对的对象以及该对象所变化的域。然后,对于确定出的对象,基于确定出的该对象所变化的域,对该对象的域进行改变。例如,从更新请求中,确定出业务数据库中增加了一个影片“大话西游”(更新请求针对的对象),并获得“大话西游”的域,将“大话西游”的域通过检索系统控制逻辑202加入图3的垂直检索索引201中。如果从更新请求中,确定操作人员请求改变业务数据库101中某个影片的域,例如将“大话西游”的导演从“王晶”改成了“周星驰”,则仅改变相应垂直检索索引201中的导演一项。
由此,本发明在业务系统控制逻辑外部监视对业务数据库的更新请求,一旦监视到对业务数据库的更新请求,就将该更新请求复制引出,据此对垂直检索索引进行更新,在整个过程中避免了对业务系统控制逻辑的更改,从而避免了对业务系统控制逻辑的更改需要的成本和实施风险等问题。
在一个实施例中,本发明的自动更新垂直检索中用的垂直检索索引的装置还包括:
用于基于获取的检索中心词,在更新后的垂直检索索引中进行检索的装置(以下简称为“检索装置”)630。
检索中心词是根据用户输入的检索条件确定的、据此来在垂直检索索引中检索的名词。例如,用户输入“周星驰主演的电影”,则现有技术中会将“周星驰”、“电影”确定为检索中心词。当有多个检索中心词时,通常检索时要求在一个索引段落中多个检索中心词同时出现,但在实际情况下可能这些检索中心词不会在一个索引段落中同时出现,但该索引可能实际上是应当命中的索引。另外,有的情况下尽管多个检索中心词在一个检索段落中同时出现,但可能该索引是不应当命中的索引。例如,在电视剧“大话西游”的索引的“简介”中介绍“此电视剧版的‘大话西游’比起周星驰主演的电影‘大话西游’有过之而无不及”,但显然这个电视剧不应是用户输入“周星驰主演的电影”所命中的对象。因此,现有技术的垂直检索方法,只考虑检索中心词本身,不考虑检索中心词的内在含义,造成检索结果不精确。
为了克服现有技术垂直检索不考虑检索中心词的内在含义、检索结果不准确的问题,在一个实施例中,检索装置630进一步用于:
A1、获取检索中心词;
A2、基于获取的检索中心词,参照事先构建的知识图谱,构造检索表达式,其中所述知识图谱是包含各检索中心词及其关系连接的图结构;
A3、按照构造的检索表达式,在更新后的垂直检索索引中进行检索。
下面对步骤A1-A3进行详细描述。
步骤A1、获取检索中心词。
在一个实施例中,步骤A1包括:
将用户输入的检索条件分词;
将分出的词中的名词作为检索中心词。
检索条件是用户输入的用于检索的条件。例如,用户输入检索条件“周星驰主演的电影”,则将检索条件分成词“周星驰”、“主演”、“的”、“电影”。分词目前已有成熟技术。将其中的名词“周星驰”、“电影”确定为检索中心词。
知识图谱是包含各检索中心词301用各检索中心词之间的关系302连接起来的图结构,如图4所示。一般事先采取人工和半人工编辑的方式,将垂直领域中可能用到的名词都放入知识图谱中,然后再分析各名词之间的关系,将有关系的名词用线关联起来,形成图。如图4所示,事先将“演员”、“电影”、“电视剧”、“赵薇”、“甄子丹”、“周星驰”、“大话西游”、“叶问”、“后会无期”、“还珠格格”、“宫锁连城”等检索中可能用到的名词放入知识图谱中,然后将用关系302的线将它们连起来,其中关系包括从属关系、主演关系、导演关系等等,例如,“赵薇”和“演员”之间是从属关系,“赵薇”和“还珠格格”之间是主演关系。最后形成如图4所示的知识图谱。
步骤A2、基于获取的检索中心词,参照事先构建的知识图谱,构造检索表达式,其中所述知识图谱是包含各检索中心词及其关系连接的图结构。
在一个实施例中,步骤A2包括:
在所述知识图谱中查找获取的检索中心词所从属于的上一级中心词,作为检索表达式的维度名称;
以获取的检索中心词作为维度值;
基于所述维度名称和维度值,构建检索表达式。
检索中心词所从属于的上一级中心词即知识图谱中与检索中心词有从属关系的中心词中检索中心词所从属于的中心词。例如,由检索条件“周星驰主演的电影”获得检索中心词“周星驰”、“电影”。在知识图谱中,与“周星驰”有从属关系的是“演员”,“周星驰”从属于“演员”;与“电影”有从属关系的是“戏剧门类”,“电影”从属于“戏剧门类”。这样,获得检索表达式的维度名称“演员”、“戏剧门类”。获取的检索中心词“周星驰”、“电影”作为检索表达式的维度值。构建出检索表达式“演员:周星驰&戏剧门类:电影”。这样,构造出的检索表达式就能够考虑检索中心词的内在含义,而不是仅考虑检索中心词的字眼本身,提高检索结果精确性。例如,在电视剧“大话西游”的索引的“简介”中介绍“此电视剧版的‘大话西游’比起周星驰主演的电影‘大话西游’有过之而无不及”,按照现有技术构建出的检索表达式为“周星驰&电影”,此条索引就被命中,但实际上它是针对电视剧“大话西游”,可能根本不是周星驰主演的,也不是电影,按照本发明实施例构建检索表达式“演员:周星驰&戏剧门类:电影”就容易发现这条索引不应被命中。
另外,在获取检索中心词的同时,还可以同时获得检索关系词,即在分词后,将分出的词中的动词作为检索关系词。在这种情况下,步骤A2进一步包括:基于所述维度名称和维度值、以及所述检索关系词,构建检索表达式。
例如,对于检索条件“周星驰主演的电影”,将“周星驰”、“电影”作为检索中心词,将“主演”作为检索关系词。这样,可以构造出检索表达式“演员:周星驰&主演&戏剧门类:电影”。这样构造的检索表达式使检索结果更精确。
步骤A3、按照构造的检索表达式,在更新后的垂直检索索引中进行检索。
按照构造好的检索表达式在数据库索引中检索属于已知技术。
由于本发明实施例参照知识图谱构造出的检索表达式能够考虑检索中心词的内在含义,而不是仅考虑检索中心词的字眼本身,提高检索结果精确性。
如图7所示,根据本发明的一个实施例,还提供了一种垂直检索的装置7,包括:
用于响应于监视到对业务数据库的更新请求,将该更新请求复制引出的装置(简称“更新请求复制引出装置”)610;
用于基于复制引出的更新请求,对垂直检索索引进行更新的装置(简称“索引更新装置”)620;
用于基于获取的检索中心词,在更新后的垂直检索索引中进行检索的装置(简称“检索装置”)630。
装置610-630已在上文详细描述,故不赘述。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种自动更新垂直检索中用的垂直检索索引的方法,其特征在于,包括:
响应于监视到对业务数据库的更新请求,将该更新请求复制引出;
基于复制引出的更新请求,对垂直检索索引进行更新。
2.根据权利要求1所述的方法,其特征在于,所述响应于监视到对业务数据库的更新请求,将该更新请求复制引出的步骤包括:模拟业务数据库的从库,并开启业务数据库的主从复制功能,从而一旦监视到对业务数据库的更新请求,将该更新请求复制引出到从库。
3.根据权利要求1所述的方法,其特征在于,所述基于复制引出的更新请求,对垂直检索索引进行更新的步骤包括:
从复制引出的更新请求,确定更新请求针对的对象以及该对象所变化的域;
对于确定出的对象,基于确定出的该对象所变化的域,对该对象的域进行改变。
4.根据权利要求1所述的方法,其特征在于,在所述对垂直检索索引进行更新的步骤之后,所述方法还包括:
基于获取的检索中心词,在更新后的垂直检索索引中进行检索。
5.根据权利要求4所述的方法,其特征在于,所述基于获取的检索中心词,在更新后的垂直检索索引中进行检索的步骤包括:
基于获取的检索中心词,参照事先构建的知识图谱,构造检索表达式,其中所述知识图谱是包含各检索中心词及其关系连接的图结构;
按照构造的检索表达式,在更新后的垂直检索索引中进行检索。
6.根据权利要求5所述的方法,其特征在于,所述基于获取的检索中心词,在更新后的垂直检索索引中进行检索的步骤包括:
在构造检索表达式之前,获取检索中心词。
7.根据权利要求6所述的方法,其特征在于,获取检索中心词的步骤包括:
将用户输入的检索条件分词;
将分出的词中的名词作为检索中心词。
8.根据权利要求7所述的方法,其特征在于,各检索关键词之间的关系连接包括从属关系连接,且
基于获取的检索中心词,参照事先构建的知识图谱,构造检索表达式,包括:
在所述知识图谱中查找获取的检索中心词所从属于的上一级中心词,作为检索表达式的维度名称;
以获取的检索中心词作为维度值;
基于所述维度名称和维度值,构建检索表达式。
9.根据权利要求8所述的方法,其特征在于,获取检索中心词的步骤还包括:将分出的词中的动词作为检索关系词;
基于所述维度名称和维度值,构建检索表达式,进一步包括:基于所述维度名称和维度值、以及所述检索关系词,构建检索表达式。
10.一种垂直检索的方法,其特征在于,包括:
响应于监视到对业务数据库的更新请求,将该更新请求复制引出;
基于复制引出的更新请求,对垂直检索索引进行更新;
基于获取的检索中心词,在更新后的垂直检索索引中进行检索。
11.一种自动更新垂直检索中用的垂直检索索引的装置,其特征在于,包括:
用于响应于监视到对业务数据库的更新请求,将该更新请求复制引出的装置;
用于基于复制引出的更新请求,对垂直检索索引进行更新的装置。
12.根据权利要求11所述的装置,其特征在于,所述用于响应于监视到对业务数据库的更新请求,将该更新请求复制引出的装置用于:模拟业务数据库的从库,并开启业务数据库的主从复制功能,从而一旦监视到对业务数据库的更新请求,将该更新请求复制引出到从库。
13.根据权利要求11所述的装置,其特征在于,所述用于基于复制引出的更新请求,对垂直检索索引进行更新的装置进一步用于:
从复制引出的更新请求,确定更新请求针对的对象以及该对象所变化的域;
对于确定出的对象,基于确定出的该对象所变化的域,对该对象的域进行改变。
14.根据权利要求11所述的装置,其特征在于,所述自动更新垂直检索中用的垂直检索索引的装置还包括:
用于在所述对垂直检索索引进行更新之后,基于获取的检索中心词,在更新后的垂直检索索引中进行检索的装置。
15.根据权利要求14所述的装置,其特征在于,所述基于获取的检索中心词,在更新后的垂直检索索引中进行检索的装置进一步用于:
基于获取的检索中心词,参照事先构建的知识图谱,构造检索表达式,其中所述知识图谱是包含各检索中心词及其关系连接的图结构;
按照构造的检索表达式,在更新后的垂直检索索引中进行检索。
16.根据权利要求15所述的装置,其特征在于,所述基于获取的检索中心词,在更新后的垂直检索索引中进行检索的装置进一步用于:
在构造检索表达式之前,获取检索中心词。
17.根据权利要求16所述的装置,其特征在于,获取检索中心词包括:
将用户输入的检索条件分词;
将分出的词中的名词作为检索中心词。
18.根据权利要求17所述的装置,其特征在于,各检索关键词之间的关系连接包括从属关系连接,且
基于获取的检索中心词,参照事先构建的知识图谱,构造检索表达式,包括:
在所述知识图谱中查找获取的检索中心词所从属于的上一级中心词,作为检索表达式的维度名称;
以获取的检索中心词作为维度值;
基于所述维度名称和维度值,构建检索表达式。
19.根据权利要求18所述的装置,其特征在于,获取检索中心词还包括:将分出的词中的动词作为检索关系词;
基于所述维度名称和维度值,构建检索表达式,进一步包括:基于所述维度名称和维度值、以及所述检索关系词,构建检索表达式。
20.一种垂直检索的装置,其特征在于,包括:
用于响应于监视到对业务数据库的更新请求,将该更新请求复制引出的装置;
用于基于复制引出的更新请求,对垂直检索索引进行更新的装置;
用于基于获取的检索中心词,在更新后的垂直检索索引中进行检索的装置。
CN201610875560.0A 2016-09-30 2016-09-30 自动更新垂直检索索引的方法和装置 Pending CN106484840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610875560.0A CN106484840A (zh) 2016-09-30 2016-09-30 自动更新垂直检索索引的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610875560.0A CN106484840A (zh) 2016-09-30 2016-09-30 自动更新垂直检索索引的方法和装置

Publications (1)

Publication Number Publication Date
CN106484840A true CN106484840A (zh) 2017-03-08

Family

ID=58268476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610875560.0A Pending CN106484840A (zh) 2016-09-30 2016-09-30 自动更新垂直检索索引的方法和装置

Country Status (1)

Country Link
CN (1) CN106484840A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755676A (zh) * 2004-09-30 2006-04-05 微软公司 用于网络文档批处理索引的系统和方法
CN102918529A (zh) * 2010-04-26 2013-02-06 诺基亚公司 索引生成和使用的方法和装置
CN103077108A (zh) * 2013-01-07 2013-05-01 北京奇虎科技有限公司 一种对浏览器崩溃进行预警的方法和系统
CN104199875A (zh) * 2014-08-20 2014-12-10 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN104750773A (zh) * 2013-12-31 2015-07-01 国际商业机器公司 基于重构与更新比较的索引维护
CN105740303A (zh) * 2014-12-12 2016-07-06 国际商业机器公司 改进的对象存储的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755676A (zh) * 2004-09-30 2006-04-05 微软公司 用于网络文档批处理索引的系统和方法
CN102918529A (zh) * 2010-04-26 2013-02-06 诺基亚公司 索引生成和使用的方法和装置
CN103077108A (zh) * 2013-01-07 2013-05-01 北京奇虎科技有限公司 一种对浏览器崩溃进行预警的方法和系统
CN104750773A (zh) * 2013-12-31 2015-07-01 国际商业机器公司 基于重构与更新比较的索引维护
CN104199875A (zh) * 2014-08-20 2014-12-10 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN105740303A (zh) * 2014-12-12 2016-07-06 国际商业机器公司 改进的对象存储的方法及装置

Similar Documents

Publication Publication Date Title
CN108389614B (zh) 基于图像分割与卷积神经网络构建医学影像图谱的方法
CN107066621B (zh) 一种相似视频的检索方法、装置和存储介质
CN105183869B (zh) 楼宇知识图谱数据库及其构建方法
CN107111608A (zh) 从语言输入数据自动生成n‑元和概念关系
CN111488465A (zh) 一种知识图谱构建方法及相关装置
CN106919689A (zh) 基于术语释义知识单元的专业领域知识图谱动态构建方法
US20210034919A1 (en) Method and apparatus for establishing image set for image recognition, network device, and storage medium
Ko et al. Using classification techniques for informal requirements in the requirements analysis-supporting system
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
DE112019002235T5 (de) Einbinden eines wörterbuch-bearbeitungssystems in ein text mining
CN110968713B (zh) Bim多尺度信息检索方法及装置
US10613841B2 (en) Task UI layout representing semantical relations
CN103246748B (zh) 自动管理文件描述符的技术
CN103686244A (zh) 视频数据的管理方法及其系统
DE102014112983A1 (de) Aktive Wissenslenkung beruhend auf Dokumententiefenanalyse
CN111797222A (zh) 课程知识图谱构建方法、装置、终端及存储介质
CN109376153A (zh) 一种基于NiFi的数据写入图数据库的系统及方法
CN103678371B (zh) 词库更新装置、数据整合装置和方法以及电子设备
Patsis et al. Building CX peanut-shaped disk galaxy profiles-The relative importance of the 3D families of periodic orbits bifurcating at the vertical 2: 1 resonance
CN115757689A (zh) 一种信息查询系统、方法及设备
Lu et al. Construction of multimedia assisted legal classroom teaching model based on data mining algorithm
CN106599216A (zh) 一种用于计算机辅助训练课件发布系统
US20150154567A1 (en) Facility management system using perspective definition metadata and method therefor
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
CN105095385B (zh) 一种检索结果的输出方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170308

RJ01 Rejection of invention patent application after publication