CN102236664B - 基于语义归一化的检索系统、检索方法以及信息处理方法 - Google Patents

基于语义归一化的检索系统、检索方法以及信息处理方法 Download PDF

Info

Publication number
CN102236664B
CN102236664B CN201010162514.9A CN201010162514A CN102236664B CN 102236664 B CN102236664 B CN 102236664B CN 201010162514 A CN201010162514 A CN 201010162514A CN 102236664 B CN102236664 B CN 102236664B
Authority
CN
China
Prior art keywords
information
file
normalization
items
entity word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010162514.9A
Other languages
English (en)
Other versions
CN102236664A (zh
Inventor
呼大为
吴雪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201010162514.9A priority Critical patent/CN102236664B/zh
Publication of CN102236664A publication Critical patent/CN102236664A/zh
Application granted granted Critical
Publication of CN102236664B publication Critical patent/CN102236664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义归一化的检索系统、检索方法,以及基于语义归一化的整合数据库/分拆数据库的信息处理方法。基于语义归一化的检索系统包括:归一化模块,用于对条目信息以及用户输入的检索式信息进行语义归一化变换,获取归一化表述;整合数据库,用于根据条目信息的归一化表述,生成整合信息文件;第一索引库,用于根据条目信息和整合信息文件,生成关联条目信息和整合信息文件的索引目录;搜索引擎,用于根据检索式信息的归一化表述在第一索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。本发明通过语义归一化转换,利用整合数据库和/或分拆数据库进行信息比对,从而提高检索的准确性和全面性。

Description

基于语义归一化的检索系统、检索方法以及信息处理方法
技术领域
本发明涉及搜索引擎领域,尤其涉及一种基于语义归一化的检索系统、检索方法,以及基于语义归一化的整合数据库/分拆数据库的信息处理方法。
背景技术
用户使用搜索引擎时,通过query查询承载其需求以便寻找所需资源。但是,用户表达一种需求时可能存在很多种描述形式,例如“宫保鸡丁怎么烧”,“宫保鸡丁菜谱”;虽然二者在表述形式上存在差别,但是本领域技术人员知晓该用户搜索所希望获取的资源是一致的。如果只是对用户录入的关键词进行传统方式的搜索,如对“宫保鸡丁怎么烧”进行主题词检索,而仅仅向用户返回含有“宫保鸡丁怎么烧”和“宫保鸡丁菜谱”条目信息的网页,则可能遗漏相似或相关条目对应的信息资源,如“宫保鸡丁做法”、“宫保鸡丁制作方法”和“烹饪宫保鸡丁”等。因此,为了满足用户更全面、更便捷地获取相关检索信息,有必要将不同表述方式且代表同一种含义的条目信息一并搜索出来,从而向用户返回更全面的检索信息。
发明内容
本发明要解决的一个技术问题是提供一种基于语义归一化的检索系统、检索方法,以及基于语义归一化的整合数据库/分拆数据库的信息处理方法,用以提高检索的准确性和全面性。
本发明的一个方面提供了一种基于语义归一化的检索系统,该系统包括:归一化模块,用于对网页中含有实体词的条目信息进行语义归一化变换,获取条目信息的归一化表述;以及对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述;整合数据库,用于根据归一化模块获取的条目信息的归一化表述,生成并保存条目信息的整合信息文件;第一索引库,用于根据含有实体词的条目信息和整合信息文件,生成并保存用于关联条目信息和整合信息文件的索引目录;搜索引擎,用于根据归一化模块获取的检索式信息的归一化表述在第一索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。
本发明提供的基于语义归一化的检索系统的一个实施例中,该系统还包括:分拆数据库,用于根据归一化模板获取的条目信息的归一化表述,生成并保存条目信息的分拆信息文件;第二索引库,用于根据含有实体词的条目信息和分拆信息文件,生成并保存用于关联条目信息和分拆信息文件的索引目录;搜索引擎,还用于根据归一化模块获取的检索式信息的归一化表述在第一索引库和第二索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。
本发明的另一个方面提供了一种基于语义归一化的检索方法,该方法包括:归一化模块对网页中含有实体词的条目信息进行语义归一化变换,获取含有实体词的条目信息的归一化表述;整合数据库根据归一化模块获取的条目信息的归一化表述,生成并保存条目信息的整合信息文件;第一索引库根据含有实体词的条目信息和整合信息文件,生成并保存用于关联条目信息和整合信息文件的索引目录;归一化模块对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述;搜索引擎根据归一化模块获取的检索式信息的归一化表述在第一索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。
本发明提供的基于语义归一化的检索方法的一个实施例中,该方法还包括:在第一索引库生成并保存用于关联条目信息和整合信息文件的索引目录之后,分拆数据库根据归一化模板获取的条目信息的归一化表述,生成并保存条目信息的分拆信息文件;第二索引库根据含有实体词的条目信息和分拆信息文件,生成并保存用于关联条目信息和分拆信息文件的索引目录;归一化模块对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述;以及搜索引擎根据归一化模块获取的检索式信息的归一化表述在第一索引库和第二索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。
本发明的又一个方面提供了一种基于语义归一化的整合数据库的信息处理方法,该方法包括:根据整合数据库中的模板文件和垃圾数据库中的模板文件生成模板文件库;依据模板文件库对当前的查询日志文件进行查询过滤,去除查询日志文件中能够被模板文件库匹配的查询,形成待挖掘模板文件的查询日志簇;从待挖掘模板文件的查询日志簇中挖掘种子模板,统计种子模板的频次并进行排序,生成种子模板文件;从种子模板文件中选取预定数量的种子模板,生成同义模板候选文件;对同义模板候选文件进行筛选,并将筛选得到的同义模板候选文件添加到整合数据库的模板文件中。
本发明提供的基于语义归一化的整合数据库的信息处理方法的一个实施例中,从待挖掘模板文件的查询日志簇中挖掘种子模板,统计种子模板的频次并进行排序,生成种子模板文件进一步包括:从待挖掘模板文件的查询日志簇中提取实体词;根据实体词获取查询日志簇对应的种子模板;统计具有相同属性的种子模板的频次,根据统计的频次进行排序,并选取高于预定频次的种子模板族生成种子模板文件。
本发明提供的基于语义归一化的整合数据库的信息处理方法的一个实施例中,该方法还包括:读取整合数据库中的模板文件和当前的查询日志文件;从整合数据库中模板文件获取每个模板文件相应的实体词,生成实体词文件;依据实体词文件对当前的查询日志文件进行实体词增量挖掘,生成实体词增量文件;根据整合数据库中的模板文件和实体词增量文件生成整合数据库更新文件;根据整合数据库的整合信息文件和整合数据库更新文件,进行文件合并,并更新整合数据库的整合信息文件。
本发明的又一个方面提供了一种基于语义归一化的分拆数据库的信息处理方法,该方法包括:从整合数据库中读取整合信息文件,并从整合信息文件中获取实体词和模板文件;其中,整合数据库是根据前述基于语义归一化的整合数据库的信息处理方法得到的整合数据库;对整合数据库中获取的实体词和实体词文件中的实体词进行上位概念的抽象化处理,生成实体词对应的实体词抽象类,并根据实体词和实体词抽象类生成实体词抽象信息文件;根据整合数据库中获取的模板文件和实体词抽象类生成抽象规则信息文件;统计抽象规则信息文件出现的频次,根据统计的频次进行排序,选取高于预定频次的抽象规则信息文件;并将所选取的抽象规则信息文件和对应的实体词抽象信息文件添加到分拆信息文件中;以及根据分拆信息文件生成分拆数据库。
本发明提供的基于语义归一化的分拆数据库的信息处理方法的一个实施例中,预定频次的阈值选自统计的频次的最大值的三次开平方根和2中的较大的一个。
本发明提供的基于语义归一化的分拆数据库的信息处理方法的一个实施例中,该方法还包括:对于整合数据库中的模板文件,如果模板文件通过人工分析的方式就能够获知模板文件的应用领域,则进行实体词抽象类的人工添加,并生成抽象规则信息文件;以及将实体词抽象信息文件和抽象规则信息文件直接存入分拆信息文件中。
本发明提供一种基于语义归一化的检索系统、检索方法,以及基于语义归一化的整合数据库/分拆数据库的信息处理方法,通过对网页信息条目和用户检索式信息条目进行语义归一化转换,利用整合数据库和/或分拆数据库进行信息比对,从而提高检索的准确性和全面性,为用户提供更为全面准确的信息搜索服务。
附图说明
图1示出本发明实施例提供的一种基于语义归一化的检索系统的结构示意图;
图2示出本发明提供的基于语义归一化的检索系统的另一个实施例的结构示意图;
图3示出本发明实施例提供的一种基于语义归一化的检索方法的流程图;
图4示出本发明提供的基于语义归一化的检索方法的另一个实施例的结构示意图;
图5示出本发明提供的基于语义归一化的检索方法的另一个实施例的结构示意图;
图6示出本发明实施例提供的一种基于语义归一化的整合数据库的信息处理方法的流程图;
图7示出本发明实施例提供的基于语义归一化的整合数据库的信息处理方法的另一个实施例的结构示意图;
图8示出本发明实施例提供的种子模板文件的挖掘算法示意图;
图9示出本发明实施例提供的基于语义归一化的整合数据库的信息处理方法的另一个实施例的结构示意图;
图10示出本发明实施例提供的一种基于语义归一化的分拆数据库的信息处理方法的流程图;
图11示出本发明实施例提供的基于语义归一化的分拆数据库的信息处理方法的另一个实施例的结构示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
本发明中涉及的术语较多,为便于理解,我方对本发明中所提及的术语进行解释或示例说明;但本领域技术人员知晓所述解释或示例说明仅仅是用于形象地理解该术语的含义,并不用来对相应的术语起任何限制作用。
具体来说:“条目信息”可以是广告商或用户在网页中发布的信息,例如网友上传的标题为“宫保鸡丁怎么烧”的帖子。
“实体词”可以是具有实际含义的名称或对象,例如“宫保鸡丁”就是一个实体词。
“模板词”可以是与“实体词”搭配,用来表示目的、方法操作的一类语句,例如“宫保鸡丁怎么烧”中的“怎么烧”,“宫保鸡丁菜谱”中的“菜谱”,“宫保鸡丁做法”中的“做法”,“宫保鸡丁制作方法”中的“制作方法”和“烹饪宫保鸡丁”中的“烹饪”。
“归一词”可以是用来表示一些相似描述的共同表现形式,例如模板词“怎么烧”、“菜谱”、“做法”、“制作方法”和“烹饪”都是关于如何制作宫保鸡丁的,因此,可以约定以“G_”开头,例如使用归一词“G_菜谱”来表征做菜方法。
“归一化表述”可以是将条目信息中的模板词使用归一词进行代替,以将不同语义相同的表述进行形式统一。由于单纯利用模板词进行语义归一是存在风险的,例如“石灰石怎么烧”中的模板词“怎么烧”就不能归一为“G_菜谱”;因此,在进行归一化表述时需要实体词与模板词搭配以进行验证,例如,条目信息“宫保鸡丁怎么做好吃”、“宫保鸡丁菜谱”可归一化为“宫保鸡丁G_菜谱”。
“整合数据库”可以是用于存储具有整合信息文件(如含有归一化表述的信息条)数据库,例如,类似词典收录条目形式的整合词典数据库。此外,整合数据库还可以配备同义模板文件,其用于存储着该整合数据库涉及的所有同义模板簇。
“整合信息文件”作为整合数据库中存储的信息条,可以是整合词典数据库中存储的规则文件,例如包含该格式{实体词[\t]模板词[\t]归一词[\t]标记位}的信息条。其中,“[\t]”当前含义可以为分隔符“tab”或空格“blankspace”;标记位为“1”或“2”。标记位“1”表示该条信息条中模板词为口语化描述(例如:多少钱),因此,依据该口语化的模板词进行检索,命中结果差的概率较高,因而进行归一化后检索的命中率高,相关性收益较大。标记位“2”表示该条信息条中模板词为正规描述(例如:报价,价格),依据该正规的模板词进行检索,命中的结果通常较好,因而归一化所带来的相关性收益较小且转义风险较大。
“分拆数据库”可以是用于存储具有分拆信息文件(如含有归一化表述的信息条)数据库,例如,类似词典收录条目形式的分拆词典数据库。
“分拆信息文件”作为分拆数据库中存储的信息条,可以是分拆词典数据库中存储的规则文件,例如,包含格式为{实体词[\t]实体词抽象类}的实体词抽象信息文件和格式为{实体词抽象类[\t]模板词[\t]归一词[\t]标记位}抽象规则信息文件组成的信息条。其相当于对整合数据库中有条理,有规律的整合信息文件按照类别进行管理,因而可控性更好,检索结果的准确率更高。其中,标记位用到了整数的低16位:0xN1N2N3N4,每个标记“N”为四位比特位来表征“0-15”,其分别代表的含义如下:
“N1”:当其为“1”时表示实体词在模板词的左边,当其为“2”时表示实体词在模板词的右边,当其为“3”时表示实体词在模板词的左右均可;
“N2”:当其为“2”时表示模板词必须在句尾,当其为“4”时则模板词必须在句首,当其为“8”时则模板词必须在句中;
“N3”:沿袭了整合数据库中整合信息文件有关标记位的定制含义,“1”表示该条信息条中模板词为口语化描述,“2”表示该条信息条中模板词为正规描述;
“N4”:表征模板词和实体词之间的间距。
图1示出本发明实施例提供的一种基于语义归一化的检索系统的结构示意图。
如图1所示,一种基于语义归一化的检索系统100包括:归一化模块102、整合数据库104、第一索引库106和搜索引擎108。
其中,归一化模块102,用于对网页中含有实体词的条目信息进行语义归一化变换,获取条目信息的归一化表述;以及对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述。例如,归一化模块对网页中“宫保鸡丁怎么烧”,“宫保鸡丁菜谱”,“宫保鸡丁做法”等信息条目进行语义归一化变换,获取归一化表述“宫保鸡丁G_菜谱”;以及对用户输入的含有实体词“宫保鸡丁”的检索式信息“宫保鸡丁怎么做好吃”进行语义归一化变换,获取该检索式信息的归一化表述“宫保鸡丁G_菜谱”。
整合数据库104,用于根据归一化模块获取的条目信息的归一化表述,生成并保存条目信息的整合信息文件。例如,整合数据库根据归一化模块获取的条目信息的归一化表述“宫保鸡丁G_菜谱”,生成并保存条目信息的整合信息文件{宫保鸡丁怎么烧G_菜谱1}、{宫保鸡丁怎么做好吃G_菜谱1}、{宫保鸡丁菜谱G_菜谱2}等。
第一索引库106,用于根据含有实体词的条目信息和整合信息文件,生成并保存用于关联条目信息和整合信息文件的索引目录。例如,第一索引库根据条目信息“宫保鸡丁怎么烧”和整合信息文件“{宫保鸡丁怎么烧G_菜谱1}”,条目信息“宫保鸡丁怎么做好吃”和整合信息文件“{宫保鸡丁怎么做好吃G_菜谱1}”,条目信息“宫保鸡丁菜谱”和整合信息文件“{宫保鸡丁菜谱G_菜谱2}”生成相关联的索引目录以供搜索引擎进行检索查找。
搜索引擎108,用于根据归一化模块获取的检索式信息的归一化表述在第一索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。例如,归一化模块将用户输入的检索式信息“宫保鸡丁怎么做好吃”进行语义归一化变换,获取该检索式信息的归一化表述“宫保鸡丁G_菜谱”后,搜索引擎根据该归一化表述“宫保鸡丁G_菜谱”所包含的信息,如实体词“宫保鸡丁”和归一化词“G_菜谱”,在第一索引库中进行搜索,例如命中第一索引库中的目录信息“{宫保鸡丁怎么烧G_菜谱1}、{宫保鸡丁怎么做好吃G_菜谱1}、{宫保鸡丁菜谱G_菜谱2}”等整合信息文件,根据索引目录得到所述整合信息文件关联的条目信息的路径指示,进而向用户返回相应的条目信息供用户查阅。
本发明提供的基于语义归一化的检索系统,通过归一化模块获取条目信息及用户输入的检索式信息的归一化表述,根据条目信息的归一化表述由整合数据库生成条目信息的整合信息文件,搜索引擎利用索引目录中的整合信息文件进行检索,从而向用户返回与所述检索式信息的归一化表述相同或相似语义的条目信息;解决了当前进行语义检索不全面不准确的技术问题,从而有利于为用户提供更加准确可信的搜索结果。
图2示出本发明提供的基于语义归一化的检索系统的另一个实施例的结构示意图。
如图2所示,基于语义归一化的检索系统200包括:归一化模块202、整合数据库204、分拆数据库205、第一索引库206、第二索引库207和搜索引擎208;其中归一化模块102、整合数据库104和第一索引库106可以分别具有与图1所示的归一化模块102、整合数据库104和第一索引库106具有相同或相似的结构,为简洁起见,这里不再赘述其技术内容。
如图2所示,基于语义归一化的检索系统200中的分拆数据库205,用于根据归一化模板202获取的条目信息的归一化表述,生成并保存条目信息的分拆信息文件。例如,针对网页的条目信息,如“怎么烧宫保鸡丁”,“宫保鸡丁怎么做好吃”,“宫保鸡丁菜谱”,归一化模块202对其进行归一化转换从而获得归一化表述“宫保鸡丁G_菜谱”,分拆数据库205根据该些条目信息的归一化表述“宫保鸡丁G_菜谱”,生成并保存各个条目信息的分拆信息文件,分拆信息文件具体可以包括一项实体词抽象信息文件和一项相应的抽象规则信息文件。具体来说,条目信息“怎么烧宫保鸡丁”对应的分拆信息文件包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类怎么烧G_菜谱0x2210}”;条目信息“宫保鸡丁怎么做好吃”对应的分拆信息文件包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类怎么做好吃G_菜谱0x1210}”;条目信息“宫保鸡丁菜谱”对应的分拆信息文件包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类菜谱G_菜谱0x1212}”。
基于语义归一化的检索系统200中的第二索引库207,用于根据含有实体词的条目信息和分拆信息文件,生成并保存用于关联条目信息和分拆信息文件的第二索引目录。例如,第二索引库根据条目信息“怎么烧宫保鸡丁”和分拆信息文件(包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类怎么烧G_菜谱0x2210}”),条目信息“宫保鸡丁怎么做好吃”和分拆信息文件(包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类怎么做好吃G_菜谱0x1210}”),条目信息“宫保鸡丁菜谱”和分拆信息文件(包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类菜谱G_菜谱0x1212}”)生成相关联的第二索引目录以供搜索引擎进行检索查找。
基于语义归一化的检索系统200中的搜索引擎208,还用于根据归一化模块获取的检索式信息的归一化表述在第一索引库和第二索引库中进行搜索,并根据第一索引目录和第二索引目录指示的路径向用户返回相应的条目信息。例如,归一化模块将用户输入的检索式信息“宫保鸡丁怎么做好吃”进行语义归一化变换,获取该检索式信息的归一化表述“宫保鸡丁G_菜谱”后,搜索引擎根据该归一化表述“宫保鸡丁G_菜谱”所包含的信息(如实体词“宫保鸡丁”和归一化词“G_菜谱”)在第一索引库中进行搜索,例如命中第一索引库中的目录信息“{宫保鸡丁怎么烧G_菜谱1}、{宫保鸡丁怎么做好吃G_菜谱1}、{宫保鸡丁菜谱G_菜谱2}”等整合信息文件,根据第一索引目录得到所述整合信息文件关联的条目信息的路径指示;搜索引擎根据该归一化表述“宫保鸡丁G_菜谱”所包含的信息(如实体词“宫保鸡丁”和归一化词“G_菜谱”)在第二索引库中进行搜索,例如命中第二索引库中的目录信息“包括实体词抽象信息文件{宫保鸡丁川菜类}和相应的抽象规则信息文件{川菜类怎么烧G_菜谱0x2210}”,“包括实体词抽象信息文件{宫保鸡丁川菜类}和相应的抽象规则信息文件{川菜类怎么做好吃G_菜谱0x1210}”,“包括实体词抽象信息文件{宫保鸡丁川菜类}和相应的抽象规则信息文件{川菜类菜谱G_菜谱0x1212}”等分拆信息文件,根据第二索引目录得到所述分拆信息文件关联的条目信息的路径指示;进而向用户返回相应的条目信息供用户查阅。
本发明提供的基于语义归一化的检索系统的一个实施例中,搜索引擎可以依照先后顺序在第一索引库和第二索引库里进行检索,也可以同步并行检索第一索引库和第二索引库。
本发明提供的基于语义归一化的检索系统的一个实施例中,第一索引库和第二索引库也可以合并为一个总索引库,在该总索引库中建立两个不同的索引分区,或者在该总索引库中罗列详细的索引项,从而为搜索引擎进行检索查找。
本发明提供的基于语义归一化的检索系统,通过归一化模块获取条目信息及用户输入的检索式信息的归一化表述,根据条目信息的归一化表述由整合数据库生成条目信息的整合信息文件,以及由分拆数据库生成条目信息的分拆信息文件,搜索引擎利用索引目录中的整合信息文件和分拆信息文件进行检索,从而向用户返回与所述检索式信息的归一化表述相同或相似语义的条目信息;解决了当前进行语义检索不全面不准确的技术问题,从而有利于为用户提供更加准确可信的搜索结果。
图3示出本发明实施例提供的一种基于语义归一化的检索方法的流程图。
如图3所示,基于语义归一化的检索方法流程300包括步骤302,归一化模块对网页中含有实体词的条目信息进行语义归一化变换,获取含有实体词的条目信息的归一化表述。例如,归一化模块对网页中“宫保鸡丁怎么烧”,“宫保鸡丁菜谱”,“宫保鸡丁做法”等信息条目进行语义归一化变换,获取归一化表述“宫保鸡丁G_菜谱”。
步骤304,整合数据库根据归一化模块获取的条目信息的归一化表述,生成并保存条目信息的整合信息文件。例如,整合数据库根据归一化模块获取的条目信息的归一化表述“宫保鸡丁G_菜谱”,生成并保存条目信息的整合信息文件{宫保鸡丁怎么烧G_菜谱1}、{宫保鸡丁怎么做好吃G_菜谱1}、{宫保鸡丁菜谱G_菜谱2}等。
步骤306,第一索引库根据含有实体词的条目信息和整合信息文件,生成并保存用于关联条目信息和整合信息文件的索引目录。例如,第一索引库根据条目信息“宫保鸡丁怎么烧”和整合信息文件“{宫保鸡丁怎么烧G_菜谱1}”,条目信息“宫保鸡丁怎么做好吃”和整合信息文件“{宫保鸡丁怎么做好吃G_菜谱1}”,条目信息“宫保鸡丁菜谱”和整合信息文件“{宫保鸡丁菜谱G_菜谱2}”生成相关联的索引目录以供搜索引擎进行检索查找。
步骤308,归一化模块对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述。例如,对用户输入的含有实体词“宫保鸡丁”的检索式信息“宫保鸡丁怎么做好吃”进行语义归一化变换,获取该检索式信息的归一化表述“宫保鸡丁G_菜谱”。
步骤310,搜索引擎根据归一化模块获取的检索式信息的归一化表述在第一索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。例如,归一化模块将用户输入的检索式信息“宫保鸡丁怎么做好吃”进行语义归一化变换,获取该检索式信息的归一化表述“宫保鸡丁G_菜谱”后,搜索引擎根据该归一化表述“宫保鸡丁G_菜谱”所包含的信息,如实体词“宫保鸡丁”和归一化词“G_菜谱”,在第一索引库中进行搜索,例如命中第一索引库中的目录信息“{宫保鸡丁怎么烧G_菜谱1}、{宫保鸡丁怎么做好吃G_菜谱1}、{宫保鸡丁菜谱G_菜谱2}”等整合信息文件,根据索引目录得到所述整合信息文件关联的条目信息的路径指示,进而向用户返回相应的条目信息供用户查阅。
本发明提供的基于语义归一化的检索方法,通过归一化模块获取条目信息及用户输入的检索式信息的归一化表述,根据条目信息的归一化表述由整合数据库生成条目信息的整合信息文件,搜索引擎利用索引目录中的整合信息文件进行检索,从而向用户返回与所述检索式信息的归一化表述相同或相似语义的条目信息;解决了当前进行语义检索不全面不准确的技术问题,从而有利于为用户提供更加准确可信的搜索结果。
图4示出本发明提供的基于语义归一化的检索方法的另一个实施例的结构示意图。
如图4所示,基于语义归一化的检索方法流程400包括:步骤402-414,其中步骤402-406、412可以分别执行与图3所示的步骤302-306、308相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图4所示,在步骤406“第一索引库根据含有实体词的条目信息和整合信息文件,生成并保存用于关联条目信息和整合信息文件的索引目录”之后,执行步骤408,分拆数据库根据归一化模板获取的条目信息的归一化表述,生成并保存条目信息的分拆信息文件。例如,针对网页的条目信息,如“怎么烧宫保鸡丁”,“宫保鸡丁怎么做好吃”,“宫保鸡丁菜谱”,归一化模块202对其进行归一化转换从而获得归一化表述“宫保鸡丁G_菜谱”,分拆数据库205根据该些条目信息的归一化表述“宫保鸡丁G_菜谱”,生成并保存各个条目信息的分拆信息文件,分拆信息文件具体可以包括一项实体词抽象信息文件和一项相应的抽象规则信息文件。具体来说,条目信息“怎么烧宫保鸡丁”对应的分拆信息文件包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类怎么烧G_菜谱0x2210}”;条目信息“宫保鸡丁怎么做好吃”对应的分拆信息文件包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类怎么做好吃G_菜谱0x1210}”;条目信息“宫保鸡丁菜谱”对应的分拆信息文件包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类菜谱G_菜谱0x1212}”。
步骤410,第二索引库根据含有实体词的条目信息和分拆信息文件,生成并保存用于关联条目信息和分拆信息文件的索引目录。例如,第二索引库根据条目信息“怎么烧宫保鸡丁”和分拆信息文件(包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类怎么烧G_菜谱0x2210}”),条目信息“宫保鸡丁怎么做好吃”和分拆信息文件(包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类怎么做好吃G_菜谱0x1210}”),条目信息“宫保鸡丁菜谱”和分拆信息文件(包括实体词抽象信息文件“{宫保鸡丁川菜类}”和相应的抽象规则信息文件“{川菜类菜谱G_菜谱0x1212}”)生成相关联的第二索引目录以供搜索引擎进行检索查找。
在步骤412“归一化模块对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述”后,执行步骤414,搜索引擎根据归一化模块获取的检索式信息的归一化表述在第一索引库和第二索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。例如,归一化模块将用户输入的检索式信息“宫保鸡丁怎么做好吃”进行语义归一化变换,获取该检索式信息的归一化表述“宫保鸡丁G_菜谱”后,搜索引擎根据该归一化表述“宫保鸡丁G_菜谱”所包含的信息(如实体词“宫保鸡丁”和归一化词“G_菜谱”)在第一索引库中进行搜索,例如命中第一索引库中的目录信息“{宫保鸡丁怎么烧G_菜谱1}、{宫保鸡丁怎么做好吃G_菜谱1}、{宫保鸡丁菜谱G_菜谱2}”等整合信息文件,根据第一索引目录得到所述整合信息文件关联的条目信息的路径指示;搜索引擎根据该归一化表述“宫保鸡丁G_菜谱”所包含的信息(如实体词“宫保鸡丁”和归一化词“G_菜谱”)在第二索引库中进行搜索,例如命中第二索引库中的目录信息“包括实体词抽象信息文件{宫保鸡丁川菜类}和相应的抽象规则信息文件{川菜类怎么烧G_菜谱0x2210}”,“包括实体词抽象信息文件{宫保鸡丁川菜类}和相应的抽象规则信息文件{川菜类怎么做好吃G_菜谱0x1210}”,“包括实体词抽象信息文件{宫保鸡丁川菜类}和相应的抽象规则信息文件{川菜类菜谱G_菜谱0x1212}”等分拆信息文件,根据第二索引目录得到所述分拆信息文件关联的条目信息的路径指示;进而向用户返回相应的条目信息供用户查阅。
本发明提供的基于语义归一化的检索方法的一个实施例中,步骤414可以进一步包括:搜索引擎根据归一化模块获取的检索式信息的归一化表述先在第一索引库中进行搜索,再在第二索引库中进行搜索,然后并根据索引目录指示的路径向用户返回相应的条目信息;或者搜索引擎根据归一化模块获取的检索式信息的归一化表述同步并行地检索第一索引库和第二索引库,然后并根据索引目录指示的路径向用户返回相应的条目信息。
本发明提供的基于语义归一化的检索方法的一个实施例中,第一索引库和第二索引库也可以合并为一个总索引库,在该总索引库中建立两个不同的索引分区,或者在该总索引库中罗列详细的索引项,从而为搜索引擎进行检索查找。
本发明提供的基于语义归一化的检索方法,通过归一化模块获取条目信息及用户输入的检索式信息的归一化表述,根据条目信息的归一化表述由整合数据库生成条目信息的整合信息文件,以及由分拆数据库生成条目信息的分拆信息文件,搜索引擎利用索引目录中的整合信息文件和分拆信息文件进行检索,从而向用户返回与所述检索式信息的归一化表述相同或相似语义的条目信息;解决了当前进行语义检索不全面不准确的技术问题,从而有利于为用户提供更加准确可信的搜索结果。
图5示出本发明提供的基于语义归一化的检索方法的另一个实施例的结构示意图。
如图5所示,基于语义归一化的检索方法流程500包括:步骤502-514,其中步骤502-5141可以分别执行与图4所示的步骤402-414相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图5所示,在步骤502之后,步骤504-506与步骤508-510同步并行的方式被检索系统执行,也就是说,同步并行地执行方法流程中的“整合数据库根据归一化模块获取的条目信息的归一化表述,生成并保存条目信息的整合信息文件;第一索引库根据含有实体词的条目信息和整合信息文件,生成并保存用于关联条目信息和整合信息文件的索引目录”与“分拆数据库根据归一化模板获取的条目信息的归一化表述,生成并保存条目信息的分拆信息文件;第二索引库根据含有实体词的条目信息和分拆信息文件,生成并保存用于关联条目信息和分拆信息文件的索引目录”。
本发明提供的基于语义归一化的检索方法的一个实施例中,步骤514可以进一步包括:搜索引擎根据归一化模块获取的检索式信息的归一化表述先在第一索引库中进行搜索,再在第二索引库中进行搜索,然后并根据索引目录指示的路径向用户返回相应的条目信息;或者搜索引擎根据归一化模块获取的检索式信息的归一化表述同步并行地检索第一索引库和第二索引库,然后并根据索引目录指示的路径向用户返回相应的条目信息。
本发明提供的基于语义归一化的检索方法,根据条目信息的归一化表述,由整合数据库和分拆数据库同步并行的方式生成条目信息的整合信息文件以及分拆信息文件,随后由搜索引擎利用索引目录中的整合信息文件和分拆信息文件进行检索,从而向用户返回与所述检索式信息的归一化表述相同或相似语义的条目信息;解决了当前进行语义检索不全面不准确的技术问题,提供了检索效率,从而有利于快捷地为用户提供更加准确可信的搜索结果。
图6示出本发明实施例提供的一种基于语义归一化的整合数据库的信息处理方法的流程图。
如图6所示,基于语义归一化的整合数据库的信息处理方法流程600包括:步骤602,根据整合数据库中的模板文件和垃圾数据库中的模板文件生成模板文件库。例如,将整合数据库中的模板词(如“多大了”,“身高”)对应的模板文件(如“xx多大了”,“xx身高”)和垃圾数据库中的模板文件(如“宫保鸡丁几岁了”)合并起来,生成模板文件的集合,如模板文件库。其中垃圾数据库是用来存储一些通过人工能够明显判定为错误的模板文件,如宫保鸡丁几岁了,从而在后续比对中,无需对相同的模板文件进行再次比对,有利于节约系统资源,加快信息处理速率。
步骤604,依据模板文件库对当前的查询日志文件进行查询过滤,去除查询日志文件中能够被模板文件库匹配的查询,形成待挖掘模板文件的查询日志簇。例如,读取当前的查询日志,获取最新的查询日志信息;根据前述合并获得的模板文件库对最新的查询日志信息进行过滤,去除最新查询日志中能够被模板文件库中模板文件匹配的查询信息,从而获得尚未被挖掘出相应模板文件的查询日志,形成待挖掘模板文件的查询日志簇。稍后对查询过滤技术作进一步的详细介绍。
步骤606,从待挖掘模板文件的查询日志簇中挖掘种子模板,统计种子模板的频次并进行排序,生成种子模板文件。例如,根据前述对查询日志文件过滤形成的待挖掘模板文件的查询日志簇,对每个查询日志进行模版文件切词,从而获取多种查询属性,如“世博会门票价格”对应的模板词“价格”,“世博会门票转让”对应的模板词“转让”,“Ipad价格”对应的模板词“价格”和“Ipad样式”对应的模板词“样式”,所述查询日志分别对应于模板文件“xx价格”、“xx转让”、“xx价格”和“xx样式”;随后对所述模板文件进行统计排序,从而生成种子模板文件。
步骤608,从种子模板文件中选取预定数量的种子模板,生成同义模板候选文件。例如,根据预先设定的阈值,从前述统计排序所获得的种子模板文件中选取符合筛选条件(如排序前50个、前10个等,统计后排序在前的种子模板很有可能是所有实体词的公共属性)的种子模板文件作为同义模板候选文件。
步骤610,对同义模板候选文件进行筛选,并将筛选得到的同义模板候选文件添加到整合数据库的模板文件中。例如,根据前述预先设定的阈值,生成同义模板候选文件,随后可以采用本领域通用的机器自动筛选的方式进行同义模板候选文件的选取,从而将其添加到整合数据库的模板文件中。此外,对于一些能够被模板覆盖的查询日志,人工能够将其替换成一种具有相同表述含义的正规的模板的表述形式,可以采用人工筛选的方式进行辅助挑选,从而将其添加到整合数据库的模板文件中。基于类似的操作,对于不符合常规表述的查询日志,可以将其添加到垃圾模板库的模板文件中;从而进一步避免了对同样的垃圾模板文件的再次挖掘,有利于提高对海量查询日志的筛选效率。
本发明中对查询日志进行过滤可以采用“预判定”技术来提高比对效率。具体来说:首先,将模板文件库中的所有模版文件切词,并建立实体词与模版词的对应关系,如“世博会门票”-“多少钱”,“世博会门票”-“转让”等,一个实体词可能会对应多个模版文件,从而建立实体词与模板词的多个对应关系。其次,对于查询日志(querylog)中的每条查询(query)进行切词,并查找query中所有实体词所涉及的模版词。然后,将query中的模板词与模板文件库中的模板词进行比较,看能否匹配上;在进行比较时,“xx”可以匹配任何字符串,如“世博会门票价格”能够与模板文件“xx价格”匹配上;也就是说,查询日志文件“世博会门票价格”对应的模板文件“xx价格”已经被存储在模板文件库中了,该查询日志文件无需再进行模板文件挖掘。
图7示出本发明实施例提供的基于语义归一化的整合数据库的信息处理方法的另一个实施例的结构示意图;图8示出本发明实施例提供的种子模板文件的挖掘算法示意图。
如图7所示,基于语义归一化的整合数据库的信息处理方法流程700包括:步骤702-710,其中步骤702、704、708、710可以分别执行与图6所示的步骤602、604、608、610相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图7所示,在步骤704之后,执行步骤705,从待挖掘模板文件的查询日志簇中提取实体词。具体来说,如图8所示,待挖掘模板文件的查询日志簇802包括“Ipad多少钱,世博会门票多少钱,宫保鸡丁多少钱……xx多少钱”等等,利用一种查询的属性(如“xx多少钱”)对前述待挖掘模板文件的查询日志簇802进行实体词挖掘,从中分别提取出相应的实体词804,包括“Ipad、世博会门票、宫保鸡丁”等等。
步骤706,根据实体词获取查询日志簇对应的种子模板。具体来说,如图8所示,根据实体词804,获取所述实体词对应的查询日志簇中所有的种子模板,如实体词“Ipad”对应的所有种子模板806“Ipad价格、Ipad样式、Ipad怎么用”等等;实体词“世博会门票”对应的所有种子模板808“世博会门票哪里卖、世博会门票抽签、世博会门票价格”等等;实体词“宫保鸡丁”对应的所有种子模板810“宫保鸡丁价格、宫保鸡丁怎么做、宫保鸡丁哪里卖”等等。
步骤707,统计具有相同属性的种子模板的频次,根据统计的频次进行排序,并选取高于预定频次的种子模板族生成种子模板文件。具体来说,如图8所示,分别对前述获取的种子模板806-810进行统计812,将具有相同查询属性的模板累加在一起,如汇总后的种子模板“xx价格”出现3次,种子模板“xx抽签”出现1次,种子模板“xx怎么用”出现1次等等。根据预先设定的阈值,从前述统计排序所获得的种子模板列表中选取符合筛选条件的种子模板作为种子模板文件;具体来说,阈值可以选自统计的频次的最大值的三次开平方根和2中的较大的一个:max(2,sqrt(sqrt(sqrt(最大频次)))),这样不但能够避免噪音影响,而且能够以最大频次作为参照筛选出较为频繁的种子模板族(抽象规则信息文件),覆盖更多的查询。
随后执行步骤708、710,所述步骤可以分别执行与图6所示的步骤608、610相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
图9示出本发明实施例提供的基于语义归一化的整合数据库的信息处理方法的另一个实施例的结构示意图。
如图9所示,基于语义归一化的整合数据库的信息处理方法流程900包括:步骤902-920,其中步骤902-910可以分别执行与图7所示的步骤702-710相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图9所示,在步骤910之后,执行步骤912,读取整合数据库中的模板文件和当前的查询日志文件。例如,根据前述实施例给出的方法对整合数据库的模板文件进行了更新,在该步骤中分别读取该更新后的整合数据库中的模板文件,以及当前最新的查询日志文件。
步骤914,从整合数据库中模板文件获取每个模板文件相应的实体词,生成实体词文件。例如,从整合数据库中的模板文件(如“xx多大了”,“yy身高”,“zz怎么做好吃”)中获取每个模板文件对应的实体词“xx”,“yy”和“zz”,并生成实体词文件。
步骤916,依据实体词文件对当前的查询日志文件进行实体词增量挖掘,生成实体词增量文件。例如,依据所获取的实体词文件对当前的查询日志文件中的实体词进行比对,从而挖掘出新增加的实体词“ww”等,获得实体词增量文件。
步骤918,根据整合数据库中的模板文件和实体词增量文件生成整合数据库更新文件。例如,根据整合数据库中的模板文件中的模板词,如“多大了”,“身高”,“怎么做好吃”和实体词增量文件,如“ww”,生成整合数据库更新文件,如包括{ww多大了G_年龄1},{ww身高G_身高2}等信息条的信息文件。
步骤920,根据整合数据库的整合信息文件和整合数据库更新文件,进行文件合并,并更新整合数据库的整合信息文件。例如,根据整合数据库中的原有整合信息文件和刚刚生成的数据库更新文件(如包括{ww多大了G_年龄1},{ww身高G_身高2}等信息条的信息文件)进行文件合并,并用合并后的整合信息文件来更新整合数据库原有的整合信息文件。
本发明中采用的文件合并方法可以利用“词典Merge模块”,具体来说,该模块通过将整合数据库中每一条整合信息文件作为一个字符串,并将该字符串插入到哈希辞典中,并将其映射值设置为1。对于整合数据库更新文件中的每一条整合信息文件,查找该整合信息文件在哈希辞典中的映射值;如果其映射值为1,则说明该条整合信息文件已经存在;反之,则会将该条整合信息文件添加到整合数据库中;随后将该条整合信息文件也添加到哈希辞典中,并将其映射值设置为1。
本发明提供的基于语义归一化的整合数据库的信息处理方法,。
图10示出本发明实施例提供的一种基于语义归一化的分拆数据库的信息处理方法的流程图。
如图10所示,基于语义归一化的分拆数据库的信息处理方法流程1000包括:步骤1002,从整合数据库中读取整合信息文件,并从整合信息文件中获取实体词和模板文件。例如,根据前述基于语义归一化的整合数据库的信息处理方法得到更新后的整合数据库,从该整合数据库中读取整合文件信息,如{宫保鸡丁怎么做G_菜谱1},{奥巴马多大了G_年龄1},{姚明身高G_身高2}等信息条的信息文件,从中获取实体词“宫保鸡丁”、“奥巴马”和“姚明”以及相应的模板文件“怎么做”,“多大了”和“年龄”。
步骤1004,对整合数据库中获取的实体词和实体词文件中的实体词进行上位概念的抽象化处理,生成实体词对应的实体词抽象类,并根据实体词和实体词抽象类生成实体词抽象信息文件。例如,对前述获取的实体词尽心上位概念的抽象化处理以生成抽象类,如“宫保鸡丁->川菜->中国菜”,“奥巴马->美国总统->人类”就是一个语义从下往上进行上位抽象的例子。随后根据实体词和实体词抽象类生成实体词抽象信息文件,如{宫保鸡丁中国菜},{奥巴马人类}。
步骤1006,根据整合数据库中获取的模板文件和实体词抽象类生成抽象规则信息文件。例如,根据模板文件“怎么做”,“多大了”和“年龄”和实体词抽象类“中国菜”,“人类”,生成抽象规则信息文件,如包括{中国菜怎么做G_菜谱1},{人类多大了G_年龄1}的信息条。
步骤1008,统计抽象规则信息文件出现的频次,根据统计的频次进行排序,选取高于预定频次的抽象规则信息文件;并将所选取的抽象规则信息文件和对应的实体词抽象信息文件添加到分拆信息文件中。例如,统计抽象规则信息文件,将具有相同属性的信息条累加在一起,根据预先设定的阈值(具体来说,阈值可以选自统计的频次的最大值的三次开平方根和2中的较大的一个),选取高于阈值的抽象规则信息文件,如{中国菜怎么做G_菜谱1},确定与之对应的实体词抽象信息文件如{宫保鸡丁中国菜};并将两个信息条添加到分拆信息文件中。
步骤1010,根据分拆信息文件生成分拆数据库。例如,将前述获得的分拆信息文件汇总形成分拆数据库。
图11示出本发明实施例提供的基于语义归一化的分拆数据库的信息处理方法的另一个实施例的结构示意图。
如图11所示,基于语义归一化的分拆数据库的信息处理方法流程1100包括:步骤1102、1103、1104、1106、1108、1109、1110,其中步骤1102、1104、1106、1108、1110可以分别执行与图10所示的步骤1002-1010相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图11所示,在步骤1102之后,执行步骤1103,对于整合数据库中的模板文件,如果模板文件通过人工分析的方式就能够获知模板文件的应用领域,则进行实体词抽象类的人工添加,并生成抽象规则信息文件。
步骤1109,将实体词抽象信息文件和抽象规则信息文件直接存入分拆信息文件中。随后再将前述直接获得的分拆信息文件与步骤1110获得的分拆信息文件汇总形成分拆数据库。
根据前述对于本发明提供的基于语义归一化的整合数据库/分拆数据库的信息处理方法,接下来,将具体描述基于语义归一化的检索方法的一个实施方式。以用户在检索界面输入“奥巴马多大了”的查询请求为例,在当前的网络系统中信息条目包括“奥巴马年龄”,“奥巴马多大了”和“奥巴马岁数”等网页。
首先,根据网页中的条目信息生成整合信息文件,如{奥巴马多大了G_年龄1},{奥巴马年龄G_年龄2},{奥巴马步数G_年龄1}以汇总形成整合数据库,并建立第一索引库,例如对于字符串“奥巴马岁数”,如果利用整合数据库,由于存在“奥巴马”和“步数”则在建立索引库时除了建立“奥巴马”和“岁数”的索引会扩展出“G_年龄”的索引。
随后,根据网页中的条目信息生成分拆信息文件,包括如实体词抽象信息文件{奥巴马人类}和抽象规则信息文件{人类多大了G_年龄0x3E04}以汇总形成分拆数据库,并建立第二索引库,例如,如果利用分拆数据库,由于“奥巴马”是“人类”,且“奥巴马”在“年龄”左边,且间距小于4,则除了建立索引库时除了“奥巴马”和“岁数”的索引会扩展出“G_年龄”的索引。
在用户输入“奥巴马多大了”进行信息检索时,基于语义归一化转换,会生成新的查询“奥巴马G_年龄”在第一索引库和第二索引库中进行检索,这样不但可以召回含有“奥巴马多大了”信息条目的网页,也可以召回含有“奥巴马岁数”和“奥巴马年龄”信息条目的网页。
参考前述本发明示例性的描述,本领域技术人员可以清楚的知晓本发明具有以下优点:本发明提供一种基于语义归一化的检索系统、检索方法,以及基于语义归一化的整合数据库/分拆数据库的信息处理方法,通过对网页信息条目和用户检索式信息条目进行语义归一化转换,利用整合数据库和/或分拆数据库进行信息比对,从而提高检索的准确性和全面性,为用户提供更为全面准确的信息搜索服务。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种基于语义归一化的检索系统,其特征在于,所述系统包括:
归一化模块,用于对网页中含有实体词的条目信息进行语义归一化变换,获取所述条目信息的归一化表述;以及对用户输入的含有实体词的检索式信息进行语义归一化变换,获取所述检索式信息的归一化表述;
整合数据库,用于根据所述归一化模块获取的所述条目信息的归一化表述,生成并保存所述条目信息的整合信息文件;
第一索引库,用于根据所述含有实体词的条目信息和所述整合信息文件,生成并保存用于关联所述条目信息和所述整合信息文件的第一索引目录;
搜索引擎,用于根据所述归一化模块获取的所述检索式信息的归一化表述在所述第一索引库中进行搜索,并根据所述第一索引目录指示的路径向所述用户返回相应的条目信息。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:分拆数据库,用于根据所述归一化模块获取的所述条目信息的归一化表述,生成并保存所述条目信息的分拆信息文件;
第二索引库,用于根据所述含有实体词的条目信息和所述分拆信息文件,生成并保存用于关联所述条目信息和所述分拆信息文件的第二索引目录;
所述搜索引擎,还用于根据所述归一化模块获取的所述检索式信息的归一化表述在所述第一索引库和第二索引库中进行搜索,并根据所述第一索引目录和第二索引目录指示的路径向所述用户返回相应的条目信息。
3.一种基于语义归一化的检索方法,其特征在于,所述方法包括:
归一化模块对网页中含有实体词的条目信息进行语义归一化变换,获取所述含有实体词的条目信息的归一化表述;
整合数据库根据所述归一化模块获取的所述条目信息的归一化表述,生成并保存所述条目信息的整合信息文件;
第一索引库根据所述含有实体词的条目信息和所述整合信息文件,生成并保存用于关联所述条目信息和所述整合信息文件的索引目录;
所述归一化模块对用户输入的含有实体词的检索式信息进行语义归一化变换,获取所述检索式信息的归一化表述;
搜索引擎根据所述归一化模块获取的所述检索式信息的归一化表述在所述第一索引库中进行搜索,并根据所述索引目录指示的路径向所述用户返回相应的条目信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述第一索引库生成并保存用于关联所述条目信息和所述整合信息文件的索引目录之后,分拆数据库根据所述归一化模块获取的所述条目信息的归一化表述,生成并保存所述条目信息的分拆信息文件;
第二索引库根据所述含有实体词的条目信息和所述分拆信息文件,生成并保存用于关联所述条目信息和所述分拆信息文件的索引目录;
所述归一化模块对用户输入的含有实体词的检索式信息进行语义归一化变换,获取所述检索式信息的归一化表述;以及
所述搜索引擎根据所述归一化模块获取的所述检索式信息的归一化表述在所述第一索引库和第二索引库中进行搜索,并根据所述索引目录指示的路径向所述用户返回相应的条目信息。
5.一种基于语义归一化的整合数据库的信息处理方法,其特征在于,所述方法包括:
根据整合数据库中的模板文件和垃圾数据库中的模板文件生成模板文件库;
依据所述模板文件库对当前的查询日志文件进行查询过滤,去除所述查询日志文件中能够被所述模板文件库匹配的查询,形成待挖掘模板文件的查询日志簇;
从所述待挖掘模板文件的查询日志簇中挖掘种子模板,统计所述种子模板的频次并进行排序,生成种子模板文件;
从所述种子模板文件中选取预定数量的所述种子模板,生成同义模板候选文件;
对所述同义模板候选文件进行筛选,并将筛选得到的同义模板候选文件添加到所述整合数据库的模板文件中。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
读取所述整合数据库中的模板文件和所述当前的查询日志文件;
从所述整合数据库中模板文件获取每个模板文件相应的实体词,生成实体词文件;
依据所述实体词文件对所述当前的查询日志文件进行实体词增量挖掘,生成实体词增量文件;
根据所述整合数据库中的模板文件和所述实体词增量文件生成整合数据库更新文件;
根据所述整合数据库的整合信息文件和所述整合数据库更新文件,进行文件合并,并更新所述整合数据库的整合信息文件。
7.根据权利要求5所述的方法,其特征在于,所述从所述待挖掘模板文件的查询日志簇中挖掘种子模板,统计所述种子模板的频次并进行排序,生成种子模板文件进一步包括:
从所述待挖掘模板文件的查询日志簇中提取实体词;
根据所述实体词获取所述查询日志簇对应的种子模板;
统计具有相同属性的种子模板的频次,根据统计的频次进行排序,并选取高于预定频次的种子模板族生成所述种子模板文件。
8.一种基于语义归一化的分拆数据库的信息处理方法,其特征在于,所述方法包括:
从整合数据库中读取整合信息文件,并从所述整合信息文件中获取实体词和模板文件;其中,所述整合数据库是根据前述权利要求5或6所述的基于语义归一化的整合数据库的信息处理方法得到的整合数据库;
对所述整合数据库中获取的实体词和实体词文件中的实体词进行上位概念的抽象化处理,生成从整合数据库中获取的实体词对应的实体词抽象类,并根据从整合数据库中获取的实体词和所述实体词抽象类生成实体词抽象信息文件;
根据所述整合数据库中获取的所述模板文件和所述实体词抽象类生成抽象规则信息文件;
统计所述抽象规则信息文件出现的频次,根据统计的频次进行排序,选取高于预定频次的抽象规则信息文件;并将所选取的抽象规则信息文件和对应的实体词抽象信息文件添加到分拆信息文件中;以及
根据所述分拆信息文件生成分拆数据库。
9.根据权利要求8所述的方法,其特征在于,所述预定频次的阈值选自所述统计的频次的最大值的三次开平方根和2中的较大的一个。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
对于所述整合数据库中的模板文件,如果所述模板文件通过人工分析的方式就能够获知所述模板文件的应用领域,则进行所述实体词抽象类的人工添加,并生成抽象规则信息文件;以及
将所述实体词抽象信息文件和所述抽象规则信息文件直接存入所述分拆信息文件中。
CN201010162514.9A 2010-04-28 2010-04-28 基于语义归一化的检索系统、检索方法以及信息处理方法 Active CN102236664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010162514.9A CN102236664B (zh) 2010-04-28 2010-04-28 基于语义归一化的检索系统、检索方法以及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010162514.9A CN102236664B (zh) 2010-04-28 2010-04-28 基于语义归一化的检索系统、检索方法以及信息处理方法

Publications (2)

Publication Number Publication Date
CN102236664A CN102236664A (zh) 2011-11-09
CN102236664B true CN102236664B (zh) 2016-04-13

Family

ID=44887320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010162514.9A Active CN102236664B (zh) 2010-04-28 2010-04-28 基于语义归一化的检索系统、检索方法以及信息处理方法

Country Status (1)

Country Link
CN (1) CN102236664B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850554B (zh) * 2014-02-14 2020-05-19 北京搜狗科技发展有限公司 一种搜索方法和系统
CN104484464A (zh) * 2014-12-30 2015-04-01 北京东方灵盾科技有限公司 一种检索系统和检索方法
CN106156141B (zh) * 2015-04-13 2020-04-24 深圳市腾讯计算机系统有限公司 构建语义查询词模板的方法及装置
CN108090041B (zh) * 2016-11-22 2021-05-18 北京国双科技有限公司 一种广告创意的生成方法及装置
CN107358052A (zh) * 2017-07-18 2017-11-17 广州有宠网络科技股份有限公司 一种对宠物疾病进行人工智能问诊的系统及方法
CN108509478B (zh) * 2017-11-23 2021-04-27 平安科技(深圳)有限公司 规则引擎文件的拆分调用方法、电子装置及存储介质
CN109446298A (zh) * 2018-08-22 2019-03-08 优视科技(中国)有限公司 模板匹配方法及装置、计算机设备及可读介质
CN110209892A (zh) * 2019-04-17 2019-09-06 深圳壹账通智能科技有限公司 敏感信息识别方法、装置、电子设备及存储介质
CN110377797A (zh) * 2019-07-31 2019-10-25 重庆大司空信息科技有限公司 一种职业资格检索方法和系统
CN112183110A (zh) * 2020-09-28 2021-01-05 贵州云腾志远科技发展有限公司 一种基于数据中心的人工智能数据应用系统及应用方法
CN116756375B (zh) * 2023-05-09 2024-05-07 中电科大数据研究院有限公司 一种基于图谱的异构数据的处理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1711536A (zh) * 2002-10-03 2005-12-21 古格公司 基于相关词的聚类描述文档的方法和装置
CN101645064A (zh) * 2008-12-16 2010-02-10 中国科学院声学研究所 一种浅层自然口语理解系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940806A (en) * 1996-08-28 1999-08-17 Danial; Jeffrey Method and apparatus for receiving, storing and providing data corresponding to geometrically describable raw materials

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1711536A (zh) * 2002-10-03 2005-12-21 古格公司 基于相关词的聚类描述文档的方法和装置
CN101645064A (zh) * 2008-12-16 2010-02-10 中国科学院声学研究所 一种浅层自然口语理解系统及方法

Also Published As

Publication number Publication date
CN102236664A (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
CN102236664B (zh) 基于语义归一化的检索系统、检索方法以及信息处理方法
CN102012900B (zh) 信息检索方法和系统
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
CN101876981B (zh) 一种构建知识库的方法及装置
US8812531B2 (en) Concept bridge and method of operating the same
CN102402605B (zh) 用于搜索引擎索引的混合分布模型
CN100507915C (zh) 网络搜索方法、网络搜索设备和用户终端
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
US7756859B2 (en) Multi-segment string search
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN108717470A (zh) 一种具有高准确度的代码片段推荐方法
CN102306176B (zh) 一种基于数据仓库内在特征的olap关键词查询方法
CN105706078A (zh) 实体集合的自动定义
JP6355840B2 (ja) ストップワード識別方法および装置
CN101055585A (zh) 文档聚类系统和方法
CN106682012A (zh) 商品对象信息搜索方法及装置
CN106557777B (zh) 一种基于SimHash改进的Kmeans文档聚类方法
CN101739407A (zh) 自动构建用于相关信息浏览的信息组织结构的方法和系统
CN103714149B (zh) 一种自适应增量式的深层网络数据源发现方法
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
CN111026710A (zh) 一种数据集的检索方法及系统
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN112231321B (zh) 一种Oracle二级索引及索引实时同步方法
CN110765233A (zh) 基于深度挖掘和知识管理技术的智能信息检索服务系统
CN104077385A (zh) 一种文件的分类及检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant