CN101876981A - 一种构建知识库的方法及装置 - Google Patents
一种构建知识库的方法及装置 Download PDFInfo
- Publication number
- CN101876981A CN101876981A CN2009101362066A CN200910136206A CN101876981A CN 101876981 A CN101876981 A CN 101876981A CN 2009101362066 A CN2009101362066 A CN 2009101362066A CN 200910136206 A CN200910136206 A CN 200910136206A CN 101876981 A CN101876981 A CN 101876981A
- Authority
- CN
- China
- Prior art keywords
- sentence
- entry
- knowledge base
- speech
- subclauses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000008878 coupling Effects 0.000 claims description 17
- 238000010168 coupling process Methods 0.000 claims description 17
- 238000005859 coupling reaction Methods 0.000 claims description 17
- 238000005192 partition Methods 0.000 claims description 12
- 230000008676 import Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000009412 basement excavation Methods 0.000 abstract 5
- 230000008569 process Effects 0.000 description 13
- 239000000047 product Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000009418 renovation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种构建知识库的方法,用于实现知识库的自动生成,并且提高知识库的准确度。所述方法包括:计算机设备中的基础数据处理层获得网页中的句子;计算机设备中的挖掘层对句子进行分词;挖掘层将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配;挖掘层在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中;挖掘层当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。本申请还公开了用于实现所述方法的装置,以及公开了搜索信息的方法和搜索装置。
Description
技术领域
本申请涉及计算机及通信领域,特别是涉及构建知识库的方法及装置。
背景技术
计算机和互联网技术已被广泛应用,资源共享是其主要特点。如何从巨大的信息资源中搜索到自身需要的信息,是用户普遍关心的问题。因此,信息搜索技术应运而生。
主要的搜索技术之一是关键词搜索。用户在搜索栏中输入关键词,搜索引擎根据该关键词进行搜索,尽可能的搜索出所有包含该关键词的网页。然而,一个词本身有多种含义,并且一个词在不同行业不同领域里也可能有多种解释或应用,可能大多数的含义对搜索用户来说都属于干扰项,基于这些含义的网页对该搜索用户来说均为无用网页,使得搜索结果不理想。知网的出现部分解决了该问题。
在知网(How-net)中,一个词条包含有多个概念,依据不同的概念来进行搜索,相对于关键词搜索来说,其搜索结果更准确。
但是,目前的知网是由人工建立和整理的,通常只覆盖到高频内容,覆盖的网络内容有限。并且,随着网络的发展,信息量成几何级数增长,人工更新知网的速度远远低于信息量的增长速度,导致搜索结果不理想。
发明内容
本申请实施例提供一种构建知识库的方法及装置,用于实现知识库的自动生成,并且提高知识库的准确度。
一种构建知识库的方法,包括以下步骤:
计算机设备中的基础数据处理层获得网页中的句子;
计算机设备中的挖掘层对句子进行分词;
挖掘层将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配;
挖掘层在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中;
挖掘层当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
一种用于构建知识库的计算机设备,包括:
处理模块,用于获得网页中的句子;
挖掘模块,用于对句子进行分词,并将知识库中第一类别对应的标志词与分词后得到的词进行匹配,在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中,以及当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
本申请实施例提供一种搜索信息的方法,用于为用户搜索到更准确的信息,该方法包括以下步骤:
根据用户输入的搜索词,获得与搜索词匹配的标签;
根据匹配的标签获得与该标签对应的网页;
将获得的网页或网页的链接地址发送给用户;
其中,标签是依据网页的关键词和知识库中与关键词有关系的条目获得的。
一种搜索信息的方法,包括以下步骤:
利用知识库中的条目对用户输入的搜索词进行分词处理;
将分词后得到的词与知识库中的条目进行匹配,并确定匹配成功的条目;
通过知识库获得与匹配成功的条目有关系的条目;
根据有关系的条目更新用户输入的搜索词;
根据更新后的搜索词进行搜索。
一种搜索引擎,包括:
第一查询模块,用于根据用户输入的搜索词,获得与搜索词匹配的标签;
第二查询模块,用于根据匹配的标签获得与该标签对应的网页;
接口模块,用于将获得的网页或网页的链接地址发送给用户;
标签生成模块,用于依据网页的关键词和知识库中与关键词有关系的条目,生成与该网页对应的标签。
一种搜索引擎,包括:
分词模块,用于利用知识库中的条目对用户输入的搜索词进行分词处理;
匹配模块,用于将分词后得到的词与知识库中的条目进行匹配,并确定匹配成功的条目;
查询模块,用于通过知识库获得与匹配成功的条目有关系的条目;
更新模块,用于根据有关系的条目更新用户输入的搜索词;
搜索模块,用于根据更新后的搜索词进行搜索。
本申请实施例将句子中的词与知识库中的标志词进行匹配,根据匹配成功的标志词确定未知词在知识库中对应的类别,并作为该类别下的条目,以及根据类别之间的关系,为在句子中成对出现的条目建立关系,从而实现了知识库的更新。
附图说明
图1A为本申请实施例中计算机设备的示意图;
图1B为本申请实施例中网络系统的结构图;
图1C为本申请实施例中构建知识库的主要方法流程图;
图2为本申请实施例中构建知识库的详细方法流程图;
图3为本申请实施例中分析网页意图时搜索信息的方法流程图;
图4为本申请实施例中分析用户意图时搜索信息的方法流程图;
图5为本申请实施例中计算机设备的结构图;
图6为本申请实施例中分析网页意图时搜索引擎的结构图;
图7为本申请实施例中分析用户意图时搜索引擎的结构图。
具体实施方式
本申请实施例通过对网页中成对出现的词进行分析,来将网页中的词添加到知识库的类别中,作为类别下的条目,以及根据类别间的关系为成对出现的条目建立关系,从而实现了知识库的自动构建,节省了人力资源。
本申请实施例中的知识库包括一个或多个类别,类别对应条目和标志词,一个条目可以对应一个或多个类别,一个条目在多个类别下可以有不同的权重。条目还可以对应有属性。并且,类别之间可能建立有关系,条目之间也可能存在关系。例如,名为产品的类别对应的条目有手机,产品类对应的标志词可能有出售、型号、品牌、功能等,手机的属性如功能、尺寸、电池型号等。知识库中的类别、类别对应的标志词和类别之间的关系均为预先设置的,在知识库建立或更新过程中,不断的向知识库中添加条目、条目之间的关系和条目的属性等。
表1、条目与类别的对应关系的实例
表2、条目与属性的对应关系的实例
表3、条目之间的关系的实例
表4、类别之间的关系的实例
表5、类别与标志词的对应关系的实例
表5中仅给出了“产品”类别的标志词“出售”,还可能有“型号”、“牌”等标志词。“影视”类别的标志词如“导演”、“主演”和“发行”等。各类别对应的标志词均是根据各类别的特点预先设置的。
可以采用文本文档、表格文档、数据库等形式存储表1-5。并且表1-5只是提供一种实例,可以在不改变其关系的情况下任意组合或拆分。
本实施例中由基础数据处理层和挖掘层,以及整合层和应用层来实现知识库的构建,所述四个层可以位于一个计算机设备内,参见图1A所示;也可以分别位于不同的计算机设备内,该不同的计算机设备可以是服务器或客户端,分别位于不同的计算机设备内,该不同的计算机设备可以是服务器或客户端,并且可构成一网络系统,参见图1B所示。例如,基础数据处理层位于客户端11内,挖掘层位于服务器12内,整合层可以位于服务器12或服务器13内,应用层可位于客户端14内。客户端11、服务器12、服务器13和客户端14均可以有多个。
基础数据处理层用于获得网页中的句子。网页中的句子可以是网页的文本内容中的句子。挖掘层用于对句子进行分词,并将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配,在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中,当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系,即将第二条目加入第一条目对应的关系条目中,可进一步将第一条目加入第二条目对应的关系条目中。其中,第一类别和第二类别可能是任意两个类别,这里为表述方便并区分两个类别,故称第一类别和第二类。同理,第一条目和第二条目可能是任意两个条目。
计算机设备还可包括整合层和应用层。整合层用于将挖掘层根据每个类别生成的结果文件整合为一个结果文件。应用层用于提供应用。
例如,挖掘层针对类别1、类别2和类别3分别得到下面3个结果文件:
整合层将3个结果文件整合并得到一个结果文件,该一个结果文件如表6所示:
其中,0表示条目与类别之间没有对应关系。
参见图1C,本实施例中构建知识库的主要方法流程如下:
步骤101:计算机设备中的基础数据处理层获得网页中的句子。
步骤102:计算机设备中的挖掘层对句子进行分词。
步骤103:挖掘层将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配。
在知识库的建立之初需要预先设置类别,以及类别下对应的标志词,在知识库的不断更新过程中标志词会随着特定条目的添加而不断更新。
步骤104:挖掘层在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中。
步骤105:挖掘层当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
本实施例中构建知识库的方法也可用于更新知识库,周期性重复本实施例即可。
参见图2,本实施例中构建知识库的详细方法流程如下:
步骤201:基础数据处理层获得网页中的句子,尤其是获得单句或短句,并统计句子出现的次数,即统计相同句子的个数。可预先搜集并保存网页中的文字信息,然后根据标点符号从文字信息中获得句子。句子包括单句、短句和长句。单句是指句子前面是句号、问号、感叹号,同时以句号、问号、感叹号结尾,句子中间没有别的标点符号的句子。短句是指以逗号、分号结尾,中间没有别的标点符号的句子。长句是指句子前面是句号、问号、感叹号,同时以句号、问号、感叹号结尾,中间有一个或多个逗号、分号的句子。搜索到的句子为长句时,根据句子的标点符号将长句划分为多个短句。由于长句较长,内容较多较复杂,将其划分成短句后更容易分析,并且得到的结果较准确。例如,搜索到的句子为“本店出售AA牌BB1型号的手机”。
步骤202:挖掘层采用分词系统对获得的句子进行分词。例如对“本店出售AA牌BB1型号的手机”分词后得到“本店、出售、AA、牌、BB1、型号、手机”。可将该类别对应的标志词加入分词系统,采用该分词系统进行分词,不容易将完整词分碎。例如,品牌“诺基亚”,当采用普通的分词系统,普通的分词系统只包括少量的基本词汇,通常不包括新生的外来语或音译词等。当有普通的分词系统无法匹配到的词时,普通的分词系统会将未知词以字为单位划分,则可能会将“诺基亚”分为“诺、基、亚”,如果将“诺基亚”加入分词系统后,在分词过程中可以对“诺基亚”匹配成功,因此分得“诺基亚”这一完整的词。
步骤203:挖掘层将知识库中第一类别对应的标志词与分词后得到的词进行匹配。有一个标志词与句子中的一个词匹配一致,便认为对该句子的匹配是成功的,保留匹配成功的句子。对于第一类别来说,丢弃未匹配成功的句子。未匹配成功的句子可以在根据其它类别的标志词进行匹配时再使用。
步骤204:挖掘层判断匹配成功的句子中是否有知识库未包括的未知词,若有,则继续步骤205,否则结束对该句子的流程,还可继续判断其它匹配成功的句子中是否有知识库未包括的未知词,如果均不包括未知词,还可将其它类别对应的标志词与分词后得到的词进行匹配,即重复步骤203。
步骤205:挖掘层将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中。未知字符串可能包括多个未知词。例如,句子为新片满城尽带黄金甲,分词后得到新/片/满/城/尽/带/黄金/甲,片为匹配一致的标志词,满/城/尽/带/黄金/甲均为未知词,满城尽带黄金甲即为与片相邻的未知字符串,得到了预期的独立且完整的词。
步骤206:挖掘层将第一条目加入分词系统,以更新分词系统。更新后的分词系统不容易将词分碎,例如再遇到满城尽带黄金甲时,将得到一个词“满城尽带黄金甲”,不会再分成满/城/尽/带/黄金/甲。
步骤207:挖掘层根据第一条目和相邻的标志词所在的句子出现的次数,为第一条目设置在第一类别下的权重。例如,对获得到的句子的出现频率进行统计,第一条目BB1和标志词“型号”所在的句子1的出现次数是1000,所在的句子2的出现次数是100,所在的句子3的出现次数是10,则权重为f(1000)+f(100)+f(10),其中f为句子次数变换为权重的函数,比如以10为底数的对数函数。
步骤208:挖掘层获得第一条目和第二类别下的第二条目所在的句子出现的次数。其中,第一类别与第二类别之间已建立关系。
步骤209:挖掘层当该次数超过预设的关系阈值时,为第一条目与第二条目建立关系。还可重复步骤208,以便为第一条目建立更多的关系。通过该关系阈值可过滤掉某些因笔误引起的错误关系。例如,预先为类别型号和类别品牌建立了关系,则可为BB1和AA建立关系。
其中,步骤206、207和208是三个独立的过程,无严格的执行先后,也可同时进行。
知识库包括普通词体系和实体词体系;标志词包括实体词体系中类别对应的索引词和普通词体系中类别对应的种子词。普通词体系包括的条目大多为常规的,不经常变化的词,如地名。实体词体系包括的条目大多为更新较频繁的词,如人名和影视名等。普通词体系与实体词体系的区别在于包括的类别不同。实体词体系中的索引词不属于对应类别下的条目,而普通词体系中的种子词属于对应类别下的条目。针对普通词体系和实体词体系下的类别,可采用不同的更新周期,普通词体系的更新周期可更长一些。普通词体系和实体词体系如表7和表8所示:
表7、普通词体系的实例
表8、实体词体系的实例
当未知字符串作为第一条目添加到第一类别中时,同时未知字符串作为第一条目添加到了第一类别所属的体系(普通词体系或实体词体系)。当第一类别为普通词体系中的类别时,还可将第一条目作为第一类别对应的种子词。
挖掘层还可以根据特征符号来确定未知字符串是否应为第一类别下的条目。特征符号包括括号、顿号和书名号,即与类别有关的标点符号。例如,类别为影视时,基础数据处理层获得带有书名号的句子,然后挖掘层将影视类别对应的索引词与带有书名号的句子中的词匹配,若匹配成功,则书名号中的词(即未知字符串)为影视类别下的条目。括号中的词通常为专有名词(即括号前的词)的英文表达,顿号前后的词通常属于一个类别。
挖掘层还可为第一条目设置属性。如一种实现方式是:基础数据处理层从网页中获得表格。挖掘层将表格中多次与第一条目成对出现的词作为第一条目的属性。例如,第一条目为某件产品,通常以表格的形式列出产品的产地、厂家、尺寸、型号(或品种)等。例如,具体的厂家可能多种多样,而“厂家”是与第一条目多次成对出现的,则“厂家”便为第一条目的属性。
挖掘层是针对一个一个类别进行分析的,因此针对每个类别生成一个结果文件。该结果文件可包括类别、类别对应的条目和条目在该类别下的权重。显然知识库通常不能只有一个类别,则通过整合层将多个结果文件整合为一个结果文件。
整合层还可以对条目对应的类别进行过滤。挖掘层是依据标志词与未知字符串的成对出现,将未知字符串作为条目加入到标志词对应的类别中的。仅根据标志词与未知字符串的成对出现次数,可能无法过滤掉错误的出现。例如,有些生僻的词可能出现的次数比较少,但其是正确的,有些常用的词出现的次数较多,但在某些句子里是错误的,可能是笔误。所以类似这样的问题挖掘层是无法发现的,需要由整合层来过滤。整合层将一个条目在对应的多个类别中的权重进行比较。如果比较结果符合预设的条件,则将条目添加到这些类别下是正确的,否则是错误的,需要取消条目与错误类别的对应关系。具体的比较过程有多种实现方式,如从条目对应的权重中取除0以外的最小权重和最大权重,当最小权重与最大权重的比值低于预设的第一比例阈值时,将最小权重归0,即删除条目与最小权重对应的类别之间的对应关系。或者,从条目对应的权重中取除0以外的最小权重,当最小权重与该条目的总权重(该条目的所有权重之和)的比值低于预设的第二比例阈值时,将最小权重归0,即删除条目与最小权重对应的类别之间的对应关系。
知识库可以应用在很多领域,如利用知识库来分析用户的意图,为搜索引擎提供服务,以得到较佳的搜索结果;或者利用知识库为用户发布信息给出提示。则知识库还包括应用层,搜索是应用层中的一种应用。下面首先介绍搜索信息的方法。
参见图3,本实施例中分析网页意图时搜索信息的方法流程如下:
步骤301:根据用户输入的搜索词,获得与搜索词匹配的标签。
步骤302:根据匹配的标签获得与该标签对应的网页。
步骤303:将获得的网页或网页的链接地址发送给用户,其中,标签是依据网页的关键词和知识库中与关键词有关系的条目获得的新的搜索词。
获得标签的过程包括:从网页中提取出关键词,将关键词与知识库中的条目进行匹配,获得与匹配成功的条目有关系的条目,根据关键词和有关系的条目获得标签。该标签更准确的反映了网页的意图,通过标签,用户可搜索到较满意的网页。例如,网页内容为“出售N78手机”,如果用户输入的搜索词为“诺基亚”,则按照现有技术无法搜索到该网页,因为网页中不包括“诺基亚”,也不包括“诺基亚”的近义词。但,根据知识库“N78”是“诺基亚”品牌的一个型号,也许用户需要的就是诺基亚N78手机,按照本实施例描述的方法便可搜索到该网页,搜索结果更准确。
参见图4,本实施例中分析用户意图时搜索信息的方法流程如下:
步骤401:利用知识库中的条目对用户输入的搜索词进行分词处理。本实施例中用户输入的句子、词或多个词构成的词组均属于用户输入的搜索词。例如,用户输入的搜索词为“在哪儿能买到BB1”,分词处理后得到:在、哪儿、能、买到、BB1。
步骤402:将分词后得到的词与知识库中的条目进行匹配,并确定匹配成功的条目。例如,“买到”为买卖意图类别下的条目,“BB1”为型号类别下的条目。
步骤403:通过知识库获得与匹配成功的条目有关系的条目。例如,与“BB1”有关系的条目有“AA”和“手机”,“AA”属于品牌类别,“手机”属于产品类别。
步骤404:根据有关系的条目更新用户输入的搜索词。例如,更新后的关键词为“购买AA品牌的手机,型号是BB1”,即分析得到了用户的意图。
步骤405:将网页的关键词与更新后的搜索词进行匹配。特别地,将图3中所述的标签中的词与更新后的搜索词进行匹配,并确定匹配成功的标签对应的网页。
步骤406:将匹配成功的网页或网页的链接地址发送给用户,实现了信息搜索。可以按照匹配程度由高到低的顺序将网页或网页的链接地址发送给用户。例如,相匹配的类别最多,以及相匹配的条目最多,则认为是匹配程度最高。
一个条目可能对应多个类别,如苹果,可以是水果类别下的条目,也可以是服装品牌下的条目,还可以是电子产品品牌下的条目,因此在更新搜索词和更新网页过程中,依据不同的类别可能得到多个更新的搜索词。需要从多个更新的搜索词确定一个可能最接近用户意图的搜索词,则有多种具体实现方式。如确定一个条目以最高权重对应的类别;在知识库中根据最高权重对应的类别获得与匹配成功的条目有关系的条目,根据有关系的条目更新用户输入的搜索词。或者,将分词后得到的词与该多个类别对应的标志词进行匹配;通过知识库根据匹配成功的标志词对应的类别获得与匹配成功的条目有关系的条目,根据有关系的条目更新用户输入的搜索词。
知识库还可以用于在用户发布信息时给用户输出提示。例如,用户需要发布出售手机的信息,在产品栏输入“手机”后,将“手机”与知识库中的条目进行匹配,在匹配成功的情况下,向用户输出与“手机”有关系的条目和条目“手机”的属性,用户可通过点击提示的信息来实现在其它栏目中的输入,简化了操作流程,提高了用户体验。
通过以上描述了解了构建知识库和利用知识库进行信息搜索的实现过程,上述实现过程可以由装置实现,下面对装置进行介绍。
参见图5,在本实施例中,用于构建知识库的计算机设备中的各个层可由功能模块来实现,因此计算机设备包括处理模块501和挖掘模块502。
基础数据处理模块501,即基础数据处理层,用于获得网页中的句子。
挖掘模块502,即挖掘层,用于对句子进行分词,并将知识库中第一类别对应的标志词与分词后得到的词进行匹配,在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中,以及当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。挖掘模块502还可以为条目设置属性,以及根据每个类别生成一个结果文件。
计算机设备还包括整合模块503(即整合层)和应用模块504(即应用层)。
计算机设备还包括整合模块503(即整合层)和应用模块504(即应用层)。
整合模块503用于将挖掘模块502生成的多个结果文件整合为一个结果文件,并对条目对应的类别进行过滤。
应用模块504用于提供各种应用。搜索引擎相当于应用模块504中的一个应用单元。
参见图6,本实施例中搜索引擎600包括第一查询模块601、第二查询模块602、接口模块603和标签生成模块604。
第一查询模块601用于根据用户输入的搜索词,获得与搜索词匹配的标签;
第二查询模块602用于根据匹配的标签获得与该标签对应的网页;
接口模块603用于将获得的网页或网页的链接地址发送给用户;
标签生成模块604用于依据网页的关键词和知识库中与关键词有关系的条目,生成与该网页对应的标签。
参见图7,本实施例中搜索引擎700包括分词模块701、匹配模块702、查询模块703、更新模块704和搜索模块705。
分词模块701用于对用户输入的搜索词进行分词处理。分词模块701可依据知识库中的条目对用户输入的搜索词进行分词处理。
匹配模块702用于将分词后得到的词与知识库中的条目进行匹配,并确定匹配成功的条目。
查询模块703用于通过知识库获得与匹配成功的条目有关系的条目。
更新模块704用于根据有关系的条目更新用户输入的搜索词。
搜索模块705用于根据更新后的搜索词进行搜索。搜索模块705将网页中的句子与更新后的关键词进行匹配,将匹配成功的网页或网页的链接地址发送给用户,可以按照匹配程度由高到低的顺序将网页或网页的链接地址发送给用户。
搜索引擎600与搜索引擎700可以是一个搜索引擎,即该搜索引擎包括了图6和图7所示的全部功能。第一查询模块601和第二查询模块602相当于搜索模块705,即根据更新后的搜索词获得与搜索词匹配的标签,再根据匹配成功的标签获得相应的网页,从而实现了搜索网页的过程。搜索引擎700也可包括接口模块603,用于获得用户输入的搜索词,以及将搜索到的网页或网页的链接地址发送给用户。
为了描述的方便,以上所述装置的各部分以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件或硬件中实现。
本申请实施例中计算机设备和搜索引擎及它们内部的各模块可以由软件和/或硬件实现。用于实现本申请实施例的软件可以存储于软盘、硬盘、光盘和闪存等存储介质。以及,本申请实施例的方法、知识库和搜索引擎可以在网络系统中的计算机上实施。
本申请实施例将句子中的词与知识库中的标志词进行匹配,根据匹配成功的标志词确定未知词在知识库中对应的类别,并作为该类别下的条目,以及根据类别之间的关系,为在句子中成对出现的条目建立关系,从而实现了知识库的更新。本申请实施例还依据未知词与匹配成功的标志词成对出现的频率为未知词设置在对应类别下的权重,以及通过网页表格中与未知词成对出现的词,为未知词设置属性,以便知识库在各领域中提供更多的信息。同时,本申请实施例利用知识库对用户输入的搜索词进行更新,以得到更贴近用户意图的搜索词,并根据更新后的搜索词进行搜索,使得搜索结果更准确。以及,本申请实施例通过知识库为网页设置反映网页主题的标签,得到网页内容的更准确的表达意图,将标签与更新后的搜索词进行匹配,可以获得更为准确的搜索结果。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若对本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (18)
1.一种由计算机设备构建知识库的方法,其特征在于,包括以下步骤:
计算机设备中的基础数据处理层获得网页中的句子;
计算机设备中的挖掘层对句子进行分词;
挖掘层将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配;
挖掘层在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中;
挖掘层在句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
2.如权利要求1所述的方法,其特征在于,基础数据处理层获得的网页中的句子为长句时,根据句子中的标点符号将长句划分为多个短句;
挖掘层对句子进行分词的步骤包括:对单句或短句进行分词。
3.如权利要求1所述的方法,其特征在于,还包括步骤:
基础数据处理层统计句子出现的次数;
挖掘层根据第一条目和相邻的标志词所在的句子出现的次数,为第一条目设置在第一类别下的权重。
4.如权利要求1所述的方法,其特征在于,挖掘层采用包括标志词的分词系统对句子进行分词。
5.如权利要求1所述的方法,其特征在于,知识库包括普通词体系和实体词体系,普通词体系和实体词体系分别包括不同的类别;标志词包括实体词体系中类别对应的索引词和普通词体系中类别对应的种子词;
当未知字符串作为第一条目添加到第一类别中时,同时未知字符串作为第一条目添加到了第一类别所属的体系。
6.如权利要求5所述的方法,其特征在于,当第一类别为普通词体系中的类别时,所述方法还包括步骤:将第一条目作为第一类别对应的种子词。
7.如权利要求1所述的方法,其特征在于,挖掘层为第一条目与第二条目建立关系之前,获得第一条目与第二条目所在的句子出现的次数,并当该次数超过预设的关系阈值时,为第一条目与第二条目建立关系。
8.如权利要求1至7中任一项所述的方法,其特征在于,还包括步骤:
挖掘层根据每个类别及类别下的条目生成一个结果文件;
整合层将多个结果文件整合为一个结果文件。
9.如权利要求8所述的方法,其特征在于,还包括步骤:
基础数据处理层统计句子出现的次数;
挖掘层根据第一条目和标志词所在的句子出现的次数,为第一条目设置在第一类别下的权重;
整合层通过将条目在多个类别下的权重进行比较,来对条目对应的类别进行过滤。
10.如权利要求1所述的方法,其特征在于,还包括步骤:
基础数据处理层从网页中获得表格;
挖掘层将表格中多次与第一条目成对出现的词作为第一条目的属性。
11.如权利要求1所述的方法,其特征在于,基础数据处理层获得网页中的句子的步骤包括:基础数据处理层获得网页中含有特征符号的句子。
12.一种搜索信息的方法,其特征在于,包括以下步骤:
根据用户输入的搜索词,获得与搜索词匹配的标签;
根据匹配的标签获得与该标签对应的网页;
将获得的网页或网页的链接地址发送给用户;
其中,标签是依据网页的关键词和知识库中与关键词有关系的条目获得的。
13.如权利要求12所述的方法,其特征在于,知识库是通过以下步骤构建的:
基础数据处理层获得网页中的句子;
挖掘层对句子进行分词;
挖掘层将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配;
挖掘层在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中;
挖掘层当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
14.一种搜索信息的方法,其特征在于,包括以下步骤:
利用知识库中的条目对用户输入的搜索词进行分词处理;
将分词后得到的词与知识库中的条目进行匹配,并确定匹配成功的条目;
通过知识库获得与匹配成功的条目有关系的条目;
根据有关系的条目更新用户输入的搜索词;
根据更新后的搜索词进行搜索。
15.如权利要求14所述的方法,其特征在于,知识库是通过以下步骤构建的:
基础数据处理层获得网页中的句子;
挖掘层对句子进行分词;
挖掘层将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配;
挖掘层在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中;
挖掘层当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
16.一种用于构建知识库的计算机设备,其特征在于,包括:
基础数据处理模块,用于获得网页中的句子;
挖掘模块,用于对句子进行分词,并将知识库中第一类别对应的预设的标志词与分词后得到的词进行匹配,在至少有一个分词后得到的词匹配成功的情况下,将句子中与匹配成功的词相邻的未知字符串作为第一条目添加到第一类别中,以及当句子中的词与知识库中第二类别下的第二条目匹配时,判断第一类别与第二类别之间是否已建立关系,在建立有关系的情况下,为第一条目与第二条目建立关系。
17.一种搜索引擎,其特征在于,包括:
第一查询模块,用于根据用户输入的搜索词,获得与搜索词匹配的标签;
第二查询模块,用于根据匹配的标签获得与该标签对应的网页;
接口模块,用于将获得的网页或网页的链接地址发送给用户;
标签生成模块,用于依据网页的关键词和知识库中与关键词有关系的条目,生成与该网页对应的标签。
18.一种搜索引擎,其特征在于,包括:
分词模块,用于利用知识库中的条目对用户输入的搜索词进行分词处理;
匹配模块,用于将分词后得到的词与知识库中的条目进行匹配,并确定匹配成功的条目;
查询模块,用于通过知识库获得与匹配成功的条目有关系的条目;
更新模块,用于根据有关系的条目更新用户输入的搜索词;
搜索模块,用于根据更新后的搜索词进行搜索。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910136206.6A CN101876981B (zh) | 2009-04-29 | 2009-04-29 | 一种构建知识库的方法及装置 |
JP2012508592A JP5540079B2 (ja) | 2009-04-29 | 2010-04-27 | 知識ベース構築の方法および装置 |
EP10770204.5A EP2425355A4 (en) | 2009-04-29 | 2010-04-27 | METHOD AND APPARATUS FOR BUILDING THE BASIS OF KNOWLEDGE |
PCT/US2010/032581 WO2010126892A1 (en) | 2009-04-29 | 2010-04-27 | Method and apparatus of knowledge base building |
US12/863,683 US20110060734A1 (en) | 2009-04-29 | 2010-04-27 | Method and Apparatus of Knowledge Base Building |
HK11102176.9A HK1148090A1 (zh) | 2009-04-29 | 2011-03-03 | 種構建知識庫的方法及裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910136206.6A CN101876981B (zh) | 2009-04-29 | 2009-04-29 | 一种构建知识库的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101876981A true CN101876981A (zh) | 2010-11-03 |
CN101876981B CN101876981B (zh) | 2015-09-23 |
Family
ID=43019539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910136206.6A Active CN101876981B (zh) | 2009-04-29 | 2009-04-29 | 一种构建知识库的方法及装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20110060734A1 (zh) |
EP (1) | EP2425355A4 (zh) |
JP (1) | JP5540079B2 (zh) |
CN (1) | CN101876981B (zh) |
HK (1) | HK1148090A1 (zh) |
WO (1) | WO2010126892A1 (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103353894A (zh) * | 2013-07-19 | 2013-10-16 | 武汉睿数信息技术有限公司 | 一种基于语义分析的数据搜索方法和系统 |
CN103440343A (zh) * | 2013-09-11 | 2013-12-11 | 武汉大学 | 一种面向领域服务目标的知识库构建方法 |
CN103646025A (zh) * | 2013-10-24 | 2014-03-19 | 三星电子(中国)研发中心 | 一种基于推理的层级知识库构建系统和方法 |
CN103793440A (zh) * | 2012-11-02 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 信息显示方法和装置 |
CN104008186A (zh) * | 2014-06-11 | 2014-08-27 | 北京京东尚科信息技术有限公司 | 从目标文本中确定关键词的方法和装置 |
CN104077295A (zh) * | 2013-03-27 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 一种数据标签的挖掘方法及系统 |
CN104102739A (zh) * | 2014-07-28 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种扩充实体库的方法及装置 |
CN104679783A (zh) * | 2013-11-29 | 2015-06-03 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
CN104991920A (zh) * | 2015-06-25 | 2015-10-21 | 走遍世界(北京)信息技术有限公司 | 标签的生成方法及装置 |
CN105468780A (zh) * | 2015-12-18 | 2016-04-06 | 北京理工大学 | 一种微博文本中产品名实体的规范化方法及装置 |
CN106202105A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种电子商务网站导航方法及装置 |
CN106649813A (zh) * | 2016-12-29 | 2017-05-10 | 中南大学 | 一种基于环境感知与用户反馈的垂直领域知识库构建方法 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN108121722A (zh) * | 2016-11-28 | 2018-06-05 | 渡鸦科技(北京)有限责任公司 | 知识库的构建方法及装置 |
CN109844737A (zh) * | 2016-08-24 | 2019-06-04 | 罗伯特·博世有限公司 | 用于非监督式信息提取的方法和设备 |
US10394956B2 (en) | 2015-12-31 | 2019-08-27 | Shanghai Xiaoi Robot Technology Co., Ltd. | Methods, devices, and systems for constructing intelligent knowledge base |
WO2020010931A1 (zh) * | 2018-07-09 | 2020-01-16 | 深圳追一科技有限公司 | 生成相似问句的方法、装置、计算机设备和存储介质 |
CN110727786A (zh) * | 2019-09-12 | 2020-01-24 | 武汉儒松科技有限公司 | 自学习的知识库管理方法、装置、终端设备及存储介质 |
CN111159350A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞股份有限公司 | 用户说法挖掘扩增方法、装置、终端及存储介质 |
CN112783889A (zh) * | 2019-11-07 | 2021-05-11 | 中国石油化工股份有限公司 | 用于建立变更风险控制措施库的方法和装置 |
CN113158688A (zh) * | 2021-05-11 | 2021-07-23 | 科大讯飞股份有限公司 | 一种领域知识库构建方法、装置、设备及存储介质 |
WO2023273082A1 (en) * | 2021-07-02 | 2023-01-05 | Zhejiang Dahua Technology Co., Ltd. | Method for constructing feature base library, feature retrieval method, and related device |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102780724B (zh) * | 2011-05-12 | 2016-02-10 | 阿里巴巴集团控股有限公司 | 一种类目信息的发送方法、系统及设备 |
US9633109B2 (en) | 2011-05-17 | 2017-04-25 | Etsy, Inc. | Systems and methods for guided construction of a search query in an electronic commerce environment |
CN102722515B (zh) * | 2011-12-30 | 2017-12-29 | 新奥特(北京)视频技术有限公司 | 一种比赛现场信息数据挖掘的方法 |
US9754046B2 (en) | 2012-11-09 | 2017-09-05 | Microsoft Technology Licensing, Llc | Taxonomy driven commerce site |
US9146994B2 (en) | 2013-03-15 | 2015-09-29 | International Business Machines Corporation | Pivot facets for text mining and search |
CN103593690B (zh) * | 2013-11-25 | 2017-08-08 | 北京光年无限科技有限公司 | 用户智能标签系统 |
US20160078038A1 (en) * | 2014-09-11 | 2016-03-17 | Sameep Navin Solanki | Extraction of snippet descriptions using classification taxonomies |
WO2016089110A1 (ko) * | 2014-12-02 | 2016-06-09 | 주식회사 솔트룩스 | 엔트리 기반 지식자원 생성 장치 및 방법 |
CN106294186A (zh) * | 2016-08-30 | 2017-01-04 | 深圳市悲画软件自动化技术有限公司 | 智能软件自动化测试方法 |
CN111061884B (zh) * | 2019-11-14 | 2023-11-21 | 临沂市拓普网络股份有限公司 | 一种基于DeepDive技术构建K12教育知识图谱的方法 |
CN112860866B (zh) * | 2021-02-09 | 2023-09-19 | 北京百度网讯科技有限公司 | 语义检索方法、装置、设备以及存储介质 |
CN117891851B (zh) * | 2024-03-18 | 2024-06-11 | 青岛创新奇智科技集团股份有限公司 | 一种基于人工智能的知识库分析方法及系统 |
Family Cites Families (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
JP3350556B2 (ja) * | 1992-04-20 | 2002-11-25 | 株式会社リコー | 検索システム |
US5717913A (en) * | 1995-01-03 | 1998-02-10 | University Of Central Florida | Method for detecting and extracting text data using database schemas |
AU6849196A (en) * | 1995-08-16 | 1997-03-19 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US6038560A (en) * | 1997-05-21 | 2000-03-14 | Oracle Corporation | Concept knowledge base search and retrieval system |
US5940821A (en) * | 1997-05-21 | 1999-08-17 | Oracle Corporation | Information presentation in a knowledge base search and retrieval system |
US6269368B1 (en) * | 1997-10-17 | 2001-07-31 | Textwise Llc | Information retrieval using dynamic evidence combination |
US5953718A (en) * | 1997-11-12 | 1999-09-14 | Oracle Corporation | Research mode for a knowledge base search and retrieval system |
US20010037328A1 (en) * | 2000-03-23 | 2001-11-01 | Pustejovsky James D. | Method and system for interfacing to a knowledge acquisition system |
US20020123994A1 (en) * | 2000-04-26 | 2002-09-05 | Yves Schabes | System for fulfilling an information need using extended matching techniques |
US7007008B2 (en) * | 2000-08-08 | 2006-02-28 | America Online, Inc. | Category searching |
US20020065671A1 (en) * | 2000-09-12 | 2002-05-30 | Goerz David J. | Method and system for project customized business to business development with indexed knowledge base |
US7185001B1 (en) * | 2000-10-04 | 2007-02-27 | Torch Concepts | Systems and methods for document searching and organizing |
JP2004534978A (ja) * | 2000-11-16 | 2004-11-18 | マイ ディーティービー | ビデオ・プログラミング・イベントの望ましさを決定するシステムおよび方法 |
US20030115188A1 (en) * | 2001-12-19 | 2003-06-19 | Narayan Srinivasa | Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application |
US6965900B2 (en) * | 2001-12-19 | 2005-11-15 | X-Labs Holdings, Llc | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents |
US6834274B2 (en) * | 2002-01-07 | 2004-12-21 | Dennis W. Tafoya | Building a learning organization using knowledge management |
CN1389811A (zh) * | 2002-02-06 | 2003-01-08 | 北京造极人工智能技术有限公司 | 搜索引擎的智能化搜索方法 |
US8015143B2 (en) * | 2002-05-22 | 2011-09-06 | Estes Timothy W | Knowledge discovery agent system and method |
WO2003100659A1 (fr) * | 2002-05-28 | 2003-12-04 | Vladimir Vladimirovich Nasypny | Procede de synthese d'un systeme a auto-apprentissage d'extraction de connaissances a partir de documents textuels pour moteurs de recherche |
US7131117B2 (en) * | 2002-09-04 | 2006-10-31 | Sbc Properties, L.P. | Method and system for automating the analysis of word frequencies |
WO2004027706A1 (en) * | 2002-09-20 | 2004-04-01 | Board Of Regents, University Of Texas System | Computer program products, systems and methods for information discovery and relational analyses |
US7412453B2 (en) * | 2002-12-30 | 2008-08-12 | International Business Machines Corporation | Document analysis and retrieval |
GB0303018D0 (en) * | 2003-02-10 | 2003-03-12 | British Telecomm | Information retreival |
US7146361B2 (en) * | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
US7409336B2 (en) * | 2003-06-19 | 2008-08-05 | Siebel Systems, Inc. | Method and system for searching data based on identified subset of categories and relevance-scored text representation-category combinations |
TWI290687B (en) * | 2003-09-19 | 2007-12-01 | Hon Hai Prec Ind Co Ltd | System and method for search information based on classifications of synonymous words |
KR100533810B1 (ko) * | 2003-10-16 | 2005-12-07 | 한국전자통신연구원 | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 |
US7558792B2 (en) * | 2004-06-29 | 2009-07-07 | Palo Alto Research Center Incorporated | Automatic extraction of human-readable lists from structured documents |
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
JP2006178671A (ja) * | 2004-12-21 | 2006-07-06 | Nippon Telegr & Teleph Corp <Ntt> | 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体 |
US20060161520A1 (en) * | 2005-01-14 | 2006-07-20 | Microsoft Corporation | System and method for generating alternative search terms |
US7562304B2 (en) * | 2005-05-03 | 2009-07-14 | Mcafee, Inc. | Indicating website reputations during website manipulation of user information |
US8438499B2 (en) * | 2005-05-03 | 2013-05-07 | Mcafee, Inc. | Indicating website reputations during user interactions |
WO2006124952A2 (en) * | 2005-05-16 | 2006-11-23 | Nervana, Inc. | The information nervous system |
US7548929B2 (en) * | 2005-07-29 | 2009-06-16 | Yahoo! Inc. | System and method for determining semantically related terms |
WO2007047464A2 (en) * | 2005-10-14 | 2007-04-26 | Uptodate Inc. | Method and apparatus for identifying documents relevant to a search query |
JP4172801B2 (ja) * | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストからキーワードを検索する効率的なシステム、および、その方法 |
US7644052B1 (en) * | 2006-03-03 | 2010-01-05 | Adobe Systems Incorporated | System and method of building and using hierarchical knowledge structures |
CN101046809A (zh) * | 2006-03-28 | 2007-10-03 | 吴风勇 | 基于关联规则模式的新词识别方法 |
CN1983255A (zh) * | 2006-05-17 | 2007-06-20 | 唐红春 | 一种互联网搜索方法 |
US7752243B2 (en) * | 2006-06-06 | 2010-07-06 | University Of Regina | Method and apparatus for construction and use of concept knowledge base |
US7792967B2 (en) * | 2006-07-14 | 2010-09-07 | Chacha Search, Inc. | Method and system for sharing and accessing resources |
US20080040653A1 (en) * | 2006-08-14 | 2008-02-14 | Christopher Levine | System and methods for managing presentation and behavioral use of web display content |
CN100530187C (zh) * | 2007-01-12 | 2009-08-19 | 宋晓伟 | 搜索请求转换为查询语句的方法 |
CN100498790C (zh) * | 2007-02-06 | 2009-06-10 | 腾讯科技(深圳)有限公司 | 一种搜索方法和系统 |
JP4793931B2 (ja) * | 2007-03-08 | 2011-10-12 | 日本電信電話株式会社 | 相互に関係する固有表現の組抽出装置及びその方法 |
US8122360B2 (en) * | 2007-06-27 | 2012-02-21 | Kosmix Corporation | Automatic selection of user-oriented web content |
WO2009005648A1 (en) * | 2007-07-02 | 2009-01-08 | Qin Zhang | A system and method for information processing and motor control |
CN101339551B (zh) * | 2007-07-05 | 2013-01-30 | 日电(中国)有限公司 | 自然语言查询需求扩展设备及其方法 |
US8452725B2 (en) * | 2008-09-03 | 2013-05-28 | Hamid Hatami-Hanza | System and method of ontological subject mapping for knowledge processing applications |
US8838659B2 (en) * | 2007-10-04 | 2014-09-16 | Amazon Technologies, Inc. | Enhanced knowledge repository |
-
2009
- 2009-04-29 CN CN200910136206.6A patent/CN101876981B/zh active Active
-
2010
- 2010-04-27 US US12/863,683 patent/US20110060734A1/en not_active Abandoned
- 2010-04-27 JP JP2012508592A patent/JP5540079B2/ja active Active
- 2010-04-27 WO PCT/US2010/032581 patent/WO2010126892A1/en active Application Filing
- 2010-04-27 EP EP10770204.5A patent/EP2425355A4/en not_active Withdrawn
-
2011
- 2011-03-03 HK HK11102176.9A patent/HK1148090A1/zh unknown
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793440A (zh) * | 2012-11-02 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 信息显示方法和装置 |
CN104077295A (zh) * | 2013-03-27 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 一种数据标签的挖掘方法及系统 |
CN103353894A (zh) * | 2013-07-19 | 2013-10-16 | 武汉睿数信息技术有限公司 | 一种基于语义分析的数据搜索方法和系统 |
CN103440343A (zh) * | 2013-09-11 | 2013-12-11 | 武汉大学 | 一种面向领域服务目标的知识库构建方法 |
CN103440343B (zh) * | 2013-09-11 | 2014-11-05 | 武汉大学 | 一种面向领域服务目标的知识库构建方法 |
CN103646025B (zh) * | 2013-10-24 | 2016-08-17 | 三星电子(中国)研发中心 | 一种基于推理的层级知识库构建系统和方法 |
CN103646025A (zh) * | 2013-10-24 | 2014-03-19 | 三星电子(中国)研发中心 | 一种基于推理的层级知识库构建系统和方法 |
CN104679783B (zh) * | 2013-11-29 | 2019-08-02 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
CN104679783A (zh) * | 2013-11-29 | 2015-06-03 | 北京搜狗信息服务有限公司 | 一种网络搜索方法和装置 |
CN104008186A (zh) * | 2014-06-11 | 2014-08-27 | 北京京东尚科信息技术有限公司 | 从目标文本中确定关键词的方法和装置 |
CN104008186B (zh) * | 2014-06-11 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 从目标文本中确定关键词的方法和装置 |
CN104102739B (zh) * | 2014-07-28 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 一种扩充实体库的方法及装置 |
CN104102739A (zh) * | 2014-07-28 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种扩充实体库的方法及装置 |
CN106202105A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种电子商务网站导航方法及装置 |
CN104991920A (zh) * | 2015-06-25 | 2015-10-21 | 走遍世界(北京)信息技术有限公司 | 标签的生成方法及装置 |
CN105468780A (zh) * | 2015-12-18 | 2016-04-06 | 北京理工大学 | 一种微博文本中产品名实体的规范化方法及装置 |
CN105468780B (zh) * | 2015-12-18 | 2019-01-29 | 北京理工大学 | 一种微博文本中产品名实体的规范化方法及装置 |
US11301637B2 (en) | 2015-12-31 | 2022-04-12 | Shanghai Xiaoi Robot Technology Co., Ltd. | Methods, devices, and systems for constructing intelligent knowledge base |
US11017178B2 (en) | 2015-12-31 | 2021-05-25 | Shanghai Xiaoi Robot Technology Co., Ltd. | Methods, devices, and systems for constructing intelligent knowledge base |
US10394956B2 (en) | 2015-12-31 | 2019-08-27 | Shanghai Xiaoi Robot Technology Co., Ltd. | Methods, devices, and systems for constructing intelligent knowledge base |
US11227118B2 (en) | 2015-12-31 | 2022-01-18 | Shanghai Xiaoi Robot Technology Co., Ltd. | Methods, devices, and systems for constructing intelligent knowledge base |
CN109844737B (zh) * | 2016-08-24 | 2024-01-12 | 罗伯特·博世有限公司 | 用于非监督式信息提取的方法和设备 |
CN109844737A (zh) * | 2016-08-24 | 2019-06-04 | 罗伯特·博世有限公司 | 用于非监督式信息提取的方法和设备 |
CN108121722A (zh) * | 2016-11-28 | 2018-06-05 | 渡鸦科技(北京)有限责任公司 | 知识库的构建方法及装置 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN106649813B (zh) * | 2016-12-29 | 2020-02-21 | 中南大学 | 一种基于环境感知与用户反馈的垂直领域知识库构建方法 |
CN106649813A (zh) * | 2016-12-29 | 2017-05-10 | 中南大学 | 一种基于环境感知与用户反馈的垂直领域知识库构建方法 |
WO2020010931A1 (zh) * | 2018-07-09 | 2020-01-16 | 深圳追一科技有限公司 | 生成相似问句的方法、装置、计算机设备和存储介质 |
CN110727786A (zh) * | 2019-09-12 | 2020-01-24 | 武汉儒松科技有限公司 | 自学习的知识库管理方法、装置、终端设备及存储介质 |
CN112783889A (zh) * | 2019-11-07 | 2021-05-11 | 中国石油化工股份有限公司 | 用于建立变更风险控制措施库的方法和装置 |
CN111159350A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞股份有限公司 | 用户说法挖掘扩增方法、装置、终端及存储介质 |
CN111159350B (zh) * | 2019-12-30 | 2022-12-06 | 科大讯飞股份有限公司 | 用户说法挖掘扩增方法、装置、终端及存储介质 |
CN113158688A (zh) * | 2021-05-11 | 2021-07-23 | 科大讯飞股份有限公司 | 一种领域知识库构建方法、装置、设备及存储介质 |
CN113158688B (zh) * | 2021-05-11 | 2023-12-01 | 科大讯飞股份有限公司 | 一种领域知识库构建方法、装置、设备及存储介质 |
WO2023273082A1 (en) * | 2021-07-02 | 2023-01-05 | Zhejiang Dahua Technology Co., Ltd. | Method for constructing feature base library, feature retrieval method, and related device |
Also Published As
Publication number | Publication date |
---|---|
HK1148090A1 (zh) | 2011-08-26 |
CN101876981B (zh) | 2015-09-23 |
JP5540079B2 (ja) | 2014-07-02 |
JP2012525645A (ja) | 2012-10-22 |
WO2010126892A1 (en) | 2010-11-04 |
US20110060734A1 (en) | 2011-03-10 |
EP2425355A4 (en) | 2016-06-01 |
EP2425355A1 (en) | 2012-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101876981A (zh) | 一种构建知识库的方法及装置 | |
US9563665B2 (en) | Product search method and system | |
CN103106220B (zh) | 一种搜索方法、搜索装置及一种搜索引擎系统 | |
US8312022B2 (en) | Search engine optimization | |
WO2021098648A1 (zh) | 文本推荐方法、装置、设备及介质 | |
US10140366B2 (en) | Finding data in connected corpuses using examples | |
CN102968465B (zh) | 网络信息服务平台及其基于该平台的搜索服务方法 | |
US20070078889A1 (en) | Method and system for automated knowledge extraction and organization | |
CN110795627B (zh) | 信息推荐方法及装置、电子设备 | |
CN103092943B (zh) | 一种广告调度的方法和广告调度服务器 | |
CN108509405A (zh) | 一种演示文稿的生成方法、装置以及设备 | |
CN101727447A (zh) | 基于url的正则表达式的生成方法和装置 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN103076892A (zh) | 一种用于提供输入字符串所对应的输入候选项的方法与设备 | |
CN102043843A (zh) | 一种用于基于目标应用获取目标词条的方法与获取设备 | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CN102722498A (zh) | 搜索引擎及其实现方法 | |
CN103927177B (zh) | 基于LDA模型和PageRank算法建立特征接口有向图的方法 | |
CN105653701A (zh) | 模型生成方法及装置、词语赋权方法及装置 | |
CN105916032A (zh) | 视频推荐的方法及视频推荐的终端设备 | |
CN111475725A (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
CN105389328B (zh) | 一种大规模开源软件搜索排序优化方法 | |
CN114330329A (zh) | 一种业务内容搜索方法、装置、电子设备及存储介质 | |
CN109902152A (zh) | 用于检索信息的方法和装置 | |
KR20150120591A (ko) | 연관 앱 추천 시스템 및 추천 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1148090 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1148090 Country of ref document: HK |