CN104866498A - 一种信息处理方法及装置 - Google Patents
一种信息处理方法及装置 Download PDFInfo
- Publication number
- CN104866498A CN104866498A CN201410063323.5A CN201410063323A CN104866498A CN 104866498 A CN104866498 A CN 104866498A CN 201410063323 A CN201410063323 A CN 201410063323A CN 104866498 A CN104866498 A CN 104866498A
- Authority
- CN
- China
- Prior art keywords
- entity
- title
- knowledge base
- attribute
- tlv triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 32
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000003750 conditioning effect Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 14
- 239000000203 mixture Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 208000011580 syndromic disease Diseases 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000003205 fragrance Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/235—Update request formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2358—Change logging, detection, and notification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
Abstract
本发明公开了一种信息处理方法及装置,涉及通信技术领域,为方便用户获取自己需要的信息而发明。所述方法包括:获取用户输入的搜索条件,所述搜索条件包括实体的名称;根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值;显示所述实体的名称、所述实体的属性以及所述属性的属性值。本发明可用于信息处理技术中。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息处理方法及装置。
背景技术
社交媒体(Social Media),也称为社会化媒体,是指允许人们撰写、分享、评价、讨论、相互沟通的网站,如:脸书(Facebook)、微博等。当今社会,社交媒体逐渐演变成为大众化的舆论平台,越来越多机构及公众人物都通过社交媒体来发布或传播信息。因此,社交媒体已经成为了用户获取信息的重要途径。
但是,社交媒体中的信息规模巨大,如何从社交媒体的海量信息中获取对用户有用的信息成为需要解决的一个问题。针对该问题,现有的一种解决方案是利用用户在社交媒体上输入的关键词(字)进行检索,向用户显示一组与输入的关键词(字)相关的信息列表,之后用户就可以从该信息列表中选择自己需要的信息。
但是由于社交媒体信息量巨大,利用现有技术输入关键词(字)后搜索到的信息列表中的信息往往较多,用户需要从信息列表的多条信息中选取自己需要的信息,因而使得用户获取自己需要的信息时不是非常方便。
发明内容
有鉴于此,本发明提供一种信息处理方法及装置,以方便用户获取自己需要的信息。
为达到上述目的,本发明实施例采用如下技术方案:
第一方面,本发明提供了一种信息处理方法,包括:
获取用户输入的搜索条件,所述搜索条件包括实体的名称;
根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值;
显示所述实体的名称、所述实体的属性以及所述属性的属性值。
结合第一方面,在第一方面的第一种可能实现方式中,所述根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组之前,所述方法还包括:
利用在社交媒体上发布的信息创建所述知识库。
结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述利用在社交媒体上发布的信息创建所述知识库具体包括:
获取在社交媒体上发布的信息中的实体的名称、属性以及属性值;
生成包含所述实体的名称、属性以及属性值的三元组;
利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库。
结合第一方面的第二种可能实现方式,在第一方面的第三种可能实现方式中,所述生成包含所述实体的名称、属性以及属性值的三元组具体包括:
利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中,根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。
结合第一方面的第二种可能实现方式或第一方面的第三种可能的实现方式,在第一方面的第四种可能实现方式中,所述利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库之前,所述方法还包括:
利用预先制定的模式规范对所述包含所述实体的名称、属性以及属性值的三元组进行校验。
结合第一方面的第一种至第四种任一种可能实现方式,在第一方面的第五种可能实现方式中,所述方法还包括:
实时更新所述知识库。
结合第一方面的第五种可能实现方式,在第一方面的第六种可能实现方式中,所述实时更新所述知识库具体包括:
实时获取在社交媒体上发布的信息;
判断所述信息中是否存在所述知识库中的已有的实体名称;
若所述信息中存在所述知识库中已有的实体名称,则利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库;
若所述信息中存在所述知识库中没有的实体名称,则将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。
结合第一方面以及第一方面的第一至第六种任一种可能实现方式,在第一方面的第七种可能实现方式中,所述搜索条件还包括所述实体的属性,
所述根据所述实体的名称,从预先创建的知识库中选取包含实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值包括:
根据所述实体的名称和所述实体的属性,从预先创建的知识库中选取包含所述实体的名称和所述实体的属性的目标三元组,所述目标三元组还包括所述属性的属性值。
第二方面,本发明提供了一种信息处理装置,包括:
获取单元,用于获取用户输入的搜索条件,所述搜索条件包括实体的名称;
选取单元,与所述获取单元连接,用于根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值;
显示单元,与所述选取单元连接,用于显示所述实体的名称、所述实体的属性以及所述属性的属性值。
在第二方面的第一种可能实现方式中,所述装置还包括:
知识库创建单元,与所述选取单元连接,用于利用在社交媒体上发布的信息创建所述知识库。
结合第二方面的第一种可能实现方式,在第二方面的第二种可能实现方式中,所述知识库创建单元包括:
获取子单元,用于获取在社交媒体上发布的信息中的实体的名称、属性以及属性值;
生成子单元,与所述获取子单元连接,用于生成包含所述获取子单元获取的所述实体的名称、属性以及属性值的三元组;
创建子单元,与所述生成子单元连接,用于利用所述生成子单元生成的包含所述实体的名称、属性以及属性值的三元组创建所述知识库。
结合第二方面的第二种可能实现方式,在第二方面的第三种可能实现方式中,所述生成子单元具体用于:
利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中,根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。
结合第二方面的第二种或第二方面的第三种可能的实现方式,在第二方面的第四种可能实现方式中,所述知识库创建单元还包括:
校验子单元,与所述生成子单元以及所述创建子单元连接,用于利用预先制定的模式规范对所述生成子单元生成的包含所述实体的名称、属性以及属性值的三元组进行校验。
结合第二方面的第一种至第四种任一种可能实现方式,在第二方面的第五种可能实现方式中,所述知识库创建单元还包括:
更新子单元,与所述创建子单元连接,用于实时更新所述创建子单元创建的所述知识库。
结合第二方面的第五种可能实现方式,在第二方面的第六种可能实现方式中,所述更新子单元包括:
获取模块,用于实时获取在社交媒体上发布的信息;
判断模块,与所述获取模块连接,用于判断所述获取模块获取的信息中是否存在所述知识库中的已有的实体名称;
更新模块,与所述判断模块连接,用于在所述判断模块确定所述信息中存在所述知识库中已有的实体名称时,利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库;在所述判断模块确定所述信息中存在所述知识库中没有的实体名称时,将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。
结合第二方面以及第二方面的第一至第六种任一可能实现方式,在第二方面的第七种可能实现方式中,所述获取单元获取的所述搜索条件还包括所述实体的属性,
所述选取单元具体用于:
根据所述实体的名称和所述实体的属性,从预先创建的知识库中选取包含所述实体的名称和所述实体的属性的目标三元组,所述目标三元组还包括所述属性的属性值。
本发明实施例提供的信息处理方法及装置,通过获取用户输入的搜索条件,根据该检索条件从预先创建的知识库中选取与所述搜索条件相关的目标三元组,之后显示所述目标三元组的信息。由于根据用户输入的检索条件,显示给用户的是目标三元组的信息,而现有技术中根据用户输入的检索条件向用户显示的是包含多条信息的列表,因此与现有技术相比,本发明实施例提供的信息处理方法及装置能够避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺陷,从而方便用户获取自己需要的信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一信息处理方法的流程图;
图2为本发明实施例二信息处理方法的流程图;
图3为用户在社交媒体的网站上发布的信息的示意图;
图4为本发明实施例一步骤21的具体步骤的流程图;
图5为本发明实施例二中信息处理过程的示意图;
图6为本发明实施例三信息处理装置的结构图;
图7为本发明实施例三信息处理装置的一个示意图;
图8为本发明实施例三信息处理装置的另一个示意图;
图9为本发明实施例四的信息处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了方便用户从在社交媒体上发布的信息中获取自己需要的信息,如图1所示,本发明实施例一提供了一种信息处理方法,包括:
步骤11、获取用户输入的搜索条件,所述搜索条件包括实体的名称。
其中,所述搜索条件可以为用户为了获取自己需要的信息而在社交媒体的用户查询界面上输入的查找关键字、关键词或者提问语句等,例如在XX网(某个社交媒体网站)上输入的提问语句“姚明的身高是多少?”、“刘德华祖籍是哪里?”等;又例如输入的关键词“姚明身高”或者“刘德华祖籍”等。
所述搜索条件中往往包含实体,而实体又有许多特征,如实体的名称、属性、属性值等。在此,对“实体”的概念做一简单介绍。实体为客观存在并可相互区别的事物,可以是具体的人、事、物,也可以是抽象的概念或联系等。其中,可以用实体的名称来标识一个实体。实体的性质或者该实体与其他实体之间的关系都可称为实体的属性。属性值为确切表达一个实体属性的质或量。在本实施例中,将所述搜索条件中的实体称为目标实体。所述搜索条件中包含目标实体的信息,如目标实体的名称、属性、属性值。例如,前面例子中的“姚明”、“刘德华”即为目标实体的名称,“身高”、“祖籍”即为目标实体的属性。若已知姚明的身高为2.26米,则“2.26米”即为属性“身高”的属性值。
其中,所述搜索条件可以只包含所述目标实体的名称、属性以及属性值中的一个;大多数情况下,所述搜索条件可只包含所述目标实体名称。例如,若用户想要获取实体“姚明”的信息,那么所述搜索条件可以只包含实体的名称“姚明”。
另外,由于用户经常通过输入提问语句来获取某个问题的答案,因此,在这种情况下,所述搜索条件通常包含所述目标实体的名称、属性以及属性值任意两者的组合,即只包含所述目标实体的名称和属性,或者只包含所述目标实体的名称和属性值,或者只包含所述目标实体的属性和属性值,而目标实体的名称、属性以及属性值三者中剩下的一者即为用户需要获取的信息。例如,若所述搜索条件为“姚明的身高是多少?”,那么该搜索条件中就只包含目标实体的名称“姚明”以及目标实体的属性“身高”,所述目标实体的属性值则为用户需要获取的信息。
步骤12、根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值。
其中,所述预先创建的知识库中存储的是包含实体的名称、属性以及属性值的多个三元组,其中所述“属性”可以为“属性名”或“关系名”。当所“属性”为“属性名”时,所述三元组的形式可以为(实体,属性名,属性值),例如(姚明,身高,2.26米)、(香山,人数,不多)等;当所述“属性”为“关系名”时,所述三元组的形式可以为(实体,关系名,属性值),例如(谢霆锋,父亲,谢贤)等。
其中,所述目标三元组包括与所述搜索条件中的目标实体的信息相关的实体名称、属性以及属性值。
以步骤11中的例子为例,用户输入的搜索条件为“姚明的身高是多少?”。首先对该搜索条件中的目标实体进行识别,识别的结果是:目标实体名称为“姚明”,目标实体的属性为“身高”;之后从知识库中选取与目标实体名称“姚明”以及目标实体的属性“身高”相关的三元组,即包含“姚明”、“身高”的三元组。若知识库中与“姚明”、“身高”相关的三元组为(姚明,身高,2.26米),则三元组(姚明,身高,2.26米)即为在此的目标三元组。其中,所述目标实体的识别可利用现有技术中的命名实体识别的方法实现。
步骤13、显示所述实体的名称、所述实体的属性以及所述属性的属性值。
其中,在实际应用中,此步骤具体为:显示所述目标三元组;或者根据所述搜索条件,显示与所述搜索条件对应的实体的名称;或者根据所述搜索条件,显示与所述搜索条件对应的实体的属性;或者根据所述搜索条件,显示与所述搜索条件对应的实体的属性值。
例如,若所述搜索条件为“姚明的身高是多少?”,若从预先创建的知识库中选取的与搜索条件“姚明的身高是多少?”相关的目标三元组为(姚明,身高,2.26米),则可以向用户显示目标三元组(姚明,身高,2.26米)。或者,根据搜索条件“姚明的身高是多少?”可以知道,用户需要的信息仅为目标三元组(姚明,身高,2.26米)中的属性值,即2.26米,此时也可只向用户显示2.26米。
又如,若用户输入“谁的父亲是谢贤?”。若从预先创建的知识库中选取的与搜索条件“谁的父亲是谢贤?”相关的目标三元组为(谢霆锋,父亲,谢贤),则可以向用户显示目标三元组(谢霆锋,父亲,谢贤)。或者,根据搜索条件“谁的父亲是谢贤?”可以知道,用户需要的信息仅为目标三元组(谢霆锋,父亲,谢贤)中的实体名,即“谢霆锋”,此时也可只向用户显示“谢霆锋”。
由上可以看出,利用本发明实施例一提供的信息处理方法,通过获取用户输入的搜索条件,根据该搜索条件从预先创建的知识库中选取与所述搜索条件相关的目标三元组,之后显示所述目标三元组的信息。由于根据用户输入的检索条件,显示给用户的是目标三元组的信息,而现有技术中根据用户输入的检索条件向用户显示的是包含多条信息的列表,因此与现有技术相比,本发明实施例提供的信息处理方法能够避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺陷,从而方便用户获取自己需要的信息。
下面将对本发明的信息处理方法在本发明实施例二中进行更详细地描述。如图2所述,本发明实施例二提供的信息处理方法包括:
步骤21、利用在社交媒体上发布的信息创建知识库。
其中,所述在社交媒体上发布的信息指用户在社交媒体的网站上发布的信息,例如如图3的截图中所示的信息。
在实际应用中,如图4所示,此步骤具体包括:
步骤211、抽取在社交媒体上发布的信息中的实体的名称、属性以及属性值。
其中,可通过爬虫或API(Application Programming Interface,应用编程接口)获取在社交媒体上发布的信息,再利预先离线训练的模式抽取器获得所述信息中的实体名称、属性以及属性值。需要指出,此步骤中所述实体的名称、属性以及属性值是在线获取的。
在实际应用中,利用所述模式抽取器获取所述实体的名称、属性以及属性值的具体实施方式如下:先将网络上已有的标注语料或已有的结构化知识库(如百度百科的infox)作为所述模式抽取器的训练材料,从这些训练材料中获取多个三元组,再将这些三元组回标到自然语言文本的语料库中当作训练数据。之后使用统计机器学习的算法(如CRF(Conditional Random Fields,条件随机场))从训练数据中为每个属性训练单独的属性模式分类器。最后,所述模式抽取器就可利用所述属性模式分类器从在社交媒体上发布的信息中抽取出实体的名称、属性以及属性值。
步骤212、生成包含所述实体的名称、属性以及属性值的三元组。
在实际应用中,可利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中,根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。
其中,可预先通过统计学习的方法,在语料库中找到各个实体的名称、属性以及属性值对应的自然语言文本,从而为每个实体生成对应的属性摸板。每个实体可有多个属性摸板。所述属性模板如(人名,身高,数字)、(景点名,人数,数字)等。其中,所述属性模板即为在此的预设模板。步骤211中获取了实体的名称、属性以及属性值后,模式抽取器可将在线获取的所述实体的名称、属性以及属性值加载到所述预设模板中,从而生成包含所述实体的名称、属性以及属性值的三元组。
下面举例对步骤211和步骤212进行说明。例如,社交媒体上发布的信息为“姚明,身高2.26米,1980年9月12日生于中国上海,祖籍为江苏苏州市吴江区,毕业于上海交通大学。”。
首先,利用离线训练的模式抽取器抽取实体的名称、属性和属性值。在本例中,实体的名称只有“姚明”,实体的属性有“身高”、“出生日期”、“出生地”、“祖籍”、“毕业学校”,与这些属性对应的属性值分别为“2.26米”、“1980年9月12日”、“中国上海”、“江苏苏州市吴江区”、“上海交通大学”。此时,可利用模式抽取器将实体名称属性、属性值加载到预设模板中。由于本例中实体的属性以及各属性对应的属性值为多个,因此需要用到的预设模板也就有多个。本例中所述预设模板可以为(人名,身高,数字)、(人名,出生日期,日期)、(人名,出生地,地点名)、(人名,祖籍,地点名)、(人名,毕业学校,学校名)。当利用属性抽取器将实体的名称、属性以及属性值设置到预设的模板中后就生成了包含所述实体的名称、属性以及属性值的三元组,即(姚明,身高,2.26米)、(姚明,出生日期,1980年9月12日)、(姚明,出生地,中国上海)、(姚明,祖籍,江苏苏州市吴江区)、(姚明,毕业学校,上海交通大学)。
从本例中可以看出,利用在社交媒体上发布的信息可以得到多个三元组。虽然在本例中的实体的名称只有一个,但是不难想象,在实际应用中,社交媒体上发布的实体的名称也可以有多个,此时可为每个实体都生成与之对应的三元组。
步骤213、利用预先制定的模式规范(schema specification)对所述包含所述实体的名称、属性以及属性值的三元组进行校验。
其中,利用所述预先制定的模式规范对所述三元组进行校验主要是利用所述模式规范来检验步骤212中生成的三元组的信息是否符合逻辑,或者是否是正确的,只有通过校验的三元组才能存储在所述知识库中。
例如,若利用在社交媒体上发布的信息在步骤212中生成的三元组为(姚明,身高,2.26厘米),则利用所述模式规范进行校验后,结果为此三元组不符合逻辑,是不正确的三元组,因此不需要将该三元组存储在创建的知识库中。
同时,由于在社交媒体上发布的信息中相同的实体名称、相同的属性以及相同的属性值可能有不同的表达方式,例如,实体名称“王治郅”、“大郅”指的都是“王治郅”,属性“身高”“身长”“高度”“高”指的都是“身高”,属性值“184cm”“1.84米”“6英尺”指的都是“1.84米”,因此,在利用预先制定的模式规范(schema specification)进行对三元组进行校验时,还可对实体的名称、属性以及属性值的表达方式进行“消歧”处理,即当从在一条社交媒体上发布的信息中获取的实体名称为A、属性为B、属性值为C,从另外一条在社交媒体上发布的信息中获取的实体名称为A1、属性为B1、属性值为C1,且A与A1指的是相同的实体、B与B1指的是相同的属性、C与C1指的是相同的属性值时,可以将根据这两条信息生成的三元组都存储为(A,B,C)。
例如,若利用在一条社交媒体上发布的信息生成的三元组为(王治郅,身高,2.14米),利用在另外一条社交媒体上发布的信息生成的三元组为(大郅,高,214cm),则可将这两条三元组都存储为(王治郅,身高,2.14米)。
步骤214、利用通过校验的包含所述实体的名称、属性以及属性值的三元组创建所述知识库。
其中,可以将步骤213中通过校验的三元组进行存储,例如可存储在内存或硬盘中,从而完成所述知识库的创建。
例如,以步骤121和步骤212中的例子为例,在生成了(姚明,身高,2.26米)、(姚明,出生日期,1980年9月12日)、(姚明,出生地,中国上海)、(姚明,祖籍,江苏苏州市吴江区)、(姚明,毕业学校,上海交通大学)这五个三元组后,再利用所述模式规范对这五个三元组进行校验,通过校验后就可以将这五个三元组存储在内存中,从而创建所述知识库。
在具体应用中,还可根据实体的类别对所述知识库中的三元组进行分类,例如可根据实体的类别将知识库中的三元组分为人物、动物、植物、商品等多个类别。以上的五个三元组都属于人物这一类别。
步骤22、实时更新所述知识库。
此步骤具体为:按照预设的时间间隔从社交媒体上获取发布的信息,并判断所述信息中是否存在所述知识库中的已有的实体名称。若所述信息中存在所述知识库中已有的实体名称,则利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库;若所述信息中存在所述知识库中没有的实体名称,则将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。其中,所述预设的时间间隔可以根据具体情况进行设定,目的是实时获取在社交媒体上发布的信息。例如,所述预设的时间间隔可以设定为1秒。
例如,假设利用在社交媒体上发布的信息生成的三元组为(刘德华,演唱会,90场),并且已经存储在所述知识库中,而实时获取的在社交媒体上发布的信息为:“刘德华将在……开第100场演唱会”,利用该信息生成的三元组为(刘德华,演唱会,100场),并且可以看出该信息中存在知识库中已有的实体名称“刘德华”,因此可将三元组(刘德华,演唱会,100场)存储在所述知识库中,并且将原来的三元组(刘德华,演唱会,90场)删除,从而更新所述知识库。
若在知识库中存储的三元组为(刘德华,演唱会,90场),且只有这一个三元组,而实时获取的在社交媒体上发布的信息为:“刘德华将在……开第100场演唱会。……姚明……2011年……退役”。可以看出,该信息中的实体名称为“刘德华”和“姚明”,利用该信息生成的三元组为(刘德华,演唱会,100场)和(姚明,退役,2011年),该信息中存在知识库中已有的实体名称“刘德华”,还存在知识库中没有的实体名称“姚明”,因此可用(刘德华,演唱会,100场)更新知识库中已有的三元组(刘德华,演唱会,90场),并且将(姚明,退役,2011年)也存储在所述知识库中,以更新所述知识库。
需要注意的是,所述若所述信息中存在所述知识库中已有的实体名称,则利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库主要有两种情况。
情况一为:知识库中原来的三元组中的实体名称与从实时获取的在社交媒体上发布的信息抽取出的三元组(以下简称新三元组)的名称相同,原来的三元组中的实体属性与新三元组的属性相同,原来的三元组与新三元组只有实体的属性值不同,此时可将新三元组代替原来的三元组存储在知识库中以更新所述知识库。如用(刘德华,演唱会,100场)代替(刘德华,演唱会,90场)存储在所述知识库中。
情况二为:虽然所述信息中可能存在所述知识库中已有的实体名称,但是原来的三元组与新三元组中的实体属性不同,此时,所述利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库为:将所述新三元组存储在所述知识库中。例如,若上面的例子中利用在社交媒体上实时发布的信息生成的三元组中还有(刘德华,出生地,香港),虽然原来的三元组与新三元组中的实体名称相同,但是由于该三元组的属性与知识库中的三元组的属性不同,因此也需要将该三元组存储在所述知识库中,从而更新所述知识库。
步骤23、获取用户输入的搜索条件。
其中,从所述搜索条件中获取需要搜索的实体的信息,所述实体的信息可以是实体的名称,也可以是实体的名称和实体的属性。
此步骤可参照本发明实施例一步骤11中的描述,在此不再赘述。
步骤24、从所述知识库中选取与所述搜索条件相关的目标三元组。
其中,从所述知识库中选取与所述搜索条件相关的目标三元组可以是根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值。
其中,从所述知识库中选取与所述搜索条件相关的目标三元组也可以是根据所述实体的名称和所述实体的属性,从预先创建的知识库中选取包含所述实体的名称和所述实体属性目标三元组,所述目标三元组还包括所述属性的属性值。
其中,在实际应用中,以步骤21中的例子为例,若步骤23中用户输入的搜索条件为“姚明的出生地是哪里?”,则在知识库中选取所述目标三元组时,可根据是否已对知识库中的三元组进行分类来确定如何选取目标三元组。
若在创建知识库时已经将所述知识库中的三元组分为人物、动物、植物、商品等多个类别,此时可根据知识库中对三元组的分类,首先选取与搜索条件中的实体相关的人物这一类别,再从人物类别下选取(姚明,出生地,中国上海)这个目标三元组。
若创建知识库时未对所述知识库中的三元组进行分类,则选取所述目标三元组时,可以在所述知识库中根据所述搜索条件中的实体名称、属性或属性值选取与所述搜索条件相关的目标三元组。例如,以上面的例子为例,根据所述搜索条件可知,实体的名称“姚明”以及属性“出生地”,在所述知识库中选取目标三元组时,从所述知识库的多个三元组中选取包含“姚明”以及“出生地”的三元组作为所述目标三元组,即(姚明,出生地,中国上海)。
步骤25、显示所述目标三元组的信息。
此步骤具体可参照本发明实施例一步骤13中的描述,在此不再赘述。
例如,以步骤24中的例子为例,根据用户输入的搜索条件,可向用户显示(姚明,出生地,中国上海),或者也可只显示中国上海。
图5示意性地示出了步骤21-步骤25的信息处理过程。如图5所示,在具体应用中,本发明实施例二的信息处理方法主要分为四个部分,分别为虚线框1-4中所示。
虚线框1为第一部分,示出了从社交媒体上获取信息的过程。即利用爬虫(crawler)获取社交媒体(Social media)上的信息,其中所述信息主要包括两部分,一部分为用户在社交媒体上发布的信息(Content),另外一部分为用户在社交媒体的用户查询界面上输入的搜索条件(Search criteria)。
虚线框2为第二部分,示出了模式抽取器如何从社交媒体上发布的信息(Content)中抽取三元组的过程,即先从语料库(Corpus)中获取已有的知识三元组,再将这些三元组回标到自然语言文本的语料库中进行属性模式学习(Pattern Learner),为每个属性训练单独的属性模式分类器(Attributepatterns),模式抽取器(Extractor)利用属性模式分类器(Attribute patterns)从社交媒体上发布的信息(Content)中抽取三元组(图中未示出)。
虚线框3为第三部分,示出了对模式抽取器抽取出的三元组进行模式校验的过程,即利用预先制定的模式规范(Schema Specification)对所述三元组进行模式校验(Schema checker),通过校验的三元组之后被存储到知识库(KB)中,从而完成知识库(KB)的创建。
虚线框4为第四部分,示出了利用创建好的知识库以及第一部分中获取的搜索条件(search criteria)获取用户需要的信息的过程。即首先根据搜索条件(search criteria),对搜索条件中的信息进行实体识别(Entity recognizer),若知识库(KB)中存在在搜索条件中的目标实体,则从知识库中选取与目标实体对应的三元组的信息显示给用户,从而使得用户获取自己需要的信息。其中,所述实体识别(Entity recognizer)可利用现有技术中的命名实体识别的方法实现。
在本发明的另一个实施例例中,所述搜索条件还包括所述实体的属性,所述根据所述实体的名称,从预先创建的知识库中选取包含实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值包括:所述根据所述实体的名称和所述实体的属性,从预先创建的知识库中选取包含所述实体的名称和所述实体属性目标三元组,所述目标三元组还包括所述属性的属性值;显示所述实体的名称、所述实体的属性以及所述属性的属性值。
由上可以看出,利用本发明实施例二提供的信息处理方法,用户在从社交媒体上发布的信息中获取自己需要的信息时,在输入搜索条件之后,可以显示目标三元组的信息,而现有技术中根据用户输入的检索条件显示给用户的是包含多条信息的列表,因此与现有技术相比,本发明实施例二提供的信息处理方法能够避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺陷,从而方便用户获取自己需要的信息。
并且,利用本发明实施例二提供的信息处理方法,在利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库之前,还可以对生成的三元组进行校验,通过校验的三元组才能存储在所述知识库中,从而保证所述知识库中的三元组的正确性,进而保证显示给用户的三元组的信息的正确性,使得用户获取正确的信息。同时,通过利用模式规范对三元组进行消歧,可以使创建的知识库更加简洁,节省空间。
此外,利用本发明实施例二提供的信息处理方法,不仅可以使用户获取需要的信息时更加方便,而且通过实时更新所述知识库,可以方便用户获取到最新的信息。通过对知识库添加新的三元组可以使知识库中的内容更丰富。
如图6所示,本发明实施例三提供了一种信息处理装置,包括:获取单元31,用于获取用户输入的搜索条件,所述搜索条件包括实体的名称;选取单元32,与所述获取单元31连接,用于从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值;显示单元33,与所述选取单元32连接,,用于显示所述实体的名称、所述实体的属性以及所述属性的属性值。
其中,所述获取单元31获取的所述搜索条件还包括所述实体的属性,此时,所述选取单元32具体用于:根据所述实体的名称和所述实体的属性,从预先创建的知识库中选取包含所述实体的名称和所述实体的属性的目标三元组,所述目标三元组还包括所述属性的属性值。
其中,所述显示单元33具体用于:显示所述目标三元组;或者根据所述搜索条件,显示与所述搜索条件对应的所述目标实体的名称;或者根据所述搜索条件,显示与所述搜索条件对应的所述目标实体的属性;或者根据所述搜索条件,显示与所述搜索条件对应的所述目标实体的属性值。
其中,所述装置的工作原理可参照前述方法实施例中的描述,在此不再赘述。
由上可以看出,利用本发明实施例三提供的信息处理装置,通过获取单元获取用户输入的搜索条件,选取单元根据该检索条件从预先创建的知识库中选取与所述搜索条件相关的目标三元组,之后显示单元显示所述目标三元组的信息。由于根据用户输入的检索条件,显示给用户的是目标三元组的信息,而现有技术中根据用户输入的检索条件显示给用户的是包含多条信息的列表,因此与现有技术相比,本发明实施例提供的信息处理方法及装置能够避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺陷,从而方便用户获取自己需要的信息。
另外,如图7所示,所述装置还包括:知识库创建单元34,与所述选取单元32连接,用于利用在社交媒体上发布的信息创建所述知识库。如图8所示,所述知识库创建单元34具体包括:获取子单元341,用于获取在社交媒体上发布的信息中的实体的名称、属性以及属性值;生成子单元342,与所述获取子单元341连接,用于生成包含所述获取子单元341获取的所述实体的名称、属性以及属性值的三元组;创建子单元343,与所述生成子单元342连接,用于利用所述生成子单元342生成的包含所述实体的名称、属性以及属性值的三元组创建所述知识库。
其中,所述生成子单元342具体用于:利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中,根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。
其中,如图8所示,所述知识库创建单元34还包括:校验子单元344,与所述生成子单元342以及所述创建子单元343连接,用于利用预先制定的模式规范对所述生成子单元342生成的包含所述实体的名称、属性以及属性值的三元组进行校验。
其中,所述装置的工作原理可参照前述方法实施例中的描述,在此不再赘述。
由上可以看出,利用本发明实施例三提供的信息处理装置,利用校验子单元对生成子单元生成的三元组进行校验,可以保证所述知识库中的三元组的正确性,进而保证显示给用户的三元组的信息的正确性,使得用户获取正确的信息。
此外,如图8所示,所述知识库创建单元34还包括:更新子单元345,与所述创建子单元343连接,用于实时更新所述创建子单元343创建的所述知识库。
其中,所述更新子单元345包括:获取模块,用于实时获取在社交媒体上发布的信息;判断模块,与所述获取模块连接,用于判断所述获取模块获取的信息中是否存在所述知识库中的已有的实体名称;更新模块,与所述判断模块连接,用于在所述判断模块确定所述信息中存在所述知识库中已有的实体名称时,利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库;在所述判断模块确定所述信息中存在所述知识库中没有的实体名称时,将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。
其中,所述装置的工作原理可参照前述方法实施例中的描述,在此不再赘述。
由上可以看出,利用本发明实施例三提供的信息处理装置,不仅可以使用户获取需要的信息时更加方便,而且通过更新子单元实时更新所述知识库,可以方便用户获取到最新的信息。
图9为本发明实施例四提供的信息处理设备的结构示意图。如图9所示,本实施例的遥控设备包括:至少一个处理器901、存储器902、通信接口903和总线。处理器901、存储器902和通信接口903通过总线连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中:
存储器902用于存储可执行程序代码,该程序代码包括计算机操作指令。存储器902可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
在一个实施例中,处理器901通过读取存储器902中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于:
获取用户输入的搜索条件,所述搜索条件包括实体的名称;
根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值;
显示所述实体的名称、所述实体的属性以及所述属性的属性值。
处理器901可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
需说明的是,上述处理器901除了具有上述功能之外,还可用于执行上述方法实施例中的其他流程,在此不再赘述。
通信接口903主要用于实现本实施例的流量来源确定设备与其他设备或装置之间的通信。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种信息处理方法,其特征在于,包括:
获取用户输入的搜索条件,所述搜索条件包括实体的名称;
根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值;
显示所述实体的名称、所述实体的属性以及所述属性的属性值。
2.根据权利要求1所述的信息处理方法,其特征在于,所述根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组之前,所述方法还包括:
利用在社交媒体上发布的信息创建所述知识库。
3.根据权利要求2所述的信息处理方法,其特征在于,所述利用在社交媒体上发布的信息创建所述知识库具体包括:
抽取在社交媒体上发布的信息中的实体的名称、属性以及属性值;
生成包含所述实体的名称、属性以及属性值的三元组;
利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库。
4.根据权利要求3所述的信息处理方法,其特征在于,所述生成包含所述实体的名称、属性以及属性值的三元组具体包括:
利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中,根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。
5.根据权利要求3或4所述的信息处理方法,其特征在于,所述利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库之前,所述方法还包括:
利用预先制定的模式规范对所述包含所述实体的名称、属性以及属性值的三元组进行校验。
6.根据权利要求2-5任一所述的信息处理方法,其特征在于,所述方法还包括:
实时更新所述知识库。
7.根据权利要求6所述的信息处理方法,其特征在于,所述实时更新所述知识库具体包括:
按照预设的时间间隔从社交媒体上获取发布的信息;
判断所述信息中是否存在所述知识库中的已有的实体名称;
若所述信息中存在所述知识库中已有的实体名称,则利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库;
若所述信息中存在所述知识库中没有的实体名称,则将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。
8.根据权利要求1-7任一所述的信息处理方法,其特征在于,所述搜索条件还包括所述实体的属性,
所述根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值包括:
根据所述实体的名称和所述实体的属性,从预先创建的知识库中选取包含所述实体的名称和所述实体的属性的目标三元组,所述目标三元组还包括所述属性的属性值。
9.一种信息处理装置,其特征在于,包括:
获取单元,用于获取用户输入的搜索条件,所述搜索条件包括实体的名称;
选取单元,与所述获取单元连接,用于根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值;
显示单元,与所述选取单元连接,用于显示所述实体的名称、所述实体的属性以及所述属性的属性值。
10.根据权利要求9所述的信息处理装置,其特征在于,所述装置还包括:
知识库创建单元,与所述选取单元连接,用于利用在社交媒体上发布的信息创建所述知识库。
11.根据权利要求10所述的信息处理装置,其特征在于,所述知识库创建单元包括:
抽取子单元,用于抽取在社交媒体上发布的信息中的实体的名称、属性以及属性值;
生成子单元,与所述抽取子单元连接,用于生成包含所述抽取子单元抽取的所述实体的名称、属性以及属性值的三元组;
创建子单元,与所述生成子单元连接,用于利用所述生成子单元生成的包含所述实体的名称、属性以及属性值的三元组创建所述知识库。
12.根据权利要求11所述的信息处理装置,其特征在于,所述生成子单元具体用于:
利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中,根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。
13.根据权利要求11或12所述的信息处理装置,其特征在于,所述知识库创建单元还包括:
校验子单元,与所述生成子单元以及所述创建子单元连接,用于利用预先制定的模式规范对所述生成子单元生成的包含所述实体的名称、属性以及属性值的三元组进行校验。
14.根据权利要求10-13任一所述的信息处理装置,其特征在于,所述知识库创建单元还包括:
更新子单元,与所述创建子单元连接,用于实时更新所述创建子单元创建的所述知识库。
15.根据权利要求14所述的信息处理装置,其特征在于,所述更新子单元包括:
获取模块,用于按照预设的时间间隔从社交媒体上获取发布的信息;
判断模块,与所述获取模块连接,用于判断所述获取模块获取的信息中是否存在所述知识库中的已有的实体名称;
更新模块,与所述判断模块连接,用于在所述判断模块确定所述信息中存在所述知识库中已有的实体名称时,利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库;在所述判断模块确定所述信息中存在所述知识库中没有的实体名称时,将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。
16.根据权利要求9-15任一所述的信息处理装置,其特征在于,所述获取单元获取的所述搜索条件还包括所述实体的属性,
所述选取单元具体用于:
根据所述实体的名称和所述实体的属性,从预先创建的知识库中选取包含所述实体的名称和所述实体的属性的目标三元组,所述目标三元组还包括所述属性的属性值。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410063323.5A CN104866498A (zh) | 2014-02-24 | 2014-02-24 | 一种信息处理方法及装置 |
PCT/CN2014/080799 WO2015123950A1 (zh) | 2014-02-24 | 2014-06-26 | 一种信息处理方法及装置 |
US14/988,959 US20160117405A1 (en) | 2014-02-24 | 2016-01-06 | Information Processing Method and Apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410063323.5A CN104866498A (zh) | 2014-02-24 | 2014-02-24 | 一种信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104866498A true CN104866498A (zh) | 2015-08-26 |
Family
ID=53877595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410063323.5A Pending CN104866498A (zh) | 2014-02-24 | 2014-02-24 | 一种信息处理方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160117405A1 (zh) |
CN (1) | CN104866498A (zh) |
WO (1) | WO2015123950A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488160A (zh) * | 2015-11-30 | 2016-04-13 | 北大方正集团有限公司 | 一种图片挂接方法及装置、知识图谱的制作方法 |
CN106055618A (zh) * | 2016-05-26 | 2016-10-26 | 优品财富管理有限公司 | 一种基于网络爬虫与结构化存储的数据处理方法 |
CN106874380A (zh) * | 2017-01-06 | 2017-06-20 | 北京航空航天大学 | 知识库三元组检验的方法与装置 |
CN106951539A (zh) * | 2017-03-23 | 2017-07-14 | 苏州大学 | 一种信息真伪验证方法及系统 |
WO2017173773A1 (zh) * | 2016-04-07 | 2017-10-12 | 北京百度网讯科技有限公司 | 信息搜索方法和装置 |
CN107633060A (zh) * | 2017-09-20 | 2018-01-26 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN107679055A (zh) * | 2017-06-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 信息检索方法、服务器及可读存储介质 |
CN107908637A (zh) * | 2017-09-26 | 2018-04-13 | 北京百度网讯科技有限公司 | 一种基于知识库的实体更新方法及系统 |
CN109902149A (zh) * | 2019-02-21 | 2019-06-18 | 北京百度网讯科技有限公司 | 查询处理方法和装置、计算机可读介质 |
CN110399374A (zh) * | 2019-07-05 | 2019-11-01 | 东软集团股份有限公司 | 数据检索方法、装置、存储介质及电子设备 |
CN111177409A (zh) * | 2019-12-27 | 2020-05-19 | 北京明略软件系统有限公司 | 一种实现数据处理的方法、装置、计算机存储介质及终端 |
CN111259131A (zh) * | 2020-01-09 | 2020-06-09 | 杭州网易再顾科技有限公司 | 信息处理方法、介质、装置和计算设备 |
WO2021063086A1 (zh) * | 2019-09-30 | 2021-04-08 | 北京国双科技有限公司 | 一种三元组抽取方法、装置、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10719500B2 (en) | 2017-03-17 | 2020-07-21 | International Business Machines Corporation | Method for capturing evolving data |
CN110765342A (zh) * | 2019-09-12 | 2020-02-07 | 竹间智能科技(上海)有限公司 | 信息查询方法及装置、存储介质、智能终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1823334A (zh) * | 2003-05-14 | 2006-08-23 | 塞利布罗斯有限公司 | 搜索引擎方法及装置 |
US20080140657A1 (en) * | 2005-02-03 | 2008-06-12 | Behnam Azvine | Document Searching Tool and Method |
CN102722542A (zh) * | 2012-05-23 | 2012-10-10 | 无锡成电科大科技发展有限公司 | 一种资源描述框架图模式匹配方法 |
CN102866990A (zh) * | 2012-08-20 | 2013-01-09 | 北京搜狗信息服务有限公司 | 一种主题对话方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810218B (zh) * | 2012-11-14 | 2018-06-08 | 北京百度网讯科技有限公司 | 一种基于问题簇的自动问答方法和装置 |
-
2014
- 2014-02-24 CN CN201410063323.5A patent/CN104866498A/zh active Pending
- 2014-06-26 WO PCT/CN2014/080799 patent/WO2015123950A1/zh active Application Filing
-
2016
- 2016-01-06 US US14/988,959 patent/US20160117405A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1823334A (zh) * | 2003-05-14 | 2006-08-23 | 塞利布罗斯有限公司 | 搜索引擎方法及装置 |
US20080140657A1 (en) * | 2005-02-03 | 2008-06-12 | Behnam Azvine | Document Searching Tool and Method |
CN102722542A (zh) * | 2012-05-23 | 2012-10-10 | 无锡成电科大科技发展有限公司 | 一种资源描述框架图模式匹配方法 |
CN102866990A (zh) * | 2012-08-20 | 2013-01-09 | 北京搜狗信息服务有限公司 | 一种主题对话方法和装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488160A (zh) * | 2015-11-30 | 2016-04-13 | 北大方正集团有限公司 | 一种图片挂接方法及装置、知识图谱的制作方法 |
WO2017173773A1 (zh) * | 2016-04-07 | 2017-10-12 | 北京百度网讯科技有限公司 | 信息搜索方法和装置 |
CN106055618B (zh) * | 2016-05-26 | 2020-02-07 | 优品财富管理有限公司 | 一种基于网络爬虫与结构化存储的数据处理方法 |
CN106055618A (zh) * | 2016-05-26 | 2016-10-26 | 优品财富管理有限公司 | 一种基于网络爬虫与结构化存储的数据处理方法 |
CN106874380A (zh) * | 2017-01-06 | 2017-06-20 | 北京航空航天大学 | 知识库三元组检验的方法与装置 |
CN106951539A (zh) * | 2017-03-23 | 2017-07-14 | 苏州大学 | 一种信息真伪验证方法及系统 |
CN107679055A (zh) * | 2017-06-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 信息检索方法、服务器及可读存储介质 |
CN107633060B (zh) * | 2017-09-20 | 2020-05-26 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN107633060A (zh) * | 2017-09-20 | 2018-01-26 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN107908637A (zh) * | 2017-09-26 | 2018-04-13 | 北京百度网讯科技有限公司 | 一种基于知识库的实体更新方法及系统 |
CN107908637B (zh) * | 2017-09-26 | 2021-02-12 | 北京百度网讯科技有限公司 | 一种基于知识库的实体更新方法及系统 |
CN109902149A (zh) * | 2019-02-21 | 2019-06-18 | 北京百度网讯科技有限公司 | 查询处理方法和装置、计算机可读介质 |
CN109902149B (zh) * | 2019-02-21 | 2021-08-13 | 北京百度网讯科技有限公司 | 查询处理方法和装置、计算机可读介质 |
CN110399374A (zh) * | 2019-07-05 | 2019-11-01 | 东软集团股份有限公司 | 数据检索方法、装置、存储介质及电子设备 |
WO2021063086A1 (zh) * | 2019-09-30 | 2021-04-08 | 北京国双科技有限公司 | 一种三元组抽取方法、装置、设备及存储介质 |
CN111177409A (zh) * | 2019-12-27 | 2020-05-19 | 北京明略软件系统有限公司 | 一种实现数据处理的方法、装置、计算机存储介质及终端 |
CN111259131A (zh) * | 2020-01-09 | 2020-06-09 | 杭州网易再顾科技有限公司 | 信息处理方法、介质、装置和计算设备 |
CN111259131B (zh) * | 2020-01-09 | 2023-05-05 | 杭州网易再顾科技有限公司 | 信息处理方法、介质、装置和计算设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2015123950A1 (zh) | 2015-08-27 |
US20160117405A1 (en) | 2016-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866498A (zh) | 一种信息处理方法及装置 | |
CN107957957B (zh) | 测试用例的获取方法和装置 | |
CN108052577B (zh) | 一种通用文本内容挖掘方法、装置、服务器及存储介质 | |
US9224103B1 (en) | Automatic annotation for training and evaluation of semantic analysis engines | |
EP3563243A1 (en) | Determining application test results using screenshot metadata | |
US20150032708A1 (en) | Database analysis apparatus and method | |
CN106598999B (zh) | 一种计算文本主题归属度的方法及装置 | |
CN105138515A (zh) | 命名实体识别方法和装置 | |
CN106294606B (zh) | 一种基于通用读写框架的cae文件转换方法及装置 | |
CN106610931B (zh) | 话题名称的提取方法及装置 | |
CN113505128A (zh) | 创建数据表的方法、装置、设备及存储介质 | |
CN103631874A (zh) | 社交平台的ugc标签类别确定方法和装置 | |
CN104142912A (zh) | 一种精确的语料类别标注方法及装置 | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
CN107392321A (zh) | 一种应用迁移学习可行性度量方法及装置 | |
CN108846069B (zh) | 一种基于标记语言的文档执行方法及装置 | |
CN108563431A (zh) | 软件开发方法、装置、计算机可读存储介质以及电子设备 | |
CN105988665A (zh) | 信息复制系统、信息复制方法及电子设备 | |
CN107748744A (zh) | 一种勾勒框知识库的建立方法及装置 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
US20140188882A1 (en) | Specific online resource identification and extraction | |
CN104239570A (zh) | 论文的搜索方法及装置 | |
CN110674297A (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
Toomey | R for data science | |
CN112287071A (zh) | 一种文本关系提取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150826 |
|
RJ01 | Rejection of invention patent application after publication |