CN105138631A - 知识库的构建方法及装置 - Google Patents

知识库的构建方法及装置 Download PDF

Info

Publication number
CN105138631A
CN105138631A CN201510515887.2A CN201510515887A CN105138631A CN 105138631 A CN105138631 A CN 105138631A CN 201510515887 A CN201510515887 A CN 201510515887A CN 105138631 A CN105138631 A CN 105138631A
Authority
CN
China
Prior art keywords
information
entity
candidate
text
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510515887.2A
Other languages
English (en)
Other versions
CN105138631B (zh
Inventor
汪平仄
陈志军
龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Technology Co Ltd
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510515887.2A priority Critical patent/CN105138631B/zh
Publication of CN105138631A publication Critical patent/CN105138631A/zh
Priority to RU2016113502A priority patent/RU2638013C2/ru
Priority to KR1020167004142A priority patent/KR101757900B1/ko
Priority to JP2017534874A priority patent/JP2017532704A/ja
Priority to MX2016004590A priority patent/MX2016004590A/es
Priority to PCT/CN2015/097664 priority patent/WO2017028422A1/zh
Priority to EP16183633.3A priority patent/EP3133504A3/en
Priority to US15/241,245 priority patent/US10331648B2/en
Application granted granted Critical
Publication of CN105138631B publication Critical patent/CN105138631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开是关于一种知识库的构建方法及装置,其中,知识库的构建方法包括:获取文本语料,根据预设属性描述模式判断文本语料中是否包含第一信息,第一信息包括预设实体集合中的实体的属性信息;在确定文本语料中包含第一信息时,提取第一信息,根据第一信息和第一信息所对应的实体构建知识库。本公开实施例,在构建知识库的过程中不需要通过人工的方式进行知识挖掘,节省了人力且提高了知识库的构建速度。

Description

知识库的构建方法及装置
技术领域
本公开涉及人工智能技术领域,尤其涉及一种知识库的构建方法及装置。
背景技术
命名实体识别(NamedEntityRecognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
食物的营养价值是一种特殊的命名实体,包括营养成分名及其含量,例如“碳水化合物”、“20克”。
目前,论坛、留言、博客、新闻和百科上经常会介绍一些食物的营养价值,这些数据对于食物营养价值知识库的构建具有很大的价值。但是,通过人工的方式进行知识挖掘,需要耗费较大的人力且知识库的构建速度慢。
发明内容
本公开实施例提供一种知识库的构建方法及装置,用以解决通过人工方式构建知识库浪费人力且速度慢的问题。
根据本公开实施例的第一方面,提供一种知识库的构建方法,包括:
获取文本语料,根据预设属性描述模式判断所述文本语料中是否包含第一信息,所述第一信息包括预设实体集合中的实体的属性信息;
在确定所述文本语料中包含所述第一信息时,提取所述第一信息,根据所述第一信息和所述第一信息所对应的实体构建所述知识库。
在一实施例中,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述根据预设属性描述模式判断所述文本语料中是否包含第一信息,包括:
根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述第一句子集合中获得候选第一信息,所述候选第一信息包括预设实体集合中的实体的属性信息;
对所述候选第一信息的出现次数进行统计,当所述候选第一信息的出现次数大于预设阈值时,将所述候选第一信息确定为所述第一信息。
在一实施例中,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述根据预设属性描述模式判断所述文本语料中是否包含第一信息,包括:
根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
根据所述预设属性描述模式从所述第一句子集合中获得多个候选第一信息,所述多个候选第一信息包括所述实体的属性信息;
将所述第一句子集合中包含的所述实体及其对应的多个候选第一信息组成二元组集合;
统计每个候选第一信息的出现次数,从所述二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组,根据当前二元组集合中包含的二元组元素确定为所述第一信息。
在一实施例中,所述方法还包括:
根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,所述第二信息包括所述第一信息的属性信息;
在确定所述文本语料中包含所述第二信息时,提取所述第二信息,根据所述第一信息、所述第二信息和所述第一信息所对应的实体更新所述知识库。
在一实施例中,所述根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,包括:
根据所述预设属性描述模式,从所述文本语料中获得包含所述第一信息的第二句子集合;
在所述第二句子集合中包括提取数量型实体时,将所述数量型实体提取为候选第二信息;
将所述实体、所述第一信息和所述候选第二信息组成三元组集合;
针对当前三元组集合中每个实体的每个第一信息,统计对应的每个候选第二信息的出现次数,将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。
在一实施例中,所述预设属性描述模式包括含*量、<含有|含>*<#NUM>克、*<中|里><含有|含|富含>*中的一种或多种,其中,*是用于匹配任意字符串的通配符,|是表示“或者”的符号,<#NUM>是用于匹配一个数字字符串的符号,<、>成对出现,用于包含多个近义词。
根据本公开实施例的第二方面,提供一种知识库的构建装置,包括:
获取判断模块,被配置为获取文本语料,根据预设属性描述模式判断所述文本语料中是否包含第一信息,所述第一信息包括预设实体集合中的实体的属性信息;
第一确定提取添加模块,被配置为在所述获取判断模块确定所述文本语料中包含所述第一信息时,提取所述第一信息,根据所述第一信息和所述第一信息所对应的实体构建所述知识库。
在一实施例中,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述获取判断模块包括:
筛选子模块,被配置为根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
获得子模块,被配置为根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述筛选子模块筛选出的所述第一句子集合中获得候选第一信息,所述候选第一信息包括预设实体集合中的实体的属性信息;
统计确定子模块,被配置为对所述获得子模块获得的所述候选第一信息的出现次数进行统计,当所述候选第一信息的出现次数大于预设阈值时,将所述候选第一信息确定为所述第一信息。
在一实施例中,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述获取判断模块包括:
筛选子模块,被配置为根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
获得子模块,被配置为根据所述预设属性描述模式从所述筛选子模块筛选出的所述第一句子集合中获得多个候选第一信息,所述多个候选第一信息包括所述实体的属性信息;
组成子模块,被配置为将所述第一句子集合中包含的所述实体及其对应的所述获得子模块获得的多个候选第一信息组成二元组集合;
统计删除确定子模块,被配置为统计每个候选第一信息的出现次数,从所述组成子模块组成的所述二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组,根据当前二元组集合中包含的二元组元素确定为所述第一信息。
在一实施例中,所述装置还包括:
确定模块,被配置为根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,所述第二信息包括所述第一信息的属性信息;
第二确定提取添加模块,被配置为在所述确定模块确定所述文本语料中包含所述第二信息时,提取所述第二信息,根据所述第一信息、所述第二信息和所述第一信息所对应的实体更新所述知识库。
在一实施例中,所述确定模块包括:
获得子模块,被配置为根据所述预设属性描述模式,从所述文本语料中获得包含所述第一信息的第二句子集合;
提取子模块,被配置为在所述第二句子集合中包括数量型实体时,将所述数量型实体提取为候选第二信息;
组成子模块,被配置为将所述实体、所述第一信息和所述提取子模块提取的所述候选第二信息组成三元组集合;
统计确定子模块,被配置为针对所述组成子模块组成的当前三元组集合中每个实体的每个第一信息,统计对应的每个候选第二信息的出现次数,将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。
在一实施例中,所述预设属性描述模式包括含*量、<含有|含>*<#NUM>克、*<中|里><含有|含|富含>*中的一种或多种,其中,*是用于匹配任意字符串的通配符,|是表示“或者”的符号,<#NUM>是用于匹配一个数字字符串的符号,<、>成对出现,用于包含多个近义词。
根据本公开实施例的第三方面,提供一种知识库的构建装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取文本语料,根据预设属性描述模式判断所述文本语料中是否包含第一信息,所述第一信息包括预设实体集合中的实体的属性信息;
在确定所述文本语料中包含所述第一信息时,提取所述第一信息,根据所述第一信息和所述第一信息所对应的实体构建所述知识库。
本公开的实施例提供的技术方案可以包括以下有益效果:通过获取文本语料,并在确定文本语料中包含第一信息时,提取第一信息,并根据第一信息和第一信息所对应的实体构建知识库,从而完成知识库的自动构建,实现过程中不需要通过人工的方式进行知识挖掘,节省了人力且提高了知识库的构建速度。
通过对获得的候选第一信息的出现次数进行统计,并将出现次数大于预设阈值的候选第一信息确定为第一信息,即去除出现次数少的候选第一信息,从而有效去除不属于食物营养成分的物质,提高知识库的准确性。
通过二元组表示实体和第一信息之间的关系,使得二者之间的关系清楚,更易于删除对应实体无效的第一信息。
在确定文本语料中包含第二信息例如食物营养成分的含量时,可以从文本语料中提取第二信息,并根据第一信息、第二信息和第一信息所对应的实体更新知识库,从而更好地完善了知识库。
通过三元组表示实体、第一信息和第二信息之间的关系,使得三者之间的关系清楚,更易于获得对应实体第一信息的第二信息,同时,将出现次数最多的候选第二信息确定为第二信息,从而提高了第二信息的准确率,进而提高了知识库的准确性。提供了预设属性描述模式的多种内容,方便后续从文本语料中筛选出第一信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种知识库的构建方法的流程图。
图2是根据一示例性实施例示出的另一种知识库的构建方法的流程图。
图3是根据一示例性实施例示出的一种知识库的构建方法的场景图。
图4是根据一示例性实施例示出的一种判断文本语料中是否包含第一信息的流程图。
图5是根据一示例性实施例示出的另一种判断文本语料中是否包含第一信息的流程图。
图6是根据一示例性实施例示出的一种确定文本语料中是否包含第二信息的流程图。
图7是根据一示例性实施例示出的一种知识库的构建装置的框图。
图8是根据一示例性实施例示出的另一种知识库的构建装置的框图。
图9是根据一示例性实施例示出的另一种知识库的构建装置的框图。
图10是根据一示例性实施例示出的又一种知识库的构建装置的框图。
图11是根据一示例性实施例示出的再一种知识库的构建装置的框图。
图12是根据一示例性实施例示出的一种用于知识库的构建装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种知识库的构建方法的流程图,如图1所示,该知识库的构建方法可应用于服务器上,包括以下步骤S101-S102:
在步骤S101中,获取文本语料,根据预设属性描述模式判断文本语料中是否包含第一信息。
在该实施例中,预设属性描述模式可以包括用于确定文本语料中包含第一信息的词汇、句式或二者的结合,第一信息可以包括预设实体集合中的实体的属性信息。
在一实施例中,预设实体集合中的实体可以包括但不局限于食物、空气、运动等,食物的属性信息可以为食物的营养成分,空气的属性信息可以为空气的组成成分,运动的属性可以是对应运动每小时可消耗的能量等。由此可见,第一信息可以包括但不局限于食物的营养成分。
例如,以该实施例中的实体为食物,构建有关食物的营养价值的知识库为例,则预设属性描述模式可以包括但不局限于以下模式中的一种或几种:
“含*量”(例如,含糖量)、“<含有|含>*<#NUM>克”(例如,含碳水化合物20克)、“*<中|里><含有|含|富含>*”(例如,猕猴桃中富含维生素C)等。示例的,*是用于匹配任意字符串的通配符,|是表示“或者”的符号,<#NUM>是用于匹配一个数字字符串的符号,<和>成对出现,用于包含多个近义词,例如,<含有|含>*<#NUM>克表示:“含有*<#NUM>克”或者“含*<#NUM>克”。
在该实施例中,服务器可以使用爬虫爬取网页中的文本语料,并根据上述预设属性描述模式判断文本语料中是否包含食物的营养成分。
在步骤S102中,在确定文本语料中包含第一信息时,提取第一信息,根据第一信息和第一信息所对应的实体构建知识库。
在该实施例中,当确定文本语料中包含食物的营养成分时,可以提取营养成分,并将食物及其对应的营养成分写入数据库中。
上述知识库的构建方法实施例,通过获取文本语料,并在确定文本语料中包含第一信息时,提取第一信息,并根据第一信息和第一信息所对应的实体构建知识库,从而完成知识库的自动构建,实现过程中不需要通过人工的方式进行知识挖掘,节省了人力且提高了知识库的构建速度。
图2是根据一示例性实施例示出的另一种知识库的构建方法的流程图,如图2所示,在上述步骤S102之后,该方法还可以包括如下步骤S103-S104:
在步骤S103中,根据预设属性描述模式和第一信息,确定文本语料中是否包含第二信息。
其中,第二信息包括第一信息的属性信息。例如,当第一信息为食物的营养成分时,第一信息的属性信息可以为营养成分的含量,即第二信息可以为营养成分的含量。
在该实施例中,可以根据上述预设属性描述模式和食物的营养成分,判断文本语料中是否包含食物营养成分的含量。
在步骤S104中,在确定文本语料中包含第二信息时,提取第二信息,根据第一信息、第二信息和第一信息所对应的实体更新知识库。
在该实施例中,在确定文本语料中包含第二信息例如食物营养成分的含量时,可以从文本语料中提取第二信息,并根据第一信息、第二信息和第一信息所对应的实体构建知识库,从而完成知识库的构建。
上述知识库的构建方法实施例,通过确定文本语料中是否包含第二信息,并在确定文本语料中包含第二信息时,提取第二信息,并根据第一信息、第二信息和第一信息所对应的实体构建知识库,从而更好地完善了知识库。
以构建有关食物的营养价值的知识库为例,下面结合图3对本公开进行示例性说明。
如图3所示,设备31可以使用爬虫从服务器32爬取网页中的文本语料。在本实施例中,设备31可以为服务器,或者个人计算机(PC)等设备,本公开不以此为限。在一实施例中,服务器32可以为维基、百度、新浪、网易等Web服务器。设备31根据命名实体识别等算法从文本语料中获取包括食物名的文本语料,根据预设属性描述模式判断获取的文本语料中是否包含食物的营养成分。若包含食物的营养成分,则提取食物的营养成分,并根据该食物、该食物所对应的营养成分构建食物营养价值知识库。设备31还可以根据预设属性描述模式和食物的营养成分判断上述文本语料中是否包含食物营养成分的含量。若文本语料中包含食物营养成分的含量,则提取食物营养成分的含量,并将食物营养成分的含量对应添加入知识库中,构建食物营养价值知识库。
图4是根据一示例性实施例示出的一种判断文本语料中是否包含第一信息的流程图,如图4所示,该方法包括:
在步骤S401中,根据命名实体识别算法,从文本语料中筛选出包含预设实体集合中的实体的第一句子集合。
在一实施例中,命名实体识别算法可以包括但不局限于条件随机场(ConditionalRandomField,CRF)、字典法和混合方法。预设实体集合例如可以包括食物集合、空气成分集合、运动集合等。
以预设实体集合为食物集合为例,可以基于CRF方法从文本语料中筛选出包含食物的第一句子集合。在本实施例中,还可以基于“关键字识别算法等筛选出包含食物的第一句子集合。
在步骤S402中,根据预设属性描述模式中的词汇、句式或二者的结合从第一句子集合中获得候选第一信息,候选第一信息包括预设实体集合中的实体的属性信息。
其中,预设属性描述模式可以为词汇-句法模式(lexico-syntacticpatterns),词汇-句法模式包括但不局限于以下模式中的一种或几种:“含*量”(例如,含糖量)、“<含有|含>*<#NUM>克”(例如,含碳水化合物20克)、“*<中|里><含有|含|富含>*”(例如,猕猴桃中富含维生素C)等。
在筛选出包含食物的第一句子集合之后,可以根据上述预设属性描述模式从第一句子集合中获得候选营养成分,例如,获得西红柿的候选营养成分为胡萝卜素、维生素C、纳、钙,获得胡萝卜的候选营养成分为胡萝卜素、维生素C、糖,……,获得牛肉的候选营养成分为钾、磷、纳、钙、石头。
在步骤S403中,对候选第一信息的出现次数进行统计,当候选第一信息的出现次数大于预设阈值时,将候选第一信息确定为第一信息。
预设阈值可以根据需要灵活设置。在一实施例中,预设阈值例如可以设置为1次~10次等,但本公开不以此为限,根据具体应用情况,预设阈值还可以设置为10次以上的其他次数。
在该实施例中,假设预设阈值为2次,则对候选营养成分的出现次数进行统计之后,发现石头的出现次数为1次,其余候选营养成分的出现次数均大于1次,因此,将其余候选营养成分确定为营养成分。这样,可以有效去除不属于食物营养成分的物质。
但本公开不以此为限,步骤S403还可以实施为:
对候选第一信息的出现次数进行统计,当候选第一信息的出现次数小于预设阈值时,确定候选第一信息不是第一信息;当候选第一信息的出现次数大于或等于预设阈值时,确定候选第一信息是第一信息。
在该实施例中,预设阈值例如可以设置为10次等,但本公开不以此为限,根据具体应用情况,预设阈值还可以设置为10次以上或10次以下等其他次数。
在该实施例中,对候选营养成分的出现次数进行统计之后,发现石头的出现次数为1次,其余候选营养成分的出现次数均大于10次,因此,将其余候选营养成分确定为营养成分,石头不为营养成分。这样,可以有效去除不属于食物营养成分的物质。
由此可见,通过上述过程,可以判断文本语料中是否包含第一信息。
上述实施例,通过对获得的候选第一信息的出现次数进行统计,并将出现次数大于预设阈值的候选第一信息确定为第一信息,即去除出现次数少的候选第一信息,从而有效去除不属于食物营养成分的物质,提高知识库的准确性。
图5是根据一示例性实施例示出的另一种判断文本语料中是否包含第一信息的流程图,如图5示,该方法包括:
在步骤S501中,根据命名实体识别算法,从文本语料中筛选出包含预设实体集合中的实体的第一句子集合。
在步骤S502中,根据预设属性描述模式从第一句子集合中获得多个候选第一信息,多个候选第一信息包括实体的属性信息。
在步骤S503中,将第一句子集合中包含的实体及其对应的多个候选第一信息组成二元组集合。
假定,预设实体集合为食物实体集合E,则可以从文本语料中筛选出包含E的句子集合,其中匹配成功的实体为Ei,并从句子的上下文环境中,通过词汇-句法模式得到候选的营养成分NC,构成二元组集合T,则二元组集合T中的每个元素为:(Ei,NCij),其中,Ei对应的候选营养成分为{NCi1,NCi2…NCin}。
在步骤S504中,统计每个候选第一信息的出现次数,从二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组,根据当前二元组集合中包含的二元组元素确定为第一信息。
统计每个营养成分NCij的出现次数,并将出现次数小于预设阈值例如2次的营养成分所在的二元组从T中删除掉,得到新的二元组集合T,并将当前二元组集合中包含的二元组元素确定为第一信息。
上述实施例,通过二元组表示实体和第一信息之间的关系,使得二者之间的关系清楚,更易于删除对应实体无效的第一信息。
图6是根据一示例性实施例示出的一种确定文本语料中是否包含第二信息的流程图,如图6示,该方法包括:
在步骤S601中,根据预设属性描述模式,从文本语料中获得包含第一信息的第二句子集合。
在该实施例中,可以根据词汇-句法模式从文本语料中获得包含食物营养成分的第二句子集合。
例如,可以从文本语料中筛选出上下文环境中包含Ei和NCij的句子集合。
在步骤S602中,在第二句子集合中包括提取数量型实体时,将数量型实体提取为候选第二信息。
由于营养成分的含量一般都是数量型的值,例如“80克”,“70%”等。因此,可以从第二句子集合中提取数量型实体,以获得候选第二信息。
另外,营养成分的含量经常以每100克为计量基数,例如,“香蕉果肉营养价值颇高,每100克果肉含碳水化合物20克、蛋白质1.2克、脂肪0.6克”。
在步骤S603中,将实体、第一信息和候选第二信息组成三元组集合。
在步骤S604中,针对当前三元组集合中每个实体的每个第一信息,统计对应的每个候选第二信息的出现次数,将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。
该实施例,可以将实体、第一信息和候选第二信息组成三元组集合,然后针对当前三元组集合中每个实体的每个第一信息,统计对应的每个候选第二信息的出现次数,将出现次数最多的第二候选信息作为当前实体当前第一信息的第二信息。
例如,在从第二句子集合中提取数量型实体之后,可以生成三元组集合Tr,该集合中的每个元素为:(Ei,NCij,Vijk),其中,Ei对应的候选营养成分NCij的含量为{Vij1,Vij2…Vijm}。然后,针对所有Ei的每种营养成分NCij的含量Vijk,统计其在{Vij1,Vij2…Vijm}中的出现次数,仅保留出现次数最高的Vijk对应的1个3元组,其余的Vijr则全部从{Vij1,Vij2…Vijm}中删除,也即从三元组Tr中删除,得到新的三元组集合Tr,当前Tr中包含的候选含量作为对应食物营养成分的含量。
通过三元组表示实体、第一信息和第二信息之间的关系,使得三者之间的关系清楚,更易于获得对应实体第一信息的第二信息,例如,更易于获得对应食物营养成分的含量。
假设,从文本语料中获得的西红柿的维生素A的含量为10g的次数是50次,西红柿的维生素A的含量为8g的次数是10次,西红柿的维生素A的含量为1g的次数是3次,由于50次为最大值,因此,确定西红柿的维生素A的含量为10g。
上述实施例,通过对获得的候选第二信息的出现次数进行统计,并将出现次数最多的候选第二信息确定为第二信息,从而提高了第二信息的准确率,进而提高了知识库的准确性。
与前述知识库的构建方法实施例相对应,本公开还提供了知识库的构建装置实施例。
图7是根据一示例性实施例示出的一种知识库的构建装置的框图,如图7所示,知识库的构建装置包括:获取判断模块71和第一确定提取添加模块72。
获取判断模块71被配置为获取文本语料,根据预设属性描述模式判断文本语料中是否包含第一信息,第一信息包括预设实体集合中的实体的属性信息。
第一确定提取添加模块72被配置为在获取判断模块71确定文本语料中包含第一信息时,提取第一信息,根据第一信息和第一信息所对应的实体构建知识库。
图7所示装置构建知识库的过程可参见图1所示方法实施例,此处不赘述。
上述知识库的构建装置实施例,通过获取判断模块获取文本语料,并在第一确定提取添加模块确定文本语料中包含第一信息时,提取第一信息,并根据第一信息和第一信息所对应的实体构建知识库,从而完成知识库的自动构建,实现过程中不需要通过人工的方式进行知识挖掘,节省了人力且提高了知识库的构建速度。
图8是根据一示例性实施例示出的另一种知识库的构建装置的框图,如图8所示,在上述图7所示实施例的基础上,获取判断模块71可包括:筛选子模块711、获得子模块712和统计确定子模块713。
筛选子模块711被配置为根据命名实体识别算法,从文本语料中筛选出包含预设实体集合中的实体的第一句子集合。
获得子模块712被配置为根据预设属性描述模式中的词汇、句式或二者的结合从筛选子模块711筛选出的第一句子集合中获得候选第一信息,候选第一信息包括预设实体集合中的实体的属性信息。
统计确定子模块713被配置为对获得子模块712获得的候选第一信息的出现次数进行统计,当候选第一信息的出现次数大于预设阈值时,将候选第一信息确定为第一信息。
其中,预设属性描述模式包括用于确定文本语料中是否包含第一信息的词汇、句式或二者的结合。
图8所示装置构建知识库的过程可参见图4所示方法实施例,此处不赘述。
上述实施例,通过统计确定子模块对获得的候选第一信息的出现次数进行统计,并将出现次数大于预设阈值的候选第一信息确定为第一信息,即去除出现次数少的候选第一信息,从而有效去除不属于食物营养成分的物质,提高知识库的准确性。
图9是根据一示例性实施例示出的另一种知识库的构建装置的框图,如图9所示,在上述图7所示实施例的基础上,获取判断模块71可包括:筛选子模块711、获得子模块712、组成子模块713和统计删除确定子模块714。
筛选子模块711被配置为根据命名实体识别算法,从文本语料中筛选出包含预设实体集合中的实体的第一句子集合。
获得子模块712被配置为根据预设属性描述模式从筛选子模块711筛选出的第一句子集合中获得多个候选第一信息,多个候选第一信息包括实体的属性信息。
组成子模块713被配置为将第一句子集合中包含的实体及其对应的获得子模块712获得的多个候选第一信息组成二元组集合。
统计删除确定子模块714被配置为统计每个候选第一信息的出现次数,从组成子模块713组成的二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组,将当前二元组集合中包含的二元组元素确定为第一信息。
其中,预设属性描述模式包括用于确定文本语料中是否包含第一信息的词汇、句式或二者的结合。
图9所示装置构建知识库的过程可参见图5所示方法实施例,此处不赘述。
上述实施例,通过二元组表示实体和第一信息之间的关系,使得二者之间的关系清楚,更易于删除对应实体无效的第一信息。
图10是根据一示例性实施例示出的又一种知识库的构建装置的框图,如图10所示,在上述图7所示实施例的基础上,知识库的构建装置还可包括:确定模块73和第二确定提取添加模块74。
确定模块73,被配置为根据预设属性描述模式和第一信息,确定文本语料中是否包含第二信息,第二信息包括第一信息的属性信息;
第二确定提取添加模块74,被配置为在确定模块73确定文本语料中包含第二信息时,提取第二信息,根据第一信息、第二信息和第一信息所对应的实体更新知识库。
图10所示装置构建知识库的过程可参见图2所示方法实施例,此处不赘述。
上述知识库的构建方法实施例,通过确定模块确定文本语料中是否包含第二信息,并通过第二确定提取添加模块在确定文本语料中包含第二信息时,提取第二信息,并根据第一信息、第二信息和第一信息所对应的实体构建知识库,从而更好地完善了知识库。
图11是根据一示例性实施例示出的再一种知识库的构建装置的框图,如图11所示,在上述图10所示实施例的基础上,确定模块73可包括:确定模块73获得子模块731、提取子模块732、组成子模块733和统计确定子模块734。
获得子模块731,被配置为根据预设属性描述模式,从文本语料中获得包含第一信息的第二句子集合。
提取子模块732,被配置为从获得子模块731获得的第二句子集合中包括数量型实体时,将数量型实体提取为候选第二信息。
组成子模块733,被配置为将实体、第一信息和提取子模块732提取的候选第二信息组成三元组集合。
统计确定子模块734,被配置为针对组成子模块733组成的当前三元组集合中每个实体的每个第一信息,统计对应的每个候选第二信息的出现次数,将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。
图11所示装置构建知识库的过程可参见图6所示方法实施例的对应部分,此处不赘述。
上述实施例,通过三元组表示实体、第一信息和第二信息之间的关系,使得三者之间的关系清楚,更易于获得对应实体第一信息的第二信息。
关于上述实施例中的装置,其中各个模块、子模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图12是根据一示例性实施例示出的一种用于知识库的构建装置1200的框图。例如,装置1200可以被提供为一服务器。参照图12,装置1200包括处理组件1222,其进一步包括一个或多个处理器,以及由存储器1232所代表的存储器资源,用于存储可由处理部件1222的执行的指令,例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1222被配置为执行指令,以执行上述知识库的构建方法。
装置1200还可以包括一个电源组件1226被配置为执行装置1200的电源管理,一个有线或无线网络接口1250被配置为将装置1200连接到网络,和一个输入输出(I/O)接口1258。装置1200可以操作基于存储在存储器1232的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种知识库的构建方法,其特征在于,所述方法包括:
获取文本语料,根据预设属性描述模式判断所述文本语料中是否包含第一信息,所述第一信息包括预设实体集合中的实体的属性信息;
在确定所述文本语料中包含所述第一信息时,提取所述第一信息,根据所述第一信息和所述第一信息所对应的实体构建所述知识库。
2.根据权利要求1所述的知识库的构建方法,其特征在于,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述根据预设属性描述模式判断所述文本语料中是否包含第一信息,包括:
根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述第一句子集合中获得候选第一信息,所述候选第一信息包括预设实体集合中的所述实体的属性信息;
对所述候选第一信息的出现次数进行统计,当所述候选第一信息的出现次数大于预设阈值时,将所述候选第一信息确定为所述第一信息。
3.根据权利要求1所述的知识库的构建方法,其特征在于,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述根据预设属性描述模式判断所述文本语料中是否包含第一信息,包括:
根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
根据所述预设属性描述模式从所述第一句子集合中获得多个候选第一信息,所述多个候选第一信息包括所述实体的属性信息;
将所述第一句子集合中包含的所述实体及其对应的多个候选第一信息组成二元组集合;
统计每个候选第一信息的出现次数,从所述二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组,根据当前二元组集合中包含的二元组元素确定为所述第一信息。
4.根据权利要求1-3任一项所述的知识库的构建方法,其特征在于,所述方法还包括:
根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,所述第二信息包括所述第一信息的属性信息;
在确定所述文本语料中包含所述第二信息时,提取所述第二信息,根据所述第一信息、所述第二信息和所述第一信息所对应的实体更新所述知识库。
5.根据权利要求4所述的知识库的构建方法,其特征在于,所述根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,包括:
根据所述预设属性描述模式,从所述文本语料中获得包含所述第一信息的第二句子集合;
在所述第二句子集合中包括数量型实体时,将所述数量型实体提取为候选第二信息;
将所述实体、所述第一信息和所述候选第二信息组成三元组集合;
针对当前三元组集合中每个实体的每个第一信息,统计对应的每个候选第二信息的出现次数,将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。
6.根据权利要求1-3、5中任一项所述的知识库的构建方法,其特征在于,所述预设属性描述模式包括含*量、<含有|含>*<#NUM>克、*<中|里><含有|含|富含>*中的一种或多种,其中,*是用于匹配任意字符串的通配符,|是表示“或者”的符号,<#NUM>是用于匹配一个数字字符串的符号,<、>成对出现,用于包含多个近义词。
7.一种知识库的构建装置,其特征在于,所述装置包括:
获取判断模块,被配置为获取文本语料,根据预设属性描述模式判断所述文本语料中是否包含第一信息,所述第一信息包括预设实体集合中的实体的属性信息;
第一确定提取添加模块,被配置为在所述获取判断模块确定所述文本语料中包含所述第一信息时,提取所述第一信息,根据所述第一信息和所述第一信息所对应的实体构建所述知识库。
8.根据权利要求7所述的知识库的构建装置,其特征在于,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述获取判断模块包括:
筛选子模块,被配置为根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
获得子模块,被配置为根据所述预设属性描述模式中的所述词汇、句式或二者的结合从所述筛选子模块筛选出的所述第一句子集合中获得候选第一信息,所述候选第一信息包括预设实体集合中的所述实体的属性信息;
统计确定子模块,被配置为对所述获得子模块获得的所述候选第一信息的出现次数进行统计,当所述候选第一信息的出现次数大于预设阈值时,将所述候选第一信息确定为所述第一信息。
9.根据权利要求7所述的知识库的构建装置,其特征在于,所述预设属性描述模式包括用于确定所述文本语料中是否包含所述第一信息的词汇、句式或二者的结合;
所述获取判断模块包括:
筛选子模块,被配置为根据命名实体识别算法,从所述文本语料中筛选出包含所述预设实体集合中的实体的第一句子集合;
获得子模块,被配置为根据所述预设属性描述模式从所述筛选子模块筛选出的所述第一句子集合中获得多个候选第一信息,所述多个候选第一信息包括所述实体的属性信息;
组成子模块,被配置为将所述第一句子集合中包含的所述实体及其对应的所述获得子模块获得的多个候选第一信息组成二元组集合;
统计删除确定子模块,被配置为统计每个候选第一信息的出现次数,从所述组成子模块组成的所述二元组集合中删除出现次数小于预设阈值的候选第一信息所在的二元组,根据当前二元组集合中包含的二元组元素确定为所述第一信息。
10.根据权利要求7-9任一项所述的知识库的构建装置,其特征在于,所述装置还包括:
确定模块,被配置为根据所述预设属性描述模式和所述第一信息,确定所述文本语料中是否包含第二信息,所述第二信息包括所述第一信息的属性信息;
第二确定提取添加模块,被配置为在所述确定模块确定所述文本语料中包含所述第二信息时,提取所述第二信息,根据所述第一信息、所述第二信息和所述第一信息所对应的实体更新所述知识库。
11.根据权利要求10所述的知识库的构建装置,其特征在于,所述确定模块包括:
获得子模块,被配置为根据所述预设属性描述模式,从所述文本语料中获得包含所述第一信息的第二句子集合;
提取子模块,被配置为在所述第二句子集合中包括数量型实体时,将所述数量型实体提取为候选第二信息;
组成子模块,被配置为将所述实体、所述第一信息和所述提取子模块提取的所述候选第二信息组成三元组集合;
统计确定子模块,被配置为针对所述组成子模块组成的当前三元组集合中每个实体的每个第一信息,统计对应的每个候选第二信息的出现次数,将出现次数最多的候选第二信息确定为当前实体当前第一信息的第二信息。
12.根据权利要求7-9、11中任一项所述的知识库的构建装置,其特征在于,所述预设属性描述模式包括含*量、<含有|含>*<#NUM>克、*<中|里><含有|含|富含>*中的一种或多种,其中,*是用于匹配任意字符串的通配符,|是表示“或者”的符号,<#NUM>是用于匹配一个数字字符串的符号,<、>成对出现,用于包含多个近义词。
13.一种知识库的构建装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取文本语料,根据预设属性描述模式判断所述文本语料中是否包含第一信息,所述第一信息包括预设实体集合中的实体的属性信息;
在确定所述文本语料中包含所述第一信息时,提取所述第一信息,根据所述第一信息和所述第一信息所对应的实体构建所述知识库。
CN201510515887.2A 2015-08-20 2015-08-20 知识库的构建方法及装置 Active CN105138631B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201510515887.2A CN105138631B (zh) 2015-08-20 2015-08-20 知识库的构建方法及装置
MX2016004590A MX2016004590A (es) 2015-08-20 2015-12-17 Metodo y dispositivo para construccion de la base de conocimiento.
KR1020167004142A KR101757900B1 (ko) 2015-08-20 2015-12-17 지식 베이스의 구축 방법 및 장치
JP2017534874A JP2017532704A (ja) 2015-08-20 2015-12-17 知識ベースの構築方法及び装置
RU2016113502A RU2638013C2 (ru) 2015-08-20 2015-12-17 Способ и устройство построения базы знаний
PCT/CN2015/097664 WO2017028422A1 (zh) 2015-08-20 2015-12-17 知识库的构建方法及装置
EP16183633.3A EP3133504A3 (en) 2015-08-20 2016-08-10 Method and device for knowledge base construction
US15/241,245 US10331648B2 (en) 2015-08-20 2016-08-19 Method, device and medium for knowledge base construction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510515887.2A CN105138631B (zh) 2015-08-20 2015-08-20 知识库的构建方法及装置

Publications (2)

Publication Number Publication Date
CN105138631A true CN105138631A (zh) 2015-12-09
CN105138631B CN105138631B (zh) 2019-10-11

Family

ID=54723979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510515887.2A Active CN105138631B (zh) 2015-08-20 2015-08-20 知识库的构建方法及装置

Country Status (8)

Country Link
US (1) US10331648B2 (zh)
EP (1) EP3133504A3 (zh)
JP (1) JP2017532704A (zh)
KR (1) KR101757900B1 (zh)
CN (1) CN105138631B (zh)
MX (1) MX2016004590A (zh)
RU (1) RU2638013C2 (zh)
WO (1) WO2017028422A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017028422A1 (zh) * 2015-08-20 2017-02-23 小米科技有限责任公司 知识库的构建方法及装置
CN107256226A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 一种知识库的构建方法及装置
CN108304381A (zh) * 2018-01-25 2018-07-20 北京百度网讯科技有限公司 基于人工智能的实体建边方法、装置、设备及存储介质
CN109766444A (zh) * 2018-12-10 2019-05-17 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582799B (zh) * 2018-06-29 2020-09-22 北京百度网讯科技有限公司 知识样本数据集的确定方法、装置及电子设备
US11132511B2 (en) 2019-02-05 2021-09-28 International Business Machines Corporation System for fine-grained affective states understanding and prediction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257530B2 (en) * 2002-02-27 2007-08-14 Hongfeng Yin Method and system of knowledge based search engine using text mining
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN104850554A (zh) * 2014-02-14 2015-08-19 北京搜狗科技发展有限公司 一种搜索方法和系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132812A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
CN1647070A (zh) * 2001-06-22 2005-07-27 诺萨·欧莫贵 用于知识检索、管理、交付和表示的系统和方法
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
KR100481580B1 (ko) * 2002-10-09 2005-04-08 한국전자통신연구원 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
KR100533810B1 (ko) * 2003-10-16 2005-12-07 한국전자통신연구원 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
KR100721611B1 (ko) 2005-08-10 2007-05-25 김두용 데이터베이스 시스템 구축 방법
US8504908B2 (en) * 2007-10-17 2013-08-06 ITI Scotland, Limited Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
US20090249182A1 (en) * 2008-03-31 2009-10-01 Iti Scotland Limited Named entity recognition methods and apparatus
US20120066000A1 (en) * 2009-05-15 2012-03-15 Koninklijke Philips Electronics N.V. Clinical decision support systems with external context
KR100989581B1 (ko) * 2010-04-28 2010-10-25 한국과학기술정보연구원 개체명 사전 및 마이닝 규칙이 결합된 온톨로지 스키마를 이용한 리소스 기술 프레임워크 네트워크 구축 장치 및 방법
KR20110132075A (ko) 2010-06-01 2011-12-07 금오공과대학교 산학협력단 바코드정보를 이용한 식품의 원재료 분석 시스템 및 방법
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN103186556B (zh) * 2011-12-28 2016-09-07 北京百度网讯科技有限公司 得到和搜索结构化语义知识的方法及对应装置
WO2014000764A1 (en) * 2012-06-25 2014-01-03 Qatar Foundation A system and method for automatic generation of a reference utility
JP2015533437A (ja) * 2012-10-19 2015-11-24 アピシオ,インク. 識別不能化および再識別を用いた医療情報解析のためのシステムおよび方法
US9922032B2 (en) * 2013-12-02 2018-03-20 Qbase, LLC Featured co-occurrence knowledge base from a corpus of documents
WO2015084757A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Systems and methods for processing data stored in a database
CN103631948B (zh) * 2013-12-11 2017-01-11 北京京东尚科信息技术有限公司 命名实体的识别方法
US9201930B1 (en) * 2014-05-06 2015-12-01 Snap-On Incorporated Methods and systems for providing an auto-generated repair-hint to a vehicle repair tool
CN105447609A (zh) * 2014-08-29 2016-03-30 国际商业机器公司 用于处理案例管理模型的方法、装置和系统
CN104239500B (zh) * 2014-09-10 2017-10-27 百度在线网络技术(北京)有限公司 保健食品关联知识库构建方法和装置
SG11201704150WA (en) * 2014-11-24 2017-06-29 Agency Science Tech & Res A method and system for sentiment classification and emotion classification
US9898455B2 (en) * 2014-12-01 2018-02-20 Nuance Communications, Inc. Natural language understanding cache
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法
CN105138631B (zh) * 2015-08-20 2019-10-11 小米科技有限责任公司 知识库的构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257530B2 (en) * 2002-02-27 2007-08-14 Hongfeng Yin Method and system of knowledge based search engine using text mining
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN104850554A (zh) * 2014-02-14 2015-08-19 北京搜狗科技发展有限公司 一种搜索方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017028422A1 (zh) * 2015-08-20 2017-02-23 小米科技有限责任公司 知识库的构建方法及装置
US10331648B2 (en) 2015-08-20 2019-06-25 Xiaomi Inc. Method, device and medium for knowledge base construction
CN107256226A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 一种知识库的构建方法及装置
CN107256226B (zh) * 2017-04-28 2018-10-30 北京神州泰岳软件股份有限公司 一种知识库的构建方法及装置
CN108304381A (zh) * 2018-01-25 2018-07-20 北京百度网讯科技有限公司 基于人工智能的实体建边方法、装置、设备及存储介质
CN108304381B (zh) * 2018-01-25 2021-09-21 北京百度网讯科技有限公司 基于人工智能的实体建边方法、装置、设备及存储介质
CN109766444A (zh) * 2018-12-10 2019-05-17 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置
CN109766444B (zh) * 2018-12-10 2021-02-23 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置

Also Published As

Publication number Publication date
MX2016004590A (es) 2017-05-04
EP3133504A3 (en) 2017-04-05
WO2017028422A1 (zh) 2017-02-23
CN105138631B (zh) 2019-10-11
US20170052995A1 (en) 2017-02-23
RU2638013C2 (ru) 2017-12-08
EP3133504A2 (en) 2017-02-22
US10331648B2 (en) 2019-06-25
RU2016113502A (ru) 2017-10-18
KR101757900B1 (ko) 2017-07-14
JP2017532704A (ja) 2017-11-02

Similar Documents

Publication Publication Date Title
CN105138631A (zh) 知识库的构建方法及装置
KR101707369B1 (ko) 이벤트 저장소의 구축 방법 및 장치
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
EP2947581A1 (en) Interactive searching method and apparatus
CN111666401A (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN103020295B (zh) 一种问题标签标注方法及装置
CN107180045A (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN110110322A (zh) 网络新词发现方法、装置、电子设备及存储介质
CN107341014A (zh) 电子设备、技术文档的生成方法及装置
JP2022003509A (ja) エンティティ関係マイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN110532567A (zh) 短语的提取方法、装置、电子设备及存储介质
CN113692597A (zh) 电子邮件内容修改系统
Thelwall et al. How important is computing technology for library and information science research?
CN112115313A (zh) 正则表达式的生成、数据提取方法、装置、设备及介质
CN111737449A (zh) 相似问题的确定方法和装置、存储介质及电子装置
JP2019121060A (ja) 生成プログラム、生成方法及び情報処理装置
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN104156458A (zh) 一种信息的提取方法及装置
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN111552576B (zh) 用于问答系统的插入和摄取框架
CN114625658A (zh) App稳定性测试方法、装置、设备和计算机可读存储介质
CN103793398A (zh) 检测垃圾数据的方法和装置
CN112749316A (zh) 翻译质量的确定方法、装置、存储介质和处理器
CN113656443B (zh) 数据拆解方法、装置、电子设备和存储介质
JP5366709B2 (ja) 情報処理装置、共通文字列出力方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant