CN108121722A - 知识库的构建方法及装置 - Google Patents

知识库的构建方法及装置 Download PDF

Info

Publication number
CN108121722A
CN108121722A CN201611071770.0A CN201611071770A CN108121722A CN 108121722 A CN108121722 A CN 108121722A CN 201611071770 A CN201611071770 A CN 201611071770A CN 108121722 A CN108121722 A CN 108121722A
Authority
CN
China
Prior art keywords
word
knowledge base
dictionary
rule
user view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611071770.0A
Other languages
English (en)
Inventor
吕骋
王谦
吴瑞红
张翔
刘辉
刘海铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Science And Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Science And Technology (beijing) Co Ltd filed Critical Science And Technology (beijing) Co Ltd
Priority to CN201611071770.0A priority Critical patent/CN108121722A/zh
Publication of CN108121722A publication Critical patent/CN108121722A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种知识库的构建方法及装置,其中,该方法包括:获取多个词;将多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,基础词典知识库包括多个用于保存不同类型词语的词典;根据意图规则知识库识别意图类别知识库中的用户意图,其中,意图规则知识库保存有识别用户意图的规则,意图类别知识库中保存有多个用户意图,用户意图是根据规则对基础词典知识库中的预定词语进行语义组合得到;根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则,解决了相关技术中现有知识库的构建合理度低的问题,提高了现有知识库的构建合理度。

Description

知识库的构建方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种知识库的构建方法及装置。
背景技术
随着互联网的发展,互联网中信息在急剧增长,现有互联网上具有海量的知识,数据量巨大,数据结构复杂,组织无序,不利于后续的应用或者使用,目前,对于领域知识库的构建多采用自动或半自动知识抽取方法,如:通过定制爬虫对百科类站点、垂直网站进行抓取,获取网页(WEB)详情页面的对象属性、表格等半结构化信息来构建领域知识库。
但是,这类通过抽取WEB详情页面的数据信息构建起来的领域知识库,只能对抓取的词汇进行简单的分类,在海量且无序的知识中无法更深层的区分抓取到的词汇表达的更具体的用户的需求,并且在现有的知识库中查询数据时,由于其结构并不合理,就导致了查询时需要花费更多的时间,时延较大。在利用现有的知识库为用户提供服务时,无法更加智能地识别出用户的真正意图以及无法及时对用户的指示进行响应,使得用户体验度降低。为了确保计算机应用可以与时俱进地理解并智能处理目标事物,构建和使用一个结构合理、内容丰富、语义准确且信息及时的知识库是非常有必要的。
针对相关技术中现有知识库的构建合理度低的问题,目前还没有有效地解决方案。
发明内容
本发明实施例提供了一种知识库的构建方法及装置,以至少解决相关技术中现有知识库的构建合理度低的问题。
根据本发明的一个实施例,提供了一种知识库的构建方法,包括:获取多个词;将所述多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,所述基础词典知识库包括多个用于保存不同类型词语的词典;根据意图规则知识库识别意图类别知识库中的用户意图,其中,所述意图规则知识库保存有识别用户意图的规则,所述意图类别知识库中保存有多个用户意图,所述用户意图是根据所述规则对所述基础词典知识库中的预定词语进行语义组合得到;根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,所述应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则。
可选地,所述基础词典知识库保存的词典包括以下至少之一:名词词典、动词词典、量词词典、版本词典,其中,所述版本词典用于指示所述名词词典中的名词对应的版本。
可选地,获取所述多个词包括:通过预先配置的渠道从网络上公开的内容中抓取信息和预设信息;对抓取到的信息进行分词处理得到所述多个词。
可选地,对所述信息进行分词处理得到所述多个词之后,所述方法还包括:对分词得到的词语进行标注,其中,所述标注用于指示以下至少之一:所述词语的来源、所述词语的类型。
可选地,在对分词得到的词语进行标注之后,所述方法还包括:根据所述词语的类型在基础词典知识库中对应的词典中获取与所述词语类型相同的词语;计算所述词语与所述类型相同的词语的相关度,其中,所述相关度用于指示所述词语与所述类型相同的词语的的相似程度;将所述相关度高于预设值的所述词语与所述类型相同的词语标记为同义词。
根据本发明的另一个实施例,提供了一种知识库的构建装置,包括:第一获取模块,用于获取多个词;处理模块,用于将所述多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,所述基础词典知识库包括多个用于保存不同类型词语的词典;识别模块,用于根据意图规则知识库识别意图类别知识库中的用户意图,其中,所述意图规则知识库保存有识别用户意图的规则,所述意图类别知识库中保存有多个用户意图,所述用户意图是根据所述规则对所述基础词典知识库中的预定词语进行语义组合得到;构建模块,用于根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,所述应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则。
可选地,所述基础词典知识库保存的词典包括以下至少之一:名词词典、动词词典、量词词典、版本词典,其中,所述版本词典用于指示所述名词词典中的名词对应的版本。
可选地,所述第一获取模块包括:抓取单元,用于通过预先配置的渠道从网络上公开的内容中抓取信息和预设信息;分词单元,用于对抓取到的信息进行分词处理得到所述多个词。
可选地,所述装置还包括:标注模块,用于对分词得到的词语进行标注,其中,所述标注用于指示以下至少之一:所述词语的来源、所述词语的类型。
可选地,所述装置还包括:第二获取模块,用于根据所述词语的类型在基础词典知识库中对应的词典中获取与所述词语类型相同的词语;计算模块,用于计算所述词语与所述类型相同的词语的相关度,其中,所述相关度用于指示所述词语与所述类型相同的词语的的相似程度;标记模块,用于将所述相关度高于预设值的所述词语与所述类型相同的词语标记为同义词。
通过本发明,获取多个词;将多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,基础词典知识库包括多个用于保存不同类型词语的词典;根据意图规则知识库识别意图类别知识库中的用户意图,其中,意图规则知识库保存有识别用户意图的规则,意图类别知识库中保存有多个用户意图,用户意图是根据规则对基础词典知识库中的预定词语进行语义组合得到;根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则,由此可见,采用上述方案将获取的多个词按照类型保存到基础词典知识库中,并根据意图规则知识库识别意图类别知识库中的用户意图,以及根据每个用户意图对应的应用和/或服务构建应用接口知识库,从而构建了基础词典知识库、意图规则知识库、意图类别知识库以及应用接口知识库,使得互联网上的海量知识能够被有序地组织在结构合理的知识库中,以便后续更加方便的调用,从而能够根据构建的知识库识别出用户想要表达的意图,以便为用户提供更精确的服务,因此,提高了现有知识库的构建合理度,从而解决了相关技术中现有知识库的构建合理度低的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种知识库的构建方法的流程图;
图2是根据本发明实施例的一种知识库的构建装置的结构框图一;
图3是根据本发明实施例的一种知识库的构建装置的结构框图二;
图4是根据本发明实施例的一种知识库的构建装置的结构框图三;
图5是根据本发明实施例的一种知识库的构建装置的结构框图四。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
在本实施例中提供了一种知识库的构建方法,图1是根据本发明实施例的一种知识库的构建方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,获取多个词;
步骤S104,将多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,基础词典知识库包括多个用于保存不同类型词语的词典;
步骤S106,根据意图规则知识库识别意图类别知识库中的用户意图,其中,意图规则知识库保存有识别用户意图的规则,意图类别知识库中保存有多个用户意图,用户意图是根据规则对基础词典知识库中的预定词语进行语义组合得到;
步骤S108,根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则。
可选地,上述知识库的构建方法可以但不限于应用于构建知识库的场景中。例如:构建用于为用户提供查询服务的知识库的场景等等。
可选地,上述知识库的构建方法可以但不限于应用于服务器侧。
通过上述步骤,获取多个词;将多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,基础词典知识库包括多个用于保存不同类型词语的词典;根据意图规则知识库识别意图类别知识库中的用户意图,其中,意图规则知识库保存有识别用户意图的规则,意图类别知识库中保存有多个用户意图,用户意图是根据规则对基础词典知识库中的预定词语进行语义组合得到;根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则,由此可见,采用上述方案将获取的多个词按照类型保存到基础词典知识库中,并根据意图规则知识库识别意图类别知识库中的用户意图,以及根据每个用户意图对应的应用和/或服务构建应用接口知识库,从而构建了基础词典知识库、意图规则知识库、意图类别知识库以及应用接口知识库,使得互联网上的海量知识能够被有序地组织在结构合理的知识库中,以便后续更加方便的调用,从而能够根据构建的知识库识别出用户想要表达的意图,以便为用户提供更精确的服务,因此,提高了现有知识库的构建合理度,从而解决了相关技术中现有知识库的构建合理度低的问题。
可选地,上述基础词典知识库保存的词典包括以下至少之一:名词词典、动词词典、量词词典、版本词典,其中,版本词典用于指示名词词典中的名词对应的版本。
在一个示例中,将知识库构建为四个知识库,包括:基础词典知识库、意图类别知识库、意图规则知识库、应用接口知识库。
基础词典知识库是整个知识库的基础模块,包括多种类型的基础词典,例如:名词类词典(如电影名、电视剧名称、歌曲名、歌手名、APP名称等),动词类词典(如视频播放动作、打车类动作、阅读类动作、APP操作类动作等)、量词类词典(如视频量词、电视剧量词、音乐量词等)、版本类词典(电影版本、电视剧版本、音乐版本等)等多种类型的词典。
意图类别知识库用于对用户意图进行分类,包括:听音乐类意图、播放电视剧类意图、播放电影意图、打车类意图、吃饭类意图、买东西意图等。
意图规则知识库,用于意图分类,每个意图类别下对应N条常见的规则,如匹配听音乐类意图的规则:“歌手,歌曲”规则,播放电视剧类意图的规则:“视频播放动作,电视剧名称”规则等。
根据应用服务传输数据要求,每个意图类别下设计不同的SLOT,形成应用接口知识库。如音乐类接口SLOT知识库包括:<artist,<歌手>>,<song,<歌曲、儿歌、最新流行个词库>>,<album,<专辑>>等。
可选地,在上述步骤S102中,可以但不限于对信息进行抓取,将抓取到的信息拆分成多个词。例如:通过预先配置的渠道从网络上公开的内容中抓取信息和预设信息,对抓取到的信息进行分词处理得到多个词。其中,上述预设信息可以是人工进行归纳整理的信息等等。
可选地,在对信息进行分词处理得到多个词之后,可以但不限于对得到的词语进行标注,从而区分出词语的来源和类型。例如:对分词得到的词语进行标注,其中,标注用于指示以下至少之一:词语的来源、词语的类型。
可选地,在对分词得到的词语进行标注之后,可以将基础词典知识库中与分词得到的词语语义相近的词标记为同义词。例如:根据词语的类型在基础词典知识库中对应的词典中获取与词语类型相同的词语,计算词语与类型相同的词语的相关度,其中,相关度用于指示词语与类型相同的词语的的相似程度,将相关度高于预设值的词语与类型相同的词语标记为同义词。
实施例2
在本实施例中还提供了一种知识库的构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的一种知识库的构建装置的结构框图一,如图2所示,该装置包括:
第一获取模块22,用于获取多个词;
处理模块24,耦合至第一获取模块22,用于将多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,基础词典知识库包括多个用于保存不同类型词语的词典;
识别模块26,耦合至处理模块24,用于根据意图规则知识库识别意图类别知识库中的用户意图,其中,意图规则知识库保存有识别用户意图的规则,意图类别知识库中保存有多个用户意图,用户意图是根据规则对基础词典知识库中的预定词语进行语义组合得到;
构建模块28,耦合至识别模块26,用于根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则。
可选地,上述知识库的构建装置可以但不限于应用于构建知识库的场景中。例如:构建用于为用户提供查询服务的知识库的场景等等。
可选地,上述知识库的构建装置可以但不限于应用于服务器侧。
通过上述装置,第一获取模块获取多个词;处理模块将多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,基础词典知识库包括多个用于保存不同类型词语的词典;识别模块根据意图规则知识库识别意图类别知识库中的用户意图,其中,意图规则知识库保存有识别用户意图的规则,意图类别知识库中保存有多个用户意图,用户意图是根据规则对基础词典知识库中的预定词语进行语义组合得到;构建模块根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则,由此可见,采用上述方案将获取的多个词按照类型保存到基础词典知识库中,并根据意图规则知识库识别意图类别知识库中的用户意图,以及根据每个用户意图对应的应用和/或服务构建应用接口知识库,从而构建了基础词典知识库、意图规则知识库、意图类别知识库以及应用接口知识库,使得互联网上的海量知识能够被有序地组织在结构合理的知识库中,以便后续更加方便的调用,从而能够根据构建的知识库识别出用户想要表达的意图,以便为用户提供更精确的服务,因此,提高了现有知识库的构建合理度,从而解决了相关技术中现有知识库的构建合理度低的问题。
可选地,上述基础词典知识库保存的词典包括以下至少之一:名词词典、动词词典、量词词典、版本词典,其中,版本词典用于指示名词词典中的名词对应的版本。
图3是根据本发明实施例的一种知识库的构建装置的结构框图二,如图3所示,可选地,上述第一获取模块22包括:
抓取单元32,用于通过预先配置的渠道从网络上公开的内容中抓取信息和预设信息;
分词单元34,耦合至抓取单元32,用于对抓取到的信息进行分词处理得到多个词。
图4是根据本发明实施例的一种知识库的构建装置的结构框图三,如图4所示,可选地,上述装置还包括:
标注模块42,耦合至第一获取模块22,用于对分词得到的词语进行标注,其中,标注用于指示以下至少之一:词语的来源、词语的类型。
图5是根据本发明实施例的一种知识库的构建装置的结构框图四,如图5所示,可选地,上述装置还包括:
第二获取模块52,耦合至标注模块42,用于根据词语的类型在基础词典知识库中对应的词典中获取与词语类型相同的词语;
计算模块54,耦合至第二获取模块52,用于计算词语与类型相同的词语的相关度,其中,相关度用于指示词语与类型相同的词语的的相似程度;
标记模块56,耦合至计算模块54,用于将相关度高于预设值的词语与类型相同的词语标记为同义词。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述模块分别位于多个处理器中。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。
实施例3
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,获取多个词;
S2,将多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,基础词典知识库包括多个用于保存不同类型词语的词典;
S3,根据意图规则知识库识别意图类别知识库中的用户意图,其中,意图规则知识库保存有识别用户意图的规则,意图类别知识库中保存有多个用户意图,用户意图是根据规则对基础词典知识库中的预定词语进行语义组合得到;
S4,根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行上述实施例记载的方法步骤。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种知识库的构建方法,其特征在于,包括:
获取多个词;
将所述多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,所述基础词典知识库包括多个用于保存不同类型词语的词典;
根据意图规则知识库识别意图类别知识库中的用户意图,其中,所述意图规则知识库保存有识别用户意图的规则,所述意图类别知识库中保存有多个用户意图,所述用户意图是根据所述规则对所述基础词典知识库中的预定词语进行语义组合得到;
根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,所述应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则。
2.根据权利要求1所述的方法,其特征在于,所述基础词典知识库保存的词典包括以下至少之一:名词词典、动词词典、量词词典、版本词典,其中,所述版本词典用于指示所述名词词典中的名词对应的版本。
3.根据权利要求1所述的方法,其特征在于,获取所述多个词包括:
通过预先配置的渠道从网络上公开的内容中抓取信息和预设信息;
对抓取到的信息进行分词处理得到所述多个词。
4.根据权利要求3所述的方法,其特征在于,对所述信息进行分词处理得到所述多个词之后,所述方法还包括:
对分词得到的词语进行标注,其中,所述标注用于指示以下至少之一:所述词语的来源、所述词语的类型。
5.根据权利要求4所述的方法,其特征在于,在对分词得到的词语进行标注之后,所述方法还包括:
根据所述词语的类型在基础词典知识库中对应的词典中获取与所述词语类型相同的词语;
计算所述词语与所述类型相同的词语的相关度,其中,所述相关度用于指示所述词语与所述类型相同的词语的的相似程度;
将所述相关度高于预设值的所述词语与所述类型相同的词语标记为同义词。
6.一种知识库的构建装置,其特征在于,包括:
第一获取模块,用于获取多个词;
处理模块,用于将所述多个词进行分类并分别保存在基础词典知识库中对应的词典中,其中,所述基础词典知识库包括多个用于保存不同类型词语的词典;
识别模块,用于根据意图规则知识库识别意图类别知识库中的用户意图,其中,所述意图规则知识库保存有识别用户意图的规则,所述意图类别知识库中保存有多个用户意图,所述用户意图是根据所述规则对所述基础词典知识库中的预定词语进行语义组合得到;
构建模块,用于根据每个用户意图对应的应用和/或服务构建应用接口知识库,其中,所述应用接口知识库中保存有用户意图对应的应用和/或服务的参数传递规则。
7.根据权利要求6所述的装置,其特征在于,所述基础词典知识库保存的词典包括以下至少之一:名词词典、动词词典、量词词典、版本词典,其中,所述版本词典用于指示所述名词词典中的名词对应的版本。
8.根据权利要求6所述的装置,其特征在于,所述第一获取模块包括:
抓取单元,用于通过预先配置的渠道从网络上公开的内容中抓取信息和预设信息;
分词单元,用于对抓取到的信息进行分词处理得到所述多个词。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
标注模块,用于对分词得到的词语进行标注,其中,所述标注用于指示以下至少之一:所述词语的来源、所述词语的类型。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于根据所述词语的类型在基础词典知识库中对应的词典中获取与所述词语类型相同的词语;
计算模块,用于计算所述词语与所述类型相同的词语的相关度,其中,所述相关度用于指示所述词语与所述类型相同的词语的的相似程度;
标记模块,用于将所述相关度高于预设值的所述词语与所述类型相同的词语标记为同义词。
CN201611071770.0A 2016-11-28 2016-11-28 知识库的构建方法及装置 Pending CN108121722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611071770.0A CN108121722A (zh) 2016-11-28 2016-11-28 知识库的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611071770.0A CN108121722A (zh) 2016-11-28 2016-11-28 知识库的构建方法及装置

Publications (1)

Publication Number Publication Date
CN108121722A true CN108121722A (zh) 2018-06-05

Family

ID=62224655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611071770.0A Pending CN108121722A (zh) 2016-11-28 2016-11-28 知识库的构建方法及装置

Country Status (1)

Country Link
CN (1) CN108121722A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109524017A (zh) * 2018-11-27 2019-03-26 北京分音塔科技有限公司 一种用户自定义词的语音识别增强方法和装置
CN111062211A (zh) * 2019-12-27 2020-04-24 中国联合网络通信集团有限公司 信息提取方法、装置、电子设备及存储介质
CN111966689A (zh) * 2020-08-19 2020-11-20 中国银行股份有限公司 应用知识库构建方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286977B1 (en) * 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN102955697A (zh) * 2012-11-08 2013-03-06 沈阳建筑大学 基于面向方面的构件库构建方法
CN103646025A (zh) * 2013-10-24 2014-03-19 三星电子(中国)研发中心 一种基于推理的层级知识库构建系统和方法
CN104240700A (zh) * 2014-08-26 2014-12-24 智歌科技(北京)有限公司 一种面向车载终端设备的全局语音交互方法及系统
CN104462064A (zh) * 2014-12-15 2015-03-25 陈包容 一种移动终端信息通讯提示输入内容的方法和系统
CN104484411A (zh) * 2014-12-16 2015-04-01 中国科学院自动化研究所 一种基于词典的语义知识库的构建方法
CN104750795A (zh) * 2015-03-12 2015-07-01 北京云知声信息技术有限公司 一种智能语义检索系统和方法
CN105354180A (zh) * 2015-08-26 2016-02-24 欧阳江 一种实现开放式语义交互服务的方法及系统
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286977B1 (en) * 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN102955697A (zh) * 2012-11-08 2013-03-06 沈阳建筑大学 基于面向方面的构件库构建方法
CN103646025A (zh) * 2013-10-24 2014-03-19 三星电子(中国)研发中心 一种基于推理的层级知识库构建系统和方法
CN104240700A (zh) * 2014-08-26 2014-12-24 智歌科技(北京)有限公司 一种面向车载终端设备的全局语音交互方法及系统
CN104462064A (zh) * 2014-12-15 2015-03-25 陈包容 一种移动终端信息通讯提示输入内容的方法和系统
CN104484411A (zh) * 2014-12-16 2015-04-01 中国科学院自动化研究所 一种基于词典的语义知识库的构建方法
CN104750795A (zh) * 2015-03-12 2015-07-01 北京云知声信息技术有限公司 一种智能语义检索系统和方法
CN105354180A (zh) * 2015-08-26 2016-02-24 欧阳江 一种实现开放式语义交互服务的方法及系统
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109524017A (zh) * 2018-11-27 2019-03-26 北京分音塔科技有限公司 一种用户自定义词的语音识别增强方法和装置
CN111062211A (zh) * 2019-12-27 2020-04-24 中国联合网络通信集团有限公司 信息提取方法、装置、电子设备及存储介质
CN111966689A (zh) * 2020-08-19 2020-11-20 中国银行股份有限公司 应用知识库构建方法及装置
CN111966689B (zh) * 2020-08-19 2023-09-19 中国银行股份有限公司 应用知识库构建方法及装置

Similar Documents

Publication Publication Date Title
CN112015949B (zh) 视频生成方法和装置、存储介质及电子设备
CN102799684B (zh) 一种视音频文件编目标引、元数据存储索引与搜索方法
CN104063683B (zh) 一种基于人脸识别的表情输入方法和装置
CN102663015B (zh) 基于特征袋模型和监督学习的视频语义标注方法
CN107609186A (zh) 信息处理方法及装置、终端设备及计算机可读存储介质
US9606975B2 (en) Apparatus and method for automatically generating visual annotation based on visual language
AU2014304803A1 (en) Systems and methods for image classification by correlating contextual cues with images
CN110399515A (zh) 图片检索方法、装置及图片检索系统
CN109783624A (zh) 基于知识库的答案生成方法、装置和智能会话系统
CN110489649B (zh) 标签关联内容的方法及装置
CN106354860A (zh) 基于标签集的信息资源自动贴标签并自动推送的方法
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN108121722A (zh) 知识库的构建方法及装置
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN102682082A (zh) 基于内容结构特征的网络Flash搜索系统及搜索方法
Hong et al. Understanding blooming human groups in social networks
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN106021234A (zh) 标签提取方法及系统
CN112270579A (zh) 一种基于大数据的智能广告系统
CN108875743A (zh) 一种文本识别方法及装置
CN108121721A (zh) 意图识别方法及装置
CN110162793A (zh) 一种命名实体的识别方法及相关设备
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
WO2013064722A1 (en) Method and apparatus for querying media based on media characteristics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190220

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

Address before: Block 508, Block D, Overseas Chinese Fufang Grassland, No. 9 Dongdaqiao Road, Chaoyang District, Beijing 100020

Applicant before: Raven Technology (Beijing) Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210508

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180605

RJ01 Rejection of invention patent application after publication