CN106649661A - 知识库构建方法和装置 - Google Patents

知识库构建方法和装置 Download PDF

Info

Publication number
CN106649661A
CN106649661A CN201611147656.1A CN201611147656A CN106649661A CN 106649661 A CN106649661 A CN 106649661A CN 201611147656 A CN201611147656 A CN 201611147656A CN 106649661 A CN106649661 A CN 106649661A
Authority
CN
China
Prior art keywords
word
field
field concept
participle
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611147656.1A
Other languages
English (en)
Inventor
程力
王云
仇瑜
王润生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tax Cloud Network Technology Services Ltd
Original Assignee
Tax Cloud Network Technology Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tax Cloud Network Technology Services Ltd filed Critical Tax Cloud Network Technology Services Ltd
Priority to CN201611147656.1A priority Critical patent/CN106649661A/zh
Publication of CN106649661A publication Critical patent/CN106649661A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请公开了知识库构建方法和装置。所述方法的一具体实施方式包括:获取原始文本信息;将上述原始文本信息进行分词处理,得到至少一个分词;基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词;通过预先设定的关系信息格式从上述原始文本信息中获取上述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;使用本体描述语言对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。该实施方式实现了知识库快速、高效的构建。

Description

知识库构建方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及信息表示和存储技术领域,尤其涉及知识库构建方法和装置。
背景技术
知识库是知识工程中重中之重结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
目前,知识库可以通过手工搭建的方式完成,手工搭建需要领域专家借助编辑工具手动完成,开发成本高,周期长,且搭建完成的知识库覆盖的内容有限。
发明内容
本申请的目的在于提出一种知识库构建方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种知识库构建方法,上述方法包括:获取原始文本信息;将上述原始文本信息进行分词处理,得到至少一个分词;基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词;通过预先设定的关系信息格式从上述原始文本信息中获取上述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;使用本体描述语言对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
在一些实施例中,上述原始文本信息包括互联网数据;以及上述获取原始文本信息,包括:采用网络爬虫技术从互联网获取预设领域的互联网数据作为原始文本信息。
在一些实施例中,上述预设领域为财税领域;以及上述互联网数据包括以下至少一项:财税领域法律法规、财税领域的案例、财税新闻。
在一些实施例中,上述领域概念词集合中包括的领域概念词通过以下方式设定:对预先设定的、用于提取领域概念词的目标文本进行分词处理,得到上述目标文本的至少一个分词;使用词频-逆向文件频率方法计算上述目标文本的至少一个分词的词频-逆向文件频率值,并根据词频-逆向文件频率值得到至少一个候选词串;对于上述至少一个候选词串中的每个候选词串,执行以下步骤:计算该候选词串所包含词的互信息与该候选词串词频-逆向文件频率值的乘积;确定计算得到的乘积超过预先设定的阈值;将该候选字串作为识别出的领域概念词放入领域概念词集合中。
在一些实施例中,上述领域概念词识别模型通过以下方式训练得到:将上述领域概念词集合中的领域概念词中的字按位置进行标注,得到上述领域概念词集合中的各领域概念词的词位特征信息;将上述领域概念词集合中的各领域概念词的词位特征信息作为条件随机场模型的训练样本,训练得到领域概念词识别模型。
在一些实施例中,上述基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词,包括:对于上述至少一个分词中的各个分词,执行以下步骤:将该分词中的字按位置进行标注,得到该分词的词位特征信息;使用上述领域概念词识别模型对该分词的词位特征信息进行识别,从而确定该分词是否为领域概念词。
在一些实施例中,上述基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词,包括:将上述至少一个分词与上述领域概念词集合中的领域概念词进行匹配;根据匹配结果从上述至少一个分词中得到至少一个领域概念词。
第二方面,本申请提供了一种知识库构建装置,上述装置包括:第一获取单元,用于获取原始文本信息;分词单元,用于将上述原始文本信息进行分词处理,得到至少一个分词;第二获取单元,用于基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词;第三获取单元,用于通过预先设定的关系信息格式从上述原始文本信息中获取上述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;编码单元,用于使用本体描述语言对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
在一些实施例中,上述原始文本信息包括互联网数据;以及上述第一获取单元进一步用于:采用网络爬虫技术从互联网获取预设领域的互联网数据作为原始文本信息。
在一些实施例中,上述预设领域为财税领域;以及上述互联网数据包括以下至少一项:财税领域法律法规、财税领域的案例、财税新闻。
在一些实施例中,上述领域概念词集合中包括的领域概念词通过以下方式设定:对预先设定的、用于提取领域概念词的目标文本进行分词处理,得到上述目标文本的至少一个分词;使用词频-逆向文件频率方法计算上述目标文本的至少一个分词的词频-逆向文件频率值,并根据词频-逆向文件频率值得到至少一个候选词串;对于上述至少一个候选词串中的每个候选词串,执行以下步骤:计算该候选词串所包含词的互信息与该候选词串词频-逆向文件频率值的乘积;确定计算得到的乘积超过预先设定的阈值;将该候选字串作为识别出的领域概念词放入领域概念词集合中。
在一些实施例中,上述领域概念词识别模型通过以下方式训练得到:将上述领域概念词集合中的领域概念词中的字按位置进行标注,得到上述领域概念词集合中的各领域概念词的词位特征信息;将上述领域概念词集合中的各领域概念词的词位特征信息作为条件随机场模型的训练样本,训练得到领域概念词识别模型。
在一些实施例中,上述第二获取单元进一步用于:对于上述至少一个分词中的各个分词,执行以下步骤:将该分词中的字按位置进行标注,得到该分词的词位特征信息;使用上述领域概念词识别模型对该分词的词位特征信息进行识别,从而确定该分词是否为领域概念词。
在一些实施例中,上述第二获取单元进一步用于:将上述至少一个分词与上述领域概念词集合中的领域概念词进行匹配;根据匹配结果从上述至少一个分词中得到至少一个领域概念词。
本申请提供的知识库构建方法和装置,将原始文本信息进行分词处理得到至少一个分词,而后基于领域概念词集合和/或领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词,之后,获取上述至少一个领域概念词之间的关系信息,最后使用本体描述语言对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库,从而快速、高效的完成了知识库的构建。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的知识库构建方法的一个实施例的流程图;
图3是根据本申请的知识库构建方法得到的财税领域本体知识库结构片段的示意图;
图4是根据本申请的知识库构建装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的知识库构建方法或知识库构建装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、智能数据库应用、智能决策系统等。
终端设备101、102、103可以是具有显示屏并且支持信息处理的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的信息提供支持的后台服务器。后台服务器可以从互联网获取文本信息,并将获取的文本信息发送给终端设备101、102、103;后台服务器还可以将从互联网获取的文本信息进行各种处理后,将处理结果发送到终端设备101、102、103。
需要说明的是,本申请实施例所提供的知识库构建方法可以由服务器105单独执行,也可以由终端设备101、102、103和服务器105共同执行,还可以由终端设备101、102、103单独执行。相应地,知识库构建装置可以设置于终端设备101、102、103中,也可以将知识库构建装置设置于服务器105中,还可以将知识库构建装置的部分单元设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的知识库构建方法的一个实施例的流程200。所述的知识库构建方法,包括以下步骤:
步骤201,获取原始文本信息。
在本实施例中,知识库构建方法运行于其上的电子设备可以预先从本地或者远程获取原始文本信息,例如,当上述电子设备为终端设备时可以从本地和/或互联网获取原始文本信息,当上述电子设备为服务器时可以从终端和/或本地获取原始文本信息,上述原始文本信息可以是用于生成知识库的各种信息。例如,上述原始文本信息可以是领域专家收集整理的信息,比如,领域专家收集的电子文档、表格、语音、图片等等,应该理解,当领域专家收集的信息为非文本信息时,可以采用现有技术将非文本信息转化为文本信息;上述原始文本信息还可以是从互联网上获取的领域相关信息。
在本实施例的一些可选的实现方式中,上述原始文本信息可以包括互联网数据;以及步骤201可以具体包括:采用网络爬虫技术从互联网获取预设领域的互联网数据作为原始文本信息。
在一些可选的实现方式中,上述预设领域可以为财税领域;以及上述互联网数据可以包括以下至少一项:财税领域法律法规,例如,政府或机构发布的财税法规政策(如,中央财政法规、国际会计准则、审计法规、中央税收法规、工商法规等等);财税领域的案例,例如财税领域典型案例及热点事件等等;财税新闻,例如,各大财税网站发布的与财税领域相关的各种新闻。
步骤202,将原始文本信息进行分词处理,得到至少一个分词。
在本实施例中,上述电子设备可以采用各种手段(例如采用现有的分词工具、分词算法等)将步骤201获取的原始文本信息进行分词处理,从而得到至少一个分词。
步骤203,基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从至少一个分词中得到至少一个领域概念词。
在本实施例中,上述电子设备可以使用预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中识别出领域概念词。
在本实施例的一些可选的实现方式中,上述领域概念词集合中包括的领域概念词可以通过以下方式设定:首先,可以对预先设定的、用于提取领域概念词的目标文本进行分词处理,得到上述目标文本的至少一个分词,在这里,上述目标文件可以是预先选取的文本文件,例如,当预设领域为财税领域时,目标文件可以是财税领域的法规文本;其次,可以使用词频-逆向文件频率方法(Term Frequency-Inverse Document Frequency,TF-IDF)计算上述目标文本的至少一个分词的词频-逆向文件频率值(TF-IDF值),并可以根据词频-逆向文件频率值得到至少一个候选词串,例如,可以将词频-逆向文件频率值超过预先设定的TF-IDF阈值的分词作为候选词串;最后,对于上述至少一个候选词串中的每个候选词串,执行以下步骤:计算该候选词串所包含词的互信息与该候选词串词频-逆向文件频率值的乘积;确定计算得到的乘积超过预先设定的阈值;将该候选字串作为识别出的领域概念词放入领域概念词集合中。
在本实施例的一些可选的实现方式中,上述领域概念词识别模型可以通过以下方式训练得到:上述电子设备或者其他用于训练领域概念词识别模型的电子设备,首先,可以将上述领域概念词集合中的领域概念词中的字按位置进行标注,得到上述领域概念词集合中的各领域概念词的词位特征信息,例如,可以将字在领域概念词中的位置分为B、M、E、S四类,B表示字在领域概念词的首位,M表示字在领域概念词的中间位置,E表示字在领域概念词的末尾,S表示该字可以独立构成一个词,则领域概念词的词位特征信息C可以表示为C=c1,c2,…ci…,cn,其中,ci∈{B,M,E,S}(1≤i≤n),n表示领域概念词包含的字数;然后,可以将上述领域概念词集合中的各领域概念词的词位特征信息作为条件随机场模型(conditional random field,CRF)的训练样本,训练得到领域概念词识别模型。
在本实施例的一些可选的实现方式中,步骤203可以具体包括:对于上述至少一个分词中的各个分词,执行以下步骤:将该分词中的字按位置进行标注,得到该分词的词位特征信息;使用上述领域概念词识别模型对该分词的词位特征信息进行识别,从而确定该分词是否为领域概念词。
在本实施例的一些可选的实现方式中,步骤203可以具体包括:首先,将上述至少一个分词与上述领域概念词集合中的领域概念词进行匹配;然后,根据匹配结果从上述至少一个分词中得到至少一个领域概念词,例如,可以将上述至少一个分词中的、与上述领域概念词集合中的领域概念词相匹配的分词作为得到的领域概念词。
步骤204,通过预先设定的关系信息格式从原始文本信息中获取至少一个领域概念词之间的关系信息。
在本实施例中,上述电子设备可以通过预先设定的关系信息格式从上述原始文本信息中获取上述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系。关系信息格式可以是用于表征领域概念词之间关系的格式,例如,关系信息格式{NP包括NP、NP、NP,NP…和NP}(其中,NP表示领域概念词)可以是一种表征领域概念词之间从属关系的格式。关系信息格式可以是通过对选取的、包含待获取关系信息格式的句子进行信息抽取得到的,例如,对选取的句子“个人所得包括工资、奖金、劳动分红和津贴”进行信息抽取可以得到关系信息格式{NP包括NP、NP、NP,NP…和NP}(其中,NP表示领域概念词)。
步骤205,使用本体描述语言对至少一个领域概念词以及至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
在本实施例中,上述电子设备可以使用本体描述语言,例如OWL(Ontology WebLanguage,本体网络语言),按照预先定义的本体结构对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库,作为示例,图3示出了财税领域本体知识库结构的一个小片段。
本申请的上述实施例提供的方法首先基于领域概念词集合和/或领域概念词识别模型得到原始文本信息中的至少一个领域概念词,之后获取得到的至少一个领域概念词之间的关系信息,最后基于至少一个领域概念词以及至少一个领域概念词之间的关系信息得到本体知识库,实现了领域概念词以及领域概念词之间关系信息的自动获取,从而快速、高效的完成了知识库的构建,相比于手工搭建知识库,使用本实施例方法构建知识库开发成本低,周期短,且构建完成的知识库覆盖面广。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种知识库构建装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的知识库构建装置400包括:第一获取单元401、分词单元402、第二获取单元403、第三获取单元404和编码单元405。其中,第一获取单元401用于获取原始文本信息;分词单元402用于将上述原始文本信息进行分词处理,得到至少一个分词;第二获取单元403用于基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词;第三获取单元404用于通过预先设定的关系信息格式从上述原始文本信息中获取上述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;编码单元405用于使用本体描述语言对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
在本实施例中,第一获取单元401、分词单元402、第二获取单元403、第三获取单元404和编码单元405的具体处理可以参考图2对应实施例步骤201、步骤202、步骤203、步骤204和步骤205的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述原始文本信息包括互联网数据;以及上述第一获取单元401进一步用于:采用网络爬虫技术从互联网获取预设领域的互联网数据作为原始文本信息。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述预设领域为财税领域;以及上述互联网数据包括以下至少一项:财税领域法律法规、财税领域的案例、财税新闻。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述领域概念词集合中包括的领域概念词通过以下方式设定:对预先设定的、用于提取领域概念词的目标文本进行分词处理,得到上述目标文本的至少一个分词;使用词频-逆向文件频率方法计算上述目标文本的至少一个分词的词频-逆向文件频率值,并根据词频-逆向文件频率值得到至少一个候选词串;对于上述至少一个候选词串中的每个候选词串,执行以下步骤:计算该候选词串所包含词的互信息与该候选词串词频-逆向文件频率值的乘积;确定计算得到的乘积超过预先设定的阈值;将该候选字串作为识别出的领域概念词放入领域概念词集合中。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述领域概念词识别模型通过以下方式训练得到:将上述领域概念词集合中的领域概念词中的字按位置进行标注,得到上述领域概念词集合中的各领域概念词的词位特征信息;将上述领域概念词集合中的各领域概念词的词位特征信息作为条件随机场模型的训练样本,训练得到领域概念词识别模型。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述第二获取单元403进一步用于:对于上述至少一个分词中的各个分词,执行以下步骤:将该分词中的字按位置进行标注,得到该分词的词位特征信息;使用上述领域概念词识别模型对该分词的词位特征信息进行识别,从而确定该分词是否为领域概念词。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述第二获取单元403进一步用于:将上述至少一个分词与上述领域概念词集合中的领域概念词进行匹配;根据匹配结果从上述至少一个分词中得到至少一个领域概念词。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的
程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、分词单元、第二获取单元、第三获取单元和编码单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取原始文本信息的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取原始文本信息;将上述原始文本信息进行分词处理,得到至少一个分词;基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词;通过预先设定的关系信息格式从上述原始文本信息中获取上述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;使用本体描述语言对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种知识库构建方法,其特征在于,所述方法包括:
获取原始文本信息;
将所述原始文本信息进行分词处理,得到至少一个分词;
基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从所述至少一个分词中得到至少一个领域概念词;
通过预先设定的关系信息格式从所述原始文本信息中获取所述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;
使用本体描述语言对所述至少一个领域概念词以及所述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
2.根据权利要求1所述的方法,其特征在于,所述原始文本信息包括互联网数据;以及
所述获取原始文本信息,包括:
采用网络爬虫技术从互联网获取预设领域的互联网数据作为原始文本信息。
3.根据权利要求2所述的方法,其特征在于,所述预设领域为财税领域;以及所述互联网数据包括以下至少一项:
财税领域法律法规、财税领域的案例、财税新闻。
4.根据权利要求1所述的方法,其特征在于,所述领域概念词集合中包括的领域概念词通过以下方式设定:
对预先设定的、用于提取领域概念词的目标文本进行分词处理,得到所述目标文本的至少一个分词;
使用词频-逆向文件频率方法计算所述目标文本的至少一个分词的词频-逆向文件频率值,并根据词频-逆向文件频率值得到至少一个候选词串;
对于所述至少一个候选词串中的每个候选词串,执行以下步骤:计算该候选词串所包含词的互信息与该候选词串词频-逆向文件频率值的乘积;确定计算得到的乘积超过预先设定的阈值;将该候选字串作为识别出的领域概念词放入领域概念词集合中。
5.根据权利要求1所述的方法,其特征在于,所述领域概念词识别模型通过以下方式训练得到:
将所述领域概念词集合中的领域概念词中的字按位置进行标注,得到所述领域概念词集合中的各领域概念词的词位特征信息;
将所述领域概念词集合中的各领域概念词的词位特征信息作为条件随机场模型的训练样本,训练得到领域概念词识别模型。
6.根据权利要求5所述的方法,其特征在于,所述基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从所述至少一个分词中得到至少一个领域概念词,包括:
对于所述至少一个分词中的各个分词,执行以下步骤:将该分词中的字按位置进行标注,得到该分词的词位特征信息;使用所述领域概念词识别模型对该分词的词位特征信息进行识别,从而确定该分词是否为领域概念词。
7.根据权利要求1所述的方法,其特征在于,所述基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从所述至少一个分词中得到至少一个领域概念词,包括:
将所述至少一个分词与所述领域概念词集合中的领域概念词进行匹配;
根据匹配结果从所述至少一个分词中得到至少一个领域概念词。
8.一种知识库构建装置,其特征在于,所述装置包括:
第一获取单元,用于获取原始文本信息;
分词单元,用于将所述原始文本信息进行分词处理,得到至少一个分词;
第二获取单元,用于基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从所述至少一个分词中得到至少一个领域概念词;
第三获取单元,用于通过预先设定的关系信息格式从所述原始文本信息中获取所述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;
编码单元,用于使用本体描述语言对所述至少一个领域概念词以及所述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
9.根据权利要求8所述的装置,其特征在于,所述原始文本信息包括互联网数据;以及所述第一获取单元进一步用于:
采用网络爬虫技术从互联网获取预设领域的互联网数据作为原始文本信息。
10.根据权利要求9所述的装置,其特征在于,所述预设领域为财税领域;以及所述互联网数据包括以下至少一项:
财税领域法律法规、财税领域的案例、财税新闻。
11.根据权利要求8所述的装置,其特征在于,所述领域概念词集合中包括的领域概念词通过以下方式设定:
对预先设定的、用于提取领域概念词的目标文本进行分词处理,得到所述目标文本的至少一个分词;
使用词频-逆向文件频率方法计算所述目标文本的至少一个分词的词频-逆向文件频率值,并根据词频-逆向文件频率值得到至少一个候选词串;
对于所述至少一个候选词串中的每个候选词串,执行以下步骤:计算该候选词串所包含词的互信息与该候选词串词频-逆向文件频率值的乘积;确定计算得到的乘积超过预先设定的阈值;将该候选字串作为识别出的领域概念词放入领域概念词集合中。
12.根据权利要求8所述的装置,其特征在于,所述领域概念词识别模型通过以下方式训练得到:
将所述领域概念词集合中的领域概念词中的字按位置进行标注,得到所述领域概念词集合中的各领域概念词的词位特征信息;
将所述领域概念词集合中的各领域概念词的词位特征信息作为条件随机场模型的训练样本,训练得到领域概念词识别模型。
13.根据权利要求12所述的装置,其特征在于,所述第二获取单元进一步用于:
对于所述至少一个分词中的各个分词,执行以下步骤:将该分词中的字按位置进行标注,得到该分词的词位特征信息;使用所述领域概念词识别模型对该分词的词位特征信息进行识别,从而确定该分词是否为领域概念词。
14.根据权利要求8所述的装置,其特征在于,所述第二获取单元进一步用于:
将所述至少一个分词与所述领域概念词集合中的领域概念词进行匹配;
根据匹配结果从所述至少一个分词中得到至少一个领域概念词。
CN201611147656.1A 2016-12-13 2016-12-13 知识库构建方法和装置 Pending CN106649661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611147656.1A CN106649661A (zh) 2016-12-13 2016-12-13 知识库构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611147656.1A CN106649661A (zh) 2016-12-13 2016-12-13 知识库构建方法和装置

Publications (1)

Publication Number Publication Date
CN106649661A true CN106649661A (zh) 2017-05-10

Family

ID=58824521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611147656.1A Pending CN106649661A (zh) 2016-12-13 2016-12-13 知识库构建方法和装置

Country Status (1)

Country Link
CN (1) CN106649661A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622129A (zh) * 2017-09-29 2018-01-23 咪咕文化科技有限公司 一种知识库的组织方法及装置、计算机存储介质
CN107657035A (zh) * 2017-09-28 2018-02-02 北京百度网讯科技有限公司 用于生成有向无环图的方法和装置
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN108073673A (zh) * 2017-05-15 2018-05-25 北京华宇元典信息服务有限公司 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质
CN108664595A (zh) * 2018-05-08 2018-10-16 和美(深圳)信息技术股份有限公司 领域知识库构建方法、装置、计算机设备和存储介质
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN111460971A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN112286900A (zh) * 2019-07-16 2021-01-29 北京字节跳动网络技术有限公司 一种数据处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN105677864A (zh) * 2016-01-08 2016-06-15 国网冀北电力有限公司 电网调度结构化数据的检索方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN105677864A (zh) * 2016-01-08 2016-06-15 国网冀北电力有限公司 电网调度结构化数据的检索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段炼: "基于文本分析的石油领域本体自动构建方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073673A (zh) * 2017-05-15 2018-05-25 北京华宇元典信息服务有限公司 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN107657035A (zh) * 2017-09-28 2018-02-02 北京百度网讯科技有限公司 用于生成有向无环图的方法和装置
CN107657035B (zh) * 2017-09-28 2021-10-22 北京百度网讯科技有限公司 用于生成有向无环图的方法和装置
CN107622129A (zh) * 2017-09-29 2018-01-23 咪咕文化科技有限公司 一种知识库的组织方法及装置、计算机存储介质
CN107622129B (zh) * 2017-09-29 2020-03-24 咪咕文化科技有限公司 一种知识库的组织方法及装置、计算机存储介质
CN108664595A (zh) * 2018-05-08 2018-10-16 和美(深圳)信息技术股份有限公司 领域知识库构建方法、装置、计算机设备和存储介质
CN108664595B (zh) * 2018-05-08 2020-10-16 和美(深圳)信息技术股份有限公司 领域知识库构建方法、装置、计算机设备和存储介质
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN112286900A (zh) * 2019-07-16 2021-01-29 北京字节跳动网络技术有限公司 一种数据处理方法、装置、设备及存储介质
CN111460971A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111460971B (zh) * 2020-03-27 2023-09-12 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备

Similar Documents

Publication Publication Date Title
CN106649661A (zh) 知识库构建方法和装置
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US20210081611A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN106383875B (zh) 基于人工智能的人机交互方法和装置
CN105447204B (zh) 网址识别方法和装置
CN107168952A (zh) 基于人工智能的信息生成方法和装置
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN106407425A (zh) 基于人工智能的推送信息的方法和装置
CN106845999A (zh) 风险用户识别方法、装置和服务器
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
CN105677931A (zh) 信息搜索方法和装置
CN107731229A (zh) 用于识别语音的方法和装置
US11030405B2 (en) Method and device for generating statement
CN107861954A (zh) 基于人工智能的信息输出方法和装置
CN107193974A (zh) 基于人工智能的地域性信息确定方法和装置
CN106407381A (zh) 一种基于人工智能的推送信息的方法和装置
CN107766498A (zh) 用于生成信息的方法和装置
CN115270717A (zh) 一种立场检测方法、装置、设备及介质
CN107862058A (zh) 用于生成信息的方法和装置
CN105955961A (zh) 预约信息处理方法和装置
CN105373310B (zh) 基于用户操作实时更新页面的方法和装置
CN114282498B (zh) 一种应用于电力交易的数据知识处理系统
CN114328995A (zh) 内容推荐方法、装置、设备及存储介质
CN107798556A (zh) 用于更新状况记录的方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication