CN112733538A - 一种基于文本的本体构建方法及装置 - Google Patents
一种基于文本的本体构建方法及装置 Download PDFInfo
- Publication number
- CN112733538A CN112733538A CN202110069618.3A CN202110069618A CN112733538A CN 112733538 A CN112733538 A CN 112733538A CN 202110069618 A CN202110069618 A CN 202110069618A CN 112733538 A CN112733538 A CN 112733538A
- Authority
- CN
- China
- Prior art keywords
- word
- dictionary
- preset
- concepts
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000007619 statistical method Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于文本的本体构建方法及装置,方法包括:对预置文本语料库中的每一个句子进行分词处理,并构建词典;基于预置概念提取法确定词典中各词语的词语特征,并根据词语特征和词典确定概念集,词语特征包括词频、词频‑逆向文件频率、关键词和词语‑文档数;计算概念集中两两概念之间的关系强度,并根据关系强度确定关系类型;根据概念集和关系类型构建本体概念关系图。本申请解决了现有技术依赖于数据驱动和人为驱动,导致PHM领域本体的构建效率低,且缺乏客观性、自动性和完备性的技术问题。
Description
技术领域
本申请涉及预测与健康管理技术领域,尤其涉及一种基于文本的本体构建方法及装置。
背景技术
预测与健康管理(Prognostics HealthManagement,PHM)为一种设备系统的关键技术,在系统设备运行或工作状态下,通过检查与监测运行状况,对故障进行故障定位、故障规划维修和供应保障,从而减少或消除系统故障的发生,对降低系统故障率、降低企业运营成本、提高设备生产效率有重要意义。
工业机器人作为一种复杂制造装备系统,其智能化水平在不断提高,在工业生产、民用生活等方面发挥着重要作用。但是随着工业机器人系统结构复杂性日益增加,机器人的故障检测、故障诊断、故障预测以及维修维护等工作难度也在不断的增大。面向工业领域的机器人中任何部件或者零件发生故障,都将影响到整个系统的正常运行,甚至造成灾难性的后果。
在现有技术中,基于数据驱动的PHM方法无法获取系统精确数学模型,较大程度的限制了PHM方法的实施;而且现有工业机器人PHM领域本体的构建过程对研究人员存在依赖,导致领域本体构建过程不客观,且缺乏自动性和完备性。
发明内容
本申请提供了一种基于文本的本体构建方法及装置,用于解决现有技术依赖于数据驱动和人为驱动,导致PHM领域本体的构建效率低,且缺乏客观性、自动性和完备性的技术问题。
有鉴于此,本申请第一方面提供了一种基于文本的本体构建方法,包括:
对预置文本语料库中的每一个句子进行分词处理,并构建词典;
基于预置概念提取法确定所述词典中各词语的词语特征,并根据所述词语特征和所述词典确定概念集,所述词语特征包括词频、词频-逆向文件频率、关键词和词语-文档数;
计算所述概念集中两两概念之间的关系强度,并根据所述关系强度确定关系类型;
根据所述概念集和所述关系类型构建本体概念关系图。
优选地,所述对预置文本语料库中的每一个句子进行分词处理,并构建词典,之前还包括:
采用预置工具爬取初始文本信息,得到初始文本集合;
将所述初始文本集合根据预置过滤规则进行过滤,得到预置文本语料库。
优选地,所述对预置文本语料库中的每一个句子进行分词处理,并构建词典,包括:
通过预置分词工具根据预设词典对预置文本语料库中的每一个句子进行分词处理,得到多个词语,并根据所述词语构建为词典。
优选地,所述预置概念提取法包括词频统计法、TF-IDF算法、TextRank算法和词语文档统计法;相应的,所述基于预置概念提取法确定所述词典中各词语的词语特征,并根据所述词语特征和所述词典确定概念集,包括:
采用所述词频统计法统计所述词典中各个词语的初始词频;
采用所述TF-IDF算法计算所述词典中各个词语的初始词频-逆向文件频率;
采用所述TextRank算法抽取所述词典中的初始关键词;
采用所述词语文档统计法统计所述词典中包括同一个词语的文档数量,得到初始词语-文档数;
通过不同的阈值分别对所述初始词频、所述初始词频-逆向文件频率、所述初始关键词和所述初始词语-文档数进行筛选,得到词语特征;
根据所述词语特征在所述词典中确定概念集,所述概念集包括多个词语。
优选地,所述根据所述词语特征在所述词典中确定概念集,所述概念集包括多个词语,之后还包括:
通过计算词语之间的相似度的方式去除所述概念集中的非名词概念和同义词概念。
优选地,所述计算所述概念集中两两概念之间的关系强度,并根据所述关系强度确定关系类型,包括:
统计任意两个概念位于所述预置文本语料库的同一个句子中的次数;
根据次数阈值和所述次数计算所述两个概念之间的关系强度;
根据所述关系强度和预置语言模板获取所述两个概念的关系类型列表;
在排序后的所述关系类型列表中确定所述两个概念之间的关系类型。
本申请第二方面提供了一种基于文本的本体构建装置,包括:
分词模块,用于对预置文本语料库中的每一个句子进行分词处理,并构建词典;
概念抽取模块,用于基于预置概念提取法确定所述词典中各词语的词语特征,并根据所述词语特征和所述词典确定概念集,所述词语特征包括词频、词频-逆向文件频率、关键词和词语-文档数;
计算分析模块,用于计算所述概念集中两两概念之间的关系强度,并根据所述关系强度确定关系类型;
构建模块,用于根据所述概念集和所述关系类型构建本体概念关系图。
优选地,还包括:
爬取模块,用于采用预置工具爬取初始文本信息,得到初始文本集合;
过滤模块,用于将所述初始文本集合根据预置过滤规则进行过滤,得到预置文本语料库。
优选地,所述预置概念提取法包括词频统计法、TF-IDF算法、TextRank算法和词语文档统计法;相应的,所述概念抽取模块具体包括:
第一统计子模块,用于采用所述词频统计法统计所述词典中各个词语的初始词频;
第一计算子模块,用于采用所述TF-IDF算法计算所述词典中各个词语的初始词频-逆向文件频率;
第二计算子模块,用于采用所述TextRank算法抽取所述词典中的初始关键词;
第二统计子模块,用于采用所述词语文档统计法统计所述词典中包括同一个词语的文档数量,得到初始词语-文档数;
筛选子模块,用于通过不同的阈值分别对所述初始词频、所述初始词频-逆向文件频率、所述初始关键词和所述初始词语-文档数进行筛选,得到词语特征;
第一确定子模块,用于根据所述词语特征在所述词典中确定概念集,所述概念集包括多个词语。
优选地,所述计算分析模块具体包括:
第三统计子模块,用于统计任意两个概念位于所述预置文本语料库的同一个句子中的次数;
第三计算子模块,用于根据次数阈值和所述次数计算所述两个概念之间的关系强度;
获取子模块,用于根据所述关系强度和预置语言模板获取所述两个概念的关系类型列表;
第二确定子模块,用于在排序后的所述关系类型列表中确定所述两个概念之间的关系类型。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种基于文本的本体构建方法,包括:对预置文本语料库中的每一个句子进行分词处理,并构建词典;基于预置概念提取法确定词典中各词语的词语特征,并根据词语特征和所述词典确定概念集,词语特征包括词频、词频-逆向文件频率、关键词和词语-文档数;计算概念集中两两概念之间的关系强度,并根据关系强度确定关系类型;根据概念集和关系类型构建本体概念关系图。
本申请提供的基于文本的本体构建方法,加强了词语特征的提取表达能力,根据多种词语特征在词典中确定概念集能够较大程度的确保概念完备性;研究的是文本中词语的特性,或者词语之间的关系特性,采用知识驱动而并非数据驱动的方法能够提升构建的本体的表达能力。因此,本申请能够解决现有技术依赖于数据驱动和人为驱动,导致PHM领域本体的构建效率低,且缺乏客观性、自动性和完备性的技术问题。
附图说明
图1为本申请实施例提供的一种基于文本的本体构建方法的一个流程示意图;
图2为本申请实施例提供的一种基于文本的本体构建方法的另一个流程示意图;
图3为本申请实施例提供的一种基于文本的本体构建装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
基于知识驱动的PHM方法不需要系统精确的数学模型,同时能够有效地表达工业机器人领域的专业知识。知识图谱就是通过可视化方法表示知识,图谱中每个节点承载了该领域的知识信息,并对知识点之间的关系进行探索分析。将知识图谱应用于工业机器人的PHM技术中,能够有效利用机器人的历史故障记录,实现对机器人故障信息抽取、语义结构的本体化,完成对具体的故障诊断预测信息的语义理解,通过构建PHM知识图谱,实现对机器人故障信息的知识表达,知识检索,知识共享和利用。
知识图谱的构建包括模式层的构建和数据层的构建。知识图谱模式层构建,也称本体构建,本体主要关注客观事务的本质,被定义为“客观存在的一个系统的解释和说明,是客观现实的一个抽象本质”,领域本体提供对某一特定领域的共同理解和词汇或术语(概念)的标准化,并以分层的形式对概念以及概念之间的关系进行定义,领域本体是一个重要的领域知识库,包含了丰富的语义信息。
为了便于理解,请参阅图1,本申请提供的一种基于文本的本体构建方法的实施例一,包括:
步骤101、对预置文本语料库中的每一个句子进行分词处理,并构建词典。
预置文本语料库中包含了大量的文档信息,每一篇文档信息包含不同的句子,而每一个句子都是由词语构成,可拆分,即分词。分词操作得到的词语汇总即可构建出词典。
不同领域中的分词依据是不同的,由于工业机器人部分专业词汇是采用词组的方式得到的,例如专业词汇“一相电源”,在普通的分词规则下会被分为“一相”和“电源”两个词语,但是由于领域性原因,这样的分词操作会影响分词的效果,不够精确,因此,可以根据实际的领域限制,设计精确的分词处理模式,不仅能够提取普通词语,还能够提取领域内的专业词汇。
步骤102、基于预置概念提取法确定词典中各词语的词语特征,并根据词语特征和词典确定概念集,词语特征包括词频、词频-逆向文件频率、关键词和词语-文档数。
本申请实施例中的词语特征包括四种不同层面的含义,四种词语特征对应着不同的预置概念提取法,具体的分析确定过程也不相同,通过多种不同词语特征在词典中选择概念集,提升了概念集的表达能力,且更能保证其完备性。
分词操作可以采用分词工具完成,另外可以根据实际情况对词典中的一些无关词语,类似于非名词的词语剔除,降低词典的冗余度,使得词典中的词语更具有针对性。概念集中即为多个不同的词语概念。
词频是指当前词语在词典中出现的总次数。将当前词语在预置文本语料库中某一篇文档中出现的次数与该文档总词数之比记作TF,将当前词语在所有文档中出现的频率记作IDF,将TF与IDF的乘积记作词频-逆向文件频率。关键词可以利用文档内部词语之间的共现关系进行抽取。词语-文档数是指包含当前词语的文档数量。
步骤103、计算概念集中两两概念之间的关系强度,并根据关系强度确定关系类型。
上述是概念抽取,本步操作概念间的关系特征的抽取,通过概念和关系就可以构建得到图谱模式。概念之间的关系强度指的是任意两个概念之间的相似关联程度,如果当前的两个概念出现在预置文本语料库中的同一个句子的次数超过一定的数量,则认为当前的两个概念之间具备强关系,否则,关系强度较弱。
选取具备强关系的概念对,根据预置的语言模板判定当前的两个概念之间的关系类型,例如下属关系或者上属关系等。可能存在同一对概念匹配到不同的语言模板,使得当前的两个概念关系类型存在多种候选,可以将这些候选排序,选择最匹配的关系类型作为两个概念之间的确定关系类型。
步骤104、根据概念集和关系类型构建本体概念关系图。
以概念集中的每个概念作为节点,那么概念之间的关系类型则为节点之间的边,通过概念集与关系类型可以构建出本体概念关系图,也称作是本体三元组,还可以对得到的本体概念关系图进行筛选检查,去除一些明显错误的结果,确保得到的本体三元组的准确性。
本申请实施例提供的基于文本的本体构建方法,加强了词语特征的提取表达能力,根据多种词语特征在词典中确定概念集能够较大程度的确保概念完备性;研究的是文本中词语的特性,或者词语之间的关系特性,采用知识驱动而并非数据驱动的方法能够提升构建的本体的表达能力。因此,本申请实施例能够解决现有技术依赖于数据驱动和人为驱动,导致PHM领域本体的构建效率低,且缺乏客观性、自动性和完备性的技术问题。
以上为本申请提供的一种基于文本的本体构建方法的一个实施例,以下为本申请提供的一种基于文本的本体构建方法的另一个实施例。
为了便于理解,请参阅图2,本申请提供了一种基于文本的本体构建方法的实施例二,包括:
步骤201、采用预置工具爬取初始文本信息,得到初始文本集合。
具体的初始文本信息来源可以是学术文献、博客网站文章和企业维修记录等,爬取的是工业机器人PHM领域的相关文档。爬取的文档全部都要转化为txt文本语料,便于后续的操作处理。
爬取的过程为:采用具体的关键词搜索以上领域网站的文档,关键词可以是“机器人故障”、“减速机故障”、“电机故障”、“工业机器人”和“工业机器人故障维修”;预置工具可以是Selenium爬取工具。爬取的本领域的文档相关信息中可以划分为两类,一类是简书文章,以集合的形式定义为Dall,表示Dall中包含了s篇简书文章,每一篇简书文章都可以采用七元组表示,其中title是文章标题,abstract为文章摘要,keywords是文章关键词,text是文章的正文,time是文章发表时间,read是文章阅读量,like是文章点赞数量;另一类是学术文献,以集合的形式定义为Pall,表示Pall中包含了m篇文献,每一篇文献均可以用五元组表示,Pi all={title,abstract,keywords,text,reference},其中title为文献标题,abstract为文献摘要,keywords为文献关键词,text为文献正文,reference为文献的参考文献。
将爬取的简书文章集合Dall与学术文献集合Pall合并,定义为工业机器人PHM领域的初始文本集合Aall,即Aall={Dall,Pall}。
步骤202、将初始文本集合根据预置过滤规则进行过滤,得到预置文本语料库。
步骤203、通过预置分词工具根据预设词典对预置文本语料库中的每一个句子进行分词处理,得到多个词语,并根据所述词语构建为词典。
本申请实施例中选取的预置分词工具是Jieba分词工具,Jieba分词工具包含三种分词模式:精确模式、全模式和搜索引擎模式,具有不同的分词效果,考虑到工业机器人PHM本体对概念准确性的需求较高,因此本申请实施例中采用Jieba分词工具的精确模式进行分词操作。预设词典是根据当前工业机器人词汇标准构建的,利用预设词典进行分词可以较大程度的改善分词效果。
将预置文本语料库中的每一篇文档的每一个句子进行分词操作,假设可以得到数量为n的词语,将n各词语组合构建得到的词典可以表达为W={word1,word2,……,wordn},由于工业机器人专业词汇具有较强的领域相关性,概念间常常存在结构性关联,例如“转子”与“电机转子”存在嵌套关系,因此仅考虑词汇单一的统计学指标不足以说明该词汇的领域代表性,因此还需要提取领域核心概念。
步骤204、采用词频统计法统计词典中各个词语的初始词频;
步骤205、采用TF-IDF算法计算词典中各个词语的初始词频-逆向文件频率;
步骤206、采用TextRank算法抽取词典中的初始关键词;
步骤207、采用词语文档统计法统计词典中包括同一个词语的文档数量,得到初始词语-文档数;
步骤208、通过不同的阈值分别对初始词频、初始词频-逆向文件频率、初始关键词和初始词语-文档数进行筛选,得到得到词语特征;
步骤209、根据所述词语特征在所述词典中确定概念集,所述概念集包括多个词语。
可以理解的是,预置概念提取法包括词频统计法、TF-IDF算法、TextRank算法和词语文档统计法。
初始词频TF*(word)是根据词频统计法计算词典中每个词语在语料库中出现的次数:
TF*(word)=Nword,word∈W;
其中Nword是当前词语word在集合W中出现的次数。
初始词频-逆向文件频率,首先计算当前词语在某一个文档中出现的频率TF(word):
其中,Y是语料库的文档总数量,Yword是指包含当前词语word的文档数量。将TF(word)与IDF(word)相乘则可以得到初始词频-逆向文件频率TF-IDF(word):
TF-IDF(word)=TF(word)*IDF(word)。
初始关键词是采用TextRank算法抽取得到的,依据是一篇文档内的词语之间的共现关系,TextRank算法在构建图的时候将词语作为节点,并未节点之间的边引入权值,其中权值表示两个词语之间的相似程度,具体计算过程表达为:
其中,Wij为图中节点Vi和Vj的边的权值,d为阻尼系数,In(Vi)为指向Vi节点的集合,Out(Vj)为Vj节点指出的集合,WS(Vi)、WS(Vj)分别为词语i和词语j的权值。求出所以词语概念的权值,并对权值进行排序,权值越大,该词为此文档的关键词的可能性越大,对语料库中所有的文档采用以上方法进行关键词提取,得到初始关键词
采用词语文档统计法可以直接统计得到词语-文档数,即包含同一个词语word的文档数量Yword。
步骤210、通过计算词语之间的相似度的方式去除概念集中的非名词概念和同义词概念。
概念集中还会存在一些无关词,而且理论上将,概念应当以名词为主,因此,需要对得到的概念集进行筛选操作,去除非名词和一些同义词,使用在语料库中训练词向量,计算词语相似度,相同语义的概念词只留下词频最高的。
步骤211、统计任意两个概念位于预置文本语料库的同一个句子中的次数。
步骤212、根据次数阈值和次数计算两个概念之间的关系强度。
上述概念集经过筛选操作后表达为:Wkey={w1,w2,...,wn},wn为第n个概念,任意选取的两个概念记为wi和wj,次数阈值设为α,那么两个概念之间的关系强度计算过程为:
步骤213、根据关系强度和预置语言模板获取两个概念的关系类型列表。
步骤214、在排序后的关系类型列表中确定两个概念之间的关系类型。
工业机器人作为典型的复杂机电产品,其领域概念间的关系错综复杂,结合逻辑学,将工业机器人PHM概念间的关系分为五种:全同关系、上属关系、下属关系、交叉关系和全异关系。可以使用基于规则和搜索引擎的概念关系抽取算法(RSOCRE)方法确定概念间的关系类型。对于五种关系类型制定语言学模板,例如,A,B表示有强关系的两个概念,如表1所示。
表1预置语言模板列表
在R={<wi,wj,r,[S],[δ]>}中对共现的句子列表[S]进行正则匹配,若出现预置语言模板的关键词,则将对应的关系类型加入关系类型列表[δ]中,若匹配结果中的概念对较少,则放入搜索引擎Web中先检索出概念对共现的句子,然后对这些共现的句子进行模板关键词匹配,匹配成功将对应的关系类型加入关系列表[δ]中。对关系类型列表[δ]进行降序排序,选取第一个概念对应的关系作为两个概念之间的关系类型。
步骤215、根据概念集和关系类型构建本体概念关系图。
概念集中的概念为节点,两两概念之间的关系类型为边,可以构建本体概念关系图G=(Wkey,R'),其中,Wkey为概念集,R'={<wi,wj,δ>|wi,wj∈Wkey},δ即为两两概念之间的关系。
在经过概念获取和关系抽取后,构建的本体概念关系图即为本体三元组,可以人工进行筛选检查,去除错误的三元组,得到更加准确的本体三元组。
以上为本申请提供的一种基于文本的本体构建方法的一个实施例,以下为本申请提供的一种基于文本的本体构建装置的一个实施例。
为了便于理解,请参阅图3,本申请还提供了一种基于文本的本体构建装置的实施例,包括:
分词模块301,用于对预置文本语料库中的每一个句子进行分词处理,并构建词典;
概念抽取模块302,用于基于预置概念提取法确定词典中各词语的词语特征,并根据词语特征和所述词典确定概念集,词语特征包括词频、词频-逆向文件频率、关键词和词语-文档数;
计算分析模块303,用于计算概念集中两两概念之间的关系强度,并根据关系强度确定关系类型;
构建模块304,用于根据概念集和关系类型构建本体概念关系图。
进一步地,还包括:
爬取模块305,用于采用预置工具爬取初始文本信息,得到初始文本集合;
过滤模块306,用于将初始文本集合根据预置过滤规则进行过滤,得到预置文本语料库。
进一步地,预置概念提取法包括词频统计法、TF-IDF算法、TextRank算法和词语文档统计法;相应的,概念抽取模块302具体包括:
第一统计子模块3021,用于采用词频统计法统计词典中各个词语的初始词频;
第一计算子模块3022,用于采用TF-IDF算法计算词典中各个词语的初始词频-逆向文件频率;
第二计算子模块3023,用于采用TextRank算法抽取词典中的初始关键词;
第二统计子模块3024,用于采用词语文档统计法统计词典中包括同一个词语的文档数量,得到初始词语-文档数;
筛选子模块3025,用于通过不同的阈值分别对初始词频、初始词频-逆向文件频率、初始关键词和初始词语-文档数进行筛选,得到词语特征;
第一确定子模块3026,用于根据所述词语特征在所述词典中确定概念集,所述概念集包括多个词语。
进一步地,计算分析模块303具体包括:
第三统计子模块3031,用于统计任意两个概念位于预置文本语料库的同一个句子中的次数;
第三计算子模块3032,用于根据次数阈值和次数计算两个概念之间的关系强度;
获取子模块3033,用于根据关系强度和预置语言模板获取两个概念的关系类型列表;
第二确定子模块3034,用于在排序后的关系类型列表中确定两个概念之间的关系类型。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于文本的本体构建方法,其特征在于,包括:
对预置文本语料库中的每一个句子进行分词处理,并构建词典;
基于预置概念提取法确定所述词典中各词语的词语特征,并根据所述词语特征和所述词典确定概念集,所述词语特征包括词频、词频-逆向文件频率、关键词和词语-文档数;
计算所述概念集中两两概念之间的关系强度,并根据所述关系强度确定关系类型;
根据所述概念集和所述关系类型构建本体概念关系图。
2.根据权利要求1所述的基于文本的本体构建方法,其特征在于,所述对预置文本语料库中的每一个句子进行分词处理,并构建词典,之前还包括:
采用预置工具爬取初始文本信息,得到初始文本集合;
将所述初始文本集合根据预置过滤规则进行过滤,得到预置文本语料库。
3.根据权利要求1所述的基于文本的本体构建方法,其特征在于,所述对预置文本语料库中的每一个句子进行分词处理,并构建词典,包括:
通过预置分词工具根据预设词典对预置文本语料库中的每一个句子进行分词处理,得到多个词语,并根据所述词语构建为词典。
4.根据权利要求1所述的基于文本的本体构建方法,其特征在于,所述预置概念提取法包括词频统计法、TF-IDF算法、TextRank算法和词语文档统计法;相应的,所述基于预置概念提取法确定所述词典中各词语的词语特征,并根据所述词语特征和所述词典确定概念集,包括:
采用所述词频统计法统计所述词典中各个词语的初始词频;
采用所述TF-IDF算法计算所述词典中各个词语的初始词频-逆向文件频率;
采用所述TextRank算法抽取所述词典中的初始关键词;
采用所述词语文档统计法统计所述词典中包括同一个词语的文档数量,得到初始词语-文档数;
通过不同的阈值分别对所述初始词频、所述初始词频-逆向文件频率、所述初始关键词和所述初始词语-文档数进行筛选,得到词语特征;
根据所述词语特征在所述词典中确定概念集,所述概念集包括多个词语。
5.根据权利要求4所述的基于文本的本体构建方法,其特征在于,所述根据所述词语特征在所述词典中确定概念集,所述概念集包括多个词语,之后还包括:
通过计算词语之间的相似度的方式去除所述概念集中的非名词概念和同义词概念。
6.根据权利要求1所述的基于文本的本体构建方法,其特征在于,所述计算所述概念集中两两概念之间的关系强度,并根据所述关系强度确定关系类型,包括:
统计任意两个概念位于所述预置文本语料库的同一个句子中的次数;
根据次数阈值和所述次数计算所述两个概念之间的关系强度;
根据所述关系强度和预置语言模板获取所述两个概念的关系类型列表;
在排序后的所述关系类型列表中确定所述两个概念之间的关系类型。
7.一种基于文本的本体构建装置,其特征在于,包括:
分词模块,用于对预置文本语料库中的每一个句子进行分词处理,并构建词典;
概念抽取模块,用于基于预置概念提取法确定所述词典中各词语的词语特征,并根据所述词语特征和所述词典确定概念集,所述词语特征包括词频、词频-逆向文件频率、关键词和词语-文档数;
计算分析模块,用于计算所述概念集中两两概念之间的关系强度,并根据所述关系强度确定关系类型;
构建模块,用于根据所述概念集和所述关系类型构建本体概念关系图。
8.根据权利要求7所述的基于文本的本体构建装置,其特征在于,还包括:
爬取模块,用于采用预置工具爬取初始文本信息,得到初始文本集合;
过滤模块,用于将所述初始文本集合根据预置过滤规则进行过滤,得到预置文本语料库。
9.根据权利要求7所述的基于文本的本体构建装置,其特征在于,所述预置概念提取法包括词频统计法、TF-IDF算法、TextRank算法和词语文档统计法;相应的,所述概念抽取模块具体包括:
第一统计子模块,用于采用所述词频统计法统计所述词典中各个词语的初始词频;
第一计算子模块,用于采用所述TF-IDF算法计算所述词典中各个词语的初始词频-逆向文件频率;
第二计算子模块,用于采用所述TextRank算法抽取所述词典中的初始关键词;
第二统计子模块,用于采用所述词语文档统计法统计所述词典中包括同一个词语的文档数量,得到初始词语-文档数;
筛选子模块,用于通过不同的阈值分别对所述初始词频、所述初始词频-逆向文件频率、所述初始关键词和所述初始词语-文档数进行筛选,得到词语特征;
第一确定子模块,用于根据所述词语特征在所述词典中确定概念集,所述概念集包括多个词语。
10.根据权利要求7所述的基于文本的本体构建装置,其特征在于,所述计算分析模块具体包括:
第三统计子模块,用于统计任意两个概念位于所述预置文本语料库的同一个句子中的次数;
第三计算子模块,用于根据次数阈值和所述次数计算所述两个概念之间的关系强度;
获取子模块,用于根据所述关系强度和预置语言模板获取所述两个概念的关系类型列表;
第二确定子模块,用于在排序后的所述关系类型列表中确定所述两个概念之间的关系类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069618.3A CN112733538B (zh) | 2021-01-19 | 2021-01-19 | 一种基于文本的本体构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069618.3A CN112733538B (zh) | 2021-01-19 | 2021-01-19 | 一种基于文本的本体构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733538A true CN112733538A (zh) | 2021-04-30 |
CN112733538B CN112733538B (zh) | 2023-05-30 |
Family
ID=75592465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110069618.3A Active CN112733538B (zh) | 2021-01-19 | 2021-01-19 | 一种基于文本的本体构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733538B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312532A (zh) * | 2021-06-01 | 2021-08-27 | 哈尔滨工业大学 | 一种基于深度学习面向公检法领域的舆情等级预测方法 |
CN114357121A (zh) * | 2022-03-10 | 2022-04-15 | 四川大学 | 一种基于数据驱动的创新方案设计方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678418A (zh) * | 2012-09-25 | 2014-03-26 | 富士通株式会社 | 信息处理方法和信息处理设备 |
CN105678327A (zh) * | 2016-01-05 | 2016-06-15 | 北京信息科技大学 | 一种面向中文专利的实体间非分类关系抽取方法 |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN108491385A (zh) * | 2018-03-16 | 2018-09-04 | 广西师范大学 | 一种基于依存关系的教学领域本体自动生成方法与装置 |
CN109543046A (zh) * | 2018-11-16 | 2019-03-29 | 重庆邮电大学 | 一种基于深度学习的机器人数据互操作领域本体构建方法 |
CN110598972A (zh) * | 2019-07-26 | 2019-12-20 | 浙江华云信息科技有限公司 | 一种基于自然语言处理的计量采集研究方向趋势分析方法 |
CN111625622A (zh) * | 2020-04-28 | 2020-09-04 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
-
2021
- 2021-01-19 CN CN202110069618.3A patent/CN112733538B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678418A (zh) * | 2012-09-25 | 2014-03-26 | 富士通株式会社 | 信息处理方法和信息处理设备 |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN105678327A (zh) * | 2016-01-05 | 2016-06-15 | 北京信息科技大学 | 一种面向中文专利的实体间非分类关系抽取方法 |
CN108491385A (zh) * | 2018-03-16 | 2018-09-04 | 广西师范大学 | 一种基于依存关系的教学领域本体自动生成方法与装置 |
CN109543046A (zh) * | 2018-11-16 | 2019-03-29 | 重庆邮电大学 | 一种基于深度学习的机器人数据互操作领域本体构建方法 |
CN110598972A (zh) * | 2019-07-26 | 2019-12-20 | 浙江华云信息科技有限公司 | 一种基于自然语言处理的计量采集研究方向趋势分析方法 |
CN111625622A (zh) * | 2020-04-28 | 2020-09-04 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
唐琳 等: "基于中文学术文献的领域本体概念层次关系抽取研究", 《情报学报》 * |
蒋婷 等: "领域学术本体概念等级关系抽取研究", 《情报学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312532A (zh) * | 2021-06-01 | 2021-08-27 | 哈尔滨工业大学 | 一种基于深度学习面向公检法领域的舆情等级预测方法 |
CN113312532B (zh) * | 2021-06-01 | 2022-10-21 | 哈尔滨工业大学 | 一种基于深度学习面向公检法领域的舆情等级预测方法 |
CN114357121A (zh) * | 2022-03-10 | 2022-04-15 | 四川大学 | 一种基于数据驱动的创新方案设计方法和系统 |
CN114357121B (zh) * | 2022-03-10 | 2022-07-15 | 四川大学 | 一种基于数据驱动的创新方案设计方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112733538B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
Mandal et al. | Unsupervised approaches for measuring textual similarity between legal court case reports | |
US10754883B1 (en) | System and method for insight automation from social data | |
KR101806452B1 (ko) | 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치 | |
Trabelsi et al. | Bridging folksonomies and domain ontologies: Getting out non-taxonomic relations | |
CN112733538B (zh) | 一种基于文本的本体构建方法及装置 | |
Dorji et al. | Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary | |
Zhu et al. | A Text Classification Algorithm for Power Equipment Defects Based on Random Forest | |
Rakhsha et al. | Detecting adverse drug reactions from social media based on multichannel convolutional neural networks modified by support vector machine | |
Mustafa et al. | Optimizing document classification: Unleashing the power of genetic algorithms | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
Mezentseva et al. | Optimization of analysis and minimization of information losses in text mining | |
Sweidan et al. | Autoregressive Feature Extraction with Topic Modeling for Aspect-based Sentiment Analysis of Arabic as a Low-resource Language | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
Wang et al. | Sentence-Ranking-Enhanced Keywords Extraction from Chinese Patents. | |
Kuş et al. | An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish | |
CN112215006B (zh) | 机构命名实体归一化方法和系统 | |
Mallek et al. | An Unsupervised Approach for Precise Context Identification from Unstructured Text Documents | |
Rybak et al. | Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations | |
CN113326348A (zh) | 一种博客质量评估方法及工具 | |
Wang et al. | Natural language processing systems and Big Data analytics | |
Salur et al. | An annotated Turkish aspect based sentiment analysis corpus for smart tourism | |
Sarika | Comparative analysis of Tamil and English news text summarization using text rank algorithm | |
Alperin et al. | Terminology spectrum analysis of natural-language chemical documents: term-like phrases retrieval routine | |
El Idrissi et al. | HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |