CN111414489A - 知识图谱构建方法、装置、电子设备及可读存储介质 - Google Patents
知识图谱构建方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111414489A CN111414489A CN202010226149.7A CN202010226149A CN111414489A CN 111414489 A CN111414489 A CN 111414489A CN 202010226149 A CN202010226149 A CN 202010226149A CN 111414489 A CN111414489 A CN 111414489A
- Authority
- CN
- China
- Prior art keywords
- text
- knowledge graph
- texts
- expanded
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 38
- 230000003190 augmentative effect Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 10
- 230000001419 dependent effect Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种知识图谱构建方法、装置、电子设备及可读存储介质,包括:根据依存语法树对原始文本进行处理,获得原始文本对应的多个初选扩充文本,初选扩充文本由原始文本通过分词顺序调换组成;获取原始文本中的分词的至少一个近同词,分词为组成原始文本的词;对多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;根据多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱。与原有的知识图谱相比,实体数量更多,实体之间的相互关系更复杂;且利用依存语法树得到初选扩充文本,改善了现有技术受限于文本长度或复杂度的影响,相对时间复杂度较高的问题。
Description
技术领域
本申请涉及语法分析领域,具体而言,涉及一种知识图谱构建方法、装置、电子设备及可读存储介质。
背景技术
现有技术中通常是通过传统的扩充样本对原始文本进行扩充,或者根据循环扩充训练集的方式对原始文本进行扩充;再利用扩充后的文本以及近同词构建新的知识图谱。
现有技术在构建知识图谱时,受限于文本长度或复杂度的影响,相对时间复杂度较高。
发明内容
本申请实施例的目的在于提供一种知识图谱构建方法、装置、电子设备及可读存储介质,用以改善现有技术受限于文本长度或复杂度的影响,相对时间复杂度较高的问题。
第一方面,本申请实施例提供了一种知识图谱构建方法,所述方法包括:根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成;获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词;对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱,其中,所述知识图谱关联关系为实体-关系-实体,所述多个次选扩充文本中每个次选扩充文本对应的实体为所述原始文本对应的实体的近同词;所述扩充后的知识图谱包括所述原始文本对应的实体以及所述次选扩充文本对应的实体共同构成的知识图谱关联关系。
在上述的实施方式中,可以先利用依存语法树对原始文本进行扩充,得到多个初选扩充文本;然后获得原始文本中每个分词对应的近同词,利用近同词对每个初选扩充文本进行替换,得到次选扩充文本,实现了对原始文本的进一步扩充,然后再利用次选扩充文本以及实体-关系-实体的知识图谱关联关系,在原始知识图谱的基础上进行扩充,得到新的知识图谱。本申请实施例得到的知识图谱与原有的知识图谱相比,实体数量更多,实体之间的相互关系更复杂;且利用依存语法树得到初选扩充文本,改善了现有技术受限于文本长度或复杂度的影响,相对时间复杂度较高的问题。
在一个可能的设计中,所述根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,包括:对所述原始文本进行依存语法分析,获取所述原始文本的树形图,其中,所述树形图包括能组成所述原始文本的多个分词,所述多个分词被根据所述依存语法划分在所述树形图的多个层;根据所述树形图的每层的分词与该层的头节点的相对方位,对每层的分词进行分组,获取至少一个分词词组;对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本。
在上述的实施方式中,通过依存语法分析,获得原始文本的树形图,然后根据树形图中每层的分词与该层的头节点的相对方位,对每层的分词进行分组,然后对包括有分词词组的树形图进行文本展开。本申请实施例是对来自于原始文本的多个分词划分成的分词词组进行展开,受文本长度或复杂度的影响较小,相对时间复杂度低。
在一个可能的设计中,所述对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本,包括:在文本生成过程中遇到至少两个分词组成的分词词组时,以所述分词词组对应的节点替换所述至少两个分词分别对应的至少两个节点,其中,所述分词词组对应的节点包括所述至少两个分词排列组合形成的结果;生成包括有排列组合的结果的结果文本;展开所述结果文本,获得所述多个初选扩充文本。
在上述的实施方式中,分词词组由多个分词组成,通过以分词词组对应的节点替换掉多个分词分别对应的多个节点的方式,可以得到包括分词词组对应的节点的结果文本。分词词组对应的节点包括多个分词排列组合构成的结果,再将结果文本中的多个分词排列组合展开,便可以得到多个初选扩充文本。通过上述方式可以逐步简化树形图,并且还保留了多个排列组合构成的结果,降低了文本生成的复杂性。
在一个可能的设计中,所述对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本,包括:对于初选扩充文本中的分词,判断分词对应的至少一个近同词的数量是否小于m个;若是,以所述至少一个近同词中的每个近同词分别替换所述分词,获得所述初选扩充文本对应的多个次选扩充文本。
在上述的实施方式中,在进行近同词替换时,可以获取某一分词对应的近同词的数量,然后再将近同词的数量与m值进行比较,若小于m值,则表明近同词的数量未达到需要被控制的程度,因此每个近同词均可以替换一次原有的分词,从而进一步扩充次选扩充文本。
在一个可能的设计中,所述判断分词对应的至少一个近同词的数量是否小于m个之后,所述方法还包括:若所述分词对应的至少一个近同词的数量大于或等于m个,从所述至少一个近同词中随机选择一个近同词替换所述分词,获得所述初选扩充文本对应的次选扩充文本。
在上述的实施方式中,在进行近同词替换时,将近同词的数量与m值进行比较,若大于或等于m值,则表明近同词的数量需要被控制,否则虽然可极大的增加次选扩充文本,但大幅提高了处理的复杂度,因此,从大于或等于m个的多个近同词中随机选择一个近同词替换原有的分词,降低处理的复杂度。
在一个可能的设计中,在所述根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱之后,所述方法还包括:根据所述扩充后的知识图谱以及多个次选扩充文本,进行实体识别和关系抽取的训练,得到新的知识图谱关联关系;对所述新的知识图谱关联关系进行筛选,获得筛选后的知识图谱关联关系;根据所述筛选后的知识图谱关联关系、所述原始知识图谱以及所述扩充后的知识图谱,构建终选知识图谱。
在上述的实施方式中,得到扩充的知识图谱后,可以根据该扩充后的知识图谱以及获得到的多个次选扩充文本进行实体识别以及关系抽取的训练,得到原先没有的实体-关系-实体的知识图谱关联关系,并在完成知识图谱关联关系的筛选之后,再扩充的知识图谱的基础上基于筛选过的新的知识图谱关联关系进行进一步扩充,构建出终选知识图谱,进一步对知识图谱进行扩充。
第二方面,本申请实施例提供了一种知识图谱构建装置,所述装置包括:初选扩充获得模块,用于根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成;近同词获取模块,用于获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词;次选扩充获得模块,用于对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;知识图谱获得模块,用于根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱,其中,所述知识图谱关联关系为实体-关系-实体,所述多个次选扩充文本中的每个次选扩充文本对应的实体为所述原始文本对应的实体的近同词;所述扩充后的知识图谱包括所述原始文本对应的实体以及所述次选扩充文本对应的实体共同构成的知识图谱关联关系。
在一个可能的设计中,所述初选扩充获得模块,具体用于:对所述原始文本进行依存语法分析,获取所述原始文本的树形图,其中,所述树形图包括能组成所述原始文本的多个分词,所述多个分词被根据所述依存语法划分在所述树形图的多个层;根据所述树形图的每层的分词与该层的头节点的相对方位,对每层的分词进行分组,获取至少一个分词词组;对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本。
在一个可能的设计中,所述初选扩充获得模块,具体用于:在文本生成过程中遇到至少两个分词组成的分词词组时,以所述分词词组对应的节点替换所述至少两个分词分别对应的至少两个节点,其中,所述分词词组对应的节点包括所述至少两个分词排列组合形成的结果;生成包括有排列组合的结果的结果文本;展开所述结果文本,获得所述多个初选扩充文本。
在一个可能的设计中,次选扩充获得模块,具体用于对于初选扩充文本中的分词,判断分词对应的至少一个近同词的数量是否小于m个;若是,以所述至少一个近同词中的每个近同词分别替换所述分词,获得所述初选扩充文本对应的多个次选扩充文本。
在一个可能的设计中,次选扩充获得模块,具体用于当所述分词对应的至少一个近同词的数量大于或等于m时,从所述至少一个近同词中随机选择一个近同词替换所述分词,获得所述初选扩充文本对应的次选扩充文本。
在一个可能的设计中,所述装置还包括:训练模块,用于根据所述扩充后的知识图谱以及多个次选扩充文本,进行实体识别和关系抽取的训练,得到新的知识图谱关联关系;关系筛选模块,用于对所述新的知识图谱关联关系进行筛选,获得筛选后的知识图谱关联关系;终选图谱构建模块,用于根据所述筛选后的知识图谱关联关系、所述原始知识图谱以及所述扩充后的知识图谱,构建终选知识图谱。
第三方面,本申请提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请提供一种可读存储介质,该可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的知识图谱构建方法的流程示意图;
图2为图1中步骤S110的具体步骤的流程示意图;
图3为图2中步骤S113的具体步骤的流程示意图
图4为图1中步骤S130的具体步骤的流程示意图;
图5为本申请实施例提供的知识图谱构建装置的示意性结构框图;
图6为本申请实施例提供的树形图的初始形态的示意图;
图7为本申请实施例提供的树形图的变化形态的示意图;
图8为本申请实施例提供的树形图的进一步变化形态的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
现有技术中在构建新的知识图谱时,通常是基于现有的扩充方法对原始文本进行扩充,再利用扩充后的文本构建新的知识图谱。现有的扩充方法包括依照传统的扩充样本的方法对原始文本进行扩充,或根据循环扩充训练集的方式对原始文本进行扩充,受限于文本长度或复杂度,时间复杂度较高。本申请实施例利用依存语法树得到初选扩充文本,再根据预设规则对初选扩充文本进行近同词的替换,改善了现有技术受限于文本长度或复杂度的影响,相对时间复杂度较高的问题。
图1为本申请实施例提供的知识图谱构建方法,该知识图谱构建方法可以由电子设备执行,该电子设备可以为服务器,也可以为终端设备,本申请实施例提供的知识图谱构建方法包括如下步骤S110至步骤S140:
步骤S110,根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成。
可以根据依存语法树对原始文本进行处理,得到经依存语法树处理过的原始文本,即多个初选扩充文本。
例如,对于原始文本:好的先生是看到先生您近期有三笔大额的纯刷卡消费,可根据依存语法树进行处理,得到如下三个初选扩充文本:
(1)好的先生是看到先生您近期有纯刷卡三笔大额的消费;
(2)好的先生是看到近期先生您有三笔大额的纯刷卡消费;
(3)好的先生是看到近期先生您有纯刷卡三笔大额的消费。
根据依存语法树进行处理的具体过程在下文中进行详细描述。
步骤S120,获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词。
获取到的近同词可以为与原始文本属于同一业务领域的词。近同词与原始文本中的分词属于同一词性,若原始文本中的分词为名词,则近同词可以是与原先的分词表征同一事物的名词;若原始文本中的分词为形容词,则近同词可以是与原先的分词形容同一事物的形容词。
接上文的举例继续进行说明:
原始文本:“好的先生是看到先生您近期有三笔大额的纯刷卡消费”包括如下几个分词:大额、刷卡、消费、近期。
其中,获取到的“大额”的近同词为“小额”;
“刷卡”的近同词为“信用卡”、“银联卡”、“借记卡”;
“消费”的近同词为“消费需要”、“娱乐消费”、“餐饮消费”、“消费商品”、“消费购买”;
“近期”的近同词为“近日”、“日前”、“前不久”。
步骤S130,对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本。
请参见图4,图4示出了步骤S130的具体步骤的流程示意图,具体包括如下步骤S131至步骤S133:
步骤S131,对于初选扩充文本中的分词,判断分词对应的至少一个近同词的数量是否小于m个,若是,执行步骤S132;若否,执行步骤S133。
步骤S132,以所述至少一个近同词中的每个近同词分别替换所述分词,获得所述初选扩充文本对应的多个次选扩充文本。
步骤S133,从所述至少一个近同词中随机选择一个近同词替换所述分词,获得所述初选扩充文本对应的次选扩充文本。
在进行近同词替换时,可以获取某一分词对应的近同词的数量,然后再将近同词的数量与m值进行比较,若小于m值,则表明近同词的数量未达到需要被控制的程度,因此每个近同词均可以替换一次原有的分词,从而进一步扩充次选扩充文本。若大于或等于m值,则表明近同词的数量需要被控制,否则虽然可极大地增加次选扩充文本,但大幅提高了处理的复杂度,因此,从大于或等于m个的多个近同词中随机选择一个近同词替换原有的分词,降低处理的复杂度。
M可以为任一正整数,不妨设m值为5,接上文的举例继续进行说明:
“大额”的近同词“小额”的数量为1个,取唯一的一个近同词进行替换;
“刷卡”的近同词“信用卡”、“银联卡”、“借记卡”的数量为3个,小于m值,则三个近同词可以分别替换“刷卡”,共可替换三次;
“消费”的近同词“消费需要”、“娱乐消费”、“餐饮消费”、“消费商品”、“消费购买”的数量为5个,等于m值,则可以从5个近同词中随机选择一个,共可替换“消费”一次;
“近期”的近同词“近日”、“日前”、“前不久”的数量也为3个,可以分别替换“近期”,共可替换三次。
故对于三个初选扩充文本中的每一个来说,在进行近同词替换后,可以得到(1*3*1*3)=9个次选扩充文本。三个初选扩充文本则一共可以获得27个次选扩充文本。
步骤S140,根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱。
所述知识图谱关联关系为实体-关系-实体。每个次选扩充文本对应的实体为原始文本对应的实体的近同词。扩充后的知识图谱中包括所述原始文本对应的实体以及所述次选扩充文本对应的实体共同构成的知识图谱关联关系。
接上文的举例继续进行说明:
原始文本:“好的先生是看到先生您近期有三笔大额的纯刷卡消费”对应的知识图谱关联关系包括:消费-使用-刷卡、消费-状态-大额。
不妨以初选扩充文本(1):“好的先生是看到先生您近期有纯刷卡三笔大额的消费”为例,初选扩充文本(1)一共有9个次选扩充文本,现举9个次选扩充文本的其中一例:
“好的先生是看到先生您日前有纯信用卡三笔大额的娱乐消费”
该例对应的知识图谱关联关系包括:娱乐消费-使用-信用卡、娱乐消费-状态-大额。该例中,在实体“大额”的关系“状态”中,就新增了实体“娱乐消费”,而新增的实体“娱乐消费”还带有新增的实体“信用卡”,以及“娱乐消费”与“信用卡”之间的关系“使用”。通过上述的方式可以逐步在原有的知识图谱的基础上进行扩充,得到包含信息量更多的知识图谱。
本申请实施例提供的知识图谱构建方法中,可以先利用依存语法树对原始文本进行扩充,得到多个初选扩充文本。然后获得原始文本中每个分词对应的近同词,利用近同词对每个初选扩充文本进行替换,得到次选扩充文本,实现了对原始文本的进一步扩充。然后再利用次选扩充文本以及实体-关系-实体的知识图谱关联关系,在原始知识图谱的基础上进行扩充,得到新的知识图谱。与原有的知识图谱相比,实体数量更多,实体之间的相互关系更复杂;且利用依存语法树得到初选扩充文本,改善了现有技术受限于文本长度或复杂度的影响,相对时间复杂度较高的问题。
可选地,在步骤S140之后,所述方法还可以包括:根据所述扩充后的知识图谱以及多个次选扩充文本,进行实体识别和关系抽取的训练,得到新的知识图谱关联关系;对所述新的知识图谱关联关系进行筛选,获得筛选后的知识图谱关联关系;根据所述筛选后的知识图谱关联关系、所述原始知识图谱以及所述扩充后的知识图谱,构建终选知识图谱。
得到扩充的知识图谱后,可以根据该扩充后的知识图谱以及获得到的多个次选扩充文本进行实体识别以及关系抽取的训练,得到原先没有的实体-关系-实体的知识图谱关联关系,并在完成知识图谱关联关系的筛选之后,再扩充的知识图谱的基础上基于筛选过的新的知识图谱关联关系进行进一步扩充,构建出终选知识图谱,进一步对知识图谱进行扩充。
可选地,请参见图2,图2示出了步骤S110的具体步骤,包括如下步骤S111至步骤S113:
步骤S111,对所述原始文本进行依存语法分析,获取所述原始文本的树形图,其中,所述树形图包括能组成所述原始文本的多个分词,所述多个分词被根据所述依存语法划分在所述树形图的多个层。
树形图为对原始文本根据依存语法分析得到的依存语法树。其中,该树形图包括能组成原始文本的多个分词,多个分词被根据依存语法划分在树形图的多个不同的层。
为了便于描述,不妨以短句“我的那个信用卡的额度”为例进行说明:
对短句“我的那个信用卡的额度”进行依存语法分析,得到如图6示出的依存语法树的树形图。
由图6可知,先对短句“我的那个信用卡的额度”进行预处理,将短句分为“我、的、那个、信用卡、的、额度”这六个分词。对于上述的六个分词,利用依存语法对上述分词在原始文本中的位置上下文等属性进行分析,得到分词之间的依存关系,从而实现分层。上述的六个分词处于四个层中,其中,“额度”为第一层;“信用卡”为第二层;“我”、“那个”、“的”为第三层;“的”为第四层。图6示出的每个分词前的数字表示分词在短句的位置序号,图6还示出了每个分词的方位性质:post或pre。
其中,方位性质的确定可以根据如下方式进行:
对于某一领域,可以利用该领域的大量文本对相邻两个分词之间的方位关系(例如动宾关系、定状关系等)进行训练,从而得到在该领域中,相邻两个分词之间的方位关系,从而确定依存节点相对于头节点的方位性质是post或pre。
步骤S112,根据所述树形图的每层的分词与该层的头节点的相对方位,对每层的分词进行分组,获取至少一个分词词组。
可选地,可以确定处于同一层,且与头节点的相对方位相同的多个分词属于同一分词词组。对于树形图中相邻的两层,箭头总是从较高层指向较低层,较高层对应的分词可以作为较低层的分词的头节点,较低层的分词可以作为较高层对应的分词的依存节点。其中,依存节点在原句中的位置位于头节点之前的,可以作为该头节点的前依存节点;依存节点在原句中的位置位于头节点之后的,可以作为该头节点的后依存节点。该头节点的多个前依存节点可以作为同一分词词组,多个后依存节点也可以作为同一分词词组。
接上文的例子继续进行说明:“信用卡”为“我”、“那个”、“的”这三个分词的头节点,并且“信用卡”为分词“我”、“那个”的后缀(post),“信用卡”为分词“的”的前缀(pre),因此,“我”、“那个”可以作为同一分词词组。
步骤S113,对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本。
通过依存语法分析,获得原始文本的树形图,然后根据树形图中每层的分词与该层的头节点的相对方位,对每层的分词进行分组,然后对包括有分词词组的树形图进行文本展开。本申请实施例是对来自于原始文本的多个分词划分成的分词词组进行展开,受文本长度或复杂度的影响较小,相对时间复杂度低。
请参见图3,图3示出了步骤S113的具体步骤,包括如下步骤S1131至步骤S1133:
步骤S1131,在文本生成过程中遇到至少两个分词组成的分词词组时,以所述分词词组对应的节点替换所述至少两个分词分别对应的至少两个节点。
其中,所述分词词组对应的节点包括所述至少两个分词排列组合形成的结果,可以按照树形图从下到上的顺序生成文本,在生成过程中,按照每个分词与各自头节点的方位性质,将每个分词正确地放回各自头节点的前后或后方,确定分词的位置。
接上文的举例继续说明:将第四层的“的”移动到第三层的“我”之后,得到如图7示出的树形图。
请参见图7,对由“我的”和“那个”组成的分词词组,由该分词词组对应的一个节点替换掉“我的”和“那个”两个分词分别对应的两个节点,得到如图8所示的树形图。该分词词组对应一个节点对应有两种排列组合结果:“那个我的”和“我的那个”。
步骤S1132,生成包括有排列组合的结果的结果文本。
根据上文描述的文本生成方式继续生成文本,可以得到结果文本:[(那个我的,我的那个)信用卡的额度]。
步骤S1133,展开所述结果文本,获得所述多个初选扩充文本。
将上文的结果文本[(那个我的,我的那个)信用卡的额度]展开,可以得到两个初选扩充文本:那个我的信用卡的额度、我的那个信用卡的额度。
分词词组由多个分词组成,通过以分词词组对应的节点替换掉多个分词分别对应的多个节点的方式,可以得到包括分词词组对应的节点的结果文本。分词词组对应的节点包括多个分词排列组合构成的结果,再将结果文本中的多个分词排列组合展开,便可以得到多个初选扩充文本。通过上述方式可以逐步简化树形图,并且还保留了多个排列组合构成的结果,降低了文本生成的复杂性。
请参见图5,图5示出了本申请实施例提供的知识图谱构建装置,所述装置500包括:
初选扩充获得模块510,用于根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成。
近同词获取模块520,用于获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词。
次选扩充获得模块530,用于对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本。
知识图谱获得模块540,用于根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱,其中,所述知识图谱关联关系为实体-关系-实体,所述多个次选扩充文本中的每个次选扩充文本对应的实体为所述原始文本对应的实体的近同词;所述扩充后的知识图谱包括所述原始文本对应的实体以及所述次选扩充文本对应的实体共同构成的知识图谱关联关系。
初选扩充获得模块510,具体用于:对所述原始文本进行依存语法分析,获取所述原始文本的树形图,其中,所述树形图包括能组成所述原始文本的多个分词,所述多个分词被根据所述依存语法划分在所述树形图的多个层;根据所述树形图的每层的分词与该层的头节点的相对方位,对每层的分词进行分组,获取至少一个分词词组;对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本。
初选扩充获得模块510,具体用于:在文本生成过程中遇到至少两个分词组成的分词词组时,以所述分词词组对应的节点替换所述至少两个分词分别对应的至少两个节点,其中,所述分词词组对应的节点包括所述至少两个分词排列组合形成的结果;生成包括有排列组合的结果的结果文本;展开所述结果文本,获得所述多个初选扩充文本。
次选扩充获得模块530,具体用于对于初选扩充文本中的分词,判断分词对应的至少一个近同词的数量是否小于m个;若是,以所述至少一个近同词中的每个近同词分别替换所述分词,获得所述初选扩充文本对应的多个次选扩充文本。
次选扩充获得模块530,具体用于当所述分词对应的至少一个近同词的数量大于或等于m时,从所述至少一个近同词中随机选择一个近同词替换所述分词,获得所述初选扩充文本对应的次选扩充文本。
所述装置还包括:
训练模块,用于根据所述扩充后的知识图谱以及多个次选扩充文本,进行实体识别和关系抽取的训练,得到新的知识图谱关联关系;关系筛选模块,用于对所述新的知识图谱关联关系进行筛选,获得筛选后的知识图谱关联关系;终选图谱构建模块,用于根据所述筛选后的知识图谱关联关系、所述原始知识图谱以及所述扩充后的知识图谱,构建终选知识图谱。
本申请实施例提供的知识图谱构建装置与上文提到的知识图谱构建方法对应相同,在此便不做赘述。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种知识图谱构建方法,其特征在于,所述方法包括:
根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成;
获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词;
对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;
根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱,其中,所述知识图谱关联关系为实体-关系-实体,所述多个次选扩充文本中每个次选扩充文本对应的实体为所述原始文本对应的实体的近同词;所述扩充后的知识图谱包括所述原始文本对应的实体以及所述次选扩充文本对应的实体共同构成的知识图谱关联关系。
2.根据权利要求1所述的方法,其特征在于,所述根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,包括:
对所述原始文本进行依存语法分析,获取所述原始文本的树形图,其中,所述树形图包括能组成所述原始文本的多个分词,所述多个分词被根据所述依存语法划分在所述树形图的多个层;
根据所述树形图的每层的分词与该层的头节点的相对方位,对每层的分词进行分组,获取至少一个分词词组;
对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本。
3.根据权利要求2所述的方法,其特征在于,所述对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本,包括:
在文本生成过程中遇到至少两个分词组成的分词词组时,以所述分词词组对应的节点替换所述至少两个分词分别对应的至少两个节点,其中,所述分词词组对应的节点包括所述至少两个分词排列组合形成的结果;
生成包括有排列组合的结果的结果文本;
展开所述结果文本,获得所述多个初选扩充文本。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本,包括:
对于初选扩充文本中的分词,判断分词对应的至少一个近同词的数量是否小于m个;
若是,以所述至少一个近同词中的每个近同词分别替换所述分词,获得所述初选扩充文本对应的多个次选扩充文本。
5.根据权利要求4所述的方法,其特征在于,所述判断分词对应的至少一个近同词的数量是否小于m个之后,所述方法还包括:
若所述分词对应的至少一个近同词的数量大于或等于m个,从所述至少一个近同词中随机选择一个近同词替换所述分词,获得所述初选扩充文本对应的次选扩充文本。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱之后,所述方法还包括:
根据所述扩充后的知识图谱以及多个次选扩充文本,进行实体识别和关系抽取的训练,得到新的知识图谱关联关系;
对所述新的知识图谱关联关系进行筛选,获得筛选后的知识图谱关联关系;
根据所述筛选后的知识图谱关联关系、所述原始知识图谱以及所述扩充后的知识图谱,构建终选知识图谱。
7.一种知识图谱构建装置,其特征在于,所述装置包括:
初选扩充获得模块,用于根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成;
近同词获取模块,用于获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词;
次选扩充获得模块,用于对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;
知识图谱获得模块,用于根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱,其中,所述知识图谱关联关系为实体-关系-实体,所述多个次选扩充文本中的每个次选扩充文本对应的实体为所述原始文本对应的实体的近同词;所述扩充后的知识图谱包括所述原始文本对应的实体以及所述次选扩充文本对应的实体共同构成的知识图谱关联关系。
8.根据权利要求7所述的装置,其特征在于,所述初选扩充获得模块,具体用于:
对所述原始文本进行依存语法分析,获取所述原始文本的树形图,其中,所述树形图包括能组成所述原始文本的多个分词,所述多个分词被根据所述依存语法划分在所述树形图的多个层;
根据所述树形图的每层的分词与该层的头节点的相对方位,对每层的分词进行分组,获取至少一个分词词组;
对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1-6任一项所述的方法。
10.一种可读存储介质,其特征在于,该可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226149.7A CN111414489B (zh) | 2020-03-25 | 2020-03-25 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226149.7A CN111414489B (zh) | 2020-03-25 | 2020-03-25 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414489A true CN111414489A (zh) | 2020-07-14 |
CN111414489B CN111414489B (zh) | 2023-10-27 |
Family
ID=71493393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010226149.7A Active CN111414489B (zh) | 2020-03-25 | 2020-03-25 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414489B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609309A (zh) * | 2021-08-16 | 2021-11-05 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN115146075A (zh) * | 2022-07-11 | 2022-10-04 | 中科雨辰科技有限公司 | 一种获取知识图谱的数据处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182386A (zh) * | 2013-05-27 | 2014-12-03 | 华东师范大学 | 词对关系相似度的计算方法 |
CN107797991A (zh) * | 2017-10-23 | 2018-03-13 | 南京云问网络技术有限公司 | 一种基于依存句法树的知识图谱扩充方法及系统 |
US20180157646A1 (en) * | 2016-12-01 | 2018-06-07 | Institute For Information Industry | Command transformation method and system |
CN108845989A (zh) * | 2018-06-13 | 2018-11-20 | 北京信息科技大学 | 基于浅层句法分析的情感评价单元抽取方法 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN110852095A (zh) * | 2018-08-02 | 2020-02-28 | 中国银联股份有限公司 | 语句热点提取方法及系统 |
-
2020
- 2020-03-25 CN CN202010226149.7A patent/CN111414489B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182386A (zh) * | 2013-05-27 | 2014-12-03 | 华东师范大学 | 词对关系相似度的计算方法 |
US20180157646A1 (en) * | 2016-12-01 | 2018-06-07 | Institute For Information Industry | Command transformation method and system |
CN107797991A (zh) * | 2017-10-23 | 2018-03-13 | 南京云问网络技术有限公司 | 一种基于依存句法树的知识图谱扩充方法及系统 |
CN108845989A (zh) * | 2018-06-13 | 2018-11-20 | 北京信息科技大学 | 基于浅层句法分析的情感评价单元抽取方法 |
CN110852095A (zh) * | 2018-08-02 | 2020-02-28 | 中国银联股份有限公司 | 语句热点提取方法及系统 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609309A (zh) * | 2021-08-16 | 2021-11-05 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN113609309B (zh) * | 2021-08-16 | 2024-02-06 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN115146075A (zh) * | 2022-07-11 | 2022-10-04 | 中科雨辰科技有限公司 | 一种获取知识图谱的数据处理系统 |
CN115146075B (zh) * | 2022-07-11 | 2023-03-10 | 中科雨辰科技有限公司 | 一种获取知识图谱的数据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111414489B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US20210182680A1 (en) | Processing sequential interaction data | |
KR102315984B1 (ko) | 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램 | |
CN109753661B (zh) | 一种机器阅读理解方法、装置、设备及存储介质 | |
CN109816438B (zh) | 信息推送方法及装置 | |
KR20210151281A (ko) | Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN111414489A (zh) | 知识图谱构建方法、装置、电子设备及可读存储介质 | |
CN114387061A (zh) | 产品推送方法、装置、电子设备及可读存储介质 | |
CN109271513B (zh) | 一种文本分类方法、计算机可读储存介质及系统 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
Corlett et al. | An exact A* method for deciphering letter-substitution ciphers | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN113360654A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN111027312B (zh) | 文本扩充方法、装置、电子设备及可读存储介质 | |
EP3846070A1 (en) | Generation method, generation program, and information processing device | |
CN110347806A (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
CN113032676A (zh) | 基于微反馈的推荐方法和系统 | |
Joseph et al. | Arab Spring: from newspaper | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN116304014A (zh) | 训练实体类型识别模型的方法、实体类型识别方法及装置 | |
CN114676237A (zh) | 语句相似度确定方法、装置、计算机设备和存储介质 | |
KR102299618B1 (ko) | 리뷰 광고 매칭 장치 및 방법 | |
CN111339287B (zh) | 摘要生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |