CN112784062A - 一种成语知识图谱构建方法及装置 - Google Patents
一种成语知识图谱构建方法及装置 Download PDFInfo
- Publication number
- CN112784062A CN112784062A CN202110116579.8A CN202110116579A CN112784062A CN 112784062 A CN112784062 A CN 112784062A CN 202110116579 A CN202110116579 A CN 202110116579A CN 112784062 A CN112784062 A CN 112784062A
- Authority
- CN
- China
- Prior art keywords
- processed
- idiom
- idioms
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000001914 filtration Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 240000004516 Madia sativa Species 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种成语知识图谱构建方法,该方法包括:获取多个待处理成语及每个待处理成语的描述信息;针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。这样,可以基于描述信息为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,当用户进行成语查询时,可以根据某一标签确定多个对应的成语,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
Description
技术领域
本发明涉及信息存储技术领域,特别是涉及一种成语知识图谱构建方法及装置。
背景技术
现有的网络成语词典中,存储着大量成语的信息,包括每个成语的读音、释义、出处、近义词、反义词等,从而可以为用户提供成语相关的服务。
相关技术中,通常采用关系型数据库存储成语信息,这样,用户可以通过搜索特定成语,查询该特定成语的相关信息,或者,通过搜索成语释义中的特定关键词,查询与该特定关键词相关的成语及其相关信息。
但是,在关系型数据库中,用户很难从更多侧面获取成语信息,例如,虽然“古稀之年”和“耄耋之年”都是关于年龄的成语,但是,用户通过搜索“年龄”,难以同时获得这两个成语的信息,因此,相关技术难以满足用户的成语使用需求。
发明内容
本发明实施例的目的在于提供一种成语知识图谱构建方法及装置,以实现从更多侧面获取成语信息,满足用户的成语使用需求。具体技术方案如下:
本发明实施例提供了一种成语知识图谱构建方法,所述方法包括:
获取多个待处理成语及每个待处理成语的描述信息;
针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
可选的,所述针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签,包括:
对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签。
可选的,所述对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表,包括:
过滤所述描述信息中的停用词及符号,得到过滤信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
可选的,在所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签之前,所述方法还包括:
获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中;
判断所述词语列表中的词语数量是否发生变化,若是,则返回所述获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中的步骤,若否,则执行所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签的步骤。
可选的,所述基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱,包括:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
可选的,所述描述信息中包括:所述待处理成语的读音、释义及出处。
可选的,在所述对所述知识图谱进行存储之后,所述方法还包括:
获取待查询词语;
在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;
输出与所述目标标签对应的待处理成语。
本发明实施例还提供了一种成语知识图谱构建装置,所述装置包括:
获取模块,用于获取多个待处理成语及每个待处理成语的描述信息;
确定模块,用于针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
构建模块,用于基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
可选的,所述确定模块,具体用于:
对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签。
可选的,所述确定模块,具体用于:
过滤所述描述信息中的停用词及符号,得到过滤信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
可选的,所述确定模块,还用于:
获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中;
判断所述词语列表中的词语数量是否发生变化,若是,则返回所述获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中的步骤,若否,则执行所述从所述词语列表中,筛选与所述待处理成语语义相似度满足预设条件的词语,作为所述待处理成语对应的标签的步骤。
可选的,所述构建模块,具体用于:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
可选的,所述描述信息中包括:所述待处理成语的读音、释义及出处。
可选的,所述装置还包括:
查询模块,用于获取待查询词语;在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;输出与所述目标标签对应的待处理成语。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的成语知识图谱构建方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的成语知识图谱构建方法。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的成语知识图谱构建方法。
本发明实施例提供的成语知识图谱构建方法及装置,首先,获取多个待处理成语及每个待处理成语的描述信息,针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签,然后,基于多个待处理成语及每个待处理成语对应的标签,构建多个待处理成语的知识图谱。这样,可以基于描述信息为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,当用户进行成语查询时,可以根据某一标签确定多个对应的成语,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种成语知识图谱构建方法的流程示意图;
图2为本发明实施例提供的另一种成语知识图谱构建方法的流程示意图;
图3为本发明实施例提供的一种成语知识图谱构建装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,通常采用关系型数据库存储成语信息,这样,用户可以通过搜索特定成语,查询该特定成语的相关信息,或者,通过搜索成语释义中的特定关键词,查询与该特定关键词相关的成语及其相关信息。
但是,在关系型数据库中,用户很难从更多侧面获取成语信息,例如,虽然“古稀之年”和“耄耋之年”都是关于年龄的成语,但是,用户通过搜索“年龄”,难以同时获得这两个成语的信息,因此,相关技术难以满足用户的成语使用需求。
相比于现有技术,本发明实施例提供了一种成语知识图谱构建方法,计算机、服务器或其他电子设备可以利用该方法构建成语知识图谱。
下面从总体上对本发明实施例提供的成语知识图谱构建方法进行说明。
获取多个待处理成语及每个待处理成语的描述信息;
针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱。
由以上可见,本发明实施例提供的成语知识图谱构建方法及装置,可以基于描述信息为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,当用户进行成语查询时,可以根据某一标签确定多个对应的成语,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
下面将通过具体的实施例,对本发明实施例提供的成语知识图谱构建方法进行详细描述。
如图1所示,为本发明实施例提供的一种成语知识图谱构建方法的流程示意图,包括如下步骤:
S101:获取多个待处理成语及每个待处理成语的描述信息。
一些场景中,本电子设备(执行主体)会获取一些待处理成语,并对这些待处理成语进行存储,以便于用户对这些待处理成语进行查询、浏览等操作。而对待处理成语的不同存储方式对应着对其的不同的查询方式。
在本步骤中,待处理成语可以为任意字数的成语,每个待处理成语都具有其对应的描述信息,这些描述信息可以对待处理成语进行描述,以将其与其他的成语进行区分。其中,描述信息中可以包括待处理成语的读音、释义及出处等信息中的一种或多种,具体不做限定。
S102:针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签。
在获取多个待处理成语及每个待处理成语的描述信息之后,可以对每个待处理成语的描述信息进行分析,分别确定每个待处理成语对应的标签,其中,每个待处理成语可以对应唯一的一个标签,也可以对应多个标签,不同的成语可能对应同一标签,也可能对应不同的标签,具体不做限定。
一种实现方式中,对每个待处理成语的描述信息进行分析,确定待处理成语对应的标签的方式,可以为:首先,对描述信息进行分词处理,得到待处理成语对应的词语列表,然后,从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签。
举例而言,可以采用最短路径算法对描述信息进行分词处理:首先,对描述信息进行切分处理,将描述信息切分为多个词串数据,根据词串数据之间的关联关系,构建词串数据之间的关联图。然后,利用预设的词频概率算法,对关联图进行计算,得到词串数据的每个关联词的词频概率。针对每个词串数据,根据该词串数据的每个关联词的词频概率,消除在对描述信息进行切分时产生的歧义,从而更准确的识别出原始文本数据中的词语。或者,也可以采用n元语法模型方法、最大匹配算法、交叉歧义算法等方式,本发明实施例对此不作限定。
另外,可以采用杰卡德相似系数算法或余弦相似度算法计算每个词语与待处理成语的语义相似度,进而从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,或者,也可以由工作人员对词语列表中的词语和待处理成语进行人工审核,从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,其中,预设条件可以为语义相似度最高的词语,也可以是语义相似度达到预设阈值的词语,具体不做限定。
其中,对描述信息进行分词处理,得到待处理成语对应的词语列表时,可以先过滤描述信息中的停用词及符号,得到过滤信息,然后,对过滤信息进行分词处理,得到待处理成语对应的词语列表。
这样,可以过滤描述信息中重复或无用的信息,得到更有效的词语列表,从而进一步提高标签提取的效率和准确度。
另外,在从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签之前,还可以对词语列表中的词语进行关联概括处理,具体的,首先,可以获取词语列表中每个词语的关联词,将关联词添加至词语列表中,然后,判断词语列表中的词语数量是否发生变化,若发生变化,则继续对词语列表中的词语进行关联概括处理,直至词语列表中的词语数量不发生变化,再从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签。
其中,每个词语的关联词可以是该词语的近义词、同义词,比如,若该词语为“年龄”,那么,关联词可以为“年纪”,或者,关联词也可以是该词语的上位词,比如,若该词语为“五十岁”,那么,关联词可以为“年龄”,等等。获取每个词语的关联词时,可以在预设的语义词典中进行查询,或者,也可以将该词语输入至预先训练得到的算法模型中进行计算,得到该词语的关联词,具体不做限定。
这样,可以使得词语列表中的词语可以更加丰富,更具有概括性,从而也进一步提高标签提取的效率和准确度。
举例而言,“古稀之年”的描述信息为“人能活到七十岁,自古以来很稀少”,“耄耋之年”的描述信息为“年纪十分大的时候”,在获取到这两个待处理成语及其描述信息之后,可以对描述信息进行分词处理,得到待处理成语对应的词语列表,其中,“古稀之年”的词语列表可以为“人\七十岁\稀少”,“耄耋之年”的词语列表可以为“年纪\大”,然后,可以对词语列表中的词语进行上位概括,比如,“七十岁”的关联词为“年龄”,“年纪”的关联词也为“年龄”,进而,可以从词语列表中,筛选与待处理成语相似度最高的词语,作为待处理成语对应的标签,这样,“古稀之年”和“耄耋之年”对应的标签可以均为“年龄”。
S103:基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱。
其中,知识图谱又称为科学知识图谱,是一种知识域可视化映射地图,可以利用可视化技术描述知识资源及其载体。也就是说,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,可以构建多个待处理成语的知识图谱,从而可视化地对这些待处理成语进行描述,从而有助于用户挖掘、分析、构建、绘制和显示这些成语及它们之间的相互联系。
举例而言,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱的方式,可以为:首先,分别生成多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体,然后,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到多个待处理成语的知识图谱。
一种实现方式中,在构建多个待处理成语的知识图谱之后,用户可以利用知识图谱进行成语查询。
举例而言,用户可以输入任一待查询词语,电子设备(本执行主体)在获取待查询词语之后,可以在知识图谱中,查询与待查询词语相匹配的标签,作为目标标签,然后,输出与目标标签对应的待处理成语。这样,用户就可以查询到与待查询词语有关的所有成语。
比如,当用户输入“年龄”,电子设备(本执行主体)可以在知识图谱中,查询与“年龄”相匹配的标签,然后,输出与目标标签对应的待处理成语,如“古稀之年”和“耄耋之年”,这样,可以进一步满足用户的成语使用需求。
由以上可见,本发明实施例提供的成语知识图谱构建方法,可以为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,对知识图谱进行存储,使得所存储得成语更有条理,以便于用户根据标签对成语进行查询,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
如图2所示,为本发明实施例提供的另一种成语知识图谱构建方法的流程示意图,包括如下步骤:
S201:获取多个待处理成语及每个待处理成语的描述信息。
一些场景中,本电子设备(执行主体)会获取一些待处理成语,并对这些待处理成语进行存储,以便于用户对这些待处理成语进行查询、浏览等操作。而对待处理成语的不同存储方式对应着对其的不同的查询方式。
在本步骤中,待处理成语可以为任意字数的成语,每个待处理成语都具有其对应的描述信息,这些描述信息可以对待处理成语进行描述,以将其与其他的成语进行区分。其中,描述信息中可以包括待处理成语的读音、释义及出处等信息中的一种或多种,具体不做限定。
S202:过滤描述信息中的停用词及符号,得到过滤信息。
可以先过滤描述信息中的停用词及符号,得到过滤信息,然后,对过滤信息进行分词处理,得到待处理成语对应的词语列表。
这样,可以过滤描述信息中重复或无用的信息,得到更有效的词语列表,从而进一步提高标签提取的效率和准确度。
S203:对过滤信息进行分词处理,得到待处理成语对应的词语列表。
举例而言,可以采用最短路径算法对描述信息进行分词处理:首先,对描述信息进行切分处理,将描述信息切分为多个词串数据,根据词串数据之间的关联关系,构建词串数据之间的关联图。然后,利用预设的词频概率算法,对关联图进行计算,得到词串数据的每个关联词的词频概率。针对每个词串数据,根据该词串数据的每个关联词的词频概率,消除在对描述信息进行切分时产生的歧义,从而更准确的识别出原始文本数据中的词语。
或者,也可以采用n元语法模型方法、最大匹配算法、交叉歧义算法等方式,本发明实施例对此不作限定。
S204:获取词语列表中每个词语的关联词,将关联词添加至词语列表中。
其中,每个词语的关联词可以是该词语的近义词、同义词,比如,若该词语为“年龄”,那么,关联词可以为“年纪”,或者,关联词也可以是该词语的上位词,比如,若该词语为“五十岁”,那么,关联词可以为“年龄”,等等。获取每个词语的关联词时,可以在预设的语义词典中进行查询,或者,也可以将该词语输入至预先训练得到的算法模型中进行计算,得到该词语的关联词,具体不做限定。
S205:判断词语列表中的词语数量是否发生变化,若是,则返回S204,若否,则执行S206。
举例而言,首先,可以获取词语列表中每个词语的关联词,将关联词添加至词语列表中,然后,判断词语列表中的词语数量是否发生变化,若发生变化,则继续对词语列表中的词语进行上位概括,直至词语列表中的词语数量不发生变化,再从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签。
这样,可以使得词语列表中的词语可以更加丰富,更具有概括性,从而也进一步提高标签提取的效率和准确度。
S206:从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签。
举例而言,可以采用杰卡德相似系数算法或余弦相似度算法计算每个词语与待处理成语的语义相似度,进而从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,或者,也可以由工作人员对词语列表中的词语和待处理成语进行人工审核,从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,其中,预设条件可以为语义相似度最高的词语,也可以是语义相似度达到预设阈值的词语,具体不做限定。
其中,每个待处理成语可以对应唯一的一个标签,也可以对应多个标签,不同的成语可能对应同一标签,也可能对应不同的标签,具体不做限定。
举例而言,“古稀之年”的描述信息为“人能活到七十岁,自古以来很稀少”,“耄耋之年”的描述信息为“年纪十分大的时候”,在获取到这两个待处理成语及其描述信息之后,可以对描述信息进行分词处理,得到待处理成语对应的词语列表,其中,“古稀之年”的词语列表可以为“人\七十岁\稀少”,“耄耋之年”的词语列表可以为“年纪\大”,然后,可以对词语列表中的词语进行上位概括,比如,“七十岁”的关联词为“年龄”,“年纪”的关联词也为“年龄”,进而,可以从词语列表中,筛选与待处理成语相似度最高的词语,作为待处理成语对应的标签,这样,“古稀之年”和“耄耋之年”对应的标签可以均为“年龄”。
S207:基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱。
其中,知识图谱又称为科学知识图谱,是一种知识域可视化映射地图,可以利用可视化技术描述知识资源及其载体。也就是说,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,可以构建多个待处理成语的知识图谱,从而可视化地对这些待处理成语进行描述,从而有助于用户挖掘、分析、构建、绘制和显示这些成语及它们之间的相互联系。
举例而言,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱的方式,可以为:首先,分别生成多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体,然后,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到多个待处理成语的知识图谱。
一种实现方式中,在构建多个待处理成语的知识图谱之后,用户可以利用知识图谱进行成语查询。
举例而言,用户可以输入任一待查询词语,电子设备(本执行主体)在获取待查询词语之后,可以在知识图谱中,查询与待查询词语相匹配的标签,作为目标标签,然后,输出与目标标签对应的待处理成语。这样,用户就可以查询到与待查询词语有关的所有成语。
比如,当用户输入“年龄”,电子设备(本执行主体)可以在知识图谱中,查询与“年龄”相匹配的标签,然后,输出与目标标签对应的待处理成语,如“古稀之年”和“耄耋之年”,这样,可以进一步满足用户的成语使用需求。
由以上可见,本发明实施例提供的成语知识图谱构建方法,可以为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,对知识图谱进行存储,使得所存储得成语更有条理,以便于用户根据标签对成语进行查询,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
本发明实施例还提供了一种成语知识图谱构建装置,如图3所示,为本发明实施例提供的一种成语知识图谱构建装置的结构示意图,该装置包括:
获取模块301,用于获取多个待处理成语及每个待处理成语的描述信息;
确定模块302,用于针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
构建模块303,用于基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
一种实现方式中,所述确定模块302,具体用于:
对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签。
一种实现方式中,所述确定模块302,具体用于:
过滤所述描述信息中的停用词及符号,得到过滤信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
一种实现方式中,所述确定模块302,还用于:
获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中;
判断所述词语列表中的词语数量是否发生变化,若是,则返回所述获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中的步骤,若否,则执行所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签的步骤。
一种实现方式中,所述构建模块303,具体用于:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
一种实现方式中,所述描述信息中包括:所述待处理成语的读音、释义及出处。
一种实现方式中,所述装置还包括:
查询模块304,用于获取待查询词语;在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;输出与所述目标标签对应的待处理成语。
由以上可见,本发明实施例提供的成语知识图谱构建装置,可以为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,对知识图谱进行存储,使得所存储得成语更有条理,以便于用户根据标签对成语进行查询,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取多个待处理成语及每个待处理成语的描述信息;
针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由以上可见,本发明实施例提供的成语知识图谱构建方法及装置,可以为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,对知识图谱进行存储,使得所存储得成语更有条理,以便于用户根据标签对成语进行查询,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的成语知识图谱构建方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的成语知识图谱构建方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (16)
1.一种成语知识图谱构建方法,其特征在于,所述方法包括:
获取多个待处理成语及每个待处理成语的描述信息;
过滤所述描述信息中的目标信息,得到过滤信息;其中,所述目标信息包括重复信息或指定的无用信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱,包括:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
3.根据权利要求1所述的方法,其特征在于,所述描述信息中包括:所述待处理成语的读音、释义及出处。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在对所述知识图谱进行存储之后,获取待查询词语;
在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;
输出与所述目标标签对应的待处理成语。
5.根据权利要求1所述的方法,其特征在于,所述对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表,包括:
采用最短路径算法对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
6.根据权利要求5所述的方法,其特征在于,所述采用最短路径算法对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表,包括:
对所述过滤信息进行切分处理,得到多个词串数据;
根据所述词串数据之间的关联关系,构建所述词串数据之间的关联图;
利用预设的词频概率算法,对所述关联图进行计算,得到所述词串数据的每个关联词的词频概率;
针对每个词串数据,根据该词串数据的每个关联词的词频概率,得到所述待处理成语对应的词语列表。
7.根据权利要求1所述的方法,其特征在于,在所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签之前,所述方法还包括:
基于预设相似度算法,计算所述词语列表中的每个词语与所述待处理成语的语义相似度;其中,所述预设相似度算法为杰卡德相似系数算法或余弦相似度算法。
8.一种成语知识图谱构建装置,其特征在于,所述装置包括:
获取模块,用于获取多个待处理成语及每个待处理成语的描述信息;
确定模块,用于过滤所述描述信息中的目标信息,得到过滤信息;其中,所述目标信息包括重复信息或指定的无用信息;对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表;从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签;
构建模块,用于基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
9.根据权利要求8所述的装置,其特征在于,所述构建模块,具体用于:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
10.根据权利要求8所述的装置,其特征在于,所述描述信息中包括:所述待处理成语的读音、释义及出处。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
查询模块,用于获取待查询词语;在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;输出与所述目标标签对应的待处理成语。
12.根据权利要求7所述的装置,其特征在于,所述确定模块,具体用于采用最短路径算法对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
13.根据权利要求12所述的装置,其特征在于,所述确定模块,具体用于对所述过滤信息进行切分处理,得到多个词串数据;
根据所述词串数据之间的关联关系,构建所述词串数据之间的关联图;
利用预设的词频概率算法,对所述关联图进行计算,得到所述词串数据的每个关联词的词频概率;
针对每个词串数据,根据该词串数据的每个关联词的词频概率,得到所述待处理成语对应的词语列表。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
语义相似度计算模块,用于在从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签之前,基于预设相似度算法,计算所述词语列表中的每个词语与所述待处理成语的语义相似度;其中,所述预设相似度算法为杰卡德相似系数算法或余弦相似度算法。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116579.8A CN112784062B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910200003.2A CN109977233B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
CN202110116579.8A CN112784062B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910200003.2A Division CN109977233B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784062A true CN112784062A (zh) | 2021-05-11 |
CN112784062B CN112784062B (zh) | 2024-06-04 |
Family
ID=67079105
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110116579.8A Active CN112784062B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
CN201910200003.2A Active CN109977233B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
CN202110116596.1A Active CN112784063B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910200003.2A Active CN109977233B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
CN202110116596.1A Active CN112784063B (zh) | 2019-03-15 | 2019-03-15 | 一种成语知识图谱构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN112784062B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442735B (zh) * | 2019-08-13 | 2022-05-13 | 北京金山数字娱乐科技有限公司 | 一种成语近义词推荐方法及装置 |
CN110688838B (zh) * | 2019-10-08 | 2023-07-18 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN111125369A (zh) * | 2019-11-25 | 2020-05-08 | 深圳壹账通智能科技有限公司 | 一种默契度检测方法、设备、服务器及可读存储介质 |
CN111309872B (zh) * | 2020-03-26 | 2023-08-08 | 北京百度网讯科技有限公司 | 搜索处理方法、装置及设备 |
CN113569051A (zh) * | 2020-04-29 | 2021-10-29 | 北京金山数字娱乐科技有限公司 | 一种知识图谱构建方法及装置 |
CN113127626B (zh) * | 2021-04-22 | 2024-04-30 | 广联达科技股份有限公司 | 基于知识图谱的推荐方法、装置、设备及可读存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074235A (zh) * | 2010-12-20 | 2011-05-25 | 上海华勤通讯技术有限公司 | 视频语音识别并检索的方法 |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN103853702A (zh) * | 2012-12-06 | 2014-06-11 | 富士通株式会社 | 校正语料中的成语错误的装置和方法 |
CN104484459A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 一种对知识图谱中的实体进行合并的方法及装置 |
US20160034305A1 (en) * | 2013-03-15 | 2016-02-04 | Advanced Elemental Technologies, Inc. | Methods and systems for purposeful computing |
US20160224564A1 (en) * | 2013-09-29 | 2016-08-04 | Peking University Founder Group Co., Ltd. | Method and system for key knowledge point recommendation |
US20160350364A1 (en) * | 2015-06-01 | 2016-12-01 | Siemens Aktiengesellschaft | Method And Computer Program Product For Semantically Representing A System Of Devices |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
CN107562918A (zh) * | 2017-09-12 | 2018-01-09 | 北京点易通科技有限公司 | 一种数学题知识点发现与批量标签获取方法 |
CN107748754A (zh) * | 2017-09-15 | 2018-03-02 | 广州唯品会研究院有限公司 | 一种知识图谱完善方法和装置 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108255813A (zh) * | 2018-01-23 | 2018-07-06 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
US20180260472A1 (en) * | 2017-03-10 | 2018-09-13 | Eduworks Corporation | Automated tool for question generation |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009230173A (ja) * | 2008-03-19 | 2009-10-08 | Nec Corp | 同義語変換システム、同義語変換方法および同義語変換用プログラム |
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及系统 |
CN104484411B (zh) * | 2014-12-16 | 2017-12-22 | 中国科学院自动化研究所 | 一种基于词典的语义知识库的构建方法 |
CN105589728B (zh) * | 2015-12-16 | 2019-03-29 | 西安文理学院 | 一种基于子图语义同构的指令习语识别方法 |
US20170193393A1 (en) * | 2016-01-04 | 2017-07-06 | International Business Machines Corporation | Automated Knowledge Graph Creation |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN106778862B (zh) * | 2016-12-12 | 2020-04-21 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN107451126B (zh) * | 2017-08-21 | 2020-07-28 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN107526812A (zh) * | 2017-08-24 | 2017-12-29 | 北京奇艺世纪科技有限公司 | 一种搜索方法、装置及电子设备 |
CN107679084B (zh) * | 2017-08-31 | 2021-09-28 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN107665252B (zh) * | 2017-09-27 | 2020-08-25 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
US20190179878A1 (en) * | 2017-12-12 | 2019-06-13 | Google Llc | Generating organization-specific tags for communications from various sources of an organization using an expanded knowledge graph for organization-specific content |
CN109189939A (zh) * | 2018-09-05 | 2019-01-11 | 安阳师范学院 | 一种汉字语义知识图谱构建方法、装置、设备、存储介质 |
-
2019
- 2019-03-15 CN CN202110116579.8A patent/CN112784062B/zh active Active
- 2019-03-15 CN CN201910200003.2A patent/CN109977233B/zh active Active
- 2019-03-15 CN CN202110116596.1A patent/CN112784063B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074235A (zh) * | 2010-12-20 | 2011-05-25 | 上海华勤通讯技术有限公司 | 视频语音识别并检索的方法 |
CN103853702A (zh) * | 2012-12-06 | 2014-06-11 | 富士通株式会社 | 校正语料中的成语错误的装置和方法 |
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
US20160034305A1 (en) * | 2013-03-15 | 2016-02-04 | Advanced Elemental Technologies, Inc. | Methods and systems for purposeful computing |
US20160224564A1 (en) * | 2013-09-29 | 2016-08-04 | Peking University Founder Group Co., Ltd. | Method and system for key knowledge point recommendation |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN104484459A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 一种对知识图谱中的实体进行合并的方法及装置 |
US20160350364A1 (en) * | 2015-06-01 | 2016-12-01 | Siemens Aktiengesellschaft | Method And Computer Program Product For Semantically Representing A System Of Devices |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
US20180260472A1 (en) * | 2017-03-10 | 2018-09-13 | Eduworks Corporation | Automated tool for question generation |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
CN107562918A (zh) * | 2017-09-12 | 2018-01-09 | 北京点易通科技有限公司 | 一种数学题知识点发现与批量标签获取方法 |
CN107748754A (zh) * | 2017-09-15 | 2018-03-02 | 广州唯品会研究院有限公司 | 一种知识图谱完善方法和装置 |
CN108255813A (zh) * | 2018-01-23 | 2018-07-06 | 重庆邮电大学 | 一种基于词频-逆文档与crf的文本匹配方法 |
Non-Patent Citations (7)
Title |
---|
于金山;吴皓;田国会;薛英花;赵贵祥;: "基于云的语义库设计及机器人语义地图构建", 机器人, no. 04 * |
付媛;朱礼军;韩红旗;: "K最短路径算法与应用分析", 情报工程, no. 01 * |
冉婕;孙瑜;: "语义检索中的词语相似度计算研究", 计算机技术与发展, no. 04 * |
刘路;李弼程;张先飞;孙显著;: "基于单实体语言模型的实体关系发现和描述", 信息工程大学学报, no. 03 * |
方华, 王振华, 陆汝占, 刘绍明: "运用改进的分词方法进行外国译名识别的研究", 计算机仿真, no. 03 * |
时雨;古天龙;宾辰忠;孙彦鹏;: "基于知识图谱的旅游景点问答系统", 桂林电子科技大学学报, no. 04 * |
祁蓉蓉;: "电力领域语义搜索系统的构建方法", 科技风, no. 29 * |
Also Published As
Publication number | Publication date |
---|---|
CN109977233A (zh) | 2019-07-05 |
CN112784063A (zh) | 2021-05-11 |
CN112784062B (zh) | 2024-06-04 |
CN109977233B (zh) | 2021-02-23 |
CN112784063B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977233B (zh) | 一种成语知识图谱构建方法及装置 | |
CN111581976B (zh) | 医学术语的标准化方法、装置、计算机设备及存储介质 | |
CN108121700B (zh) | 一种关键词提取方法、装置及电子设备 | |
WO2020001373A1 (zh) | 一种本体构建方法及装置 | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
WO2018157805A1 (zh) | 一种自动问答处理方法及自动问答系统 | |
CN106033416B (zh) | 一种字符串处理方法及装置 | |
JP2020135853A (ja) | 記述情報を決定する方法、装置、電子デバイス、コンピュータ可読媒体およびコンピュータプログラム | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN111522927B (zh) | 基于知识图谱的实体查询方法和装置 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
US11556812B2 (en) | Method and device for acquiring data model in knowledge graph, and medium | |
CN110019474B (zh) | 异构数据库中的同义数据自动关联方法、装置及电子设备 | |
CN109947903B (zh) | 一种成语查询方法及装置 | |
CN109450969B (zh) | 从第三方数据源服务器中获取数据的方法、装置和服务器 | |
CN109299235B (zh) | 知识库搜索方法、装置及计算机可读存储介质 | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
CN108804550B (zh) | 一种查询词拓展方法、装置以及电子设备 | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN118093629A (zh) | 数据库查询语句的生成方法、装置、设备及介质 | |
CN116383412B (zh) | 基于知识图谱的功能点扩增方法和系统 | |
CN111291153A (zh) | 一种信息搜索的方法和装置 | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |