CN109977233A - 一种成语知识图谱构建方法及装置 - Google Patents

一种成语知识图谱构建方法及装置 Download PDF

Info

Publication number
CN109977233A
CN109977233A CN201910200003.2A CN201910200003A CN109977233A CN 109977233 A CN109977233 A CN 109977233A CN 201910200003 A CN201910200003 A CN 201910200003A CN 109977233 A CN109977233 A CN 109977233A
Authority
CN
China
Prior art keywords
processed
chinese idiom
word
idiom
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910200003.2A
Other languages
English (en)
Other versions
CN109977233B (zh
Inventor
李长亮
汪美玲
郭昱
唐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Co Ltd, Beijing Jinshan Digital Entertainment Technology Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Co Ltd
Priority to CN202110116579.8A priority Critical patent/CN112784062B/zh
Priority to CN202110116596.1A priority patent/CN112784063A/zh
Priority to CN201910200003.2A priority patent/CN109977233B/zh
Publication of CN109977233A publication Critical patent/CN109977233A/zh
Application granted granted Critical
Publication of CN109977233B publication Critical patent/CN109977233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种成语知识图谱构建方法,该方法包括:获取多个待处理成语及每个待处理成语的描述信息;针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。这样,可以基于描述信息为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,当用户进行成语查询时,可以根据某一标签确定多个对应的成语,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。

Description

一种成语知识图谱构建方法及装置
技术领域
本发明涉及信息存储技术领域,特别是涉及一种成语知识图谱构建方法及装置。
背景技术
现有的网络成语词典中,存储着大量成语的信息,包括每个成语的读音、释义、出处、近义词、反义词等,从而可以为用户提供成语相关的服务。
相关技术中,通常采用关系型数据库存储成语信息,这样,用户可以通过搜索特定成语,查询该特定成语的相关信息,或者,通过搜索成语释义中的特定关键词,查询与该特定关键词相关的成语及其相关信息。
但是,在关系型数据库中,用户很难从更多侧面获取成语信息,例如,虽然“古稀之年”和“耄耋之年”都是关于年龄的成语,但是,用户通过搜索“年龄”,难以同时获得这两个成语的信息,因此,相关技术难以满足用户的成语使用需求。
发明内容
本发明实施例的目的在于提供一种成语知识图谱构建方法及装置,以实现从更多侧面获取成语信息,满足用户的成语使用需求。具体技术方案如下:
本发明实施例提供了一种成语知识图谱构建方法,所述方法包括:
获取多个待处理成语及每个待处理成语的描述信息;
针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
可选的,所述针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签,包括:
对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签。
可选的,所述对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表,包括:
过滤所述描述信息中的停用词及符号,得到过滤信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
可选的,在所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签之前,所述方法还包括:
获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中;
判断所述词语列表中的词语数量是否发生变化,若是,则返回所述获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中的步骤,若否,则执行所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签的步骤。
可选的,所述基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱,包括:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
可选的,所述描述信息中包括:所述待处理成语的读音、释义及出处。
可选的,在所述对所述知识图谱进行存储之后,所述方法还包括:
获取待查询词语;
在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;
输出与所述目标标签对应的待处理成语。
本发明实施例还提供了一种成语知识图谱构建装置,所述装置包括:
获取模块,用于获取多个待处理成语及每个待处理成语的描述信息;
确定模块,用于针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
构建模块,用于基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
可选的,所述确定模块,具体用于:
对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签。
可选的,所述确定模块,具体用于:
过滤所述描述信息中的停用词及符号,得到过滤信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
可选的,所述确定模块,还用于:
获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中;
判断所述词语列表中的词语数量是否发生变化,若是,则返回所述获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中的步骤,若否,则执行所述从所述词语列表中,筛选与所述待处理成语语义相似度满足预设条件的词语,作为所述待处理成语对应的标签的步骤。
可选的,所述构建模块,具体用于:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
可选的,所述描述信息中包括:所述待处理成语的读音、释义及出处。
可选的,所述装置还包括:
查询模块,用于获取待查询词语;在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;输出与所述目标标签对应的待处理成语。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的成语知识图谱构建方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的成语知识图谱构建方法。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的成语知识图谱构建方法。
本发明实施例提供的成语知识图谱构建方法及装置,首先,获取多个待处理成语及每个待处理成语的描述信息,针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签,然后,基于多个待处理成语及每个待处理成语对应的标签,构建多个待处理成语的知识图谱。这样,可以基于描述信息为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,当用户进行成语查询时,可以根据某一标签确定多个对应的成语,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种成语知识图谱构建方法的流程示意图;
图2为本发明实施例提供的另一种成语知识图谱构建方法的流程示意图;
图3为本发明实施例提供的一种成语知识图谱构建装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,通常采用关系型数据库存储成语信息,这样,用户可以通过搜索特定成语,查询该特定成语的相关信息,或者,通过搜索成语释义中的特定关键词,查询与该特定关键词相关的成语及其相关信息。
但是,在关系型数据库中,用户很难从更多侧面获取成语信息,例如,虽然“古稀之年”和“耄耋之年”都是关于年龄的成语,但是,用户通过搜索“年龄”,难以同时获得这两个成语的信息,因此,相关技术难以满足用户的成语使用需求。
相比于现有技术,本发明实施例提供了一种成语知识图谱构建方法,计算机、服务器或其他电子设备可以利用该方法构建成语知识图谱。
下面从总体上对本发明实施例提供的成语知识图谱构建方法进行说明。
获取多个待处理成语及每个待处理成语的描述信息;
针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱。
由以上可见,本发明实施例提供的成语知识图谱构建方法及装置,可以基于描述信息为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,当用户进行成语查询时,可以根据某一标签确定多个对应的成语,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
下面将通过具体的实施例,对本发明实施例提供的成语知识图谱构建方法进行详细描述。
如图1所示,为本发明实施例提供的一种成语知识图谱构建方法的流程示意图,包括如下步骤:
S101:获取多个待处理成语及每个待处理成语的描述信息。
一些场景中,本电子设备(执行主体)会获取一些待处理成语,并对这些待处理成语进行存储,以便于用户对这些待处理成语进行查询、浏览等操作。而对待处理成语的不同存储方式对应着对其的不同的查询方式。
在本步骤中,待处理成语可以为任意字数的成语,每个待处理成语都具有其对应的描述信息,这些描述信息可以对待处理成语进行描述,以将其与其他的成语进行区分。其中,描述信息中可以包括待处理成语的读音、释义及出处等信息中的一种或多种,具体不做限定。
S102:针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签。
在获取多个待处理成语及每个待处理成语的描述信息之后,可以对每个待处理成语的描述信息进行分析,分别确定每个待处理成语对应的标签,其中,每个待处理成语可以对应唯一的一个标签,也可以对应多个标签,不同的成语可能对应同一标签,也可能对应不同的标签,具体不做限定。
一种实现方式中,对每个待处理成语的描述信息进行分析,确定待处理成语对应的标签的方式,可以为:首先,对描述信息进行分词处理,得到待处理成语对应的词语列表,然后,从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签。
举例而言,可以采用最短路径算法对描述信息进行分词处理:首先,对描述信息进行切分处理,将描述信息切分为多个词串数据,根据词串数据之间的关联关系,构建词串数据之间的关联图。然后,利用预设的词频概率算法,对关联图进行计算,得到词串数据的每个关联词的词频概率。针对每个词串数据,根据该词串数据的每个关联词的词频概率,消除在对描述信息进行切分时产生的歧义,从而更准确的识别出原始文本数据中的词语。或者,也可以采用n元语法模型方法、最大匹配算法、交叉歧义算法等方式,本发明实施例对此不作限定。
另外,可以采用杰卡德相似系数算法或余弦相似度算法计算每个词语与待处理成语的语义相似度,进而从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,或者,也可以由工作人员对词语列表中的词语和待处理成语进行人工审核,从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,其中,预设条件可以为语义相似度最高的词语,也可以是语义相似度达到预设阈值的词语,具体不做限定。
其中,对描述信息进行分词处理,得到待处理成语对应的词语列表时,可以先过滤描述信息中的停用词及符号,得到过滤信息,然后,对过滤信息进行分词处理,得到待处理成语对应的词语列表。
这样,可以过滤描述信息中重复或无用的信息,得到更有效的词语列表,从而进一步提高标签提取的效率和准确度。
另外,在从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签之前,还可以对词语列表中的词语进行关联概括处理,具体的,首先,可以获取词语列表中每个词语的关联词,将关联词添加至词语列表中,然后,判断词语列表中的词语数量是否发生变化,若发生变化,则继续对词语列表中的词语进行关联概括处理,直至词语列表中的词语数量不发生变化,再从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签。
其中,每个词语的关联词可以是该词语的近义词、同义词,比如,若该词语为“年龄”,那么,关联词可以为“年纪”,或者,关联词也可以是该词语的上位词,比如,若该词语为“五十岁”,那么,关联词可以为“年龄”,等等。获取每个词语的关联词时,可以在预设的语义词典中进行查询,或者,也可以将该词语输入至预先训练得到的算法模型中进行计算,得到该词语的关联词,具体不做限定。
这样,可以使得词语列表中的词语可以更加丰富,更具有概括性,从而也进一步提高标签提取的效率和准确度。
举例而言,“古稀之年”的描述信息为“人能活到七十岁,自古以来很稀少”,“耄耋之年”的描述信息为“年纪十分大的时候”,在获取到这两个待处理成语及其描述信息之后,可以对描述信息进行分词处理,得到待处理成语对应的词语列表,其中,“古稀之年”的词语列表可以为“人\七十岁\稀少”,“耄耋之年”的词语列表可以为“年纪\大”,然后,可以对词语列表中的词语进行上位概括,比如,“七十岁”的关联词为“年龄”,“年纪”的关联词也为“年龄”,进而,可以从词语列表中,筛选与待处理成语相似度最高的词语,作为待处理成语对应的标签,这样,“古稀之年”和“耄耋之年”对应的标签可以均为“年龄”。
S103:基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱。
其中,知识图谱又称为科学知识图谱,是一种知识域可视化映射地图,可以利用可视化技术描述知识资源及其载体。也就是说,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,可以构建多个待处理成语的知识图谱,从而可视化地对这些待处理成语进行描述,从而有助于用户挖掘、分析、构建、绘制和显示这些成语及它们之间的相互联系。
举例而言,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱的方式,可以为:首先,分别生成多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体,然后,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到多个待处理成语的知识图谱。
一种实现方式中,在构建多个待处理成语的知识图谱之后,用户可以利用知识图谱进行成语查询。
举例而言,用户可以输入任一待查询词语,电子设备(本执行主体)在获取待查询词语之后,可以在知识图谱中,查询与待查询词语相匹配的标签,作为目标标签,然后,输出与目标标签对应的待处理成语。这样,用户就可以查询到与待查询词语有关的所有成语。
比如,当用户输入“年龄”,电子设备(本执行主体)可以在知识图谱中,查询与“年龄”相匹配的标签,然后,输出与目标标签对应的待处理成语,如“古稀之年”和“耄耋之年”,这样,可以进一步满足用户的成语使用需求。
由以上可见,本发明实施例提供的成语知识图谱构建方法,可以为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,对知识图谱进行存储,使得所存储得成语更有条理,以便于用户根据标签对成语进行查询,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
如图2所示,为本发明实施例提供的另一种成语知识图谱构建方法的流程示意图,包括如下步骤:
S201:获取多个待处理成语及每个待处理成语的描述信息。
一些场景中,本电子设备(执行主体)会获取一些待处理成语,并对这些待处理成语进行存储,以便于用户对这些待处理成语进行查询、浏览等操作。而对待处理成语的不同存储方式对应着对其的不同的查询方式。
在本步骤中,待处理成语可以为任意字数的成语,每个待处理成语都具有其对应的描述信息,这些描述信息可以对待处理成语进行描述,以将其与其他的成语进行区分。其中,描述信息中可以包括待处理成语的读音、释义及出处等信息中的一种或多种,具体不做限定。
S202:过滤描述信息中的停用词及符号,得到过滤信息。
可以先过滤描述信息中的停用词及符号,得到过滤信息,然后,对过滤信息进行分词处理,得到待处理成语对应的词语列表。
这样,可以过滤描述信息中重复或无用的信息,得到更有效的词语列表,从而进一步提高标签提取的效率和准确度。
S203:对过滤信息进行分词处理,得到待处理成语对应的词语列表。
举例而言,可以采用最短路径算法对描述信息进行分词处理:首先,对描述信息进行切分处理,将描述信息切分为多个词串数据,根据词串数据之间的关联关系,构建词串数据之间的关联图。然后,利用预设的词频概率算法,对关联图进行计算,得到词串数据的每个关联词的词频概率。针对每个词串数据,根据该词串数据的每个关联词的词频概率,消除在对描述信息进行切分时产生的歧义,从而更准确的识别出原始文本数据中的词语。
或者,也可以采用n元语法模型方法、最大匹配算法、交叉歧义算法等方式,本发明实施例对此不作限定。
S204:获取词语列表中每个词语的关联词,将关联词添加至词语列表中。
其中,每个词语的关联词可以是该词语的近义词、同义词,比如,若该词语为“年龄”,那么,关联词可以为“年纪”,或者,关联词也可以是该词语的上位词,比如,若该词语为“五十岁”,那么,关联词可以为“年龄”,等等。获取每个词语的关联词时,可以在预设的语义词典中进行查询,或者,也可以将该词语输入至预先训练得到的算法模型中进行计算,得到该词语的关联词,具体不做限定。
S205:判断词语列表中的词语数量是否发生变化,若是,则返回S204,若否,则执行S206。
举例而言,首先,可以获取词语列表中每个词语的关联词,将关联词添加至词语列表中,然后,判断词语列表中的词语数量是否发生变化,若发生变化,则继续对词语列表中的词语进行上位概括,直至词语列表中的词语数量不发生变化,再从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签。
这样,可以使得词语列表中的词语可以更加丰富,更具有概括性,从而也进一步提高标签提取的效率和准确度。
S206:从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,作为待处理成语对应的标签。
举例而言,可以采用杰卡德相似系数算法或余弦相似度算法计算每个词语与待处理成语的语义相似度,进而从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,或者,也可以由工作人员对词语列表中的词语和待处理成语进行人工审核,从词语列表中,筛选与待处理成语的语义相似度满足预设条件的词语,其中,预设条件可以为语义相似度最高的词语,也可以是语义相似度达到预设阈值的词语,具体不做限定。
其中,每个待处理成语可以对应唯一的一个标签,也可以对应多个标签,不同的成语可能对应同一标签,也可能对应不同的标签,具体不做限定。
举例而言,“古稀之年”的描述信息为“人能活到七十岁,自古以来很稀少”,“耄耋之年”的描述信息为“年纪十分大的时候”,在获取到这两个待处理成语及其描述信息之后,可以对描述信息进行分词处理,得到待处理成语对应的词语列表,其中,“古稀之年”的词语列表可以为“人\七十岁\稀少”,“耄耋之年”的词语列表可以为“年纪\大”,然后,可以对词语列表中的词语进行上位概括,比如,“七十岁”的关联词为“年龄”,“年纪”的关联词也为“年龄”,进而,可以从词语列表中,筛选与待处理成语相似度最高的词语,作为待处理成语对应的标签,这样,“古稀之年”和“耄耋之年”对应的标签可以均为“年龄”。
S207:基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱。
其中,知识图谱又称为科学知识图谱,是一种知识域可视化映射地图,可以利用可视化技术描述知识资源及其载体。也就是说,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,可以构建多个待处理成语的知识图谱,从而可视化地对这些待处理成语进行描述,从而有助于用户挖掘、分析、构建、绘制和显示这些成语及它们之间的相互联系。
举例而言,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱的方式,可以为:首先,分别生成多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体,然后,基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到多个待处理成语的知识图谱。
一种实现方式中,在构建多个待处理成语的知识图谱之后,用户可以利用知识图谱进行成语查询。
举例而言,用户可以输入任一待查询词语,电子设备(本执行主体)在获取待查询词语之后,可以在知识图谱中,查询与待查询词语相匹配的标签,作为目标标签,然后,输出与目标标签对应的待处理成语。这样,用户就可以查询到与待查询词语有关的所有成语。
比如,当用户输入“年龄”,电子设备(本执行主体)可以在知识图谱中,查询与“年龄”相匹配的标签,然后,输出与目标标签对应的待处理成语,如“古稀之年”和“耄耋之年”,这样,可以进一步满足用户的成语使用需求。
由以上可见,本发明实施例提供的成语知识图谱构建方法,可以为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,对知识图谱进行存储,使得所存储得成语更有条理,以便于用户根据标签对成语进行查询,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
本发明实施例还提供了一种成语知识图谱构建装置,如图3所示,为本发明实施例提供的一种成语知识图谱构建装置的结构示意图,该装置包括:
获取模块301,用于获取多个待处理成语及每个待处理成语的描述信息;
确定模块302,用于针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
构建模块303,用于基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
一种实现方式中,所述确定模块302,具体用于:
对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签。
一种实现方式中,所述确定模块302,具体用于:
过滤所述描述信息中的停用词及符号,得到过滤信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
一种实现方式中,所述确定模块302,还用于:
获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中;
判断所述词语列表中的词语数量是否发生变化,若是,则返回所述获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中的步骤,若否,则执行所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签的步骤。
一种实现方式中,所述构建模块303,具体用于:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
一种实现方式中,所述描述信息中包括:所述待处理成语的读音、释义及出处。
一种实现方式中,所述装置还包括:
查询模块304,用于获取待查询词语;在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;输出与所述目标标签对应的待处理成语。
由以上可见,本发明实施例提供的成语知识图谱构建装置,可以为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,对知识图谱进行存储,使得所存储得成语更有条理,以便于用户根据标签对成语进行查询,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取多个待处理成语及每个待处理成语的描述信息;
针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
基于多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建多个待处理成语的知识图谱。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由以上可见,本发明实施例提供的成语知识图谱构建方法及装置,可以为每个待处理成语确定对应的标签,并基于标签与待处理成语之间的关联关系构建知识图谱,对知识图谱进行存储,使得所存储得成语更有条理,以便于用户根据标签对成语进行查询,相比于根据特定成语或特定关键词搜索成语的方法,有助于用户从更多侧面获取成语信息,满足用户的成语使用需求。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的成语知识图谱构建方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的成语知识图谱构建方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (16)

1.一种成语知识图谱构建方法,其特征在于,所述方法包括:
获取多个待处理成语及每个待处理成语的描述信息;
针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签,包括:
对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签。
3.根据权利要求2所述的方法,其特征在于,所述对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表,包括:
过滤所述描述信息中的停用词及符号,得到过滤信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
4.根据权利要求2所述的方法,其特征在于,在所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签之前,所述方法还包括:
获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中;
判断所述词语列表中的词语数量是否发生变化,若是,则返回所述获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中的步骤,若否,则执行所述从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签的步骤。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱,包括:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
6.根据权利要求1所述的方法,其特征在于,所述描述信息中包括:所述待处理成语的读音、释义及出处。
7.根据权利要求1所述的方法,其特征在于,在所述对所述知识图谱进行存储之后,所述方法还包括:
获取待查询词语;
在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;
输出与所述目标标签对应的待处理成语。
8.一种成语知识图谱构建装置,其特征在于,所述装置包括:
获取模块,用于获取多个待处理成语及每个待处理成语的描述信息;
确定模块,用于针对每个待处理成语,对该待处理成语的描述信息进行分析,确定该待处理成语对应的标签;
构建模块,用于基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,构建所述多个待处理成语的知识图谱。
9.根据权利要求8所述的装置,其特征在于,所述确定模块,具体用于:
对所述描述信息进行分词处理,得到所述待处理成语对应的词语列表;
从所述词语列表中,筛选与所述待处理成语的语义相似度满足预设条件的词语,作为所述待处理成语对应的标签。
10.根据权利要求9所述的装置,其特征在于,所述确定模块,具体用于:
过滤所述描述信息中的停用词及符号,得到过滤信息;
对所述过滤信息进行分词处理,得到所述待处理成语对应的词语列表。
11.根据权利要求9所述的装置,其特征在于,所述确定模块,还用于:
获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中;
判断所述词语列表中的词语数量是否发生变化,若是,则返回所述获取所述词语列表中每个词语的关联词,将所述关联词添加至所述词语列表中的步骤,若否,则执行所述从所述词语列表中,筛选与所述待处理成语语义相似度满足预设条件的词语,作为所述待处理成语对应的标签的步骤。
12.根据权利要求8所述的装置,其特征在于,所述构建模块,具体用于:
分别生成所述多个待处理成语对应的成语实体及每个待处理成语对应的标签对应的标签实体;
基于所述多个待处理成语及每个待处理成语对应的标签之间的关联关系,建立每个成语实体及每个标签实体之间的关联关系,得到所述多个待处理成语的知识图谱。
13.根据权利要求8所述的装置,其特征在于,所述描述信息中包括:所述待处理成语的读音、释义及出处。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
查询模块,用于获取待查询词语;在所述知识图谱中,查询与所述待查询词语相匹配的标签,作为目标标签;输出与所述目标标签对应的待处理成语。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要1-7任一所述的方法步骤。
CN201910200003.2A 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置 Active CN109977233B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110116579.8A CN112784062B (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置
CN202110116596.1A CN112784063A (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置
CN201910200003.2A CN109977233B (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910200003.2A CN109977233B (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN202110116579.8A Division CN112784062B (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置
CN202110116596.1A Division CN112784063A (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置

Publications (2)

Publication Number Publication Date
CN109977233A true CN109977233A (zh) 2019-07-05
CN109977233B CN109977233B (zh) 2021-02-23

Family

ID=67079105

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202110116579.8A Active CN112784062B (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置
CN201910200003.2A Active CN109977233B (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置
CN202110116596.1A Pending CN112784063A (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110116579.8A Active CN112784062B (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110116596.1A Pending CN112784063A (zh) 2019-03-15 2019-03-15 一种成语知识图谱构建方法及装置

Country Status (1)

Country Link
CN (3) CN112784062B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442735A (zh) * 2019-08-13 2019-11-12 北京金山数字娱乐科技有限公司 一种成语近义词推荐方法及装置
CN110688838A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN111309872A (zh) * 2020-03-26 2020-06-19 北京百度网讯科技有限公司 搜索处理方法、装置及设备
CN113127626A (zh) * 2021-04-22 2021-07-16 广联达科技股份有限公司 基于知识图谱的推荐方法、装置、设备及可读存储介质
CN113569051A (zh) * 2020-04-29 2021-10-29 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074235A (zh) * 2010-12-20 2011-05-25 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN109189939A (zh) * 2018-09-05 2019-01-11 安阳师范学院 一种汉字语义知识图谱构建方法、装置、设备、存储介质
US20190179878A1 (en) * 2017-12-12 2019-06-13 Google Llc Generating organization-specific tags for communications from various sources of an organization using an expanded knowledge graph for organization-specific content

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230173A (ja) * 2008-03-19 2009-10-08 Nec Corp 同義語変換システム、同義語変換方法および同義語変換用プログラム
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN103853702B (zh) * 2012-12-06 2016-08-17 富士通株式会社 校正语料中的成语错误的装置和方法
US9904579B2 (en) * 2013-03-15 2018-02-27 Advanced Elemental Technologies, Inc. Methods and systems for purposeful computing
CN104516904B (zh) * 2013-09-29 2018-04-03 北大方正集团有限公司 一种关键知识点推荐方法及其系统
CN103577549B (zh) * 2013-10-16 2017-02-15 复旦大学 一种基于微博标签的人群画像系统和方法
CN104484411B (zh) * 2014-12-16 2017-12-22 中国科学院自动化研究所 一种基于词典的语义知识库的构建方法
CN104484459B (zh) * 2014-12-29 2019-07-23 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
EP3101534A1 (en) * 2015-06-01 2016-12-07 Siemens Aktiengesellschaft Method and computer program product for semantically representing a system of devices
CN105589728B (zh) * 2015-12-16 2019-03-29 西安文理学院 一种基于子图语义同构的指令习语识别方法
US20170193393A1 (en) * 2016-01-04 2017-07-06 International Business Machines Corporation Automated Knowledge Graph Creation
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN106778862B (zh) * 2016-12-12 2020-04-21 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
EP3593262A4 (en) * 2017-03-10 2020-12-09 Eduworks Corporation AUTOMATED TOOL FOR GENERATING QUESTIONS
CN107368468B (zh) * 2017-06-06 2020-11-24 广东广业开元科技有限公司 一种运维知识图谱的生成方法及系统
CN107451126B (zh) * 2017-08-21 2020-07-28 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN107526812A (zh) * 2017-08-24 2017-12-29 北京奇艺世纪科技有限公司 一种搜索方法、装置及电子设备
CN107679084B (zh) * 2017-08-31 2021-09-28 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质
CN107562918A (zh) * 2017-09-12 2018-01-09 北京点易通科技有限公司 一种数学题知识点发现与批量标签获取方法
CN107748754B (zh) * 2017-09-15 2021-10-26 广州唯品会研究院有限公司 一种知识图谱完善方法和装置
CN108255813B (zh) * 2018-01-23 2021-11-16 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074235A (zh) * 2010-12-20 2011-05-25 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
US20190179878A1 (en) * 2017-12-12 2019-06-13 Google Llc Generating organization-specific tags for communications from various sources of an organization using an expanded knowledge graph for organization-specific content
CN109189939A (zh) * 2018-09-05 2019-01-11 安阳师范学院 一种汉字语义知识图谱构建方法、装置、设备、存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442735A (zh) * 2019-08-13 2019-11-12 北京金山数字娱乐科技有限公司 一种成语近义词推荐方法及装置
CN110688838A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN110688838B (zh) * 2019-10-08 2023-07-18 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN111309872A (zh) * 2020-03-26 2020-06-19 北京百度网讯科技有限公司 搜索处理方法、装置及设备
CN111309872B (zh) * 2020-03-26 2023-08-08 北京百度网讯科技有限公司 搜索处理方法、装置及设备
CN113569051A (zh) * 2020-04-29 2021-10-29 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
CN113127626A (zh) * 2021-04-22 2021-07-16 广联达科技股份有限公司 基于知识图谱的推荐方法、装置、设备及可读存储介质
CN113127626B (zh) * 2021-04-22 2024-04-30 广联达科技股份有限公司 基于知识图谱的推荐方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN112784062A (zh) 2021-05-11
CN112784063A (zh) 2021-05-11
CN109977233B (zh) 2021-02-23
CN112784062B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN109977233A (zh) 一种成语知识图谱构建方法及装置
US11113326B2 (en) Automatic extraction of domain specific terminology from a large corpus
US9818080B2 (en) Categorizing a use scenario of a product
KR102152312B1 (ko) 다중 언어 문서 클러스터링
Maier et al. Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections
TWI710917B (zh) 資料處理方法及裝置
US20200272651A1 (en) Heuristic dimension reduction in metadata modeling
US9990359B2 (en) Computer-based analysis of virtual discussions for products and services
CN109947903A (zh) 一种成语查询方法及装置
US10055408B2 (en) Method of extracting an important keyword and server performing the same
US20180089305A1 (en) Optimizing retrieval of data related to temporal based queries
US20160217200A1 (en) Dynamic creation of domain specific corpora
US20200272674A1 (en) Method and apparatus for recommending entity, electronic device and computer readable medium
US20230076923A1 (en) Semantic search based on a graph database
CN107844493A (zh) 一种文件关联方法及系统
CN115630144B (zh) 一种文档搜索方法、装置及相关设备
US11074266B2 (en) Semantic concept discovery over event databases
US20180197530A1 (en) Domain terminology expansion by relevancy
KR20180127840A (ko) 논문 평가 방법 및 전문가 추천 방법
US10009297B2 (en) Entity metadata attached to multi-media surface forms
CN108804550A (zh) 一种查询词拓展方法、装置以及电子设备
CN110263083B (zh) 知识图谱的处理方法、装置、设备和介质
CN109471969A (zh) 一种应用搜索方法、装置及设备
US11355242B2 (en) Medical treatment management
Tamburini A BiLSTM-CRF PoS-tagger for Italian tweets using morphological information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant