CN112784054A - 概念图处理装置、概念图处理方法和计算机可读介质 - Google Patents

概念图处理装置、概念图处理方法和计算机可读介质 Download PDF

Info

Publication number
CN112784054A
CN112784054A CN202010927395.5A CN202010927395A CN112784054A CN 112784054 A CN112784054 A CN 112784054A CN 202010927395 A CN202010927395 A CN 202010927395A CN 112784054 A CN112784054 A CN 112784054A
Authority
CN
China
Prior art keywords
concept
graph
word
group
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010927395.5A
Other languages
English (en)
Inventor
田川裕辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2020019001A external-priority patent/JP2021077315A/ja
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN112784054A publication Critical patent/CN112784054A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供概念图处理装置、概念图处理方法和计算机可读介质。概念图处理装置包含处理器,所述处理器进行如下处理:根据关于概念组的说明语句组,生成表示所述概念组与所述说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和所述已有的概念图中不包含的新概念构成;以及根据所述概念单词图生成包含所述新概念的被扩展的概念图。

Description

概念图处理装置、概念图处理方法和计算机可读介质
技术领域
本公开涉及概念图处理装置、概念图处理方法和计算机可读介质。
背景技术
提出了用于在计算机上处理知识的各种方法(例如参照日本特开2018-156332号公报)。作为其中之一,公知有概念图。概念图通过概念的关系使知识系统化而成为图。具体而言,概念图由多个节点(下面根据情况而称为概念组。)和表示节点间的连结关系(即概念间的连结关系)的多个边构成。在概念图中,有时对各个节点赋予象征概念的标签,对各个边赋予象征连结关系的标签。根据情况,概念图也被称为本体图。
提出了按照构成概念图的各个节点和各个边计算作为分散表现的向量的各种方法。在专利文献1中记载了该方法的一例。该方法以公知的TransE为基础。
在概念图中一般包含多个三元组。各三元组由开头、关系、末尾这3个要素构成,典型地讲,它们对应于主语(s)、谓语或关系(r)、宾语(o)。在上述的TransE中,搜索对构成概念图的要素组赋予的最佳向量集,以使得规定的损失函数值最小。实际上,利用机器学习导出最佳向量集。根据这种分散表现,容易在信息处理中活用由概念图表现的知识。
在希望对已有的概念图追加新的概念(下面称为新概念。)的情况下,在概念图处理装置中,无法确定概念图中包含的多个已有的概念(下面称为已有概念。)和新概念的关系。因此,只能通过手动作业进行对概念图追加新概念的全部处理。
发明内容
本公开的目的在于,与全部通过手动作业进行追加新概念的处理的情况相比,减轻用户的负担,并且能够对已有的概念图追加新概念。
根据本公开的第1方案,提供一种概念图处理装置,其中,所述概念图处理装置包含处理器,所述处理器进行如下处理:根据关于概念组的说明语句组,生成表示所述概念组与所述说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和所述已有的概念图中不包含的新概念构成;以及根据所述概念单词图生成包含所述新概念的被扩展的概念图。
根据本公开的第2方案,所述处理器进行如下处理:生成由表示所述概念组与所述单词组之间的联系程度的多个要素构成的矩阵;以及根据所述矩阵生成所述概念单词图。
根据本公开的第3方案,所述各要素是按照概念和单词的每个对运算的数值,是表示单词对于概念而言的重要度的数值。
根据本公开的第4方案,所述处理器根据所述矩阵,在所述概念组与所述单词组之间生成由1个或多个边构成的中间构造,所述概念单词图包含所述中间构造。
根据本公开的第5方案,所述处理器进行如下处理:运算表示所述单词组中的单词间关系的多个相似度;以及根据所述多个相似度,针对所述单词组生成由1个或多个边构成的单词组构造,所述概念单词图包含所述中间构造和所述单词组构造。
根据本公开的第6方案,所述处理器进行如下处理:对所述已有的概念图和所述概念单词图进行合成;根据所述合成后的图,针对构成所述合成后的图的多个图要素运算向量集;以及根据所述向量集,在所述多个已有概念与所述新概念之间追加1个或多个新边,由此生成所述被扩展的概念图。
根据本公开的第7方案,所述向量集是作为基于所述合成后的图的机器学习的结果而生成的。
根据本公开的第8方案,所述处理器进行如下处理:根据所述已有的概念图,针对构成所述已有的概念图的多个图要素运算第1向量集;根据所述概念单词图,针对构成所述概念单词图的多个图要素运算第2向量集;对针对所述已有的概念图运算出的第1向量集和针对所述概念单词图运算出的第2向量集进行合成,由此生成被扩展的向量集;以及根据所述被扩展的向量集生成所述被扩展的概念图。
根据本公开的第9方案,所述第1向量集是作为基于所述已有的概念图的机器学习的结果而生成的,所述第2向量集是作为基于所述概念单词图的机器学习的结果而生成的。
根据本公开的第10方案,所述处理器进行如下处理:针对所述说明语句组,进行将相同意思的单词统一为同一单词的预处理;以及根据进行了所述预处理的说明语句组生成所述概念单词图。
根据本公开的第11方案,提供一种计算机可读介质,其存储有使计算机执行处理的程序,其中,包含以下步骤:根据关于概念组的说明语句组,生成表示所述概念组与所述说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和所述已有的概念图中不包含的新概念构成;以及根据所述概念单词图生成包含所述新概念的被扩展的概念图。
根据本公开的第12方案,提供一种概念图处理方法,其中,所述概念图处理方法包含以下步骤:根据关于概念组的说明语句组,生成表示所述概念组与所述说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和所述已有的概念图中不包含的新概念构成;以及根据所述概念单词图生成包含所述新概念的被扩展的概念图。
(效果)
根据所述第1、11或12方案,消除或减轻对概念图追加新概念时的用户的负担。
根据所述第2方案,提供生成概念单词图的新方法。
根据所述第3方案,生成反映了单词对于概念而言的重要度的矩阵。
根据所述第4方案,根据矩阵生成概念单词图所具有的中间构造。
根据所述第5方案,扩充概念单词图的内容。
根据所述第6方案,以合成后的图为基础生成被扩展的概念图。
根据所述第7方案,在概念数或单词数较多的情况下,也能够容易地生成向量集。
根据所述第8方案,能够生成被扩展的向量集,而不经过概念图和概念单词图的合成。
根据所述第9方案,在概念数或单词数较多的情况下,也能够容易地生成第1向量集和第2向量集。
根据所述第10方案,提高概念单词图的品质。
附图说明
图1是示出第1实施方式的概念图处理方法的概念图。
图2是示出第1实施方式的概念图处理装置的结构的框图。
图3是示出与多个概念有关的多个说明语句的例子的图。
图4是示出与新概念有关的说明语句的例子的图。
图5是示出预处理(名册处理)中参照的群组列表的例子的图。
图6是示出预处理前后的说明语句的变化的一例的图。
图7是示出重要度矩阵的一例的图。
图8是示出向量集学习方法的图。
图9是示出第1实施方式的概念图处理的流程图。
图10是示出被扩展的概念图的生成方法的一例的图。
图11是示出第2实施方式的概念图处理方法的概念图。
图12是示出第2实施方式的处理器的框图。
图13是示出相似度矩阵的一例的图。
图14是示出第3实施方式的概念图处理方法的概念图。
图15是示出扩展概念图的另一例的概念图。
图16是示出变形例的概念图。
图17是示出新边追加方法的具体例的图。
具体实施方式
下面,根据附图对实施方式进行说明。
(1)实施方式的概要
实施方式的概念图处理装置包含处理器。处理器作为概念单词图的生成部、被扩展的概念图的生成部、被扩展的向量集的生成部等发挥功能。更详细地讲,处理器根据关于概念组的说明语句组,生成表示概念组与说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和已有的概念图中不包含的新概念构成。接着,处理器根据概念单词图生成包含新概念的被扩展的概念图。
上述结构将概念单词图作为媒介,将新概念嵌入已有的概念图(以下也称为已有概念图。)中。概念单词图存在于概念组所在的层(为了简便而称为上层。)与单词组所在的层(为了简便而称为下层。)之间,规定概念组和单词组的关系。即使在上层中不能确定多个已有概念和新概念的关系的情况下,通过参照概念单词图,换言之,通过考虑上层之下构建的构造,也能够得知新概念相对于多个已有概念成为什么样的关系。
在实施方式中,概念图由作为概念组的多个节点和表示节点间的连结关系(即概念间的连结关系)的多个边构成。如上所述,概念单词图规定概念组和单词组的关系。在实施方式中,概念单词图包含作为概念组的多个节点和作为单词组的多个节点,进而,包含表示这些节点集群的连结关系的多个边。
说明语句组例如由概念间的关系和记述了概念单词间的关系的多个语句构成。在说明语句组中包含与新概念有关的说明语句。被追加的新概念能够由用户选定或自动选定。也可以同时追加多个新概念。向量被单独赋予给各节点和各边,其是图要素的分散表现。根据实施方式,根据概念单词图生成被扩展的概念图。可以对已有的概念图和概念单词图进行合成,根据基于合成后的图运算出的向量集确定新边,也可以对根据已有的概念图运算出的向量集和根据概念单词图运算出的向量集进行合成,根据合成后的向量集确定新边。新边基本上是确定新概念和已有概念的关系的边。通过对已有的概念图追加新边,生成被扩展的概念图。然而,被扩展的概念图只要是以概念单词图为基础而生成的图即可,在该限制下,在概念图的概念中能够包含多种图。
在上述结构中,已有概念是已经生成并管理的已有的概念图的要素,与不是已有的概念图的要素的单词进行区分。即使存在相同名称的概念和单词,它们也彼此区分地被处理。
在实施方式中,处理器生成由表示概念组与单词组之间的联系程度的多个要素构成的矩阵。然后,处理器根据矩阵生成概念单词图。上述的矩阵确定概念组和单词组的相互关系。在实施方式中,各要素是按照概念和单词的每个对运算的数值,例如是表示单词对于概念而言的重要度的数值。作为重要度,能够利用各种系数。
在实施方式中,处理器根据矩阵,在概念组与单词组之间生成由1个或多个边构成的中间构造。中间构造构成概念单词图的实体。另外,在本申请说明书中,着眼于上层与下层之间这点,使用中间这样的用语。
在实施方式中,处理器运算表示单词组中的单词间关系的多个相似度。然后,处理器根据多个相似度,针对单词组生成由1个或多个边构成的单词组构造。该情况下,概念单词图在中间构造的基础上,还包含单词组构造。单词组构造规定单词间的关系。通过对中间构造增加单词组构造,能够更加适当地确定新概念和多个已有概念的关系。
在实施方式中,处理器对已有的概念图和概念单词图进行合成。然后,处理器根据合成后的图,针对构成合成后的图的多个图要素运算向量集。接着,处理器根据向量集,在多个已有概念与新概念之间生成1个或多个新边,由此生成被扩展的概念图。通过已有的概念图和概念单词图的合成,能够考虑它们整体,针对各个图要素运算向量。为了生成新边而运算的向量集相当于后述实施方式中的临时向量集。根据需要,根据被扩展的概念图再次运算向量集。然而,为了生成新边而运算的向量集的全部或一部分也可以被用作再次运算出的最终向量集的全部或一部分。向量集能够通过一般的向量运算方法来运算。
在实施方式中,向量集是作为基于合成后的图的机器学习的结果而生成的。作为机器学习法,能够利用各种方法。一般而言,通过机器学习找出对评价函数(例如损失函数)的值进行优化的多个向量的组合即最佳向量集。
在实施方式中,处理器根据已有的概念图,针对构成已有的概念图的多个图要素运算第1向量集。此外,处理器根据概念单词图,针对构成概念单词图的多个图要素运算第2向量集。然后,处理器对针对已有的概念图运算出的第1向量集和针对概念单词图运算出的第2向量集进行合成,由此生成被扩展的向量集。接着,处理器根据被扩展的向量集生成被扩展的概念图。
上述结构不经过概念图和概念单词图的合成,对根据它们生成的第1向量集和第2向量集进行合成,由此,根据该合成结果生成被扩展的概念图。一般而言,向量集由按照每个图要素运算出的向量构成。在实施方式中,利用第1机器学习器运算第1向量集,此外,利用第2机器学习器运算第2向量集。各个机器学习器的实体是所谓的机器学习模型。
在实施方式中,处理器针对说明语句组应用将相同意思的单词统一为同一单词的预处理。然后,处理器根据应用了预处理的说明语句组生成概念单词图。在预处理中能包含所谓的名册处理。也可以应用用于使图生成适当化的其他预处理。
实施方式的概念图处理方法包含第1步骤和第2步骤。在第1步骤中,根据关于概念组的说明语句组,生成表示概念组与说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和已有的概念图中不包含的新概念构成。在第2步骤中,根据概念单词图生成包含新概念的被扩展的概念图。
上述方法能够作为硬件的功能或作为软件的功能来实现。在后者的情况下,用于执行上述方法的程序经由移动型存储介质或网络安装于信息处理装置。在信息处理装置的概念中包含作为概念图处理装置发挥功能的计算机等。另外,上述概念图处理方法也可以作为互联网上的云服务的一部分来执行。
(2)实施方式的详细情况
图1中示出第1实施方式的概念图处理方法作为概念图。上层所示的已有概念图10是已经生成并管理的概念图。已有概念图10是将知识系统化而得到的。具体而言,已有概念图10由作为概念组的多个节点12和表示节点间的连结关系(即概念间的连结关系)的多个边14构成。对各个节点12赋予象征概念的标签16,对各个边14赋予象征连结关系的标签18。各边14具有方向性。
在已有概念图10中包含多个三元组。各个三元组由开头(边出现的节点)、关系(边)和末尾(边朝向的节点)这3个要素构成,它们对应于主语(s)、谓语或关系(r)和宾语(o)。在图示的例子中,例如,“X公司”相当于主语,“开发”相当于谓语或关系,“X手表”相当于宾语。
这里,考虑对已有概念图10追加新概念20。在新概念20与多个已有概念之间的关系不明的情况下,无法将新概念20自动嵌入已有概念图中。只能通过手动作业明示该关系,或者通过手动作业追加边。这种作业对用户造成较大负担。
在实施方式中,能够自动且简便地对已有概念图10追加新概念20。对其进行详细说明。
与构成已有概念图的已有概念组有关的多个说明语句和与新概念有关的1个或多个说明语句构成的说明语句组被确定或收集。根据该说明语句组生成概念单词图22。概念单词图22是规定由多个已有概念和它们中不包含的新概念20构成的概念组与由多个单词构成的单词组之间的关系的图。在概念组与单词组之间设置有1个或多个边,换言之,通过1个或多个边将概念组和单词组关联起来。另外,在图1中,关于概念单词图中包含的一部分边,为了避免附图复杂化,省略箭头的表现。实际上,各个边具有朝向。然而,还考虑利用朝向双向的边等。
在将概念组表现为上层22A、将单词组表现为下层22B的情况下,通过存在于它们之间的1个或多个边定义中间构造22C。根据中间构造22C,在上层22A中,关于孤立的新概念20,能够间接地确定与1个或多个已有概念之间的关系。例如,新概念“X平板电脑”通过边24而与单词“XOS”相关联,此外,单词“XOS”通过边26而与概念“XOS”相关联。能够根据这种连接关系(实际上为后述的向量关系)确定新概念“X平板电脑”和概念“XOS”的关系。
同样,概念“X公司”经由边30而与单词“开发”相关联,单词“开发”经由边28而与新概念“X平板电脑”相关联。根据这种连接关系(实际上为后述的向量关系)找出概念“X公司”和新概念“X平板电脑”的关系。这样,根据概念单词图22,能够显现出上层中看不到的关系。
在图1的下层,示出追加新概念而被扩展的概念图(下面也称为扩展概念图。)32。附加从新概念“X平板电脑”朝向概念“XOS”的边34。对该边34赋予“OS”作为标签。同样,附加从概念“X公司”朝向概念“X平板电脑”的边36。对该边36赋予“开发”作为标签。能够自动进行扩展概念图32的生成,能够消除或减轻用户的负担。然而,用户也可以进行一部分作业或确认。该情况下,与完全通过手动作业进行新概念的追加的情况相比,减轻了用户的负担。
另外,在图1所示的例子中,在生成扩展概念图32时,概念单词图22被除外(即在扩展概念图32中不包含与概念单词图22相当的部分),但是,也可以不进行该除外。关于该情况,在后面使用图15进行说明。
通常,如标号38所示,根据扩展概念图32,获得构成扩展概念图32的各个图要素的分散表现(即向量)。在相似单词或关联单词的检索等中利用由多个向量构成的向量集。在图1中,追加了1个新概念,但是,也可以同时追加多个新概念。向量的维度例如为100。
在图2中示出第1实施方式的概念图处理装置的结构例。在图示的例子中,概念图处理装置被构建于计算机上。具体而言,概念图处理装置具有处理器38、存储部40、输入部42、显示部44和通信部46。它们与内部总线48并联连接。通信部46与网络50连接。概念图处理装置在与未图示的其他装置之间经由网络50进行数据的交换。
处理器38执行程序,由此,处理器38实现多个功能。这在图2中利用多个块来表现。具体而言,在图示的结构例中,处理器38作为概念图处理部52、收集部54、预处理部56、概念单词图生成部58、图运算部60和向量运算部62发挥功能。即,图运算部60作为扩展概念图生成部发挥功能。
概念图处理部52利用使知识系统化的概念图,根据请求来提供各种服务。例如,在从其他装置得到检索与指定单词(即关键字)相关联的单词的委托的情况下,概念图处理部52以概念图为基础,确定与关键字相关联的1个或多个关联词,将该确定结果返回给其他装置。除此以外,还能够在文档的确定及其他方面活用概念图。
收集部54根据需要进行说明语句的收集。在提供了新概念的情况下,在概念图处理装置未保有与新概念相关的充分的说明语句的情况下,通过收集部54搜索和取得这种说明语句。用户也可以进行说明语句的收集。或者,也可以向概念图处理装置提供用户保有的说明语句。另外,概念图处理装置通常保有与已有概念组有关的多个说明语句,但是,在未保有这些说明语句的情况下或说明语句不足的情况下,也可以使收集部54收集必要的说明语句。
预处理部56针对各说明语句应用后述的名册处理作为预处理。名册处理是将意思相似的多个单词统一为特定的单词的处理。如果在生成概念单词图之前进行名册处理,则能够提高概念单词图的质量。
概念单词图生成部58根据说明语句组生成上述概念单词图。关于这点,在后面进行具体说明。图运算部60对已有概念图和概念单词图进行合成,生成合成图,利用该合成图生成嵌入了新概念的扩展概念图。在实施方式中,在扩展概念图中不包含概念单词图。概念单词图是运算扩展概念图后暂时生成和利用的图。然而,也可以保有概念单词图并在事后进行活用。也可以在扩展概念图中嵌入概念单词图。
向量运算部62根据合成图和扩展概念图运算向量集。按照每个图要素运算向量。此时,能够利用上述TransE等公知方法。在第1实施方式中,在合成图中包含的各个三元组的评价中,通过向量运算部62,根据合成图生成向量集。在实施方式中,向量运算部62和概念图处理部52相当于机器学习器。
存储部40由半导体存储器、硬盘等构成。存储部40具有多个存储区域,在图2中,示出其中的图存储部66、说明语句存储部68和列表存储部70。
在图存储部66中存储有已有概念图。此外,在此存储有生成扩展概念图时需要的概念单词图和合成图等。作为各个图的向量表现的向量集即机器学习结果也存储在图存储部66中。
在说明语句存储部68中存储有与已有概念组有关的多个说明语句,此外,存储有针对新概念收集的说明语句。在此存储的多个说明语句作为说明语句组来管理。该内容根据需要进行更新。在列表存储部70中存储有上述名册处理中参照的单词群组列表。该具体例在后面叙述。
输入部42由键盘、指示设备等构成。显示部44由LCD等显示设备构成。通过图2所示的结构,也可以构成网络上的服务器。也可以活用图2所示的结构作为互联网上的云服务。
在图3中例示说明语句组。在图示的例子中,说明语句组72由与多个概念对应的多个说明语句构成。各个说明语句例如是定义构成概念图的各概念的文章,包含主语、宾语和动词。通常,主语和宾语相当于概念。动词相当于关系。可以通过1个说明语句定义多个概念,也可以通过多个说明语句说明1个概念。
在图4中示出与新概念有关的说明语句的例子。在该例子中,说明语句74是与“X平板电脑”有关的说明语句。
在图5中例示在作为预处理的名册处理中参照的单词群组列表。在图示的单词群组列表78中,按照每个概念,彼此相似的单词或表现被分组。在某个单词属于任意一个群组的情况下,其被置换为代表该群组的单词(具体而言为概念的标签)。可以从外部得到单词群组列表78,也可以由用户生成单词群组列表78。
在图6中示出预处理前的说明语句80和预处理后的说明语句82。按照上述的名册规则对说明语句进行处理。用户也可以进行名册处理的一部分或全部。
接着,对基于说明语句组的概念单词图的生成进行具体说明。
在图7中示出作为概念单词图的基础的矩阵的一例。例示的矩阵是重要度矩阵84。纵轴相当于概念组86,沿着纵轴排列有构成概念组86的多个概念。概念组86由多个已有概念和新概念构成。横轴相当于单词组88,沿着横轴排列有构成单词组88的多个单词。单词组88由说明语句组中包含的单词、即在与任意一个概念之间识别到关联性的单词构成。也可以通过说明语句组中包含的全部单词或一部分单词构成单词组88。也可以根据除此以外的条件构成单词组88。
按照概念和单词的每个对运算重要度90,通过运算出的多个重要度90构成重要度矩阵84。例如,可以计算TFIDF(Term Frequency/Inverse Document Frequency)作为重要度。重要度被理解为从某个概念观察的、与某个单词有关的重要度或关系的强度。也可以对各重要度进行归一化,以使得与各个概念对应的重要度向量(行向量)的总和为1。
也可以设定阈值,应用将阈值以下的重要度置换为0的处理、将阈值以上的重要度置换为1的处理。在图示的例子中,设定0.4作为阈值,在概念单词图的生成中利用该阈值以上的重要度。也可以从超过阈值的重要度中仅提取满足其他选择条件的重要度。
根据满足规定条件的多个重要度,如图1所示,在概念组与单词组之间设定多个边,由此构成概念单词图。另外,按照说明语句中的主语、动词和宾语的三者关系,能够在各个边的设定时确定边的朝向。或者,也可以使用其他方法确定边的朝向。作为边,可以采用箭头朝向两个方向的边,在扩展概念图的生成阶段,确定新追加的边的朝向。根据需要对构成概念单词图的各边赋予适当的标签。
接着,通过已有概念图和概念单词图的合成,生成合成图。作为合成方式,举出简单的结合。为了根据合成图生成扩展概念图,在第1实施方式中,实施基于合成图的向量集的运算和基于向量集的合成图的评价。然而,也可以通过其他方法,根据合成图生成扩展概念图。另外,还能够考虑根据概念单词图直接生成扩展概念图。
在图8中示出向量集生成方法的一例。这是基于上述的TransE。向量集依次被优化,以使得由以下的(1)式定义的损失函数值(loss)减小(图8中也示出(1)式)。最终,损失函数值(在图8中参照标号100)最小的时点的向量集成为表现合成图的向量集(在图8中参照标号102)。从根据扩展概念图再次运算的最终向量集来看,可以说该阶段生成的向量集是临时向量集。
loss=|s-r+o|+Γ+|s’-r’+o’|…(1)
在上述(1)式中,第1项(在图8中参照标号94)表示正例。正例由从合成图中取出的三元组构成。具体而言,三元组由与主语相当的向量s、与谓语(即关系)相当的向量r和与宾语相当的向量o构成。在上述(1)式中,第3项(在图8中参照标号96)表示负例。负例是将正例的一部分与合成图内的概念向量随机替换而生成的。另外,上述(1)式中包含的第2项即Γ(在图8中参照标号98)是余量参数。
在合成图中包含有多个三元组,它们依次被代入上述(1)式中。与其并行地,与多个三元组对应的多个负例也依次被代入上述(1)式中。损失函数值是将合成图中包含的全部三元组代入上述(1)中而得到的累积值,换言之,按照对图赋予的每个向量集运算损失函数值。在向量集的优化时,利用最速下降法等。另外,合成图的向量化能够利用各种模型来实现。上述只不过是其一例。
在求出与合成图有关的向量集后,以该向量集为基础对合成图进行评价。具体而言,生成和追加从新概念出来的边或朝向新概念的边。在后面使用图17详细叙述该具体例。除了这种方法以外,能够通过各种方法对已有概念图追加边。例如,在图1中,在由概念“X平板电脑”、边24、单词“XOS”构成的三元组满足一定的条件、且由单词“XOS”、边26和概念“XOS”构成的三元组满足一定的条件的情况下,也可以新生成从概念“X平板电脑”朝向概念“XOS”的边34。该情况下,对该边34赋予标签。例如,能够根据三元组中包含的或关联的概念或单词确定标签。用户也可以进行贴标签。
此外,例如,在图1中,在由概念“X公司”、边30、单词“开发”构成的三元组满足一定的条件、且由单词“开发”、边28和概念“X平板电脑”构成的三元组满足一定的条件的情况下,也可以新形成从概念“X公司”朝向概念“X平板电脑”的边36。例如,对该边36赋予三元组中的“开发”的标签。此外,也可以不使用单词“开发”,例如,通过使由|向量s-向量r+向量o|定义的距离为最小值或一定值以下来确定边。也可以对包含新概念的一次三元组进行评价,对与一次三元组连接的二次三元组进行评价,由此生成连接一次三元组的始点和二次三元组的终点的新的边。除此以外,还能够采用各种边追加方法。
在图9中示出第1实施方式的概念图处理装置的动作、特别是追加新概念的情况下的动作。当指示追加新概念时,执行S10以后的步骤。在S10中,取得由与已有概念组有关的多个说明语句和与新概念有关的说明语句构成的说明语句组。此时,根据需要,新收集说明语句组。在S12中,对构成说明语句组的各个说明语句应用预处理。具体而言,应用名册处理。在S14中,根据预处理后的说明语句组,运算确定概念组与单词组之间的关系的重要度矩阵。如上所述,也可以对重要度矩阵应用归一化等处理。
在S16中,根据重要度矩阵生成概念单词图。在S18中,对已有概念图和概念单词图进行合成,生成合成图。也可以逻辑上合成2个图。在S20中,根据合成图生成包含新概念的扩展概念图。在S22中,根据扩展概念图再次运算向量集。在向量集的运算时,能够利用神经网络等。
在图10中具体示出图9所示的S20的内容。该内容是例示。在S30中,根据合成图运算临时向量集。在S32中,根据临时向量集对从新概念出来或朝向新概念的各个边候选进行评价。在S34中,根据该边设定新边,由此生成取入了新概念的扩展概念图。
接着,根据图11至图13对第2实施方式进行说明。在图11中概念地示出第2实施方式的概念向量处理方法。另外,对与图1所示的要素相同的要素标注相同标号并省略其说明。
第2实施方式中,概念单词图103除了包含中间构造22C以外,还包含基于相似度的单词组构造104。如图所示,单词组构造104具有表示相似关系的1个或多个边107。也可以理解为对概念单词图103附加单词组构造104且一体地对它们进行处理。单词组构造104相当于单词图。
单词组构造104包含识别到一定以上的相似度的单词对之间所设置的边。通过对合并了单词组构造104的概念单词图103和已有概念图进行合成,生成合成图。根据合成图设定将新概念与1个或多个已有概念关联起来的1个或多个新边。由此生成扩展概念图32。与第1实施方式同样,在第2实施方式中,也根据合成图运算向量集,根据向量集追加边。
在图12中例示处理器38A的结构。在图12中,对与图2所示的要素相同的要素标注相同标号并省略其说明。在第2实施方式中,概念单词图生成部105除了具有中间构造生成部105A以外,还具有单词组构造生成部105B。这点与第1实施方式不同。
在图13中示出由单词组构造生成部生成的相似度矩阵的一例。在图示的例子中,相似度矩阵106由多个相似度112构成。沿着相似度矩阵的横轴和纵轴排列有从说明语句组中提取出的单词串108、110。按照每个单词对运算相似度。可以求出自互信息量(PMI;Pointwise Mutual Information)作为相似度。或者,作为相似度,也可以运算余弦相似度,还可以运算使用Word2Vec得到的指标。还考虑利用编集距离作为相似度。在图示的例子中,设定有阈值,参照阈值以上的相似度。例如,在具有阈值以上的相似度的单词对之间设定边。
在图14中示出第3实施方式。在该第3实施方式中,不根据概念单词图生成合成图,而利用向量合成来求出扩展概念图。通过对已有概念图120应用基于公知的向量化方法的向量运算122,生成第1向量集。另一方面,与第1实施方式和第2实施方式同样,根据说明语句组生成概念单词图124。此时,也可以嵌入基于相似度矩阵的单词组构造。根据概念单词图124执行向量运算126,由此运算第2向量集。对如上所述运算出的第1和第2向量集进行合成,由此生成扩展向量集130作为被合成的向量集。
在向量合成128中,也可以对针对各个概念求出的2个向量进行相加,还可以运算它们的平均。另外,还考虑它们的连结,但是,前提是在与概念有关的向量和与边有关的向量中维度一致。
如上所述求出的扩展向量集(具体而言为针对多个概念和多个边求出的多个向量)130反映了新概念和多个已有概念的关系。因此,扩展向量集130与根据上述合成图运算的向量集相同。在第3实施方式中,如标号131所示,根据扩展向量集130对已有概念图追加新边,由此生成扩展概念图。在各向量集的机器学习时,能够利用GCN等网络。
在图15中示出扩展概念图的另一例。在图15中,在上层示出已有概念图10和新概念20。在下层示出扩展概念图32A。扩展概念图32A具有根据与新概念20之间的关系而新设定的边34、36。此外,扩展概念图32A还具有与概念单词图相当的部分22D。这样,也可以不进行概念单词图22的切分,而取入该概念单词图22作为概念图的一部分。在进行这种取入的情况下,各单词分别作为概念进行处理。
在图16中示出变形例。变形例的概念图134具有已有概念图、新概念和与概念单词图相当的部分22D。在变形例中,没有追加使新概念20与已有概念图10直接结合的新边,但是,在部分22D中包含有与新边相当的边24、26、28、30,作为概念图134的整体来看,视为使包含新概念的知识系统化。根据概念图134,根据需要获得其分散表现。
在图17中示出边追加方法的具体例。如已经说明的那样,在第1实施方式和第2实施方式中,根据包含已有概念图的合成图生成向量集。根据该向量集对包含新概念的各三元组进行评价,根据该评价结果确定新边(即新关系)。
具体而言,以新概念是主语(S)(但是是向量)这样的假设为前提,按照每个三元组,通过以下的计算式计算分数(score)。
score=|S-ri+oi|…(2)
在设可适用的三元组数即可成立的宾语和关系的组合数为m的情况下,上述i可取1~m的各数值。具体而言,利用图17中的标号150示出m个分数计算式。标号154示出作为主语的新概念的向量。标号156示出能够成为谓语的关系的向量。例如,在已有概念图中包含100种关系的情况下,依次采用这些关系。标号158示出能够成为宾语的已有概念的向量。
此外,以新概念是宾语(O)(但是是向量)这样的假设为前提,按照每个三元组,通过以下的计算式计算分数(score)。
score=|sj-rj+O|…(3)
在设可适用的三元组数即可成立的主语和关系的组合数为n的情况下,上述j可取1~n的各数值。具体而言,利用图17中的标号152示出n个分数计算式。标号160示出作为宾语的新概念的向量。标号162示出能够成为主语的新概念的向量。标号164示出能够成为谓语的关系的向量。与上述同样,例如,在已有概念图中包含100种关系的情况下,依次采用这些关系。如标号166所示,在m+n个分数中确定最小值分数,由此选择1个关系。如标号168所示,在已有概念图中追加表示该关系的边作为新边。由此生成扩展概念图。也可以在m+n个分数中确定阈值以下的分数,由此选择1个或多个关系,按照该关系在已有概念图中追加1个或多个新边。也可以按照其他条件选择关系。也可以根据概念单词图,事前选择适用于计算式的要素。
另外,在第3实施方式中,也通过与上述相同的方法,根据扩展向量集对已有概念图追加新边。
上述各实施方式中的处理器意味着广义的处理器,在该概念中,不仅包含通用的处理器(CPU或MPU),还包含专用的处理器(GPU;Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、PLD:Programmable Logic Device)。可以通过1个物理上的处理器进行上述各实施方式中的处理器的动作,也可以通过设置于在物理上分开的位置的多个处理器协作进行上述各实施方式中的处理器的动作。此外,由处理器执行的各处理的顺序不限于上述顺序,能够根据需要而适当变更。

Claims (12)

1.一种概念图处理装置,其中,
所述概念图处理装置包含处理器,
所述处理器进行如下处理:
根据关于概念组的说明语句组,生成表示所述概念组与所述说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和所述已有的概念图中不包含的新概念构成;以及
根据所述概念单词图生成包含所述新概念的被扩展的概念图。
2.根据权利要求1所述的概念图处理装置,其中,
所述处理器进行如下处理:
生成由表示所述概念组与所述单词组之间的联系程度的多个要素构成的矩阵;以及
根据所述矩阵生成所述概念单词图。
3.根据权利要求2所述的概念图处理装置,其中,
所述各要素是按照概念和单词的每个对运算的数值,是表示单词对于概念而言的重要度的数值。
4.根据权利要求2所述的概念图处理装置,其中,
所述处理器根据所述矩阵,在所述概念组与所述单词组之间生成由1个或多个边构成的中间构造,
所述概念单词图包含所述中间构造。
5.根据权利要求4所述的概念图处理装置,其中,
所述处理器进行如下处理:
运算表示所述单词组中的单词间关系的多个相似度;以及
根据所述多个相似度,针对所述单词组生成由1个或多个边构成的单词组构造,
所述概念单词图包含所述中间构造和所述单词组构造。
6.根据权利要求1所述的概念图处理装置,其中,
所述处理器进行如下处理:
对所述已有的概念图和所述概念单词图进行合成;
根据所述合成后的图,针对构成所述合成后的图的多个图要素运算向量集;以及
根据所述向量集,在所述多个已有概念与所述新概念之间追加1个或多个新边,由此生成所述被扩展的概念图。
7.根据权利要求6所述的概念图处理装置,其中,
所述向量集是作为基于所述合成后的图的机器学习的结果而生成的。
8.根据权利要求1所述的概念图处理装置,其中,
所述处理器进行如下处理:
根据所述已有的概念图,针对构成所述已有的概念图的多个图要素运算第1向量集;
根据所述概念单词图,针对构成所述概念单词图的多个图要素运算第2向量集;
对针对所述已有的概念图运算出的第1向量集和针对所述概念单词图运算出的第2向量集进行合成,由此生成被扩展的向量集;以及
根据所述被扩展的向量集生成所述被扩展的概念图。
9.根据权利要求8所述的概念图处理装置,其中,
所述第1向量集是作为基于所述已有的概念图的机器学习的结果而生成的,
所述第2向量集是作为基于所述概念单词图的机器学习的结果而生成的。
10.根据权利要求1所述的概念图处理装置,其中,
所述处理器进行如下处理:
针对所述说明语句组,进行将相同意思的单词统一为同一单词的预处理;以及
根据进行了所述预处理的说明语句组生成所述概念单词图。
11.一种计算机可读介质,其存储有使计算机执行处理的程序,其中,
所述处理包含以下步骤:
根据关于概念组的说明语句组,生成表示所述概念组与所述说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和所述已有的概念图中不包含的新概念构成;以及
根据所述概念单词图生成包含所述新概念的被扩展的概念图。
12.一种概念图处理方法,其中,
所述概念图处理方法包含以下步骤:
根据关于概念组的说明语句组,生成表示所述概念组与所述说明语句组中包含的单词组之间的关系的概念单词图,该概念组由已有的概念图中包含的多个已有概念和所述已有的概念图中不包含的新概念构成;以及
根据所述概念单词图生成包含所述新概念的被扩展的概念图。
CN202010927395.5A 2019-11-01 2020-09-07 概念图处理装置、概念图处理方法和计算机可读介质 Pending CN112784054A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2019200119 2019-11-01
JP2019-200119 2019-11-01
JP2020019001A JP2021077315A (ja) 2019-11-01 2020-02-06 概念グラフ処理装置及びプログラム
JP2020-019001 2020-02-06

Publications (1)

Publication Number Publication Date
CN112784054A true CN112784054A (zh) 2021-05-11

Family

ID=75688700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010927395.5A Pending CN112784054A (zh) 2019-11-01 2020-09-07 概念图处理装置、概念图处理方法和计算机可读介质

Country Status (2)

Country Link
US (1) US20210133390A1 (zh)
CN (1) CN112784054A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737520A (zh) * 2023-06-12 2023-09-12 北京优特捷信息技术有限公司 一种日志数据的数据编织方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312910B (zh) * 2021-05-25 2022-10-25 华南理工大学 一种基于主题模型的本体学习方法、系统、装置及介质
US20230394239A1 (en) * 2022-06-06 2023-12-07 Microsoft Technology Licensing, Llc Determining concept relationships in document collections utilizing a sparse graph recovery machine-learning model

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737520A (zh) * 2023-06-12 2023-09-12 北京优特捷信息技术有限公司 一种日志数据的数据编织方法、装置、设备及存储介质
CN116737520B (zh) * 2023-06-12 2024-05-03 北京优特捷信息技术有限公司 一种日志数据的数据编织方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20210133390A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US20200401939A1 (en) Systems and methods for preparing data for use by machine learning algorithms
US10482174B1 (en) Systems and methods for identifying form fields
US11328220B2 (en) Prediction characterization for black box machine learning models
US11416672B2 (en) Object recognition and tagging based on fusion deep learning models
US20200089650A1 (en) Techniques for automated data cleansing for machine learning algorithms
JP3209163B2 (ja) 分類装置
CN112784054A (zh) 概念图处理装置、概念图处理方法和计算机可读介质
US20220342921A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
KR102285142B1 (ko) 챗봇을 위한 학습 데이터 추천 장치 및 방법
WO2019223104A1 (zh) 确定事件影响因素的方法、装置、终端设备及可读存储介质
WO2020170593A1 (ja) 情報処理装置及び情報処理方法
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
US11520994B2 (en) Summary evaluation device, method, program, and storage medium
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
EP3667547B1 (en) User interface (ui) design compliance determination
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN111966836A (zh) 知识图谱向量表示方法、装置、计算机设备及存储介质
US10705810B2 (en) Automatic code generation
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
US10467530B2 (en) Searching text via function learning
CN113793663A (zh) 一种医疗数据处理方法和系统
Hauser et al. An improved assessing requirements quality with ML methods
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Tokyo, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: Fuji Xerox Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination