CN112912866B - 信息处理装置、信息处理方法和记录介质 - Google Patents

信息处理装置、信息处理方法和记录介质 Download PDF

Info

Publication number
CN112912866B
CN112912866B CN201880098965.5A CN201880098965A CN112912866B CN 112912866 B CN112912866 B CN 112912866B CN 201880098965 A CN201880098965 A CN 201880098965A CN 112912866 B CN112912866 B CN 112912866B
Authority
CN
China
Prior art keywords
information
representation
distributed
sentence
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880098965.5A
Other languages
English (en)
Other versions
CN112912866A (zh
Inventor
城光英彰
大塚贵弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN112912866A publication Critical patent/CN112912866A/zh
Application granted granted Critical
Publication of CN112912866B publication Critical patent/CN112912866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

信息处理装置(1)具有:词素分析部(12),其取得包含表示多个物体在时空上的坐标的时空信息和多个物体各自的名称在内的物体时空信息(A1),进行词素分析,由此生成词素分析已完成物体时空信息(A2),所述词素分析是将物体时空信息(A1)中包含的多个物体各自的名称分解成1个以上的单词的处理;周边物体信息取得部(13),其从词素分析已完成物体时空信息(A2),取得在时空上存在于多个物体各自的周边的物体即周边物体的词素分析已完成名称(A3);周边物体名称单词分布计算部(14),其根据词素分析已完成名称(A3),计算多个物体各自的周边物体的名称中包含的单词即周边物体名称单词的分布(A4);以及时空信息已考虑分布式表示转换部(15),其将周边物体名称单词的分布(A4)转换成关于单词的时空信息已考虑分布式表示(A5)。

Description

信息处理装置、信息处理方法和记录介质
技术领域
本发明涉及信息处理装置、信息处理方法和记录介质。
背景技术
用户能够访问的电子化文档(即,文档数据)的量因个人计算机和互联网的普及而增大。因此,要求用于从大规模的电子化文档中高效地发现期望文档的技术。在文档检索技术代表的对自然语言进行处理的技术中,为了用计算机对单词的意思进行处理,往往利用分布式表示(Distributed Representations)(即,数值向量)。
以往,根据如下的假定(即,分布假定)来获取分布式表示:关于意思彼此相似的单词,在包含各单词的语句中,在单词的周边出现的单词(即,周边单词)的分布也彼此相似。例如,非专利文献1提出基于分布假定的单词意思获取方法。
现有技术文献
非专利文献
非专利文献1:Tomas Mikolov等3人、“Efficient Estimation of WordRepresentations in Vector Space”、ICLR(International Conference on LearningRepresentations)2013
发明内容
发明要解决的课题
但是,在上述方法中,由于未考虑时空信息,因此,即使周边单词的分布相似的单词是表示不同物体的单词,也判定为具有彼此相似的分布式表示。因此,在尝试要通过上述方法获取相同意思的单词(即,同义词)的情况下,如果是周边单词的分布相似的单词,则即使是表示不同物体的单词,也判定为是具有相同意思的单词。即,存在如下问题:有时无法准确地获得彼此具有期望的意思关系的单词(例如,同义词)。
例如,已知在通过上述方法尝试获取作为对象单词(也称作“关注单词”)的“东大”的同义词的情况下,具有与关注单词“东大”的周边单词的分布相似的周边单词的分布的单词“京大”和“早大”被作为关注单词“东大”的同义词获取。即,不是关注单词的同义词的单词被作为同义词获取。在此,“东大”(在日语发音中为“Todai”)是“东京大学”(日语发音为“Tokyo Daigaku”,意思为“Tokyo University”)的简称。另外,“京大”(在日语发音中为“Kyodai”)是“京都大学”(日语发音为“Kyoto Daigaku”,意思为“Kyoto University”)的简称。“早大”(在日语发音中为“Sodai”)是“早稻田大学”(日语发音为“Waseda Daigaku”,意思为“Waseda University”)的简称。
本发明正是为了解决上述现有的课题而完成的,其目的在于,提供一种能够准确地获取彼此具有期望的意思关系的单词或语句的信息处理装置、信息处理方法和信息处理程序。
用于解决课题的手段
本发明的一个方式的信息处理装置的特征在于,该信息处理装置具有:词素分析部,其取得包含表示多个物体在时空上的坐标的时空信息和所述多个物体各自的名称在内的物体时空信息,进行词素分析,由此生成词素分析已完成物体时空信息,所述词素分析是将所述物体时空信息中包含的所述多个物体各自的名称分解成1个以上的单词的处理;周边物体信息取得部,其从所述词素分析已完成物体时空信息,取得在所述时空上存在于所述多个物体各自的周边的物体即周边物体的词素分析已完成名称;周边物体名称单词分布计算部,其根据所述词素分析已完成名称,计算所述多个物体各自的所述周边物体的名称中包含的单词即周边物体名称单词的分布;以及时空信息已考虑分布式表示转换部,其将所述周边物体名称单词的分布转换成关于单词的时空信息已考虑分布式表示。
本发明的一个方式的信息处理方法的特征在于,该信息处理方法具有以下步骤:取得包含表示多个物体在时空上的坐标的时空信息和所述多个物体各自的名称在内的物体时空信息,进行词素分析,由此生成词素分析已完成物体时空信息,所述词素分析是将所述物体时空信息中包含的所述多个物体各自的名称分解成1个以上的单词的处理;从所述词素分析已完成物体时空信息,取得在所述时空上存在于所述多个物体各自的周边的物体即周边物体的词素分析已完成名称;根据所述词素分析已完成名称,计算所述多个物体各自的所述周边物体的名称中包含的单词即周边物体名称单词的分布;以及将所述周边物体名称单词的分布转换成关于单词的时空信息已考虑分布式表示。
发明效果
根据本发明,能够获取将物体时空信息考虑在内的分布式表示即时空信息已考虑分布式表示。另外,如果使用时空信息已考虑分布式表示,则能够准确地判别一对单词的相互的意思关系或一对语句的相互的意思关系。
附图说明
图1是概略地示出本发明实施方式1的信息处理装置的结构的框图。
图2的(a)是用表的形式示出实施方式1中的物体时空信息数据库的例子的图,(b)和(c)是在时空坐标上示出实施方式1中的物体时空信息数据库的例子的图。
图3是示出实施方式1的信息处理装置的硬件结构的例子的图。
图4是示出实施方式1中的周边物体信息取得部进行的处理的流程图。
图5是示出实施方式1中的周边物体名称单词分布计算部进行的处理的流程图。
图6是示出实施方式1中的时空信息已考虑分布式表示转换部进行的处理的流程图。
图7是概略地示出本发明实施方式2的信息处理装置的结构的框图。
图8是示出实施方式2中的单词数值表示获取部进行的处理的流程图。
图9是示出实施方式2中的分布式表示统合部进行的处理的流程图。
图10是示出实施方式2中的单词意思关系判别部进行的处理的流程图。
图11是概略地示出本发明实施方式3的信息处理装置的结构的框图。
图12是示出实施方式3中的时空信息已考虑语句分布式表示转换部进行的处理的流程图。
图13是示出实施方式3中的语句数值表示获取部进行的处理的流程图。
图14是示出实施方式3中的语句分布式表示统合部进行的处理的流程图。
图15是示出实施方式3中的语句意思关系判别部进行的处理的流程图。
具体实施方式
以下,参照附图说明本发明实施方式的信息处理装置、信息处理方法和信息处理程序。实施方式1的信息处理装置是取得时空信息已考虑分布式表示的装置。实施方式2的信息处理装置是使用单词数值表示和时空信息已考虑分布式表示,判别一对单词(也称作“单词对”)的相互的意思关系的意思关系判别装置。实施方式3的信息处理装置是使用语句数值表示和时空信息已考虑语句分布式表示,判别一对语句(也称作“语句对”)的相互的意思关系的意思关系判别装置。以下的实施方式仅是一例,能够在本发明的范围内进行各种变更。
另外,在本申请中,“时空信息”是用空间坐标和时间坐标表示的信息,但是,不一定需要包含空间坐标和时间坐标双方的信息。“时空信息”也包含仅由空间坐标构成的信息。
《1》实施方式1
《1-1》信息处理装置1的结构
图1是概略地示出本发明实施方式1的信息处理装置1的结构的框图。信息处理装置1是能够实施实施方式1的信息处理方法的装置。
如图1所示,信息处理装置1具有词素分析部12、周边物体信息取得部13、周边物体名称单词分布计算部14和时空信息已考虑分布式表示转换部15。信息处理装置1也可以具有物体时空信息数据库部(也称作“物体时空信息DB部”)11和时空信息已考虑分布式表示数据库部(也称作“时空信息已考虑分布式表示DB部”)16。
物体时空信息DB部11是存储有包含物体时空信息A1的物体时空信息数据库(也称作“物体时空信息DB”)的存储装置。物体时空信息A1包含表示多个物体在时空上的坐标的时空信息和所述多个物体各自的名称。
图2的(a)是用表的形式示出实施方式1中的物体时空信息DB的例子的图。如图2的(a)所示,物体时空信息DB部11包含时空上的多个物体的名称和表示与多个名称对应的多个物体在时空上的坐标的时空信息。图2的(a)所示的物体时空信息DB示出作为物体的名称的“T京大学”(T-kyo University)以及具有该名称的物体在时空上的坐标、作为物体的名称的“W田大学”(W-ta University)以及具有该名称的物体在时空上的坐标、作为物体的名称的“W大正门”(W Univ.Main Gate)以及具有该名称的物体在时空上的坐标、和作为物体的名称的“T京大学医学部附属医院”(T-kyo University School of Medicine AttachedHospital)以及具有该名称的物体在时空上的坐标。换言之,物体时空信息DB包含有时空上的多个物体的名称和与多个名称各自关联的任意维度的向量。
图2的(b)和(c)是在时空坐标上示出实施方式1中的物体时空信息DB的例子的图。在图2的(b)和(c)中,纵线和横线是在时空坐标的坐标轴方向上延伸的线。另外,黑点标记表示物体在时空上的坐标。图2的(b)示出关注物体(例如,“W田大学”)和周边物体(例如,“S龙”、“居酒屋WAしょい”、“W大正门”、“居酒屋TOやす”)的例子。图2的(c)示出关注物体(例如,“T京大学”)和周边物体(例如,“本乡T大前”、“K林社书店”、“M井书店”、“T京大学医学部附属医院”)的例子。
词素分析部12取得物体时空信息A1,对物体时空信息A1中包含的多个物体各自的名称进行词素分析,由此,生成词素分析已完成物体时空信息A2。在词素分析中,多个物体各自的名称被分解成1个以上的单词。词素分析部12例如将“T京大学医学部附属医院”分割成“T京大学”、“医学部”、“附属”和“医院”。或者,词素分析部12例如将“M井书店”分割成“M井”和“书店”。
周边物体信息取得部13取得词素分析已完成物体时空信息A2,从词素分析已完成物体时空信息A2取得周边物体的词素分析已完成名称A3。周边物体是在时空上存在于多个物体各自的周边的物体。关于关注物体,能够根据例如时空上的物体之间的欧几里得距离、余弦距离(即,余弦相似度)、雷贝斯坦距离等距离,判断哪个物体是周边物体。如果关注物体与周边物体候选之间的距离为预先确定的值以下,则周边物体信息取得部13能够将该周边物体候选判断为周边物体。
周边物体名称单词分布计算部14取得周边物体的词素分析已完成名称A3,根据词素分析已完成名称A3来计算周边物体名称单词的分布A4。周边物体名称单词是多个物体各自的周边物体的名称中包含的单词。
周边物体名称单词分布计算部14能够如下所述计算周边物体名称单词的分布A4。例如,在图2的(c)中,在“T京大学”的周边物体为“T京大学医学部附属医院”和“M井书店”的情况下,“T京大学”的周边物体名称单词为“T京大学”、“医学部”、“附属”、“医院”、“M井”和“书店”。周边物体名称单词分布计算部14能够根据周边物体名称单词“T京大学”、“医学部”、“附属”、“医院”、“M井”和“书店”以及所述周边物体名称单词各自的出现次数,计算周边物体名称单词的分布A4。
另外,在图2的(b)和(c)中,作为与物体的名称关联的任意维度的向量,使用作为空间维度坐标的(x,y)坐标。但是,作为图2的(b)和(c)所示的与物体的名称关联的任意维度的向量,也可以在(x,y)坐标中追加作为表示时间维度的坐标的t坐标。在该情况下,能够获取将时间上的变化也考虑在内的分布式表示。
时空信息已考虑分布式表示转换部15取得周边物体名称单词的分布A4,将周边物体名称单词的分布A4转换成时空信息已考虑分布式表示A5。
时空信息已考虑分布式表示数据库部16是存储包含时空信息已考虑分布式表示A5的时空信息已考虑分布式表示数据库(也称作“时空信息已考虑分布式表示DB”)的存储装置。
图3是示出实施方式1的信息处理装置1的硬件结构的例子的图。信息处理装置1例如具有作为存储装置的存储器102和作为信息处理部的处理器101,存储器102存储作为软件的程序即实施方式1的信息处理程序,处理器101执行存储器102中存储的程序。信息处理装置1例如为计算机。实施方式1的信息处理程序从存储信息的存储介质经由读取装置(未图示)或经由能够与互联网等连接的通信接口(未图示)存储到存储器102。另外,信息处理装置1也可以具有鼠标103和键盘104等作为用户操作部的输入装置、显示图像的显示装置105和输出声音的声音输出部(未图示)等这样的输出装置。另外,信息处理装置1也可以具有辅助存储装置106,该辅助存储装置106存储数据库等各种信息。辅助存储装置106也可以是能够经由通信接口(未图示)连接的云上存在的存储装置。
能够通过执行存储器102中存储的程序的处理器101,实现图1所示的词素分析部12、周边物体信息取得部13、周边物体名称单词分布计算部14和时空信息已考虑分布式表示转换部15。另外,图1所示的物体时空信息DB部11和时空信息已考虑分布式表示DB部16也可以是辅助存储装置106的一部分。
《1-2》信息处理装置1的动作
首先,词素分析部12从物体时空信息DB部11取得物体时空信息A1,通过对物体时空信息A1中包含的多个物体各自的名称进行词素分析,生成词素分析已完成物体时空信息A2并将其输出。
图4是示出实施方式1中的周边物体信息取得部13进行的处理的流程图。如图4所示,周边物体信息取得部13取得词素分析已完成物体时空信息A2(步骤S131),从词素分析已完成物体时空信息A2取得各物体的周边物体信息(步骤S132),从各物体的周边物体信息取得各物体的周边物体的词素分析已完成名称A3(步骤S133),并将其输出(步骤S134)。
图5是示出实施方式1中的周边物体名称单词分布计算部14进行的处理的流程图。如图5所示,周边物体名称单词分布计算部14取得周边物体的词素分析已完成名称A3(步骤S141),根据词素分析已完成名称A3来计算周边物体名称单词的分布A4(步骤S142),并将其输出(步骤S143)。周边物体名称单词是多个物体各自的周边物体的名称中包含的单词。
图6是示出实施方式1中的时空信息已考虑分布式表示转换部15进行的处理的流程图。如图6所示,时空信息已考虑分布式表示转换部15取得周边物体名称单词的分布A4(步骤S151),将周边物体名称单词的分布A4转换成时空信息已考虑分布式表示A5(步骤S152),并将其输出(步骤S153)。
《1-3》周边物体名称单词分布计算部14的变形例
周边物体名称单词分布计算部14也可以如下所述进行图6的步骤S152所示的从周边物体名称单词的分布A4向时空信息已考虑分布式表示A5的转换。例如,在“T京大学医学部附属医院”的周边物体名称单词为“T京大学”、“M井”和“书店”的情况下,“T京大学”、“医学部”、“附属”和“医院”各自的周边物体名称单词为“T京大学”、“M井”和“书店”。周边物体名称单词的分布A4是根据周边物体名称单词“T京大学”、“M井”和“书店”以及周边物体名称单词的出现概率来计算的。
周边物体名称单词分布计算部14获取使得“T京大学”、“医学部”、“附属”和“医院”各自出现周边物体名称单词“T京大学”、“M井”和“书店”的周边物体名称单词的出现概率
[式1]
p
(以下,也记作“p”)的似然度最大的分布式表示。
似然度能够通过以下的式(1)求出。
[式2]
在式(1)和(2)中,
[式3]
i
(以下,也记作“i”)是分配给各物体的固有ID(标识符)。
[式4]
k
(以下,也记作“k”)是表示距所述各物体第k近的物体的整数。
[式5]
u
(以下,也记作“u”)表示所述各物体的词素分析已完成名称中的单词的位置。
例如,由
[式6]
j
个单词构成的各物体的词素分析已完成名称能够如下记述。
[式7]
(wi,k,1,wi,k,2,...,wi,k,j)
[式8]
wi,0,t
表示在所述各物体中ID为i的物体的词素分析已完成名称中的第
[式9]
t
(以下,也记作“t”)个单词。
[式10]
wi,k,t
表示距在所述各物体中ID为i的物体第k近的物体的词素分析已完成名称中的第t个单词。
[式11]
v(wi,0,t),v(wi,k,t)
表示单词
[式12]
wi,0,t,wi,k,t
的分布式表示。
[式13]
p(wi,k,u|wi,0,t)
表示
[式14]
wi,0,t
使
[式15]
wi,k,u
作为周边物体名称单词出现的概率。
[式16]
l
是似然度目标函数,周边物体名称单词分布计算部14取得使得该似然度目标函数最大的分布式表示。
另外,例如,也可以通过非专利文献2记载的技术等其他技术,获取使得周边物体名称单词的出现概率p的似然度最大的分布式表示。
非专利文献2:Deerwester S.、等4名、“Indexing by Latent SemanticAnalysis”、Journal of the American Society for Information Science、41(6)、1990年
《1-4》信息处理装置1的效果
如以上说明的那样,如果使用实施方式1的信息处理装置1,则能够获取作为将物体时空信息考虑在内的分布式表示的时空信息已考虑分布式表示。另外,如果使用时空信息已考虑分布式表示,则能够准确地判别一对单词的相互的意思关系或一对语句的相互的意思关系。
《2》实施方式2
《2-1》信息处理装置2的结构
上述实施方式1的信息处理装置1获取将时空信息考虑在内的分布式表示。但是,实施方式1的信息处理装置1在获取分布式表示时,未利用“关于意思彼此相似的单词,周边单词的分布也彼此相似这样的分布假定”的特性。因此,实施方式1的信息处理装置1针对时空上的分布相似的物体,即使是用名称不同的单词表现的物体,也用相似的分布式表示来表示。例如,作为组合使用的趋势较高的物体的“螺钉”和“螺母”,虽然是作为物体互不相同的名称,但是时空上的分布相似。因此,实施方式1的信息处理装置1用相似的分布式表示来表示该“螺钉”和“螺母”。
实施方式2的信息处理装置2将通过实施方式1中说明的方法而获取的时空信息已考虑分布式表示A5与通过非专利文献1记载的基于分布假定的单词的意思获取方法而获取的单词的数值表示(也称作“单词数值表示”)组合起来,用于一对单词的相互的意思关系的判别。实施方式2的信息处理装置2是判别一对单词的相互的意思关系的单词意思关系判别装置。
图7是概略地示出实施方式2的信息处理装置2的结构的框图。信息处理装置2是能够实施实施方式2的信息处理方法的装置。在图7中,针对与图1所示的结构要素相同或者对应的结构要素,标注与图1所示的标号相同的标号。
如图7所示,实施方式2的信息处理装置2具有存储大规模文档数据库的文档数据库部(也称作“文档DB部”)21、单词数值表示获取部22、单词数值表示数据库部(也称作“单词数值表示DB部”)23、分布式表示统合部24、输入装置25、单词意思关系判别部26和输出装置27。输入装置25例如是键盘等用户操作部。输出装置27是图像显示装置、声音输出装置等针对用户的信息提供装置。
单词数值表示获取部22从文档DB部21取得文档数据B1,从文档数据B1获取通过使文档数据B1中包含的单词数值化而得到的单词数值表示B2。单词数值表示DB部23存储单词数值表示B2。单词数值表示的获取技术是公知的,作为该技术,例如可以使用非专利文献1所示的技术。
分布式表示统合部24对从时空信息已考虑分布式表示DB部16取得的时空信息已考虑分布式表示A6与从单词数值表示DB部23取得的单词数值表示B3进行统合,生成已统合分布式表示B4。已统合分布式表示B4被输出到单词意思关系判别部26。在此,时空信息已考虑分布式表示A6是从时空信息已考虑分布式表示DB部16中存储的时空信息已考虑分布式表示A5中选择出的。另外,单词数值表示B3是从单词数值表示DB部23中存储的单词数值表示DB中选择出的。
单词意思关系判别部26使用已统合分布式表示B4判别从输入装置25输入的一对单词B5的相互的意思关系。单词意思关系判别部26生成单词的意思关系的判别的结果B6。输出装置27输出判别的结果B6。
能够通过与图3所示的信息处理装置相同的硬件结构,实现实施方式2的信息处理装置2。能够通过执行存储器102中存储的信息处理程序的处理器101,实现图7所示的词素分析部12、周边物体信息取得部13、周边物体名称单词分布计算部14、时空信息已考虑分布式表示转换部15、单词数值表示获取部22、分布式表示统合部24和单词意思关系判别部26。另外,图7所示的物体时空信息DB部11、时空信息已考虑分布式表示DB部16、单词数值表示DB部23也可以是辅助存储装置106的一部分。
《2-2》信息处理装置2的动作
图7所示的词素分析部12、周边物体信息取得部13、周边物体名称单词分布计算部14和时空信息已考虑分布式表示转换部15的动作与实施方式1的动作相同。
图8是示出实施方式2中的单词数值表示获取部22进行的处理的流程图。如图8所示,单词数值表示获取部22从大规模的文档DB部21取得文档数据B1(步骤S221),从文档数据B1获取通过使文档数据B1中包含的单词数值化而得到的单词数值表示B2(步骤S222),并将其输出(步骤S223)。
图9是示出实施方式2中的分布式表示统合部24进行的处理的流程图。如图9所示,分布式表示统合部24通过对从单词数值表示DB部23取得的单词数值表示B3与从时空信息已考虑分布式表示DB部16取得的时空信息已考虑分布式表示A6进行统合,生成已统合分布式表示B4。
作为分布式表示统合部24对时空信息已考虑分布式表示A6与单词数值表示B3进行统合的方法,例如,可以使用以下的方法。
将时空信息已考虑分布式表示A6记作
[式17】
vs=(x1,x2,x3,...),
将单词数值表示B3记作
[式18】
ve=(y1,y2,y3,...)。
另外,当将已统合分布式表示B4记作
[式19】
vc
时,该已统合分布式表示B4是将
[式20】
vs
[式21】
ve
统合(例如,结合、加法、减法等)而成的。
例如,分布式表示统合部24能够通过以下的式(3)~(5)中的任意一个取得已统合分布式表示B4。式(3)表示通过结合而得到的已统合分布式表示B4。式(4)表示通过加法而得到的已统合分布式表示B4。式(5)表示通过减法而得到的已统合分布式表示B4。
[式22】
vc=(x1,x2,x3,...,y1,y2,y3,...) (3)
[式23】
vc=(x1+y1,x2+y2,x3+y3,...) (4)
[式24】
vc=(x1-y1,x2-y2,x3-y3,...) (5)
图10是示出实施方式2中的单词意思关系判别部26进行的处理的流程图。如图10所示,单词意思关系判别部26取得已统合分布式表示B4(步骤S261),从输入装置25取得一对单词B5(步骤S262),根据与一对单词相关的已统合分布式表示B4判别一对单词B5的相互的意思关系(步骤S263),并将其输出到输出装置27(步骤S264)。
单词的意思关系例如具有同义关系、反义关系、上位关系、下位关系等。
另外,关于从输入装置25输入的一对单词B5,在从已统合分布式表示B4取得一对单词B5的相互的意思关系时,例如,可以利用余弦距离或欧几里得距离等距离。
《2-3》信息处理装置2的效果
如以上说明的那样,如果使用实施方式2的信息处理装置2,则能够将时空信息已考虑分布式表示和文档数据的单词数值表示双方考虑在内来判别一对单词的相互的意思关系,因此,能够提高判别的精度,该时空信息已考虑分布式表示是将物体时空信息考虑在内的分布式表示。
《3》实施方式3
《3-1》信息处理装置3的结构
实施方式3的信息处理装置3是判别一对语句的相互的意思关系(例如,语句与语句的相似度)的语句意思关系判别装置。
图11是概略地示出实施方式3的信息处理装置3的结构的框图。信息处理装置3是能够实施实施方式3的信息处理方法的装置。在图11中,针对与图1所示的结构要素相同或者对应的结构要素,标注与图1所示的标号相同的标号。
如图11所示,实施方式3的信息处理装置3具有存储大规模文档数据的文档数据库部(也称作“文档DB部”)31、语句数值表示获取部32、语句数值表示数据库部(也称作“语句数值表示DB部”)33、语句分布式表示统合部34、输入装置35、语句意思关系判别部36和输出装置37。输入装置35例如是键盘等用户操作部。输出装置37是图像显示装置、声音输出装置等针对用户的信息提供装置。
另外,如图11所示,实施方式3的信息处理装置3作为图1所示的时空信息已考虑分布式表示转换部15而具有时空信息已考虑语句分布式表示转换部38,作为图1所示的时空信息已考虑分布式表示DB部16而具有时空信息已考虑语句分布式表示DB部39。
时空信息已考虑语句分布式表示转换部38从周边物体名称单词分布计算部14取得周边物体名称单词的分布A4,将周边物体名称单词的分布A4转换成时空信息已考虑语句分布式表示C7,将时空信息已考虑语句分布式表示C7输出到时空信息已考虑语句分布式表示DB部39。时空信息已考虑语句分布式表示DB部39存储时空信息已考虑语句分布式表示C7。
时空信息已考虑语句分布式表示转换部38能够如下所述实施从周边物体名称单词的分布A4向时空信息已考虑语句分布式表示C7的转换。
时空信息已考虑语句分布式表示转换部38例如在通过与时空信息已考虑分布式表示转换部15相同的方法获取语句中包含的单词的时空信息已考虑分布式表示以后,将语句中包含的单词的分布式表示的值相加,由此,能够取得时空信息已考虑语句分布式表示C7。
另外,时空信息已考虑语句分布式表示转换部38例如在通过与时空信息已考虑分布式表示转换部15相同的方法获取语句中包含的单词的时空信息已考虑分布式表示以后,能够采用作为使用神经网络的算法的自动编码器取得时空信息已考虑语句分布式表示C7。自动编码器是公知的技术,例如,能够使用非专利文献3记载的技术。
非专利文献3:Hinton,G.E.、等1名、“Reducing the Dimensionality of Datawith Neural Networks”、Science VOL313、pp.504-507、28JULY 2006
语句数值表示获取部32从存储大规模文档DB的文档DB部31取得文档数据C1,从文档数据C1获取通过使文档数据C1中包含的语句数值化而得到的语句数值表示C2。语句数值表示DB部33存储语句数值表示C2。语句数值表示的获取技术是公知的,例如,能够使用非专利文献4记载的技术。
非专利文献4:城光英彰、外3名、「マルチタスク転移学習による小規模教師データを用いた意図理解」、人工知能学会インタラクティブ情報アクセスと可視化マインニング研究会(第19回)、2018年
语句分布式表示统合部34对从时空信息已考虑语句分布式表示DB部39取得的时空信息已考虑语句分布式表示C8与从语句数值表示DB部33取得的语句数值表示C3进行统合,生成已统合语句分布式表示C4。已统合语句分布式表示C4被输出到语句意思关系判别部36。在此,时空信息已考虑语句分布式表示C8是从时空信息已考虑语句分布式表示DB部39中存储的时空信息已考虑语句分布式表示C7中选择出的。另外,语句数值表示C3是从语句数值表示DB部33中存储的语句数值表示DB中选择出的。
作为语句分布式表示统合部34对时空信息已考虑语句分布式表示C8与语句数值表示C3进行统合而生成已统合语句分布式表示C4的方法,能够使用与图7所示的分布式表示统合部24相同的方法。
语句意思关系判别部36使用已统合语句分布式表示C4判别从输入装置35输入的一对语句C5的相互的意思关系。语句意思关系判别部36生成语句的意思关系的判别的结果C6。输出装置37输出判别的结果C6。
能够通过与图3所示的信息处理装置相同的硬件结构,实现实施方式3的信息处理装置3。能够通过执行存储器102中存储的信息处理程序的处理器101,实现图11所示的词素分析部12、周边物体信息取得部13、周边物体名称单词分布计算部14、时空信息已考虑语句分布式表示转换部38、语句数值表示获取部32、语句分布式表示统合部34和语句意思关系判别部36。另外,图11所示的物体时空信息DB部11、时空信息已考虑语句分布式表示DB部39和语句数值表示DB部33也可以是辅助存储装置106的一部分。
《3-2》信息处理装置3的动作
图12是示出实施方式3中的时空信息已考虑语句分布式表示转换部38进行的处理的流程图。如图12所示,时空信息已考虑语句分布式表示转换部38从周边物体名称单词分布计算部14取得周边物体名称单词的分布A4(步骤S311),将周边物体名称单词的分布A4转换成时空信息已考虑语句分布式表示C7(步骤S312),将时空信息已考虑语句分布式表示C7输出到时空信息已考虑语句分布式表示DB部39(步骤S313)。
图13是示出实施方式3中的语句数值表示获取部32进行的处理的流程图。如图13所示,语句数值表示获取部32从文档DB部31取得文档数据C1(步骤S321),从文档数据C1获取通过使文档数据C1中包含的语句数值化而得到的语句数值表示C2(步骤S322),并将其输出(步骤S323)。
图14是示出实施方式3中的语句分布式表示统合部34进行的处理的流程图。如图14所示,语句分布式表示统合部34从时空信息已考虑语句分布式表示DB部39取得时空信息已考虑语句分布式表示C8(步骤S341),从语句数值表示DB部33取得语句数值表示C3(步骤S342),对从时空信息已考虑语句分布式表示DB部39取得的时空信息已考虑语句分布式表示C8与从语句数值表示DB部33取得的语句数值表示C3进行统合,生成已统合语句分布式表示C4(步骤S343),并将其输出(步骤S344)。
图15是示出实施方式3中的语句意思关系判别部36进行的处理的流程图。如图15所示,语句意思关系判别部36取得已统合语句分布式表示C4(步骤S361),取得从输入装置35输入的一对语句C5(步骤S362),判别所输入的一对语句C5的相互的意思关系而生成语句的意思关系的判别的结果C6(步骤S363),并将其输出(步骤S364)。
《3-3》信息处理装置3的效果
如以上说明的那样,如果使用实施方式3的信息处理装置3,则能够将时空信息已考虑语句分布式表示和文档数据的语句数值表示双方考虑在内来判别一对语句的相互的意思关系,因此,能够提高判别的精度,该时空信息已考虑语句分布式表示是将物体时空信息考虑在内的分布式表示。
标号说明
1~3:信息处理装置;11:物体时空信息DB部;12:词素分析部;13:周边物体信息取得部;14:周边物体名称单词分布计算部;15:时空信息已考虑分布式表示转换部;16:时空信息已考虑分布式表示DB部;21、31:文档DB部;22:单词数值表示获取部;23:单词数值表示DB部;24:分布式表示统合部;25、35:输入装置;26:单词意思关系判别部;27、37:输出装置;32:语句数值表示获取部;33:语句数值表示DB部;34:语句分布式表示统合部;36:语句意思关系判别部;38:时空信息已考虑语句分布式表示转换部;39:时空信息已考虑语句分布式表示DB部。

Claims (13)

1.一种信息处理装置,其特征在于,该信息处理装置具有:
词素分析部,其取得包含表示多个物体在时空上的坐标的时空信息和所述多个物体各自的名称在内的物体时空信息,进行词素分析,由此生成词素分析已完成物体时空信息,所述词素分析是将所述物体时空信息中包含的所述多个物体各自的名称分解成1个以上的单词的处理;
周边物体信息取得部,其从所述词素分析已完成物体时空信息,取得在所述时空上存在于所述多个物体各自的周边的物体即周边物体的词素分析已完成名称;
周边物体名称单词分布计算部,其根据所述词素分析已完成名称,计算所述多个物体各自的所述周边物体的名称中包含的单词即周边物体名称单词的分布;以及
时空信息已考虑分布式表示转换部,其将所述周边物体名称单词的分布转换成关于单词的时空信息已考虑分布式表示。
2.根据权利要求1所述的信息处理装置,其特征在于,
所述信息处理装置还具有存储所述物体时空信息的物体时空信息数据库部,
所述词素分析部进行从所述物体时空信息数据库部取得的所述物体时空信息的所述词素分析。
3.根据权利要求1或2所述的信息处理装置,其特征在于,
所述信息处理装置还具有存储所述时空信息已考虑分布式表示的时空信息已考虑分布式表示数据库部。
4.根据权利要求1或2所述的信息处理装置,其特征在于,
所述信息处理装置具有:
单词数值表示获取部,其取得文档数据,从所述文档数据获取通过使所述文档数据中包含的单词数值化而得到的单词数值表示;
分布式表示统合部,其通过对所述单词数值表示与所述时空信息已考虑分布式表示进行统合,生成已统合分布式表示;以及
单词意思关系判别部,其通过使用所述已统合分布式表示来判别所输入的一对单词的相互的意思关系,生成所述判别的结果。
5.根据权利要求4所述的信息处理装置,其特征在于,
所述信息处理装置还具有单词数值表示数据库部,该单词数值表示数据库部存储由所述单词数值表示获取部获取的所述单词数值表示,
所述分布式表示统合部通过对从所述单词数值表示数据库部取得的所述单词数值表示与所述时空信息已考虑分布式表示进行统合,生成所述已统合分布式表示。
6.根据权利要求4所述的信息处理装置,其特征在于,
所述信息处理装置还具有:
时空信息已考虑分布式表示数据库部,其存储所述时空信息已考虑分布式表示;以及
单词数值表示数据库部,其存储由所述单词数值表示获取部获取的所述单词数值表示,
所述分布式表示统合部通过对从所述单词数值表示数据库部取得的所述单词数值表示与从所述时空信息已考虑分布式表示数据库部取得的所述时空信息已考虑分布式表示进行统合,生成所述已统合分布式表示。
7.根据权利要求1或2所述的信息处理装置,其特征在于,
所述时空信息已考虑分布式表示转换部是具有如下功能的时空信息已考虑语句分布式表示转换部:从关于单词的所述时空信息已考虑分布式表示转换成关于包含多个单词的语句的分布式表示即时空信息已考虑语句分布式表示。
8.根据权利要求7所述的信息处理装置,其特征在于,
所述信息处理装置还具有存储所述时空信息已考虑语句分布式表示的时空信息已考虑语句分布式表示数据库部。
9.根据权利要求7所述的信息处理装置,其特征在于,
所述信息处理装置具有:
语句数值表示获取部,其取得文档数据,从所述文档数据获取通过使所述文档数据中包含的语句数值化而得到的语句数值表示;
分布式表示统合部,其通过对所述语句数值表示与所述时空信息已考虑语句分布式表示进行统合,生成已统合语句分布式表示;以及
语句意思关系判别部,其通过使用所述已统合语句分布式表示来判别所输入的一对语句的相互的意思关系,生成所述判别的结果。
10.根据权利要求9所述的信息处理装置,其特征在于,
所述信息处理装置还具有语句数值表示数据库部,该语句数值表示数据库部存储由所述语句数值表示获取部获取的所述语句数值表示,
所述分布式表示统合部通过对从所述语句数值表示数据库部取得的所述语句数值表示与所述时空信息已考虑语句分布式表示进行统合,生成所述已统合语句分布式表示。
11.根据权利要求9所述的信息处理装置,其特征在于,
所述信息处理装置还具有:
时空信息已考虑语句分布式表示数据库部,其存储所述时空信息已考虑语句分布式表示;以及
语句数值表示数据库部,其存储由所述语句数值表示获取部获取的所述语句数值表示,
所述分布式表示统合部通过对从所述语句数值表示数据库部取得的所述语句数值表示与从所述时空信息已考虑语句分布式表示数据库部取得的时空信息已考虑语句分布式表示进行统合,生成所述已统合语句分布式表示。
12.一种信息处理方法,其特征在于,该信息处理方法具有以下步骤:
取得包含表示多个物体在时空上的坐标的时空信息和所述多个物体各自的名称在内的物体时空信息,进行词素分析,由此生成词素分析已完成物体时空信息,所述词素分析是将所述物体时空信息中包含的所述多个物体各自的名称分解成1个以上的单词的处理;
从所述词素分析已完成物体时空信息,取得在所述时空上存在于所述多个物体各自的周边的物体即周边物体的词素分析已完成名称;
根据所述词素分析已完成名称,计算所述多个物体各自的所述周边物体的名称中包含的单词即周边物体名称单词的分布;以及
将所述周边物体名称单词的分布转换成关于单词的时空信息已考虑分布式表示。
13.一种记录有信息处理程序的计算机能读取的记录介质,其特征在于,该信息处理程序使计算机执行以下处理:
取得包含表示多个物体在时空上的坐标的时空信息和所述多个物体各自的名称在内的物体时空信息,进行词素分析,由此生成词素分析已完成物体时空信息,所述词素分析是将所述物体时空信息中包含的所述多个物体各自的名称分解成1个以上的单词的处理;
从所述词素分析已完成物体时空信息,取得在所述时空上存在于所述多个物体各自的周边的物体即周边物体的词素分析已完成名称;
根据所述词素分析已完成名称,计算所述多个物体各自的所述周边物体的名称中包含的单词即周边物体名称单词的分布;以及
将所述周边物体名称单词的分布转换成关于单词的时空信息已考虑分布式表示。
CN201880098965.5A 2018-11-07 2018-11-07 信息处理装置、信息处理方法和记录介质 Active CN112912866B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/041266 WO2020095373A1 (ja) 2018-11-07 2018-11-07 情報処理装置、情報処理方法、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
CN112912866A CN112912866A (zh) 2021-06-04
CN112912866B true CN112912866B (zh) 2023-12-12

Family

ID=70611481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880098965.5A Active CN112912866B (zh) 2018-11-07 2018-11-07 信息处理装置、信息处理方法和记录介质

Country Status (7)

Country Link
US (1) US11836449B2 (zh)
JP (1) JP6833134B2 (zh)
KR (1) KR102386373B1 (zh)
CN (1) CN112912866B (zh)
DE (1) DE112018008044T5 (zh)
TW (1) TW202018536A (zh)
WO (1) WO2020095373A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936886A (zh) * 2005-09-21 2007-03-28 冲电气工业株式会社 词素分析装置、词素分析方法以及词素分析程序
JP2012049922A (ja) * 2010-08-27 2012-03-08 Ntt Docomo Inc 移動端末及びリマインド方法
WO2013153725A1 (ja) * 2012-04-12 2013-10-17 日本電気株式会社 データ検索装置、データ検索方法およびデータ検索用プログラム
JP2014132406A (ja) * 2013-01-07 2014-07-17 Nec Corp 同義語抽出システム、方法およびプログラム
CN107092680A (zh) * 2017-04-21 2017-08-25 中国测绘科学研究院 一种基于地理网格的政务信息资源整合方法
JP2017173907A (ja) * 2016-03-18 2017-09-28 株式会社Kddi総合研究所 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0513652A2 (en) * 1991-05-10 1992-11-19 Siemens Aktiengesellschaft Method for modelling similarity function using neural network
US6813616B2 (en) * 2001-03-07 2004-11-02 International Business Machines Corporation System and method for building a semantic network capable of identifying word patterns in text
AU2003211104B2 (en) 2002-02-13 2009-01-29 Reify Corporation Method and apparatus for acquisition, compression, and characterization of spatiotemporal signals
JP4894741B2 (ja) 2007-12-03 2012-03-14 ソニー株式会社 情報処理装置および情報処理方法、プログラム、並びに記録媒体
US8676725B1 (en) * 2009-06-05 2014-03-18 Google Inc. Method and system for entropy-based semantic hashing
US20190266283A1 (en) * 2018-02-28 2019-08-29 Laserlike, Inc. Content channel curation
EP3779733A1 (en) * 2019-08-12 2021-02-17 Universität Bern Information retrieval method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936886A (zh) * 2005-09-21 2007-03-28 冲电气工业株式会社 词素分析装置、词素分析方法以及词素分析程序
JP2012049922A (ja) * 2010-08-27 2012-03-08 Ntt Docomo Inc 移動端末及びリマインド方法
WO2013153725A1 (ja) * 2012-04-12 2013-10-17 日本電気株式会社 データ検索装置、データ検索方法およびデータ検索用プログラム
JP2014132406A (ja) * 2013-01-07 2014-07-17 Nec Corp 同義語抽出システム、方法およびプログラム
JP2017173907A (ja) * 2016-03-18 2017-09-28 株式会社Kddi総合研究所 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法
CN107092680A (zh) * 2017-04-21 2017-08-25 中国测绘科学研究院 一种基于地理网格的政务信息资源整合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于时空信息和非负成分表示的动作识别;王健弘 等;《东南大学学报(自然科学版)》;第46卷(第4期);675-680 *

Also Published As

Publication number Publication date
KR102386373B1 (ko) 2022-04-14
WO2020095373A1 (ja) 2020-05-14
JP6833134B2 (ja) 2021-02-24
KR20210052573A (ko) 2021-05-10
US11836449B2 (en) 2023-12-05
US20210224475A1 (en) 2021-07-22
DE112018008044T5 (de) 2021-07-01
CN112912866A (zh) 2021-06-04
TW202018536A (zh) 2020-05-16
JPWO2020095373A1 (ja) 2021-02-15

Similar Documents

Publication Publication Date Title
Lu et al. Knowing when to look: Adaptive attention via a visual sentinel for image captioning
CN113076433B (zh) 具有多模态信息的检索对象的检索方法和装置
CN106778878B (zh) 一种人物关系分类方法及装置
CN114723996A (zh) 模型的训练方法、图像描述生成方法和装置、设备、介质
CN111667066A (zh) 网络模型的训练、文字识别方法、装置和电子设备
Tu et al. Unsupervised structure learning of stochastic and-or grammars
CN116129141B (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
Camgöz et al. Sign language recognition for assisting the deaf in hospitals
CN108804591A (zh) 一种病历文本的文本分类方法及装置
CN105989067A (zh) 从图片生成文本摘要的方法、用户设备及训练服务器
CN115205880A (zh) 一种医学影像报告生成方法及装置
Sun et al. Study on medical image report generation based on improved encoding-decoding method
CN118015637A (zh) 文本生成图像模型训练方法、文本生成图像方法及装置
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN112912866B (zh) 信息处理装置、信息处理方法和记录介质
CN114781393B (zh) 图像描述生成方法和装置、电子设备及存储介质
CN116959109A (zh) 人体姿态图像的生成方法、装置、设备和存储介质
Aksoy et al. Radiology report generation using transformers conditioned with non-imaging data
US11704090B2 (en) Audio interactive display system and method of interacting with audio interactive display system
CN114648631A (zh) 图像描述生成方法和装置、电子设备及存储介质
Singh et al. Visual content generation from textual description using improved adversarial network
CN111221880B (zh) 特征组合方法、装置、介质和电子设备
Biswas et al. Improving German image captions using machine translation and transfer learning
Voruganti Visual question answering with external knowledge
Hahmann et al. Classification of voting patterns to improve the generalized Hough transform for epiphyses localization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant