CN111226223A - 单词语义关系估计装置和单词语义关系估计方法 - Google Patents
单词语义关系估计装置和单词语义关系估计方法 Download PDFInfo
- Publication number
- CN111226223A CN111226223A CN201780096022.4A CN201780096022A CN111226223A CN 111226223 A CN111226223 A CN 111226223A CN 201780096022 A CN201780096022 A CN 201780096022A CN 111226223 A CN111226223 A CN 111226223A
- Authority
- CN
- China
- Prior art keywords
- word
- unit
- vector
- character
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
具有:单词检索部(101),其从数据库检索构成所输入的单词对的各单词;单词向量提取部(102),其从单词向量数据库(103)提取与检索到的各单词对应的单词向量;字符向量转换部(104),其将构成单词对的字符转换成字符向量;特征量取得部(105),其将提取出的各单词的单词向量和转换后的字符向量结合,取得特征量;以及估计部(106),其根据所取得的特征量估计各单词间的语义关系。
Description
技术领域
本发明涉及对单词间的语义上的关系进行估计的技术。
背景技术
近年来,随着个人计算机和因特网的普及,用户能够访问的电子化文档的量不断增大。要求用于从大规模的文档信息中有效地发现用户期望的文档的技术。在以文档检索技术为代表的处理自然语言的技术中,要求适当地处理语言的模糊性即多义性或同义性。多义性是指对于同一单词存在多个语义,成为噪声的原因。另一方面,同义性是指存在多个具有相同语义的单词,成为遗漏的原因,即成为信息缺失的原因。
考虑到上位下位关系等而对单词进行分类的同义词词典是用于吸收文档中的语言表达的波动而解决多义性或同义性的问题的语言资源,用于各种语言处理应用。另一方面,手工制作同义词词典需要花费成本,因此,以往不断尝试根据文本数据自动制作同义词词典。在非专利文献1中,提出使用现有的同义词词典作为正解来估计单词间的语义关系的统计模型的学习方式。
另外,在非专利文献1中公开有:利用将单词转换成多维数值向量的单词向量,作为用于学习统计模型的特征量,该统计模型估计2个单词(以下记作单词对)间的上位下位同位关系这样的语义关系。在此,转换成单词向量的技术例如应用非专利文献2公开的如下方式:通过考虑上下文而利用句中的单词的位置关系,转换成表示单词语义的密集的多维数值向量。在应用非专利文献2公开的方式作为转换成单词向量的技术的情况下,存在如下问题:如反义词那样在相似的上下文中出现的语义不同的单词被转换成相似的单词向量,对于包含可能成为反义词的单词的单词对,有时无法估计出正确的含义关系。
作为用于解决该问题的技术,在专利文献1中公开有如下的单词语义关系提取装置:对于文本中的任意单词对,计算基于上下文的相似度、基于表述的相似度以及基于模式的相似度,生成以计算出的多种相似度为元素的特征向量,识别单词间的语义关系。
现有技术文献
专利文献
专利文献1:WO 2014/033799
非专利文献
非专利文献1:Julie Weeds et al.,“Learning to Distinguish Hypernyms andCo-Hyponyms”,COLING,2014.
非专利文献2:Tomas Mikolov,Kai Chen,Greg Corrado,and Jeffrey Dean,“Efficient Estimation of Word Representations in Vector Space”,ICLR2013.
发明内容
发明要解决的课题
但是,在上述专利文献1公开的技术中,计算相似度的方法是稀疏的,存在以该相似度为元素的特征向量有时不能成为有效的特征量的问题。
本发明正是为了解决上述课题而完成的,其目的在于,取得识别单词间的语义关系的有效的特征量,提高估计可能成为反义词的2个单词间的语义关系的精度。
用于解决课题的手段
本发明的单词语义关系估计装置具有:单词检索部,其从数据库检索构成所输入的单词对的各单词;单词向量提取部,其从数据库提取与单词检索部检索到的各单词对应的单词向量;字符向量转换部,其将构成单词对的字符转换成字符向量;特征量取得部,其将单词向量提取部提取出的各单词的单词向量和字符向量转换部转换后的字符向量结合,取得特征量;以及估计部,其根据特征量取得部取得的特征量估计各单词间的语义关系。
发明效果
根据本发明,能够取得识别单词间的语义关系的有效的特征量。由此,能够提高估计可能成为反义词的2个单词间的语义关系的精度。
附图说明
[图1]是示出实施方式1的单词语义关系估计装置的结构的框图。
[图2]图2A和图2B是示出实施方式1的单词语义关系估计装置的硬件结构例的图。
[图3]是示出实施方式1的单词语义关系估计装置的动作的流程图。
[图4]是示出实施方式2的单词语义关系估计装置的结构的框图。
[图5]是示出实施方式2的单词语义关系估计装置的动作的流程图。
[图6]是示出实施方式3的单词语义关系估计装置的结构的框图。
[图7]是示出实施方式3的单词语义关系估计装置的动作的流程图。
[图8]是示出同义词词典中登记的单词的上位下位关系的图。
具体实施方式
以下,为了更详细地说明本发明,按照附图对用于实施本发明的方式进行说明。
实施方式1
图1是示出实施方式1的单词语义关系估计装置100的结构的框图。
单词语义关系估计装置100具有单词检索部101、单词向量提取部102、单词向量数据库(数据库)103、字符向量转换部104、特征量取得部105以及估计部106。
此外,输入装置200和显示装置300与单词语义关系估计装置100连接。输入装置200例如由鼠标或键盘构成。显示装置300例如由显示器构成。
单词检索部101从单词向量数据库103检索构成从输入装置200输入的可能成为反义词的2个单词(以下记作单词对)的各单词。单词检索部101将检索结果输出到单词向量提取部102。单词向量提取部102从单词向量数据库103提取与单词检索部101检索到的各单词对应的单词向量。单词向量提取部102将提取出的单词向量输出到特征量取得部105。单词向量数据库103是使用WEB上的文本数据等制作的数据库。在单词向量数据库103的制作中,可以利用上述非专利文献2公开的公知技术。单词向量数据库103是将各种单词和与该单词对应的单词向量对应起来构成的。也可以构成为外部装置具有单词向量数据库103。
字符向量转换部104将构成从输入装置200输入的单词对的字符转换成多维向量来取得字符向量。字符向量转换部104将所取得的字符向量输出到特征量取得部105。在字符向量的生成方法中,可以利用非专利文献2公开的公知技术。字符向量转换部104可以参照将字符和字符向量对应起来存储的字符向量数据库(未图示),也可以在使用后述的机器学习算法构筑的估计器的学习时学习字符向量。
特征量取得部105将单词向量提取部102提取出的2个单词的单词向量和字符向量转换部104转换后的字符向量结合。例如,当将单词向量(100维)和字符向量(50维)结合时,特征量取得部105制作150维的向量。特征量取得部105通过将单词向量和字符向量结合,制作将表示字符语义的字符向量追加到单词向量而成的特征量。通过特征量取得部105制作将字符向量追加到单词向量而成的特征量,针对包含仅用单词向量很难判别差异的可能成为反义词的单词的单词对,能够根据字符向量判别语义的差异。
例如,单词“稳定”和“不稳定”是在相似的上下文中使用的单词。因此,例如在应用非专利文献2公开的方式将单词“稳定”和“不稳定”转换成单词向量时,这2个单词被转换成相似的单词向量,很难根据单词向量判别2个单词的语义的不同。
另一方面,在本实施方式1中,特征量取得部105将2个单词的单词向量和字符向量结合,由此,2个单词间的“不”的字符向量被确认为差异,能够根据字符向量判别2个单词的语义的差异。特征量取得部105将通过结合而得到的特征量输出到估计部106。
估计部106将从特征量取得部105输入的特征量输入到估计器,估计单词对的语义关系。在此,将WordNet等明示单词间的意义关系的同义词词典作为教师数据,通过有教师学习来构筑估计器。具体而言,估计部106构筑如下的二值分类器:针对所输入的单词对,将上位下位同位关系标签估计为“1”,将除此以外估计为“0”。此时,也可以如上位关系标签、下位关系标签、同位关系标签那样是多类分类器。估计器的学习方法可以应用任意的方法。例如,可以应用以下所示的参考文献1公开的One-against-the-Rest(One-versus Rest)方法。
·参考文献1
J.Weston and C.Watkins,“Multi-class support vector machines”,RoyalHolloway Technical Report CSD-TR-98-04,1998.
另外,在图1中,示出了单词语义关系估计装置100具有单词向量数据库103的结构,但不限于该结构。单词语义关系估计装置100也可以构成为,单词检索部101或单词向量提取部102经由通信接口(未图示)访问云上存在的存储装置(未图示),以代替单词向量数据库103。
接着,对单词语义关系估计装置100的硬件结构例进行说明。
图2A和图2B是示出实施方式1的单词语义关系估计装置100的硬件结构例的图。
单词语义关系估计装置100中的单词向量数据库103由存储器100a实现。单词语义关系估计装置100中的单词检索部101、单词向量提取部102、字符向量转换部104、特征量取得部105以及估计部106的各功能通过处理电路来实现。即,单词语义关系估计装置100具有用于实现上述各功能的处理电路。该处理电路可以如图2A所示是作为专用硬件的处理电路100b,也可以如图2B所示是执行内存100d中存储的程序的处理器100c。
在如图2A所示,单词检索部101、单词向量提取部102、字符向量转换部104、特征量取得部105以及估计部106是专用硬件的情况下,处理电路100b例如可以是单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC(Application Specific IntegratedCircuit:面向特定用途的集成电路)、FPGA(Field-programmable Gate Array:现场可编程门阵列)或者它们的组合。单词检索部101、单词向量提取部102、字符向量转换部104、特征量取得部105以及估计部106的各部的功能可以分别由处理电路实现,也可以将各部的功能集中由1个处理电路实现。
在如图2B所示,单词检索部101、单词向量提取部102、字符向量转换部104、特征量取得部105以及估计部106是处理器100c情况下,各部的功能通过软件、固件或者软件与固件的组合来实现。软件或固件被记述为程序并存储于内存100d。处理器100c通过读出并执行内存100d中存储的程序,实现单词检索部101、单词向量提取部102、字符向量转换部104、特征量取得部105以及估计部106的各功能。即,单词检索部101、单词向量提取部102、字符向量转换部104、特征量取得部105以及估计部106具有内存100d,该内存100d用于存储在由处理器100c执行时结果是执行后述的图3所示的各步骤的程序。另外,这些程序也可以说是使计算机执行单词检索部101、单词向量提取部102、字符向量转换部104、特征量取得部105以及估计部106的步骤或方法的程序。
在此,处理器100c例如是CPU(Central Processing Unit:中央处理单元)、处理装置、运算装置、处理器、微处理器、微计算机或者DSP(Digital Signal Processor:数字信号处理器)等。
内存100d例如可以是RAM(Random Access Memory:随机存取存储器)、ROM(ReadOnly Memory:只读存储器)、闪存、EPROM(Erasable Programmable ROM:可擦除可编程只读存储器)等非易失性或易失性的半导体存储器,也可以是硬盘、软盘等磁盘,还可以是迷你盘、CD(Compact Disc:紧凑盘)、DVD(Digital Versatile Disc:数字多功能盘)等光盘。
另外,对于单词检索部101、单词向量提取部102、字符向量转换部104、特征量取得部105以及估计部106的各功能,也可以用专用硬件实现一部分,用软件或者固件实现一部分。这样,单词语义关系估计装置100中的处理电路能够通过硬件、软件、固件或它们的组合实现上述各功能。
接着,对单词语义关系估计装置100的动作进行说明。
图3是示出实施方式1的单词语义关系估计装置100的动作的流程图。
当从输入装置200输入单词对时(步骤ST1),单词检索部101从单词向量数据库103检索构成所输入的单词对的各单词(步骤ST2)。单词检索部101针对各单词,判定是否存在一件以上的步骤ST2的检索结果(步骤ST3)。在步骤ST3的判定处理中,例如在单词对由第1单词和第2单词构成的情况下,判定对于第1单词是否存在一件以上的检索结果,并且对于第2单词是否存在一件以上的检索结果。在不存在一件以上的检索结果的情况下(步骤ST3:否),单词检索部101结束处理。
另一方面,在存在一件以上的检索结果的情况下(步骤ST3:是),单词检索部101将检索结果输出到单词向量提取部102(步骤ST4)。在步骤ST4的处理中,例如在关于第1单词存在一件以上的检索结果且关于第2单词存在一件以上的检索结果的情况下,将第1单词的检索结果和第2单词的检索结果输出到单词向量提取部102。单词向量提取部102从单词向量数据库103提取与在步骤ST4中输入的检索结果的单词对应的单词向量(步骤ST5)。单词向量提取部102将在步骤ST5中提取出的单词向量输出到特征量取得部105。
字符向量转换部104将构成在步骤ST1中输入的单词对的单词分割成字符单位,转换成字符向量(步骤ST6)。字符向量转换部104将转换后的字符向量输出到特征量取得部105。
特征量取得部105将在步骤ST5中提取出的单词向量和在步骤ST6中转换后的字符向量结合,取得特征量(步骤ST7)。特征量取得部105将在步骤ST7中取得的特征量输出到估计部106。估计部106使用预先构筑的单词语义估计器,根据从特征量取得部105输入的特征量估计单词间的语义关系(步骤ST8)。估计部106将表示在步骤ST8中估计出的单词间的语义关系的信息输出到显示装置300(步骤ST9),结束处理。
如上所述,根据本实施方式1,构成为具有:单词检索部101,其从单词向量数据库103检索构成所输入的单词对的各单词;单词向量提取部102,其从单词向量数据库103提取与检索到的各单词对应的单词向量;字符向量转换部104,其将构成单词对的字符转换成字符向量;特征向量取得单元105,其将提取出的各单词的单词向量和转换后的字符向量结合,取得特征量;以及估计部106,其根据所取得的特征量估计各单词间的语义关系。由此,能够除了表示单词语义的单词向量以外,还将表示字符语义的字符向量作为特征量,来估计单词间的语义关系。由此,能够高精度地估计仅用单词向量很难估计语义关系的可能成为反义词的2个单词间的语义关系。
实施方式2
在本实施方式2中,示出根据包含未知词的单词对估计单词间的语义关系的结构。
图4是示出实施方式2的单词语义关系估计装置100A的结构的框图。
单词语义关系估计装置100A是在图1所示的实施方式1的单词语义关系估计装置100中追加估计器切换部107而构成的。另外,构成为设置特征量取得部105a和估计部106a,以代替图1所示的实施方式1的单词语义关系估计装置100的特征量取得部105和估计部106。
在下文中,对与实施方式1的单词语义关系估计装置100的构成要素相同或相当的部分标注与实施方式1中使用的标号相同的标号,省略或简化说明。
输入到输入装置200的单词对有时包含单词向量数据库103中不存在的单词即未知词。实施方式1所示的单词语义关系估计装置100在单词对包含未知词的情况下,由于未提取该未知词的单词向量,因此无法估计单词间的语义关系。因此,本实施方式2的单词语义关系估计装置100A在单词对包含未知词的情况下,估计器切换部107切换估计部106a中用于估计的估计器。
首先,单词检索部101与实施方式1同样地,从单词向量数据库103检索构成单词对的各单词。单词检索部101判定对于各单词是否存在一件以上的检索结果。单词检索部101将判定结果输出到估计器切换部107。另外,单词检索部101在判定为对于各单词存在一件以上的检索结果的情况下,向单词向量提取部102输出检索结果。
估计器切换部107根据单词检索部101的判定结果,决定将以单词向量和字符向量为特征量的第1估计器与仅以字符向量为特征量的第2估计器中的哪个估计器应用于估计部106a。即,估计器切换部107在从单词检索部101输入了存在一件以上的检索结果这样的判定结果的情况下,决定应用第1估计器,在输入了不存在一件以上的检索结果这样的判定结果的情况下,决定应用第2估计器。估计器切换部107指示估计部106a应用已决定的估计器。
在从单词向量提取部102输入了单词向量时,特征量取得部105a将单词向量和由字符向量转换部104转换后的字符向量结合,取得特征量。另一方面,在未从单词向量提取部102输入单词向量的情况下,特征量取得部105a取得由字符向量转换部104转换后的字符向量作为特征量。
估计部106a基于从估计器切换部107输入的估计器的切换指示,进行第1估计器和第2估计器的切换。估计部106a在切换到第1估计器的情况下,使用该第1估计器,根据将从特征量取得部105输入的单词向量和字符向量结合而得到的特征量估计单词间的语义关系。另外,估计部106a在切换到第2估计器的情况下,使用该第2估计器,根据从特征量取得部105输入的字符向量的特征量估计单词间的语义关系。
接着,对单词语义关系估计装置100A的硬件结构例进行说明。另外,省略与实施方式1相同的结构的说明。
单词语义关系估计装置100A中的估计器切换部107、特征量取得部105a以及估计部106a是图2A所示的处理电路100b或者执行图2B所示的内存100d中存储的程序的处理器100c。
接着,参照图5的流程图对单词语义关系估计装置100A的动作进行说明。
图5是示出实施方式2的单词语义关系估计装置100A的动作的流程图。
以下,对与实施方式1的发明的单词语义关系估计装置100相同的步骤标注与图3所示的符号相同的符号,省略或简化说明。
在步骤ST3中,在单词检索部101判定为存在一件以上的检索结果的情况下(步骤ST3:是),估计器切换部107基于该判定结果,对估计部106a决定应用第1估计器(步骤ST11)。估计器切换部107指示估计部106a应用第1估计器。估计部106a基于来自估计器切换部107的指示,进行估计部106a的切换(步骤ST12)。然后,单词语义关系估计装置100A进行步骤ST4~步骤ST7的处理。
另一方面,在步骤ST3中,在单词检索部101判定为不存在一件以上的检索结果的情况下(步骤ST3:否),估计器切换部107基于该判定结果,对估计部106a决定应用第2估计器(步骤ST13)。估计器切换部107指示估计部106a应用第2估计器。估计部106a基于来自估计器切换部107指示,进行估计部106a的切换(步骤ST14)。
字符向量转换部104将构成在步骤ST1中输入的单词对的各单词分割成字符单位,转换成字符向量(步骤ST15)。字符向量转换部104将转换后的字符向量输出到特征量取得部105。特征量取得部105取得在步骤ST15中转换后的字符向量作为特征量(步骤ST16)。特征量取得部105将所取得的特征量输出到估计部106a。
估计部106a使用在步骤ST12或步骤ST14中切换后的估计器,根据在步骤ST7或步骤ST16中取得的特征量估计单词间的语义关系(步骤ST17)。估计部106a将表示在步骤ST17中估计出的单词间的语义关系的信息输出到显示装置300(步骤ST9),结束处理。
如上所述,根据本实施方式2,构成为具有估计器切换部107,该估计器切换部107基于单词检索部101是否从单词向量数据库103检索到各单词,切换以单词向量和字符向量为特征量来估计各单词间的语义关系的第1估计器和仅以字符向量为特征量来估计各单词间的语义关系的第2估计器,在单词检索部101从单词向量数据库103检索到各单词的情况下,特征量取得部105a取得将单词向量和字符向量结合而成的特征量,在未能从单词向量数据库检索到各单词的情况下,特征量取得部105a取得字符向量作为特征量,估计部106a根据估计器切换部107的切换,应用第1估计器或第2估计器,根据特征量取得部105a取得的特征量估计各单词间的语义关系。因此,即使在所输入的单词对包含未知词的情况下,也能够通过估计器的切换来估计各单词间的语义关系。
实施方式3
在本实施方式3中,示出在所输入的单词对包含未知词的情况下,检索与构成该未知词的字符串部分地一致的单词,估计单词间的语义关系的结构。
图6是示出实施方式3的单词语义关系估计装置100B的结构的框图。
单词语义关系估计装置100B是在图4所示的实施方式2的单词语义关系估计装置100A中追加追加检索部108而构成的。另外,构成为设置估计器切换部107a,以代替图4所示的实施方式2的单词语义关系估计装置100A的估计器切换部107。
在下文中,对与实施方式2的单词语义关系估计装置100A的构成要素相同或相当的部分标注与实施方式2中使用的标号相同的标号,省略或简化说明。
输入到输入装置200的单词对有时包含单词向量数据库103中不存在的单词即未知词。实施方式2所示的单词语义关系估计装置100A在单词对包含未知词的情况下,进行估计部106a的估计器的切换,将字符向量作为特征量来估计单词间的语义关系。另一方面,本实施方式3的单词语义关系估计装置100B在单词对包含未知词的情况下,追加检索部108进一步从单词向量数据库103检索与构成未知词的字符串部分地一致的单词。
首先,单词检索部101与实施方式1同样地,从单词向量数据库103检索构成单词对的各单词。单词检索部101在判定为存在一件以上的检索结果的情况下,将该情况通知给估计器切换部107a,并将检索结果输出到单词向量提取部102。另一方面,单词检索部101在判定为不存在一件以上的检索结果的情况下,向追加检索部108输出构成单词对的各单词。
追加检索部108从由单词检索部101输入的各单词取得部分单词。追加检索部108从单词向量数据库103检索所取得的部分单词。追加检索部108将是否存在一件以上的检索结果这样的判定结果输出到估计器切换部107a。另外,追加检索部108在判定为存在一件以上的检索结果的情况下,向单词向量提取部102输出检索结果。
估计器切换部107a根据从单词检索部101输入的检索结果和从追加检索部108输入的检索结果,决定将以单词向量和字符向量为特征量的第1估计器和仅以字符向量为特征量的第2估计器中的哪个估计器应用于估计部106a。即,估计器切换部107a在参照从单词检索部101输入的检索结果而存在一件以上的检索结果的情况下,以及参照从追加检索部108输入的检索结果而存在一件以上的检索结果的情况下,决定应用第1估计器,另一方面,估计器切换部107a在参照从单词检索部101输入的检索结果而不存在一件以上的检索结果,并且参照从追加检索部108输入的检索结果而不存在一件以上的检索结果的情况下,决定应用第2估计器。估计器切换部107a指示估计部106a应用已决定的估计器。
单词向量提取部102从单词向量数据库103提取与在单词检索部101检索到的单词或在追加检索部108检索到的部分单词对应的单词向量。单词向量提取部102将提取出的单词向量输出到特征量取得部105a。
特征量取得部105a与实施方式2同样地,在从单词向量提取部102输入了单词向量的情况下,将该单词向量和由字符向量转换部104转换后的字符向量结合,取得特征量。另一方面,特征量取得部105a在未从单词向量提取部102输入单词向量的情况下,取得由字符向量转换部104转换后的字符向量作为特征量。
估计部106a与实施方式2同样地,基于从估计器切换部107a输入的估计器的切换指示,进行第1估计器和第2估计器的切换。估计部106a在切换到第1估计器的情况下,使用该第1估计器,根据将从特征量取得部105输入的单词向量和字符向量结合而得到的特征量估计单词间的语义关系。另外,估计部106a在切换到第2估计器的情况下,使用该第2估计器,根据从特征量取得部105输入的字符向量的特征量估计单词间的语义关系。
接着,对单词语义关系估计装置100B的硬件结构例进行说明。另外,省略与实施方式1相同的结构的说明。
单词语义关系估计装置100B中的估计器切换部107a、特征量取得部105a、估计部106a以及追加检索部108是图2A所示的处理电路100b或者执行图2B所示的内存100d中存储的程序的处理器100c。
接着,举出具体例说明追加检索部108的处理。
以追加检索部108针对单词向量数据库103中没有登记的单词“瞬间冷冻”检索单词向量数据库103的情况为例进行说明。追加检索部108针对“瞬间冷冻”取得例如以2个字符为单位的部分单词。追加检索部108取得构成“瞬间冷冻”的字符串“瞬间冷”和“冷冻”作为部分单词。追加检索部108从单词向量数据库103检索“瞬间冷”和“冷冻”这样的部分单词。在此,假设在单词向量数据库103中登记有“冷冻”。追加检索部108参照单词向量数据库103,取得“冷冻”的部分单词作为检索结果。追加检索部108判定为存在一件以上的检索结果。
这样,追加检索部108提取“冷冻”的单词向量,以代替“瞬间冷冻”这样的单词。追加检索部108以构成未知词的字符为线索,检索与未知词语义相近的其他单词,单词向量提取部102将与未知词语义相近的其他单词转换成单词向量。
另外,关于追加检索部108,在上述的例子中示出了取得以2个字符为单位的部分单词的例子,但是,也可以改变字符数而取得以3个字符为单位的部分单词等部分单词。其结果是,在追加检索部108以各字符数取得多个部分单词作为检索结果的情况下,单词向量提取部102也可以提取部分单词的单词向量的平均向量作为单词向量。另外,在使用平均向量的情况下,单词向量提取部102也可以使字符数多且一致的单词更接近未知词的语义,赋予与一致的部分单词的字符数对应的权重,计算平均向量。
接着,对单词语义关系估计装置100B的动作进行说明。
图7是示出实施方式3的单词语义关系估计装置100B的动作的流程图。
以下,对与实施方式2的发明的单词语义关系估计装置100A相同的步骤标注与图5所示的符号相同的符号,省略或简化说明。
在步骤ST3中,单词检索部101在判定为存在一件以上的检索结果的情况下(步骤ST3:是),与实施方式2同样地进行步骤ST11、步骤ST12以及步骤ST4~步骤ST7的处理。另一方面,在步骤ST3中,单词检索部101判定为不存在一件以上的检索结果的情况下(步骤ST3:否),单词检索部101将构成单词对的各单词输出到追加检索部108。追加检索部108从由单词检索部101输入的单词取得部分单词(步骤ST21)。追加检索部108从单词向量数据库103检索在步骤ST21中取得的部分单词(步骤ST22)。追加检索部108判定是否存在一件以上的检索结果(步骤ST23)。
在判定为存在一件以上的检索结果的情况下(步骤ST23:是),估计器切换部107a基于该判定结果,对估计部106a决定应用第1估计器(步骤ST24)。估计器切换部107a指示估计部106a应用第1估计器。估计部106a基于来自估计器切换部107a的指示,进行估计部106a的切换(步骤ST25)。追加检索部108将检索结果输出到单词向量提取部102(步骤ST26)。然后,单词语义关系估计装置100B进行步骤ST5~步骤ST7的处理。
另一方面,在判定为不存在一件以上的检索结果的情况下(步骤ST23:否),进行步骤ST13~步骤ST16的处理。估计部106a使用在步骤ST12、步骤ST25或步骤ST14中切换后的估计器,根据在步骤ST7或步骤ST16中取得的特征量估计单词间的语义关系(步骤ST27)。估计部106a将表示在步骤ST27中估计出的单词间的语义关系的信息输出到显示装置300(步骤ST9),结束处理。
如上所述,根据本实施方式3,构成为具有追加检索部108,在单词检索部101未能从单词向量数据库103检索到各单词的情况下,该追加检索部108从单词向量数据库103检索与构成单词对中包含的未知词的字符部分地一致的单词,估计器切换部107a基于追加检索部108是否从单词向量数据库103检索到与构成未知词的字符部分地一致的单词,切换第1估计器和第2估计器,在追加检索部108从单词向量数据库103检索到与构成未知词的字符部分地一致的单词的情况下,特征量取得部105a取得将单词向量和字符向量结合而成的特征量,在未能从单词向量数据库103检索到与构成未知词的字符部分地一致的单词的情况下,特征量取得部105a取得字符向量作为特征量。因此,能够以构成未知词的字符为线索,使用与未知词语义相近的其他单词的单词向量估计单词间的语义关系。
另外,在上述实施方式3中,示出了在实施方式2所示的单词语义关系估计装置100A中追加追加检索部108而构成的情况,但是,也可以在实施方式1所示的单词语义关系估计装置100中追加追加检索部108而构成。
在该情况下,构成为具有追加检索部108,在单词检索部101未能从单词向量数据库103检索到各单词的情况下,该追加检索部108从单词向量数据库103检索与构成单词对中包含的未知词的字符部分地一致的单词,单词向量提取部102从单词向量数据库103检索对应于追加检索部108检索到的与构成未知词的字符部分地一致的单词的单词向量。根据该结构,能够以构成未知词的字符为线索,使用与未知词语义相近的其他单词的单词向量估计单词间的意思关系。
实施方式4
在上述实施方式1~实施方式3中,示出了具有以同义词词典为教师数据的估计器的估计部106、106a估计单词间的语义关系的结构。在本实施方式4中,示出在估计部106、106a基于该同义词词典的构造信息估计所输入的单词对的语义关系时,估计单词对的上位下位关系的距离即提取程度的结构。由此,例如在制作转换所输入的文章而成的句子的情况下,能够调节要置换的单词的提取程度。
估计部106、106a除了实施方式1~实施方式3所示的将由特征量取得部105、105a取得的特征量输入到估计器来估计单词对的语义关系的处理之外,还估计估计出的单词对的语义关系的提取程度。在此,单词对的语义关系的提取程度是单词对的上下位关系的距离。估计部106、106a根据同义词词典上的构造信息求出单词对的语义关系的提取程度。
图8是示出同义词词典中登记的单词的上位下位关系的图。
在图8的例子中,如果着眼于在单词“鱼”的正下方定义的单词“鯵”,则单词“鱼”与单词“鯵”的提取程度为“1”。定义在单词“鱼”上位的“食物”和单词“鯵”的提取程度为“2”。估计部106、106a例如基于图8所示的定义,求出单词对的语义关系的提取程度。
在使用单词语义关系估计装置100、100A、100B的估计结果制作转换语句的情况下,如果用提取程度高的上位的单词进行置换,则存在问题应答时所需的信息缺失的情况。例如,考虑制作将“如何将金枪鱼美味地冷冻保存?”这样的句子转换成“如何将食物美味地冷冻保存?”的句子的情况。在上述转换中,将“金枪鱼”置换成“食物”。参照图8所示的定义,单词“金枪鱼”与单词“食物”的提取程度为“2”。如果像本例那样使用提取程度高的关系的单词进行转换,则与转换前的句子是“关于鱼的问句”相对,转换后的句子中缺失“鱼”的信息。
估计部106、106a求出单词的提取程度而作为估计结果输出。由此,能够利用该提取程度作为选择要置换的单词的指标,筛选要置换的单词。
与提取程度一起表示上述“如何将金枪鱼美味地冷冻保存?”这样的句子的转换结果。
(1)提取程度为“2”时(提取程度高)的转换例
转换前:如何将金枪鱼美味冷冻保存?
转换后:如何将食物美味地冷冻保存?
(2)提取程度为“1”时(提取程度一般)的转换例
转换前:如何将金枪鱼美味冷冻保存?
转换后:如何将鱼美味地冷冻保存?
如上所述,根据本实施方式4,构成为估计部106、106a基于估计各单词间的语义关系的估计器的教师数据的构造信息,估计表示估计出语义关系的各单词间的上位下位关系的距离的提取程度。因此,能够进行反映出同义词词典的构造信息的单词置换。
除了上述以外,本发明能够在其发明范围内进行各实施方式的自由组合、各实施方式的任意构成要素的变形或者各实施方式的任意构成要素的省略。
产业上的可利用性
本发明的单词语义关系估计装置例如适用于在文档检索技术等处理自然语言的技术中要求恰当地处理反义词的信息检索系统。
标号说明
100、100A、100B单词语义关系估计装置;101单词检索部;102单词向量提取部;103单词向量数据库;104字符向量转换部;105、105a特征量取得部;106、106a估计部;107、107a估计器切换部;108追加检索部。
Claims (6)
1.一种单词语义关系估计装置,其中,该单词语义关系估计装置具有:
单词检索部,其从数据库检索构成所输入的单词对的各单词;
单词向量提取部,其从所述数据库提取与所述单词检索部检索到的所述各单词对应的单词向量;
字符向量转换部,其将构成所述单词对的字符转换成字符向量;
特征量取得部,其将所述单词向量提取部提取出的所述各单词的单词向量和所述字符向量转换部转换后的所述字符向量结合,取得特征量;以及
估计部,其根据所述特征量取得部取得的所述特征量估计所述各单词间的语义关系。
2.根据权利要求1所述的单词语义关系估计装置,其特征在于,
所述单词语义关系估计装置具有估计器切换部,该估计器切换部根据所述单词检索部是否从所述数据库检索到所述各单词,切换以所述单词向量和所述字符向量为特征量来估计所述各单词间的语义关系的第1估计器和仅以所述字符向量为特征量来估计所述各单词间的语义关系的第2估计器,
在所述单词检索部从所述数据库检索到所述各单词的情况下,所述特征量取得部取得将所述单词向量和所述字符向量结合而成的特征量,在未能从所述数据库检索到各单词的情况下,所述特征量取得部取得所述字符向量作为特征量,
所述估计部根据所述估计器切换部的切换,应用所述第1估计器或所述第2估计器,根据所述特征量取得部取得的特征量估计所述各单词间的语义关系。
3.根据权利要求1所述的单词语义关系估计装置,其特征在于,
所述单词语义关系估计装置具有追加检索部,在所述单词检索部未能从所述数据库检索到所述各单词的情况下,该追加检索部从所述数据库检索与构成所述单词对中包含的未知词的字符部分地一致的单词,
所述单词向量提取部从所述数据库,检索对应于所述追加检索部检索到的与构成所述未知词的字符部分地一致的单词的单词向量。
4.根据权利要求2所述的单词语义关系估计装置,其特征在于,
所述单词语义关系估计装置具有追加检索部,在所述单词检索部未能从所述数据库检索到所述各单词的情况下,该追加检索部从所述数据库检索与构成所述单词对中包含的未知词的字符部分地一致的单词,
所述估计器切换部根据所述追加检索部是否从所述数据库检索到与构成所述未知词的字符部分地一致的单词,切换所述第1估计器和所述第2估计器,
在所述追加检索部从所述数据库检索到与构成所述未知词的字符部分地一致的单词的情况下,所述特征量取得部取得将所述单词向量和所述字符向量结合而成的特征量,在未能从所述数据库检索到与构成所述未知词的字符部分地一致的单词的情况下,所述特征量取得部取得所述字符向量作为特征量。
5.根据权利要求1所述的单词语义关系估计装置,其特征在于,
所述估计部基于估计所述各单词间的语义关系的估计器的教师数据的构造信息,估计提取程度,所述提取程度表示估计出所述语义关系的所述各单词间的上位下位关系的距离。
6.一种单词语义关系估计方法,其中,该单词语义关系估计方法具有如下步骤:
单词检索部从数据库检索构成所输入的单词对的各单词;
单词向量提取部从所述数据库提取与所述检索到的所述各单词对应的单词向量;
字符向量转换部将构成所述单词对的字符转换成字符向量;
特征量取得部将所述提取出的所述各单词的单词向量和所述转换后的所述字符向量结合,取得特征量;以及
估计部根据所述取得的所述特征量估计所述各单词间的语义关系。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/038791 WO2019082362A1 (ja) | 2017-10-26 | 2017-10-26 | 単語意味関係推定装置および単語意味関係推定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111226223A true CN111226223A (zh) | 2020-06-02 |
CN111226223B CN111226223B (zh) | 2023-10-20 |
Family
ID=66246318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780096022.4A Active CN111226223B (zh) | 2017-10-26 | 2017-10-26 | 单词语义关系估计装置和单词语义关系估计方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11328006B2 (zh) |
EP (1) | EP3683694A4 (zh) |
JP (1) | JP6678834B2 (zh) |
CN (1) | CN111226223B (zh) |
WO (1) | WO2019082362A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754012A (zh) * | 2018-12-29 | 2019-05-14 | 新华三大数据技术有限公司 | 实体语义关系分类方法、模型训练方法、装置及电子设备 |
US11217227B1 (en) | 2019-11-08 | 2022-01-04 | Suki AI, Inc. | Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain |
US11538465B1 (en) * | 2019-11-08 | 2022-12-27 | Suki AI, Inc. | Systems and methods to facilitate intent determination of a command by grouping terms based on context |
CN111259148B (zh) | 2020-01-19 | 2024-03-26 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
JP7529048B2 (ja) | 2020-12-28 | 2024-08-06 | 日本電気株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN113343704A (zh) * | 2021-04-15 | 2021-09-03 | 山东师范大学 | 一种基于词嵌入向量的文本检索方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288362A (ja) * | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
CN101763402A (zh) * | 2009-12-30 | 2010-06-30 | 哈尔滨工业大学 | 多语言信息检索一体化检索方法 |
JP2010282517A (ja) * | 2009-06-05 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 言語資源情報生成装置、方法、プログラム、および記録媒体 |
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
CN106776544A (zh) * | 2016-11-24 | 2017-05-31 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN107247704A (zh) * | 2017-06-09 | 2017-10-13 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000222427A (ja) * | 1999-02-02 | 2000-08-11 | Mitsubishi Electric Corp | 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体 |
US8571850B2 (en) * | 2007-09-13 | 2013-10-29 | Microsoft Corporation | Dual cross-media relevance model for image annotation |
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2014238726A (ja) * | 2013-06-07 | 2014-12-18 | 日本電信電話株式会社 | 反義分類モデル学習装置、反義分類装置、方法、及びプログラム |
JP6705318B2 (ja) * | 2016-07-14 | 2020-06-03 | 富士通株式会社 | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム |
US20180203921A1 (en) * | 2017-01-17 | 2018-07-19 | Xerox Corporation | Semantic search in document review on a tangible user interface |
-
2017
- 2017-10-26 JP JP2019549790A patent/JP6678834B2/ja active Active
- 2017-10-26 WO PCT/JP2017/038791 patent/WO2019082362A1/ja unknown
- 2017-10-26 CN CN201780096022.4A patent/CN111226223B/zh active Active
- 2017-10-26 EP EP17929667.8A patent/EP3683694A4/en not_active Withdrawn
- 2017-10-26 US US16/648,473 patent/US11328006B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288362A (ja) * | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
JP2010282517A (ja) * | 2009-06-05 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 言語資源情報生成装置、方法、プログラム、および記録媒体 |
CN101763402A (zh) * | 2009-12-30 | 2010-06-30 | 哈尔滨工业大学 | 多语言信息检索一体化检索方法 |
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
CN106776544A (zh) * | 2016-11-24 | 2017-05-31 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN107247704A (zh) * | 2017-06-09 | 2017-10-13 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
Non-Patent Citations (2)
Title |
---|
GEORG HEIGOLD: "How Robust Are Character-Based Word Embeddings in Tagging and MT Against Wrod Scramlbing or Randdm Nouse?", pages 1 - 9 * |
余本功;张连彬;: "基于CP-CNN的中文短文本分类研究", 计算机应用研究, no. 04, pages 47 - 50 * |
Also Published As
Publication number | Publication date |
---|---|
US20200234009A1 (en) | 2020-07-23 |
EP3683694A1 (en) | 2020-07-22 |
JP6678834B2 (ja) | 2020-04-08 |
WO2019082362A1 (ja) | 2019-05-02 |
EP3683694A4 (en) | 2020-08-12 |
JPWO2019082362A1 (ja) | 2020-02-27 |
CN111226223B (zh) | 2023-10-20 |
US11328006B2 (en) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111226223B (zh) | 单词语义关系估计装置和单词语义关系估计方法 | |
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
JP5078173B2 (ja) | 多義性解消方法とそのシステム | |
US11645475B2 (en) | Translation processing method and storage medium | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
WO2020244065A1 (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
KR102695381B1 (ko) | 엔티티-속성 관계 식별 | |
CN111078865A (zh) | 文本标题生成方法和装置 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN111373386A (zh) | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 | |
CN110263163B (zh) | 一种获取文本摘要的方法和装置 | |
WO2019064137A1 (en) | EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
US20210319330A1 (en) | Processing device, processing method, and processing program | |
JPWO2010109594A1 (ja) | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
Alotaibi et al. | Extending the knowledge of the Arabic sentiment classification using a foreign external lexical source | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP4945015B2 (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
JP2011227749A (ja) | 略語完全語復元装置とその方法と、プログラム | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP6584361B2 (ja) | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム | |
Pham | Sensitive keyword detection on textual product data: an approximate dictionary matching and context-score approach | |
US20240143638A1 (en) | Information processing apparatus, information processing method, and information processing computer program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |