CN103562907A - 用于评估同义表达的设备、方法和程序 - Google Patents
用于评估同义表达的设备、方法和程序 Download PDFInfo
- Publication number
- CN103562907A CN103562907A CN201280022780.9A CN201280022780A CN103562907A CN 103562907 A CN103562907 A CN 103562907A CN 201280022780 A CN201280022780 A CN 201280022780A CN 103562907 A CN103562907 A CN 103562907A
- Authority
- CN
- China
- Prior art keywords
- noun
- predicate
- input
- similarity
- occurrences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种同义表达评估设备,包括:同义评估装置,所述同义评估装置用于接收其中的每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估所述输入二元关系是否是同义的;以及谓词间相似度计算装置,所述谓词间相似度计算装置用于当基于与文档集合中的所述输入谓词处于二元关系的名词的出现频率的分布来计算所述输入谓词之间的相似度时,使用仅用于与所述输入名词相同类型的概念的名词的分布来执行计算。
Description
技术领域
本发明涉及用于评估表达是否是同义的同义表达评估设备、同义表达评估方法和同义表达评估程序。
背景技术
同义表达词典是用于响应于针对诸如自然句子的复杂语法结构的查询来进行准确搜索所必需的语言资源之一。同义表达通常需要针对要搜索的文档的每个领域来进行组织。然而,长时间确保具有专门知识的专家要求大量的人力成本。因此,存在对于自动地组织同义表达词典的技术的需求。
具体地,考虑每一个都由名词(nominal)和谓词(predicate)的组合来表示的二元关系的同义表达的自动提取。例如,“激活电源(dengen o ireru)”和“接通电源开关(dengen suitchi o tonyu suru)”是每一个都由名词和谓词的组合来表示的二元关系的同义表达。包括在输入二元关系中的谓词在下文中被称为“输入谓词”,而包括在输入二元关系中的名词被称为“输入名词”。
作为提取二元关系的同义表达的技术,存在从文档集合收集作为特征值的二元关系的周边上下文并且具有相似特征值的二元关系被提取为同义表达的方法,如在非专利文献(NPL)1中所描述的。在这里使用的周边上下文包括通过输入谓词和所修饰的谓词以及除了与文档集合中的输入谓词处于格关系的输入名词以外的名词。例如,从句子“以最高荣誉从大学毕业并且进入公司(daigaku o shuseki de sotsugyoshi kaisha ni shushoku suru)”中,“以最高荣誉(shuseki de)”和“进入(shushoku suru)”被获取为二元关系“从大学毕业(daigaku o sotsugyosuru)”的特征值。
作为提取二元关系的同义表达的另一技术,存在下述方法,在该方法中,对于输入谓词对和输入名词对中的每一个,单独评估该对是否处于同义关系,并且在评估了输入谓词对和输入名词对二者都是同义的情况下,将其提取为同义表达。这能够简单地通过在应用在NPL2中所描述的提取名词的同义表达的技术来完成。NPL2描述了一种收集与文档集合中的输入名词处于二元关系的谓词的出现频率的分布作为每个输入名词的特征值并且提取具有相似特征值的输入名词作为同义表达的技术。
引用列表
一个或多个非专利文献
NPL1:Tomohide Shibata,Sadao Kurohashi,“Context-dependentSynonymous Predicate Acquisition”,IPSJ SIG Technical Report,2010-NL-199,No.13,2010
NPL2:Masato Hagiwara,Yasuhiro Ogawa,Katsuhiko Takeyama,"Supervised Synonym Acquisition Using Distributional Features andSyntactic Patterns",Journal of Natural Language Processing,Vol.16,No.2,pp.59-83,2009。
发明内容
技术问题
然而,在NPL1中描述的方法中,难以充分地获取用于提取二元关系的同义表达的特征值,因为不能够从包含仅二元关系的句子中获取特征值。
在NPL2中描述的方法中,在其中输入谓词或输入名词是多义的情况下,它们的特征值是不相似的,从而使得评估同义二元关系变得不可能。
作为示例,在“打开电源开关(dengen suitchi o tonyu suru)”和“激活电源(dengen o ireru)”的同义评估中,有必要评估“打开电源开关”或“电源”是否是同义的。使A的意义是通过“激活电源(dengen o ireru)”和“打开电源开关(dengen suitchi o tonyu suru)”确定的“打开(tonyusuru)”和“激活(ireru)”的意义。在“打开(tonyu suru)”和“激活(ireru)”在意义A中使用的情况下,特征值(与输入谓词处于二元关系的名词的出现频率的分布)是相似的。然而,在“打开(tonyu suru)”和“激活(ireru)”在除意义A以外的意义中使用的情况下,特征值不一定是相似的。因此,“打开(tonyu suru)”和“激活(ireru)”的特征值是不相似的。相同的问题适用于“电源开关(dengen suitchi)”和“电源(dengen)”。
鉴于此,本发明的目的在于,提供能够甚至在输入谓词或输入名词是多义的情况下正确地评估二元关系的同义表达的同义表达评估设备、同义表达评估方法以及同义表达评估程序。
问题的解决方案
根据本发明的同义表达评估设备包括:同义评估装置,所述同义评估装置用于接收其中的每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估输入二元关系是否是同义的;以及谓词间相似度计算装置,所述谓词间相似度计算装置用于当基于与文档集合中的输入谓词处于二元关系的名词的出现频率的分布来计算输入谓词之间的相似度时,使用仅用于与输入名词相同类型的概念的名词的分布来执行计算。
根据本发明的同义表达评估方法包括:接收其中的每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估输入二元关系是否是同义的;以及当基于与文档集合中的输入谓词处于二元关系的名词的出现频率的分布来计算输入谓词之间的相似度时,使用仅被用于与输入名词相同类型的概念的名词的分布来执行计算。
根据本发明的同义表达评估程序使计算机执行:接收其中的每一个都包括名词和谓词的二元关系的输入、并且使用输入名词之间的相似度和输入谓词之间的相似度来评估输入二元关系是否是同义的同义评估处理;以及当基于与文档集合中的输入谓词处于二元关系的名词的出现频率的分布来计算输入谓词之间的相似度时,使用仅被用于与输入名词相同类型的概念的名词的分布来执行计算的谓词间相似度计算处理。
发明的有益效果
根据本发明,甚至在其中输入谓词或输入名词是多义的情况下也能够正确地评估二元关系的同义表达。
附图说明
图1是示出根据本发明的同义表达评估设备的结构示例的图。
图2是示出由同义表达评估设备所执行的处理示例的流程。
图3是示出在出现频率存储单元中存储的数据示例的说明性图。
图4是示出在概念类存储单元中存储的数据示例的说明性图。
图5是示出在校正出现频率存储单元中存储的数据示例的说明性图。
图6是示出通过谓词间相似度计算装置的计算方法的示例的图。
图7是示出通过名词间相似度计算装置的计算方法的示例的图。
图8是示出同义表达评估设备的最小结构示例的框图。
具体实施方式
下文参考附图描述了本发明的示例性实施例。图1是示出根据本发明的同义表达评估设备的结构示例的图。如图1中所示,根据本发明的同义表达评估设备包括:在程序控制下操作的数据处理设备1;用于存储信息的存储设备2;诸如键盘的输入设备3;以及诸如显示设备的输出设备4。
输入设备3具有根据用户操作等将指示两个二元关系的数据输入到数据处理设备1的功能。二元关系表示谓词和与该谓词处于格关系的名词的组合。例如,输入设备3将指示“电源-激活(dengen-ireru)”的数据和指示“电源开关-打开(dengen suitchi-tonyu suru)”的数据作为两个二元关系输入到数据处理设备1。虽然这个示例性实施例描述了其中输入设备3将两个二元关系输入到数据处理设备1的示例,但是输入二元关系的数目不限于两个并且可能是三个或更多。
输出设备4具有通过数据处理设备1来输出处理结果的功能。例如,输出设备4由诸如显示器的显示设备来实现,并且通过数据处理设备1在显示单元上显示处理结果。
数据处理设备1包括出现频率计算装置10、出现频率校正装置11、谓词间相似度计算装置12、名词间相似度计算装置13以及同义评估装置14。数据处理设备1具体地由诸如根据程序操作的个人计算机的信息处理设备来实现。
出现频率计算装置10具有从在文档存储单元20中存储的文档数据(在下文中被简单地称为“文档”)中提取二元关系并且计算每个二元关系的出现频率的功能。出现频率计算装置10具体地由根据程序操作的信息处理设备的CPU来实现。
出现频率校正装置11具有参考概念类存储单元22针对在文档集合中包括的每个谓词或名词来确定谓词或名词被用于与输入谓词或输入名词相同的概念的程度的功能。出现频率校正装置11还具有根据所确定的程度来校正在文档集合中包括的每个二元关系的出现频率的功能。出现频率校正装置11具体地由根据程序操作的信息处理设备的CPU来实现。
谓词间相似度计算装置12具有将与文档集合中的输入谓词处于二元关系的名词的出现频率或校正出现频率的分布设定为每个输入谓词的特征值、并且计算输入谓词的特征值之间的相似度的程度的功能。谓词间相似度计算装置12具体地由根据程序操作的信息处理设备的CPU来实现。
名词间相似度计算装置13具有将与文档集合中的输入名词处于二元关系的谓词的出现频率或校正出现频率的分布设定为每个输入名词的特征值、并且计算输入名词的特征值之间的相似度的程度的功能。名词间相似度计算装置13具体地由根据程序操作的信息处理设备的CPU来实现。
同义评估装置14具有在其中谓词之间的相似度和名词之间的相似度满足预定条件的情况下评估作为同义表达的输入二元关系、并且将评估结果输出到输出设备4的功能。同义评估装置14具体地由根据程序操作的信息处理设备的CPU来实现。
存储设备2包括文档存储单元20、出现频率存储单元21、相同类归属概率存储单元22以及校正出现频率存储单元23。存储设备2具体地由光盘设备、磁盘设备等等来实现。
文档存储单元20存储文档集合。出现频率存储单元21存储指示在文档集合中包括的二元关系的出现频率的数据。例如,指示出现频率的这些数据通过出现频率计算装置10而被注册在出现频率存储单元21中。
概念类存储单元22存储指示谓词或名词所属于的概念类的类型的数据。例如,这些数据被手动地确定并且事先注册在概念类存储单元22中,或者自动地基于统计值等等来计算并且注册在概念类存储单元22中。
校正出现频率存储单元23存储指示二元关系的校正出现频率的数据。例如,这些数据通过出现频率校正装置11而被注册在校正出现频率存储单元23中。
接下来参考图2描述这个示例性实施例中的操作。图2是示出由同义表达评估设备所执行的处理示例的流程。作为示例,下文描述了其中输入设备3将指示“电源-激活(dengen-ireru)”的数据和指示“电源开关-打开(dengen suitchi-tonyu suru)”的数据作为两个二元关系输入到数据处理设备1的情况。
当从输入设备3输入指示两个二元关系的上述数据时,出现频率计算装置10从在文档存储单元20中存储的文档中提取二元关系,并且计算每个二元关系的出现频率(图2中的步骤S1)。二元关系表示谓词和与该谓词处于格关系的名词的组合。
在步骤S1中,出现频率计算装置10使用例如诸如CaboCha的形态学分析/语法分析工具来提取在文档中包括的二元关系。CaboCha在文献(http://chasen.org/~taku/software/cabocha/)中被描述。
出现频率计算装置10使用形态学分析工具将句子分割成单词并且将语音的一部分分配给每个单词。假如句子“打开电源开关(dengensuitchi o tonyu suru)”在形态学上被分析。形态学分析结果“电源(dengen)[名词-一般]/开关(suitchi)[名词-一般]/o[助词-格助词]/打开(tonyu)[名词-谓词]/打开(suru)[谓词-自立]”然后被输出。紧跟这个之后,出现频率计算装置10使用语法分析工具将形态学分析结果组合成子句并且在各子句之间分配从属关系。上述形态学分析结果被组合成两个子句,即(1){电源(dengen)/开关(suitchi)/o}和(2){打开(tonyu)/打开(suru)},并且在子句(1)与子句(2)之间分配(1)是从属而(2)是主导的从属关系。
出现频率计算装置10通过以下方法使用形态学分析/语法分析结果来提取每个二元关系。出现频率计算装置10首先检测谓词子句。谓词子句是其第一语素(morpheme)是“谓词-自立”、“名词-形容词(-na)”或“名词-谓词”的子句。
出现频率计算装置10然后评估为谓词子句的从属的子句是否是与该谓词子句处于格关系的名词性子句。该名词性子句是其第一语素是“名词-一般”、“名词-谓词”或“名词-形容词(-na)”的子句。名词性子句是否与谓词子句处于格关系基于该名词性子句的最后一个语素是否是“助词-格助词”或“助词-系助词”被确定。
最后,出现频率计算装置10将从其移除了与谓词格处于格关系的助词的名词性子句的单词序列识别为名词,而将谓词子句的单词序列识别为谓词。在上述示例中,获得了“电源开关-打开(dengen suitchi-tonyu suru)”。
在这里,与谓词处于格关系的助词可以被包括在名词中。在这种情况下,获得了“电源开关(dengen suitchi o-tonyu suru)”。这样的助词的包括由于它们在助词上的差异而使得能实现二元关系的不同意义之间的区分。然而,还存在出现频率是更加分散的缺点。
出现频率计算装置10计算每个提取的二元关系的出现频率,并且将计算结果存储在出现频率存储单元21中。图3示出了在出现频率存储单元中存储的数据的示例。在图3中所示出的示例中,垂直轴表示名词,水平轴表示谓词,而表中的值表示二元关系的出现频率。例如,“电源开关-打开(dengen suitchi-tonyu suru)”的出现频率是10。
接下来,出现频率校正装置11参考概念类存储单元22针对在文档集合中包括的每个名词或谓词来确定该名词或谓词被用于与输入谓词或输入名词相同的概念的程度。出现频率校正装置11根据所确定的程度来校正在文档集合中包括的每个二元关系的出现频率(图2中的步骤S2)。
概念类存储单元22存储指示谓词或名词所属于的概念类的类型的数据。这些值被事先存储。概率值可以被手动地确定,或者自动地通过计算来确定。在下面描述自动地确定概率值的方法。
名词所属于的概念类的类型使用诸如GMM(多元正规分布)的概率聚类来确定。GMM例如在文献(http://convexbrain.sourceforge.jp/cgi-bin/wifky.pl?p=GMM)中被描述。存在除GMM以外的概率聚类的各种方法。例如,可以使用PLSI(Thomas Hofmann,Probabilistic latent semantic indexing,Proceedingsof the22nd annual international ACM SIGIR conference on Research anddevelopment in information retrieval(SIGIR1999),pp.50-57,1999.)。
在使用GMM的概率聚类中,假定概念类的数目K被事先指定,每个概念类a(1≤a≤K)具有一个多元正规分布。名词N由其维度的数目是谓词的类型的数目的矢量数据来表示,并且每个维度的值是作为名词N的主导的谓词的出现频率。因此,多元正规分布的维度的数目也是谓词V的类型的数目。
名词N属于a的概率P(a|N)使用EM算法来计算。首先,任意P(a|N)被赋予作为初始状态。接下来,a的多元正规分布的均值和方差基于P(a|N)被更新。P(a|N)然后基于新的多元正规分布而被更新。这被重复有限次数,以确定P(a|N)。
图4中的(a)示出了名词所属于的概念类的示例,所述概念类被存储在概念类存储单元22中。存在五个概念类a1至a5。名词所属于的每个概念类被赋予概率P(a|N)。
谓词所属于的概念类的类型由相同的计算方法来确定。图4中的(b)示出了谓词所属于的概念类的示例,所述概念类被存储在概念类存储单元22中。存在五个概念类b1至b5。谓词所属于的每个概念类被赋予概率。
出现频率校正装置11参考概念类存储单元22来计算在文档集合中包括的谓词或名词被用于与输入谓词或输入名词相同的概念的程度。出现频率校正装置11首先使用以下等式(1)来计算在文档集合中包括的名词N被用于与输入名词IN相同的概念的程度CS(N,IN)。
CS(N,IN)=∑a min{P(a|N),P(a|IN)} 等式(1)。
在这里,a表示概念类,而P(a|N)表示属于a的N的概率。因为存在两个输入名词IN1和IN2,所以出现频率校正装置11使用以下等式(2)来计算在文档集合中包括的名词N被用于与输入名词IN1和IN2相同的概念的程度CS(N,IN1,IN2)。
CS(N,IN1,IN2)=Max{CN(N,IN1),CN(N,IN2)} 等式(2)。
在这个示例中,输入名词是“电源(dengen)”和“电源开关(dengensuitchi)”。在文档集合中包括的名词是“电源(dengen)”、“电源开关(dengen suitchi)”、“按钮(botan)”、“学校(gakko)”以及“大学(daigaku)”,如图3中所示。根据这些计算CS产生以下结果。
CS(电源(dengen),电源(dengen),电源开关(dengen suitchi))=Max{CN(电源(dengen),电源(dengen)),CN(电源(dengen),电源开关(dengen suitchi))}=1.0。
CS(电源开关(dengen suitchi),电源开关(dengen suitchi))=1.0。
CS(按钮(botan),电源(dengen),电源开关(dengen suitchi))=0.6。
CS(学校(gakko),电源(dengen),电源开关(dengen suitchi))=0.1。
CS(大学(daigaku),电源(dengen),电源开关(dengen suitchi))=0.1。
以相同的方式,出现频率校正装置11使用以下等式(3)和(4)来计算在文档集合中包括的谓词P被用于与输入谓词IP1和IP2相同的概念的程度。
CS(P,IP1,IP2)=Max{CN(P,IP1),CN(P,IP2)} 等式(3)。
CS(P,IP)=∑b min{P(P,b),P(IP,b)} 等式(4)。
在这个示例中,输入谓词是“激活(ireru)”和“打开(tonyu suru)”。在文档集合中包括的谓词是“打开(tonyu suru)”、“激活(ireru)”、“接通(tsukeru)”、“下降(ochiru)”、“稳定化(antei suru)”,如图3中所示。根据这些计算CS产生以下结果。
CS(打开(tonyu suru),激活(ireru),打开(tonyu suru))=1.0。
CS(激活(ireru),激活(ireru),打开(tonyu suru))=1.0。
CS(接通(tsukeru),激活(ireru),打开(tonyu suru))=0.7。
CS(下降(ochiru),激活(ireru),打开(tonyu suru))=0.2。
CS(稳定化(antei suru),激活(ireru),打开(tonyu suru))=0.2。
注意,CS的计算方法不限于以上所述。其它方法包括例如其中为两个名词或谓词所共有的概念类的数目被设定为CS的方法、以及其中在具有最高概率值的概念类为两个名词或谓词所共有的情况下CS=1并且否则CS=0的方法。
出现频率校正装置11然后使用上面计算的CS来校正在出现频率存储单元21中存储的每个二元关系的出现频率。存在分别使用上面所提到的CS(P,IP1,IP2)和CS(N,NP1,NP2)的关于二元关系的谓词的校正和关于二元关系的名词的校正。该校正方法的示例是如果CS小于预定阈值则将出现频率设定为0的方法。图5中的(a)示出了在阈值被设定为0.6情况下相对于每个二元关系的名词校正的出现频率的示例,所述出现频率被存储在校正出现频率存储单元23中。同样地,图5中的(b)示出了在阈值被设定为0.6情况下相对于每个二元关系的谓词校正的出现频率的示例。该校正方法的另一示例是将出现频率乘以CS的方法。
接下来,谓词间相似度计算装置12将与文档集合中的输入谓词处于二元关系的名词的出现频率或校正出现频率的分布设定为每个输入谓词的特征值,并且计算输入谓词的特征值之间的相似度的程度。此外,名词间相似度计算装置13将与文档集合中的输入名词处于二元关系的谓词的出现频率或校正出现频率的分布设定为每个输入名词的特征值,并且计算输入名词的特征值之间的相似度的程度(图2中的步骤S3)。由谓词间相似度计算装置12和名词间相似度计算装置13所执行的处理可以是按照任何顺序。
谓词间相似度计算装置12首先将与文档集合中的输入谓词处于二元关系的名词的出现频率或校正出现频率的分布设定为每个输入谓词的特征值。例如,当输入谓词由V1和V2来表示时,谓词间相似度计算装置12将{P(V1|n)|n∈N}和{P(n|V2)|n∈N}设定为输入谓词的特征值。P(V1|n)和P(n|V2)分别表示通过归一化与V1和V2处于二元关系的名词的校正出现频率所获得的值(在这个示例中为概率),并且n表示选自通用集合N的任何名词。在这里提到的校正出现频率是在出现频率校正装置11中相对于名词校正的出现频率。
谓词间相似度计算装置12然后计算为谓词的特征值之间的相似度的程度的Score(V1,V2)。详细地,谓词间相似度计算装置12使用以下等式(5)来计算Score(V1,V2)。
Score(V1,V2)=P(V1|V2)=∑n∈N P(V1|n)×P(n|V2) 等式(5)。
Score的计算方法不限于使用等式(5)的方法。例如,可以使用{f(V1,n)|n∈N}和{f(V2,n)|n∈N}作为输入二元关系的谓词的特征值基于余弦(Cosine)相似度来计算。在这里,f(V1,n)和f(V2,n)表示分别与V1和V2相对应的二元关系的校正出现频率。
图6中所提出的技术列示出了使用校正出现频率来计算Score(V1,V2)=P(打开(tonyu suru)|激活(ireru))的结果。在图6中所示出的示例中,Score(V1,V2)=0.263。
名词间相似度计算装置13以与谓词间相似度计算装置12相同的方式来计算输入名词的特征值之间的相似度的程度。当二元关系的名词由N1和N2来表示时,P(N1|v)和P(v|N2)分别表示通过归一化与N1和N2处于二元关系的谓词的校正出现频率所获得的值(在这个示例中为概率),并且v表示选自通用集合V的任何谓词。
名词间相似度计算装置13计算为谓词的特征值之间的相似度的程度的Score(N1,N2)。详细地,名词间相似度计算装置13使用以下等式(6)来计算Score(N1,N2)。
Score(N1,N2)=P(N1|N2)=∑v∈V P(N1|v)×P(v|N2) 等式(6)。
图7中所提出的技术列示出了使用校正出现频率来计算Score(N1,N2)=P(电源开关(dengen suitchi)|电源(dengen))的结果。在图7中所示出的示例中,Score(N1,N2)=0.276。
接下来,同义评估装置14在谓词之间的相似度和名词之间的相似度满足预定条件的情况下评估作为同义表达的输入两个二元关系,并且将评估结果输出到输出设备4(图2中的步骤S4)。
预定条件是例如谓词之间的相似度与名词之间的相似度的乘积不小于指定值。在这种情况下,Score(V1,V2)×Score(N1,N2)=0.263×0.274=0.072。所应用的方法不限于此。其它方法包括例如使用相似度的和或均值代替相似度的乘积的方法、以及使用谓词之间的相似度和名词之间的相似度中的每一个都不小于指定值的条件的方法。
虽然输入设备3和输出设备4在这个示例性实施例中被用作为人机接口,但是输入设备3和输出设备4可以被用来从另一设备或系统接收输入并且将评估结果输出到设备等等。在这种情况下,同义评估装置14可以直接地输出相似度的乘积等等。可替换地,谓词间相似度计算装置12和名词间相似度计算装置13的计算结果可以被直接地输出,而不用使用同义评估装置14。
在下面描述这个示例性实施例的有益效果。在这个示例性实施例中,甚至在其中输入谓词或输入名词是多义的情况下也能够正确地评估二元关系的同义表达。这是可能的因为,当计算输入谓词之间的相似度时,仅用于与输入名词相同类型的概念的谓词的出现频率的分布被用作为特征值,而当计算输入名词之间的相似度时,仅被用于与输入谓词相同类型的概念的谓词的出现频率的分布被用作为特征值。
使意义A是通过其与输入名词的关系确定的输入谓词的意义。使用仅具有与输入名词相同类型的概念的名词的出现频率的分布作为特征值表示与在意义A中使用的输入谓词处于二元关系的名词的出现频率的分布被用作特征值。因此,为同义表达的输入谓词的特征值是相似的。
例如,使意义A是通过“激活电源(dengen o ireru)”和“打开电源开关(dengen suitchi o tonyu suru)”确定的“打开(tonyu suru)”和“激活(ireru)”的意义。使用仅具有与输入名词相同类型的概念的名词的出现频率作为特征值表示与在意义A中使用的“打开(tonyu suru)”和“激活(ireru)”处于二元关系的名词的出现频率的分布被用作特征值。这是因为由“[具有与“电源(dengen)”或“电源开关(dengen suitchi)”相同类型的概念的名词]打开(o tonyu suru)”和“[具有与“电源(dengen)”或“电源开关(dengen suitchi)”相同类型的概念的名词]激活(o ireru)”所确定的“打开(tonyu suru)”和“激活(ireru)”的意义能够被同等地认为是意义A。因此,“打开(tonyu suru)”和“激活(ireru)”的特征值是相似的。
同样地,使意义B是通过其与输入谓词的关系确定的输入名词的意义。使用仅具有与输入谓词相同类型的概念的谓词的出现频率的分布作为特征值表示与在意义B中使用的输入名词处于二元关系的谓词的出现频率的分布被用作特征值。因此,为同义表达的输入名词的特征值是相似的。
图6和7分别示出了输入谓词之间的相似度的计算值在NPL2中所描述的技术与所提出的技术(即在这个示例性实施例中)之间的比较和输入名词之间的相似度的计算值在NPL2中所描述的技术与所提出的技术之间的比较。在使用NPL2中所描述的技术的情况下,输入名词之间的相似度是0.192,输入谓词之间的相似度是0.2,并且它们的乘积是0.038。另一方面,在使用所提出的技术的情况下,输入名词之间的相似度是0.263,输入谓词之间的相似度是0.276,并且它们的乘积是0.072。这说明了所提出的技术甚至在输入谓词或输入名词是多义的时也使得能实现恰当的同义评估。
如上所述,根据本发明的同义表达评估设备涉及用于接收其中的每一个都包括名词和谓词的二元关系的输入并且使用输入名词之间的相似度和输入谓词之间的相似度来评估输入二元关系是否是同义的同义表达评估设备,所述同义表达评估设备其特征在于:当基于与文档集合中的输入谓词处于二元关系的名词的出现频率的分布来计算输入谓词之间的相似度时,仅用于与该输入名词相同类型的概念的名词的分布被使用;而当基于与文档集合中的输入名词处于二元关系的谓词的出现频率的分布来计算输入名词之间的相似度时,仅用于与该输入谓词相同类型的概念的谓词的分布被使用。
下文描述了根据本发明的同义表达评估设备的最小结构。图8是示出同义表达评估设备的最小结构示例的框图。如图8中所示,所述同义表达评估设备包括作为最小结构元件的同义评估装置14和谓词间相似度计算装置12。
在图8中所示出的最小结构的同义表达评估设备中,同义评估装置14接收其中的每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估输入二元关系是否是同义的。谓词间相似度计算装置12当基于与文档集合中的输入谓词处于二元关系的名词的出现频率的分布来计算输入谓词之间的相似度时,使用仅用于与输入名词相同类型的概念的名词的分布。
因此,最小结构的同义表达评估设备能够甚至在其中输入谓词或输入名词是多义的情况下正确地评估二元关系的同义表达。
注意,如在以下(1)至(5)中的同义表达评估设备的特性结构在这个示例性实施例中被示出。
(1)所述同义表达评估设备包括:同义评估装置(例如由同义评估装置14来实现),所述同义评估装置用于接收其中的每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估输入二元关系是否是同义的;以及谓词间相似度计算装置(例如由谓词间相似度计算装置12来实现),所述谓词间相似度计算装置用于当基于与文档集合中的输入谓词处于二元关系的名词的出现频率的分布来计算输入谓词之间的相似度时,使用仅用于与该输入名词相同类型的概念的名词的分布来执行计算。
(2)所述同义表达评估设备包括:同义评估装置(例如由同义评估装置14来实现),所述同义评估装置用于接收其中的每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估输入二元关系是否是同义的;以及谓词间相似度计算装置(例如由谓词间相似度计算装置12来实现),所述谓词间相似度计算装置用于当基于与文档集合中的输入谓词处于二元关系的名词的出现频率的分布来计算输入谓词之间的相似度时,使用仅用于与该输入名词相同类型的概念的名词的分布来执行计算;以及名词间相似度计算装置(例如由名词间相似度计算装置13来实现),所述名词间相似度计算装置用于当基于与文档集合中的输入名词处于二元关系的谓词的出现频率的分布来计算输入名词之间的相似度时,使用仅用于与该输入谓词相同类型的概念的谓词的分布来执行计算。
(3)所述同义表达评估设备包括:同义评估装置(例如由同义评估装置14来实现),所述同义评估装置用于接收其中的每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估输入二元关系是否是同义的;概念类存储装置(例如由概念类存储单元22来实现),所述概念类存储装置用于存储谓词或名词所属于的概念类的类型;出现频率校正装置(例如由出现频率校正装置11来实现),所述出现频率校正装置用于参考在概念类存储装置中存储的概念类的类型来确定在文档集合中包括的谓词或名词被用于与该输入谓词或该输入名词相同的概念的程度,并且根据所确定的程度来校正在文档集合中包括的二元关系的出现频率;谓词间相似度计算装置(例如由谓词间相似度计算装置12来实现),所述谓词间相似度计算装置用于将与文档集合中的输入谓词处于二元关系的名词的出现频率和校正出现频率的分布设定为该输入谓词的特征值,并且计算输入谓词的特征值之间的相似度的程度;以及名词间相似度计算装置(例如由名词间相似度计算装置13来实现),所述名词间相似度计算装置用于将与文档集合中的输入名词处于二元关系的谓词的出现频率和校正出现频率的分布设定为该输入名词的特征值,并且计算输入名词的特征值之间的相似度的程度。
(4)在所述同义表达评估设备中,每个二元关系中的名词还可以包括在二元关系中与谓词处于格关系的助词。
(5)在所述同义表达评估设备中,同义评估装置可以在其中输入名词之间的相似度和输入谓词之间的相似度满足预定条件的情况下将输入二元关系评估为同义的。
虽然已经参考上述示例性实施例对本发明进行了描述,但是本发明不限于上述示例性实施例。能够对本发明的结构和细节进行可由本领域的技术人员在本发明的范围内理解的各种改变。例如,可以从示例性实施例中所示出的结构元件中省略一个或多个结构元件,并且一个或多个其它结构元件可以与本示例性实施例中所示出的结构元件组合。
本申请要求基于于2011年5月10日提交的日本专利申请No.2011/-105589的优先权,其公开内容被整体地结合在本文中。
工业实用性
本发明例如适用于响应于具有诸如自然句子的复杂语法结构的查询来进行准确搜索。
附图标记列表
1 数据处理设备
2 存储设备
3 输入设备
4 输出设备
10 出现频率计算装置
11 出现频率校正装置
12 谓词间相似度计算装置
13 名词间相似度计算装置
14 同义评估装置
20 文档存储单元
21 出现频率存储单元
22 概念类存储单元
23 校正的出现频率存储单元
Claims (7)
1.一种同义表达评估设备,包括:
同义评估装置,所述同义评估装置用于接收每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估所输入的二元关系是否是同义的;以及
谓词间相似度计算装置,所述谓词间相似度计算装置用于当基于在文档集合中与输入谓词处于二元关系中的名词的出现频率的分布来计算所述输入谓词之间的相似度时,仅使用与所述输入名词相同类型的概念中使用的名词的分布来执行计算。
2.一种同义表达评估设备,包括:
同义评估装置,所述同义评估装置用于接收每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估所输入的二元关系是否是同义的;
谓词间相似度计算装置,所述谓词间相似度计算装置用于当基于在文档集合中与输入谓词处于二元关系中的名词的出现频率的分布来计算所述输入谓词之间的相似度时,仅使用与所述输入名词相同类型的概念中使用的名词的分布来执行计算;以及
名词间相似度计算装置,所述名词间相似度计算装置用于当基于在文档集合中与输入名词处于二元关系中的谓词的出现频率的分布来计算所述输入名词之间的相似度时,仅使用与所述输入谓词相同类型的概念中使用的谓词的分布来执行计算。
3.一种同义表达评估设备,包括:
同义评估装置,所述同义评估装置用于接收每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估所输入的二元关系是否是同义的;
概念类存储装置,所述概念类存储装置用于存储谓词或名词所属于的概念类的类型;
出现频率校正装置,所述出现频率校正装置用于参考存储在所述概念类存储装置中的所述概念类的类型来确定包括在文档集合中的谓词或名词在与所述输入谓词或所述输入名词相同的概念中使用的程度,并且根据所确定的程度来校正包括在所述文档集合中的二元关系的出现频率;
谓词间相似度计算装置,所述谓词间相似度计算装置用于将在所述文档集合中与所述输入谓词处于二元关系中的名词的出现频率或校正的出现频率的分布设定为所述输入谓词的特征值,并且计算所述输入谓词的特征值之间的相似度的程度;以及
名词间相似度计算装置,所述名词间相似度计算装置用于将在所述文档集合中与所述输入名词处于二元关系中的谓词的出现频率或校正的出现频率的分布设定为所述输入名词的特征值,并且计算所述输入名词的特征值之间的相似度的程度。
4.根据权利要求1至3中的任何一项所述的同义表达评估设备,其中,每个二元关系中的名词还包括在所述二元关系中与谓词处于格关系的助词。
5.根据权利要求1至4中的任何一项所述的同义表达评估设备,其中,在所述输入名词之间的相似度和所述输入谓词之间的相似度满足预定条件的情况下,所述同义评估装置将所述输入二元关系评估为同义的。
6.一种同义表达评估方法,包括:
接收每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估所输入的二元关系是否是同义的;以及
当基于在文档集合中与输入谓词处于二元关系中的名词的出现频率的分布来计算输入谓词之间的相似度时,仅使用与所述输入名词相同类型的概念中使用的名词的分布来执行计算。
7.一种同义表达评估程序,所述同义表达评估程序用于使得计算机执行:
同义评估处理,所述同义评估处理用于接收每一个都包括名词和谓词的二元关系的输入,并且使用输入名词之间的相似度和输入谓词之间的相似度来评估所输入的二元关系是否是同义的;以及
谓词间相似度计算处理,所述谓词间相似度计算处理用于当基于在文档集合中与所述输入谓词处于二元关系中的名词的出现频率的分布来计算所述输入谓词之间的相似度时,仅使用与所述输入名词相同类型的概念中使用的名词的分布来执行计算。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011105589 | 2011-05-10 | ||
JP2011-105589 | 2011-05-10 | ||
PCT/JP2012/003023 WO2012153524A1 (ja) | 2011-05-10 | 2012-05-09 | 同義表現判定装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103562907A true CN103562907A (zh) | 2014-02-05 |
CN103562907B CN103562907B (zh) | 2016-12-07 |
Family
ID=47139012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280022780.9A Active CN103562907B (zh) | 2011-05-10 | 2012-05-09 | 用于评估同义表达的设备、方法和程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9262402B2 (zh) |
JP (1) | JP5234232B2 (zh) |
CN (1) | CN103562907B (zh) |
SG (1) | SG194709A1 (zh) |
WO (1) | WO2012153524A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777283A (zh) * | 2016-12-29 | 2017-05-31 | 北京奇虎科技有限公司 | 一种同义词的挖掘方法及装置 |
CN107818081A (zh) * | 2017-09-25 | 2018-03-20 | 沈阳航空航天大学 | 基于深度语义模型与语义角色标注的句子相似度评估方法 |
CN111241124A (zh) * | 2020-01-07 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 一种需求模型构建方法、装置、电子设备和介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5916016B2 (ja) * | 2012-12-17 | 2016-05-11 | 日本電信電話株式会社 | 同義判定装置、同義学習装置、及びプログラム |
JP2016021136A (ja) * | 2014-07-14 | 2016-02-04 | 株式会社東芝 | 類義語辞書作成装置 |
WO2017061027A1 (ja) * | 2015-10-09 | 2017-04-13 | 三菱電機株式会社 | 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム |
CN110442760B (zh) * | 2019-07-24 | 2022-02-15 | 银江技术股份有限公司 | 一种问答检索系统的同义词挖掘方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090265160A1 (en) * | 2005-05-13 | 2009-10-22 | Curtin University Of Technology | Comparing text based documents |
US20100030553A1 (en) * | 2007-01-04 | 2010-02-04 | Thinking Solutions Pty Ltd | Linguistic Analysis |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418716A (en) * | 1990-07-26 | 1995-05-23 | Nec Corporation | System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases |
US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US20050071150A1 (en) * | 2002-05-28 | 2005-03-31 | Nasypny Vladimir Vladimirovich | Method for synthesizing a self-learning system for extraction of knowledge from textual documents for use in search |
WO2005020091A1 (en) * | 2003-08-21 | 2005-03-03 | Idilia Inc. | System and method for processing text utilizing a suite of disambiguation techniques |
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
US8374844B2 (en) * | 2007-06-22 | 2013-02-12 | Xerox Corporation | Hybrid system for named entity resolution |
US8674462B2 (en) | 2007-07-25 | 2014-03-18 | Infineon Technologies Ag | Sensor package |
US20090083027A1 (en) * | 2007-08-16 | 2009-03-26 | Hollingsworth William A | Automatic text skimming using lexical chains |
US8868562B2 (en) * | 2007-08-31 | 2014-10-21 | Microsoft Corporation | Identification of semantic relationships within reported speech |
US8594996B2 (en) * | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
WO2009051068A1 (ja) * | 2007-10-19 | 2009-04-23 | Nec Corporation | 文書分析方法、文書分析システム及び文書分析用プログラム |
US20090326924A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Projecting Semantic Information from a Language Independent Syntactic Model |
US20090326925A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Projecting syntactic information using a bottom-up pattern matching algorithm |
-
2012
- 2012-05-09 US US14/117,297 patent/US9262402B2/en active Active
- 2012-05-09 JP JP2012548252A patent/JP5234232B2/ja active Active
- 2012-05-09 WO PCT/JP2012/003023 patent/WO2012153524A1/ja active Application Filing
- 2012-05-09 CN CN201280022780.9A patent/CN103562907B/zh active Active
- 2012-05-09 SG SG2013080577A patent/SG194709A1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090265160A1 (en) * | 2005-05-13 | 2009-10-22 | Curtin University Of Technology | Comparing text based documents |
US20100030553A1 (en) * | 2007-01-04 | 2010-02-04 | Thinking Solutions Pty Ltd | Linguistic Analysis |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777283A (zh) * | 2016-12-29 | 2017-05-31 | 北京奇虎科技有限公司 | 一种同义词的挖掘方法及装置 |
CN107818081A (zh) * | 2017-09-25 | 2018-03-20 | 沈阳航空航天大学 | 基于深度语义模型与语义角色标注的句子相似度评估方法 |
CN111241124A (zh) * | 2020-01-07 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 一种需求模型构建方法、装置、电子设备和介质 |
CN111241124B (zh) * | 2020-01-07 | 2023-10-03 | 百度在线网络技术(北京)有限公司 | 一种需求模型构建方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
US9262402B2 (en) | 2016-02-16 |
JPWO2012153524A1 (ja) | 2014-07-31 |
JP5234232B2 (ja) | 2013-07-10 |
US20140343922A1 (en) | 2014-11-20 |
WO2012153524A1 (ja) | 2012-11-15 |
SG194709A1 (en) | 2013-12-30 |
CN103562907B (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
CN110427618B (zh) | 对抗样本生成方法、介质、装置和计算设备 | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
CN107247707B (zh) | 基于补全策略的企业关联关系信息提取方法和装置 | |
Duck et al. | A survey of bioinformatics database and software usage through mining the literature | |
US10417240B2 (en) | Identifying potential patient candidates for clinical trials | |
CN103562907A (zh) | 用于评估同义表达的设备、方法和程序 | |
Gupta et al. | Automatic information extraction from unstructured mammography reports using distributed semantics | |
US10460028B1 (en) | Syntactic graph traversal for recognition of inferred clauses within natural language inputs | |
Dahlmeier et al. | Domain adaptation for semantic role labeling in the biomedical domain | |
KR102285142B1 (ko) | 챗봇을 위한 학습 데이터 추천 장치 및 방법 | |
US9208139B2 (en) | System and method for identifying organizational elements in argumentative or persuasive discourse | |
Scheible et al. | Model architectures for quotation detection | |
CN110555205A (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
JP5834795B2 (ja) | 情報処理装置及びプログラム | |
CN113282762A (zh) | 知识图谱构建方法、装置、电子设备和存储介质 | |
Fischbach et al. | Fine-grained causality extraction from natural language requirements using recursive neural tensor networks | |
Channell et al. | Automated grammatical tagging of child language samples | |
Žitnik et al. | SkipCor: Skip-mention coreference resolution using linear-chain conditional random fields | |
Ferilli et al. | Towards a Process Mining Approach to Grammar Induction for Digital Libraries: Syntax Checking and Style Analysis | |
CN113705253A (zh) | 一种机器翻译模型性能检测方法、以及相关设备 | |
CN102346777A (zh) | 一种对例句检索结果进行排序的方法和装置 | |
Vayadande et al. | Conversion of Ambiguous Grammar to Unambiguous Grammar using Parse Tree | |
CN111191003B (zh) | 确定文本关联类型的方法、装置、存储介质和电子设备 | |
Zhang et al. | Argument detection in online discussion: A theory based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |