CN104160392A - 语义推测装置、方法以及程序 - Google Patents

语义推测装置、方法以及程序 Download PDF

Info

Publication number
CN104160392A
CN104160392A CN201280071188.8A CN201280071188A CN104160392A CN 104160392 A CN104160392 A CN 104160392A CN 201280071188 A CN201280071188 A CN 201280071188A CN 104160392 A CN104160392 A CN 104160392A
Authority
CN
China
Prior art keywords
word
semantic
concept
probability
semanteme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280071188.8A
Other languages
English (en)
Other versions
CN104160392B (zh
Inventor
谷垣宏一
柴光辉
高山茂伸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN104160392A publication Critical patent/CN104160392A/zh
Application granted granted Critical
Publication of CN104160392B publication Critical patent/CN104160392B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明目的在于能够通过无监督学习来高精度地推测语义。语义推测装置(100)执行多次概率计算处理,在该概率计算处理中,针对各单词,根据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义的相近度、以及所选择的单词成为所选择的语义的概率,计算将作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价值,再计算所述概率,语义推测装置(100)针对各单词,将计算出的概率高的概念推测为该单词的语义。

Description

语义推测装置、方法以及程序
技术领域
本发明涉及针对文档中包含的单词,推测该单词被以在辞典中登记的哪个语义使用的语义推测技术(语义的含糊性消除技术)。
背景技术
关于语义的推测,作为以机器翻译、信息检索为首的各种自然语言处理的基础技术,进行了大量研究,作为其方式,大致分类有2个方法。
一个是应用有监督学习(或者半监督学习)的方式,另一个是应用无监督学习的方式。
在应用有监督学习的方式中,预先制作对作为对象的任务、或者与其类似的文档数据(通常以人工方式)赋予了正确的语义的带标签的学习数据。然后,通过某种基准(似然度最大化、余量最大化等),使模型学习根据单词的出现上下文识别语义的规则。
作为应用有监督学习的方式,在非专利文献1中,记载了使用支持向量机的方式,在非专利文献2中,记载了应用朴素贝叶斯法的方式。另外,在非专利文献3中,记载了通过并用未赋予正确的语义的无标签学习数据来削减带标签的学习数据的必要量的半监督学习的技术。
在应用无监督学习的方式中,不使用人工地赋予了正解的有标签学习数据,而仅根据无标签学习数据识别语义。
作为应用无监督学习的方式,在专利文献1中,记载了如下方式:在概念层次上调查在文档中包含的单词的周边出现的共同出现的词的语义,搜索更大量的共同出现的词、以及通过接近的层次和接近的语义定义文定义的语义候补,将搜索的语义候补采纳为单词的语义。即,在关注的单词的语义候补中,共同出现的词的语义候补越是在附近有很多个的候补越当作合理的,来推测单词的语义。
专利文献1:日本特开2010-225135号公报
非专利文献1:Leacock,c.,Miller,G.A.and Chodorow,M.:Using corpus statistics and wordnet relations for sense identification,Computational Linguistics,Vol.24,No.1,pp.147—165(1998)
非专利文献2:電子情報通信学会 言語理解とコミュニケーション研究会(NLC),“SENSEVAL-2日本語タスク”,黒橋禎夫,白井清昭,2001
非专利文献3:Yarowsky,D.:Unsupervised word sensediscrimination,Computational Linguistics,Vol.24,No.1,pp.97—123(1998)
非专利文献4:栗林孝之,Bond,F.,黒田航,内元清貴,井佐原均,神崎享子,鳥澤健太郎:日本語ワードネット1.0,言語処理学会 第16回年次大会発表論文集(2010)
发明内容
但是,为了应用非专利文献1、2记载的应用了有监督学习的方式、非专利文献3记载的应用了半监督学习的方式,需要预先制作对文档数据赋予了正确的语义的带标签的学习数据。因此,在该方式中,存在在学习数据的制作中花费成本、或者在事先无法获得学习数据的状况下无法应用的这样的课题。
另外,专利文献1记载的应用了无监督学习的方式是想要仅消除关注的词的含糊性的方式。即,不消除共同出现的词的语义含糊性,对于实际上错误的语义候补也同样地重视,并作为关注共同出现的词的语义候补的词的根据来使用。因此,在该方式中,存在语义的推测精度恶化这样的课题。
本发明的目的在于能够通过无监督学习来高精度地推测语义。
本发明涉及的语义推测装置,其特征在于,具备:
单词抽出部,抽出输入数据所包含的多个单词;
上下文解析部,针对所述单词抽出部抽出的各单词,抽出在所述输入数据中该单词出现的上下文的特征;
语义候补抽出部,从作为单词的语义存储了一个以上的概念的概念辞典,将针对所述各单词作为语义存储的各概念抽出为该单词的语义候补;以及
语义推测部,执行多次概率计算处理,在所述概率计算处理中,针对所述各单词,根据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义的概念的相近度、以及所选择的单词成为所选择的语义的概率,计算将所述语义候补抽出部作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价值,再计算所述概率,所述语义推测部针对所述各单词,将计算出的概率高的概念推测为该单词的语义。
在本发明的语义推测装置中,通过针对多个单词同时推测语义,即使在未被赋予正解语义的情况、仅被赋予了少量的正解语义的情况下,也能够实现高的语义推测精度。
附图说明
图1是实施方式1的语义推测装置100的结构图。
图2是示出实施方式1的语义推测方式的概要的图。
图3是示出由上下文解析部30生成的出现上下文的特征矢量的例子的图。
图4是示出概念和单词的关系的图。
图5是概念的关系定义的一个例子,是示出概念的上位(抽象)/下位(具体)关系的图。
图6是示出依照图5所示的层次定义,用矢量表现的概念的例子的图。
图7是示出推测语义分配概率πwi j的处理的流程的流程图。
图8是示出通过应用EM算法实施的语义分配概率πw j的更新、和与其相伴的语义含糊性消除的情况的图。
图9是示出语义推测装置100的硬件结构的一个例子的图。
符号说明
10:输入文本数据;20:单词抽出部;30:上下文解析部;40:语义候补抽出部;50:概念辞典;60:语义推测部;70:推测语义数据;100:语义推测装置。
具体实施方式
以下,根据附图,说明发明的实施方式。
另外,在以下的说明中,处理装置是后述CPU911等。存储装置是后述ROM913、RAM914、磁盘装置920等。即,处理装置、存储装置是硬件。
另外,在以下的说明中,在wi被记载为上标文字、下标文字的情况下,该wi意义着wi
实施方式1.
在实施方式1中,使用将多个数据库的表格模式作为输入文本数据10并推测构成表格模式的单词的语义的例子,说明语义推测方式。
作为以表格模式为对象来推测语义的具体的用途,例如有企业中的数据合并。在企业中,有希望在过去单独地构筑并工作的多个业务应用之间合并数据库的数据这样的需求。为了实现数据的合并,需要在多个数据库之间判别哪个项目对应于哪个项目。以往,项目之间的对应判别是以人工方式进行的。在此通过使用语义推测方式,能够支援判定在不同的名称的项目之间有无对应关系的作业,实现节省作业的劳力。
图1是实施方式1的语义推测装置100的结构图。
输入文本数据10是多个数据库的多个表格模式。
单词抽出部20通过处理装置,按照单词单位分割在表格模式中定义的表格名、纵列(column)名,将分割后的单词作为语义推测对象抽出。
上下文解析部30通过处理装置,从表格模式抽出单词抽出部20抽出的各单词的出现上下文的特征。
语义候补抽出部40通过处理装置,针对单词抽出部20抽出的各单词,参照概念辞典50来抽出语义候补。
概念辞典50将一个以上的概念作为单词的语义存储到存储装置中,并且将概念之间的层次性的关系存储到存储装置中。
语义推测部60针对单词抽出部20抽出的各单词,推测语义候补抽出部40抽出的语义中的哪一个合理。此时,语义推测部60针对各单词,根据上下文解析部30关于该单词和其他单词抽出的上下文的特征的相近度、和关于该单词的语义候补和其他单词的语义候补的概念的相近度,推测语义。然后,语义推测部60将针对各单词推测出的语义作为推测语义数据70输出。
图2是示出实施方式1的语义推测方式的概要的图。
此处,输入文本数据10是定义了数据库的表格构造的模式。在图2中,作为一个例子,示出了输入了包括“SHIP_TO”、“DELIVER_TO”这样的纵列的、“ORDER”这样的表格的模式的状态。实际输入多个这样的表格模式。
单词抽出部20从被输入的表格模式中抽出单词。此处,通过最简单的方法,将下划线“_”作为分隔符进行单词分割。其结果,在图2中,抽出“ORDER”、“SHIP”、“TO”、“DELIVER”这4个种类的单词。将抽出的单词全部当作语义的推测对象(分类对象词)来处理。
上下文解析部30根据由单词抽出部20实施单词分割的结果,抽出各分类对象词的出现上下文的特征,生成特征矢量。
单词的出现上下文的特征是指,表示该单词在表格模式中采用了什么样的使用方法。此处,作为单词的出现上下文的特征,设为使用如下5个特征:(1)出现部位是表格名还是纵列名的类别、(2)在仅接分类对象词之前出现的单词、(3)在仅接着分类对象词之后出现的单词、(4)在父表格名中出现的单词(仅在分类对象词的出现部位是纵列名的情况下)、(5)在子纵列名中出现的词(仅在分类对象词的出现部位是表格名的情况下)。
图3是示出由上下文解析部30生成的出现上下文的特征矢量的例子的图。
在图3中,各行表示分类对象词,各列表示构成特征的来历。另外,在图3中,在来历的值是1时,表示具有该特征,在0时,表示不具有该特征。从图3可知,分类对象词“SHIP”和“DELIVER”的出现上下文矢量一致,采用了相互良好地近似的使用方式。
语义候补抽出部40在概念辞典50中参照各分类对象词,抽出成为语义的候补的全部概念。
作为概念辞典50,例如,使用WordNet。在WordNet中,将称为synset的概念作为一个单位,定义了与该概念相当的单词、概念之间的上位/下位关系等。在例如非专利文献4中,记载了WordNet的详细内容。
图4、图5是示出概念辞典50的例子的图。
图4是示出概念和单词的关系的图。即,图4是示出语义的定义例的图。
例如,概念ID0003是具有日语的“船(船)”的名称的概念,定义了作为对应的单词有“ship”、“vessel”等的情况。在相反地从单词“ship”观察的情况下,作为语义登记了ID0003“船(船)”、0010“肩書き(头衔)”、0017“出荷(运出货物)”这3个概念,是含糊的。同样地,针对单词“deliver”,作为语义也登记有ID0013“出産(生产)”、0019“配達(配送)”这2个概念,是含糊的。即,需要根据上下文来识别以哪个语义使用了单词“ship”、“deliver”。
图5是概念的关系定义的一个例子,是示出概念的上位(抽象)/下位(具体)关系的图。
追寻层次关系而处于接近的距离的概念彼此相比于远离的概念具有更类似的意义。例如,在图5中,ID0017的概念“出荷(运出货物)”被定义为与ID0019的概念“配達(配送)”处于姐妹关系的层次,具有例如比其他ID0013的概念“出産(生产)”更类似的意义。
语义候补抽出部40抽出在概念辞典中登记为单词的语义的概念,并且将抽出的概念变换为语义的特征矢量。通过变换为语义的特征矢量,能够与出现上下文之间的相近度同样地利用矢量计算来处理概念之间的相近度。
图6是示出依照图5所示的层次定义,用矢量表现的概念的例子的图。
在图6中,各行表示在左端显示的概念ID的矢量。矢量的各分量是构成概念层次的概念,在相当于该概念或者其上位概念时被赋予1,否则被赋予0。例如,在ID0017的概念中,作为上位概念具有ID0001、ID0011、ID0016,所以对包括自身的ID0017和这些3个概念的合计4个分量赋予1。
从图6可知,概念ID0017“出荷(运出货物)”和ID0019“配達(配送)”被表现为比其他概念更类似的矢量。
语义推测部60根据上述出现上下文的特征矢量φc和语义的特征矢量φt,推测分类对象词的语义。
在图2中,在二维的平面中,示意地表示由上述2个矢量构成的特征空间。如果将分类对象词x映射到该平面上,则分类对象词x的出现上下文的特征矢量φc(x)的坐标被唯一地确定。但是,分类对象词x的语义有含糊性,所以分类对象词x的语义的特征矢量φt(x)的坐标成为向多个部位概率性地定位的假设。在图2中用黑的点表示了在平面上被映射出的假设。例如,图2的分类对象词“SHIP”在语义的特征矢量φt侧有含糊性,在3个部位的点设置了假设。
为了通过无监督学习来消除这样的各词的语义的含糊性,此处,设置以下的2个假定。
<假定1>与出现上下文无关地在相同的语义中使用一个词目。
<假定2>越是与出现上下文相近的单词的语义接近的语义,越合理。
假定1是指,在处理所限定的任务域的模式的情况下,不发生单词的多义性,能够对单词分配一贯的语义。
假定2是指,假定1中的各词中封闭的一贯性的假定希望在进一步将对象扩展至出现上下文类似的词群的情况下也具有缓和的连续性而成立。
根据上述2个假定,此处,通过式11求出对分类对象词x分配语义s的语义假设(x,s)的联合概率p(x,s)。
【式11】
p ( x , s ) &equiv; 1 Z &Sigma; i = 1 N &Sigma; j : s j &Element; S w i &pi; j w i exp ( - | | &phi; c ( x ) - &phi; c ( x i ) | | 2 &sigma; c 2 - | | &phi; t ( s ) - &phi; t ( s j ) | | 2 &sigma; t 2 )
此处,Z是用于标准化的值,是以使关于所有分类对象词x和所有语义s的联合概率p(x,s)的合计成为1的方式设定的值。N是所述输入数据中包含的分类对象词x的数量。xi是第i个分类对象词。wi是忽略了出现的上下文的分类对象词xi。Swi是单词wi的语义候补的集合。sj是集合Swi中包含的概念。πwi j是单词wi的语义为sj的概率(语义分配概率)。σc、σt分别是出现上下文的特征空间的方差、语义的特征空间的方差,将规定的值作为设定值提供。另外,在式11中,exp(·)是高斯核,∥·∥2是(差分矢量的)平方范数(squarednorm)。
通过假定1,语义分配概率πwi j不依赖于出现上下文。另外,单词wi表示例如单词“SHIP”,该情况的语义sj表示“船(船)”、“肩書き(头衔)”、“出荷(运出货物)”。语义分配概率πwi j是单词wi相对语义候补的分配概率,所以在将单词wi的语义候补的集合设为Swi时,关于集合Swi的全部要素sj∈Swi的总和是1(式12)。
【式12】
&Sigma; j : s j &Element; S w i &pi; j w i =1
即,此处,根据所有分类对象词xi(i=1,...,N)的所有语义假设sj(∈Swi),通过用语义的分配概率πwi j加权的核密度推测,求出联合概率p(x,s)。
图7是示出推测语义分配概率πwi j的处理(概率计算处理)的流程的流程图。
通过应用EM算法,能够针对所有分类对象词,同时推测语义分配概率πwi j
<S10:准备步骤>
语义推测部60为了使S30以后的反复中的计算高效化,在式11中,计算与语义分配概率πwi j的更新无关的高斯核exp(·)的值并存储到存储装置中。
<S20:初始化步骤>
语义推测部60针对所有单词w,对语义分配概率πw j设定初始值1/|Sw|。此处,|Sw|表示集合Sw的要素数量。
<S30:收敛判定步骤>
语义推测部60通过式13,求出针对所有分类对象词x的语义似然度的合计L。
【式13】
L = &Sigma; i = 1 N &Sigma; j : s j &Element; S w i log p ( x i , s j )
然后,在语义推测部60中,如果从上次反复时起的语义似然度的合计L的增量小于预先提供的阈值θ,则判定为收敛而结束学习。另一方面,如果未收敛,则语义推测部60使处理进入到S40,反复语义分配概率πw j的再计算和更新。
<S40:E步骤>
语义推测部60通过式11,针对所有分类对象词x的所有语义候补s,求出基于当前的语义分配概率(old)πw j的联合概率p(x,s)。高斯核exp(·)的值利用在S10中存储到存储装置中的值。
<S50:M步骤>
语义推测部60通过式14计算新的语义分配概率(new)πw j,使处理返回到S30。
【式14】
&pi; s w ( new ) : = &Sigma; x i &Element; X w p ( x i , s ) &Sigma; x i &Element; X w &Sigma; s j &Element; S w p ( x i , s j )
此处,Xw是输入文本数据10中包含的分类对象词x的集合。
图8是示出通过应用EM算法实施的语义分配概率πw j的更新、和与其相伴的语义含糊性消除的情况的图。
图8示出通过EM算法的πw j更新步骤的反复而在图2中从左向右的状态变迁的动作的仿真结果。图2的左边所示的图形对应于图8的左下所示的EM算法反复次数0次的位置(含糊性消除前),图2的右边所示的图形对应于图8的右上所示的EM算法反复次数40次的位置(含糊性消除后)。但是,在图8中,为了简化,高斯分布仅示出了出现上下文相互接近的、表示“SHIP”的语义候补的3个波峰、和表示“DELIVER”的语义候补的2个波峰。
根据图8,在初始状态下,单词“SHIP”的3个语义(船(船)、肩書き(头衔)、出荷(运出货物))分别是相同的程度的可能性,单词“DELIVER”的2个语义(出産(生产)、配達(配送))也分别是相同的程度的可能性。但是,处于相互接近的位置的“SHIP”的语义“出荷(运出货物)”和“DELIVER”的语义“配達(配送)”由于基于高斯核的似然度的波谷相互重叠,所以能够推测为比其他语义更合理。这样,通过根据与出现上下文类似的其他单词的其他语义的类似性预测出的整体的概率密度,推测各单词的语义期待值,以与推测出的各单词的语义期待值匹配的方式,重复各词的语义分配概率πw j的更新。由此,各词的语义分配概率πw j的值如图8那样变化,各个单词的合理的语义的概率最终变高。
在语义推测部60中,如果语义分配概率πw j的推测完成,则针对各分类对象词w,通过式15选择最大似然的语义sj*,作为推测语义数据70输出。
【式15】
s j * = arg max j &pi; j w
如以上那样,语义推测装置100在出现上下文的特征接近的单词之间发现接近的语义分配。因此,能够根据未被赋予语义的正解的数据来推测语义。
因此,能够解决在使用有监督学习的方法、使用半监督学习的方式中成为课题的、需要制作好对作为对象的任务的文本数据通常人工地赋予了正确的语义的带标签的学习数据这样的课题。其结果,能够解决花费学习数据制作成本这样的课题、在事先获得学习数据的状况下无法应用该方式这样的课题。
另外,语义推测装置100通过使用EM算法,通过反复更新成为分类对象的所有单词的语义分配概率,同时或渐进地消除所有单词的含糊性。即,根据其他单词的合理的语义,推测自身的语义。
因此,能够解决在专利文献1记载的方式中成为课题的、由于对实际上错误的语义候补也同样地重视并当作关注共同出现的词的语义候补的词的根据来使用所以语义的推测精度恶化这样的课题。
因此,根据语义推测装置100,解决以往的语义推测技术的课题,即使在未得到带标签的学习数据的条件下,也能够通过无监督学习来高精度地推测语义。
另外,在上述说明中,以分类对象词是在概念辞典50中登记的单词(登记词)、并参照概念辞典50得到语义的候补为前提。但是,即使在分类对象词是未登记在概念辞典50中的单词(未登记词)的情况下,也能够应用上述方式。
例如,登记词“DELIVER”的缩短标记“DELIV”是未登记词。在该情况下,针对作为未登记词的分类对象词的标记字符串、和概念辞典50的登记词的字符串,根据公知的编辑距离等,求出字符串间类似度。然后,抽出具有比预先决定的阈值高的类似度的所有登记词,将作为抽出的登记词的语义存储的概念作为语义候补即可。
此时,也可以使用与和抽出的登记词的字符串间类似度对应的权重,计算联合概率p(x,s)。例如,设为作为未登记词的分类对象词wi的语义sj是被登记为与分类对象词wi类似的登记词w^i的语义的概念。另外,设为与分类对象词wi和登记词w^i的字符串间类似度对应的权重是ωi j。在该情况下,在式1中,将语义分配概率πwi j设为相乘了权重ωi j的πwi jωi j即可。即,也可以设为与抽出的登记词的字符串间类似度越高,语义分配概率πw j越高。
另外,在上述说明中,说明了针对输入文本数据10中包含的所有单词推测语义的动作。但是,不限于此,例如,还能够应用于在针对输入文本数据10中包含的一部分的单词预先决定了正确的语义的情况。
在该情况下,在上述动作中,针对被赋予了正确的语义的单词,将正确的语义sj的语义分配概率πw j固定为1即可。这样,在半监督学习的框架中应用上述方式,相比于在完全的无监督学习中应用的情况,还能够进行精度更高的语义推测。
另外,在上述说明中,将语义分配概率πw j求出为0至1之间的连续值。但是,不限于此,例如,也可以是,代替式4,仅针对提供通过式4计算出的πw j的最大值的j^设为概率πw j^=1,针对其以外的j设为πw j=0。
另外,在上述说明中,将在式1中求出总和的对象设为所有分类对象词的所有语义假设。但是,不限于此,例如,也可以将对象限定为语义的特征矢量接近的规定的K个(K是1以上的整数)而取总和。
另外,在上述说明中,通过有无共同出现的词,简单地表现了出现上下文的特征矢量。但是,不限于此,例如,也可以针对共同出现的词,参照辞典,抽出成为其语义候补的概念,置换为抽出了以表现形式、词目形式记述的共同出现的词的概念而重新记述上下文之后,表现出现上下文的特征矢量。具体而言,在共同出现的词中有“ship”这样的单词的情况下,将“ship”置换为“船(船)”、“肩書き(头衔)”、“出荷(运出货物)”这样的各概念而重新记述上下文,表现出现上下文的特征矢量。由此,例如,在共同出现的词中有“ship”这样的单词的上下文和在共同出现的词中有“vessel”这样的单词的上下文的出现上下文的特征矢量成为接近的矢量。
另外,在上述说明中,通过高斯核对上下文以及语义的相近度进行了模型化。但是,不限于此,例如,也可以将语义的相近度由单纯地追寻了概念辞典的层次时的链接的数量来代用。
图9是示出语义推测装置100的硬件结构的一个例子的图。
如图9所示,语义推测装置100具备执行程序的CPU911(Central·Processing·Unit、还称为中央处理装置、处理装置、运算装置、微处理器、微型计算机、处理器)。CPU911经由总线912与ROM913、RAM914、LCD901(Liquid Crystal Display:液晶显示器)、键盘902(K/B)、通信板915、磁盘装置920连接,控制这些硬件设备。也可以代替磁盘装置920(固定盘装置),而使用光盘装置、存储卡读写装置等存储装置。磁盘装置920经由规定的固定盘接口连接。
在磁盘装置920或者ROM913等中,存储了操作系统921(OS)、视窗系统922、程序群923、文件群924。程序群923的程序通过CPU911、操作系统921、视窗系统922来执行。
在程序群923中,存储了执行在上述说明中说明为“单词抽出部20”、“上下文解析部30”、“语义候补抽出部40”、“语义推测部60”等的功能的软件、程序、其他程序。程序由CPU911读出并执行。
在文件群924中,在上述说明中“输入文本数据10”、“概念辞典50”、“推测语义数据70”等信息、数据、信号值、变量值、参数被存储为“文件”、“数据库”的各项目。“文件”、“数据库”被存储到盘、存储器等记录介质中。将在盘、存储器等存储介质中存储的信息、数据、信号值、变量值、参数经由读写电路通过CPU911读出到主存储器、高速缓存存储器,用于抽出、检索、参照、比较、运算、计算、处理、输出、印刷、显示等的CPU911的动作。在抽出、检索、参照、比较、运算、计算、处理、输出、印刷、显示的CPU911的动作的期间,信息、数据、信号值、变量值、参数被临时存储到主存储器、高速缓存存储器、缓冲存储器中。
另外,上述说明中的流程图的箭头的部分主要表示数据、信号的输入输出,数据、信号值被记录到RAM914的存储器、其他光盘等记录介质、IC芯片中。另外,通过总线912、信号线、电缆、其他传送介质、电波在线传送数据、信号。
另外,在上述说明中说明为「~部」的部分既可以是“~电路”、“~装置”、“~仪器”、“~单元”、“~功能”,并且,也可以是“~步骤”、“~阶段”、“~处理”。另外,说明为“~装置”的部分也可以是“~电路”、“~仪器”、“~单元”、“~功能”,并且,也可以是“~步骤”、“~阶段”、“~处理”。进而,说明为“~处理”的部分也可以是“~步骤”。即,说明为“~部”的部分也可以通过在ROM913中存储的固件来实现。或者,也可以仅通过软件、或者、仅通过元件、设备、基板、布线等硬件、或者、软件和硬件的组合、进而、与固件的组合来实施。将固件和软件作为程序,存储到ROM913等记录介质中。程序由CPU911读出并由CPU911执行。即,程序使计算机等作为在上述中叙述的“~部”发挥功能。或者,使计算机等执行在上述中叙述的“~部”的阶段、方法。

Claims (13)

1.一种语义推测装置,其特征在于,具备:
单词抽出部,抽出输入数据所包含的多个单词;
上下文解析部,针对所述单词抽出部抽出的各单词,抽出在所述输入数据中该单词出现的上下文的特征;
语义候补抽出部,从作为单词的语义存储了一个以上的概念的概念辞典,将针对所述各单词作为语义存储的各概念抽出为该单词的语义候补;以及
语义推测部,执行多次概率计算处理,在所述概率计算处理中,针对所述各单词,根据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义候补的概念的相近度、以及所选择的单词成为所选择的语义的概率,计算将所述语义候补抽出部作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价值,再计算所述概率,所述语义推测部针对所述各单词,将计算出的概率高的概念推测为该单词的语义。
2.根据权利要求1所述的语义推测装置,其特征在于,
所述语义推测部以上下文的特征越接近则使所述评价值越高、且选择出的概念和其他单词的语义越接近则使所述评价值越高、且所述概率越高则使所述评价值越高的方式,计算所述评价值,并且以计算出的评价值越高则使所述概率越高的方式,再计算所述概率。
3.根据权利要求2所述的语义推测装置,其特征在于,
在所述语义推测部中,作为设所选择的单词为x、所选择的概念为s的情况下的评价值,通过式1,计算联合概率p(x,s),
【式1】
p ( x , s ) &equiv; 1 Z &Sigma; i = 1 N &Sigma; j : s j &Element; S w i &pi; j w i exp ( - | | &phi; c ( x ) - &phi; c ( x i ) | | 2 &sigma; c 2 - | | &phi; t ( s ) - &phi; t ( s j ) | | 2 &sigma; t 2 ) ,
此处,
Z是规定的值,
N是所述输入数据所包含的单词数量,
xi是第i个单词,
wi是忽略了出现的上下文的单词xi
Swi是单词wi的语义候补的集合,
sj是集合Swi所包含的概念,
πwi j是单词wi的语义为sj的概率,
φc是表示上下文的特征的矢量,
φt是表示概念的矢量,
σc、σt分别是规定的值。
4.根据权利要求3所述的语义推测装置,其特征在于,
所述语义推测部通过式2,计算单词x成为概念s的概率πw s
【式2】
&pi; s w ( new ) : = &Sigma; x i &Element; X w p ( x i , s ) &Sigma; x i &Element; X w &Sigma; s j &Element; S w p ( x i , s j )
此处,Xw是所述输入数据所包含的单词的集合。
5.根据权利要求4所述的语义推测装置,其特征在于,
所述语义推测部在所述概率计算处理中通过式3计算合计似然度L,直至在第n+1次的所述概率计算处理中计算出的合计似然度L相对在第n次的所述概率计算处理中计算出的合计似然度L的增量变得小于规定的阈值θ为止,重复所述概率计算处理,其中,n是1以上的整数,
【式3】
L = &Sigma; i = 1 N &Sigma; j : s j &Element; S w i log p ( x i , s j ) .
6.根据权利要求5所述的语义推测装置,其特征在于,
所述语义推测部针对所述各单词,将通过式2计算出的所述概率πw s最高的语义候补的所述概率πw s置换为1,将其他语义候补的所述概率πw s置换为0,进行所述合计似然度L的计算、和所述评价值的再计算。
7.根据权利要求1至6中的任意一项所述的语义推测装置,其特征在于,
所述上下文的特征包括选择出的单词的周边的单词、和与包括选择出的单词的字符串关联起来的其他字符串所包含的单词中的至少某一个。
8.根据权利要求1至7中的任意一项所述的语义推测装置,其特征在于,
所述上下文的特征包括选择出的单词的周边的单词的语义、和与包括选择出的单词的字符串关联起来的其他字符串所包含的单词的语义中的至少某一个。
9.根据权利要求1至8中的任意一项所述的语义推测装置,其特征在于,
在所述概念辞典中作为单词的语义存储的概念中设定了通过图表构造表示的层次关系,2个概念之间的相近度是根据该概念之间的链接的数量决定的。
10.根据权利要求1至9中的任意一项所述的语义推测装置,其特征在于,
所述语义候补抽出部在所述单词抽出部抽出的单词未登记于所述概念辞典中的情况下,从所述概念辞典确定与构成该单词的字符串的类似度为规定以上的单词,将针对确定出的单词作为语义存储的各概念抽出为所述单词抽出部抽出的单词的语义候补。
11.根据权利要求1至10中的任意一项所述的语义推测装置,其特征在于,
所述语义推测部在预先被赋予了一部分的单词的语义的情况下,针对该单词,将语义候补中的与被赋予的语义对应的语义候补的所述概率固定为1,将其他语义候补的所述概率固定为0。
12.一种语义推测方法,其特征在于,具备:
单词抽出步骤,处理装置抽出输入数据所包含的多个单词;
上下文解析步骤,处理装置针对在所述单词抽出步骤中抽出的各单词,抽出在所述输入数据中该单词出现的上下文的特征;
语义候补抽出步骤,处理装置从作为单词的语义存储了一个以上的概念的概念辞典,将针对所述各单词作为语义存储的各概念抽出为该单词的语义候补;以及
语义推测步骤,处理装置执行多次概率计算处理,在所述概率计算处理中,针对所述各单词,根据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义候补的概念的相近度、以及所选择的单词成为所选择的语义的概率,计算将在所述语义候补抽出步骤中作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价值,再计算所述概率,在所述语义推测步骤中,针对所述各单词,将计算出的概率高的概念推测为该单词的语义。
13.一种语义推测程序,其特征在于,使计算机执行如下处理:
单词抽出处理,抽出输入数据所包含的多个单词;
上下文解析处理,针对在所述单词抽出处理中抽出的各单词,抽出在所述输入数据中该单词出现的上下文的特征;
语义候补抽出处理,从作为单词的语义存储了一个以上的概念的概念辞典,将针对所述各单词作为语义存储的各概念抽出为该单词的语义候补;以及
语义推测处理,执行多次概率计算处理,在所述概率计算处理中,针对所述各单词,根据所选择的单词和其他单词的上下文的特征的相近度、所选择的概念和其他单词的语义候补的概念的相近度、以及所选择的单词成为所选择的语义的概率,计算将在所述语义候补抽出处理中作为语义候补抽出的各概念作为语义的情况下的评价值,并根据计算出的评价值,再计算所述概率,在所述语义推测处理中,针对所述各单词,将计算出的概率高的概念推测为该单词的语义。
CN201280071188.8A 2012-03-07 2012-03-07 语义推测装置、方法 Expired - Fee Related CN104160392B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/055818 WO2013132614A1 (ja) 2012-03-07 2012-03-07 語義推定装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
CN104160392A true CN104160392A (zh) 2014-11-19
CN104160392B CN104160392B (zh) 2017-03-08

Family

ID=49116130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280071188.8A Expired - Fee Related CN104160392B (zh) 2012-03-07 2012-03-07 语义推测装置、方法

Country Status (5)

Country Link
US (1) US20150006155A1 (zh)
JP (1) JP5734503B2 (zh)
CN (1) CN104160392B (zh)
DE (1) DE112012005998T5 (zh)
WO (1) WO2013132614A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128454A (zh) * 2016-07-08 2016-11-16 成都之达科技有限公司 基于车联网的语音信号匹配方法
CN108520760A (zh) * 2018-03-27 2018-09-11 维沃移动通信有限公司 一种语音信号处理方法及终端
CN108733760A (zh) * 2017-04-25 2018-11-02 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN109661663A (zh) * 2016-09-05 2019-04-19 国立研究开发法人情报通信研究机构 上下文解析装置以及用于其的计算机程序

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6495124B2 (ja) * 2015-07-09 2019-04-03 日本電信電話株式会社 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
US9672207B2 (en) 2015-10-19 2017-06-06 International Business Machines Corporation System, method, and recording medium for determining and discerning items with multiple meanings
US10460229B1 (en) * 2016-03-18 2019-10-29 Google Llc Determining word senses using neural networks
WO2019171537A1 (ja) * 2018-03-08 2019-09-12 日本電気株式会社 意味推定システム、方法およびプログラム
JP6988991B2 (ja) * 2018-03-08 2022-01-05 日本電気株式会社 意味推定システム、方法およびプログラム
US11263407B1 (en) * 2020-09-01 2022-03-01 Rammer Technologies, Inc. Determining topics and action items from conversations
WO2022049668A1 (ja) * 2020-09-02 2022-03-10 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム
US11093718B1 (en) * 2020-12-01 2021-08-17 Rammer Technologies, Inc. Determining conversational structure from speech
CN113076749A (zh) * 2021-04-19 2021-07-06 上海云绅智能科技有限公司 一种文本识别方法和系统
US11494557B1 (en) 2021-05-17 2022-11-08 Verantos, Inc. System and method for term disambiguation
US11302314B1 (en) 2021-11-10 2022-04-12 Rammer Technologies, Inc. Tracking specialized concepts, topics, and activities in conversations
US11599713B1 (en) 2022-07-26 2023-03-07 Rammer Technologies, Inc. Summarizing conversational speech

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163953A (ja) * 2004-12-08 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 単語ベクトル推定方法、単語ベクトル推定装置、プログラムおよび記録媒体
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2009181408A (ja) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 単語意味付与装置、単語意味付与方法、プログラムおよび記録媒体
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
CN101901210A (zh) * 2009-05-25 2010-12-01 日电(中国)有限公司 词义消歧系统和方法
CN102306144A (zh) * 2011-07-18 2012-01-04 南京邮电大学 一种基于语义词典的词语消歧方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
US7024407B2 (en) * 2000-08-24 2006-04-04 Content Analyst Company, Llc Word sense disambiguation
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
CA2536262A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for processing text utilizing a suite of disambiguation techniques
US20070214125A1 (en) * 2006-03-09 2007-09-13 Williams Frank J Method for identifying a meaning of a word capable of identifying a plurality of meanings
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US9317589B2 (en) * 2008-08-07 2016-04-19 International Business Machines Corporation Semantic search by means of word sense disambiguation using a lexicon
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
US8060497B1 (en) * 2009-07-23 2011-11-15 Google Inc. Framework for evaluating web search scoring functions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163953A (ja) * 2004-12-08 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 単語ベクトル推定方法、単語ベクトル推定装置、プログラムおよび記録媒体
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2009181408A (ja) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 単語意味付与装置、単語意味付与方法、プログラムおよび記録媒体
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
CN101901210A (zh) * 2009-05-25 2010-12-01 日电(中国)有限公司 词义消歧系统和方法
CN102306144A (zh) * 2011-07-18 2012-01-04 南京邮电大学 一种基于语义词典的词语消歧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘莉, 谈文蓉: "统计学习方法在语义消歧中的应用研究", 《西南民族大学学报·自然科学版》 *
林海文: "利用上下文语境消除歧义", 《计算机工程与设计》 *
闫蓉,张蕾: "一种新的汉语词义消歧方法", 《计算机技术与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128454A (zh) * 2016-07-08 2016-11-16 成都之达科技有限公司 基于车联网的语音信号匹配方法
CN109661663A (zh) * 2016-09-05 2019-04-19 国立研究开发法人情报通信研究机构 上下文解析装置以及用于其的计算机程序
CN109661663B (zh) * 2016-09-05 2023-09-19 国立研究开发法人情报通信研究机构 上下文解析装置以及计算机可读记录介质
CN108733760A (zh) * 2017-04-25 2018-11-02 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN108733760B (zh) * 2017-04-25 2023-05-12 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN108520760A (zh) * 2018-03-27 2018-09-11 维沃移动通信有限公司 一种语音信号处理方法及终端

Also Published As

Publication number Publication date
DE112012005998T5 (de) 2014-12-04
CN104160392B (zh) 2017-03-08
US20150006155A1 (en) 2015-01-01
JP5734503B2 (ja) 2015-06-17
JPWO2013132614A1 (ja) 2015-07-30
WO2013132614A1 (ja) 2013-09-12

Similar Documents

Publication Publication Date Title
CN104160392A (zh) 语义推测装置、方法以及程序
Dozat et al. Stanford’s graph-based neural dependency parser at the conll 2017 shared task
US20200081899A1 (en) Automated database schema matching
US11061805B2 (en) Code dependency influenced bug localization
US10229195B2 (en) Relation extraction using co-training with distant supervision
US10803108B2 (en) Facilitation of domain and client-specific application program interface recommendations
US8538898B2 (en) Interactive framework for name disambiguation
US9959271B1 (en) Optimized statistical machine translation system with rapid adaptation capability
US10268684B1 (en) Optimized statistical machine translation system with rapid adaptation capability
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN110532352B (zh) 文本查重方法及装置、计算机可读存储介质、电子设备
US10185713B1 (en) Optimized statistical machine translation system with rapid adaptation capability
US20210319054A1 (en) Encoding entity representations for cross-document coreference
US10831772B2 (en) Facilitation of domain and client-specific application program interface recommendations
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
US20180373989A1 (en) Relation extraction using co-training with distant supervision
US10185714B2 (en) Smart terminology marker system for a language translation system
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
Godin et al. Explaining character-aware neural networks for word-level prediction: Do they discover linguistic rules?
Konovalov et al. Learning to extract events from knowledge base revisions
US20170140010A1 (en) Automatically Determining a Recommended Set of Actions from Operational Data
Li et al. Automated extraction of domain knowledge in practice: The case of feature extraction from requirements at danfoss
CN111241273A (zh) 文本数据分类方法、装置、电子设备及计算机可读介质
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN109933788B (zh) 类型确定方法、装置、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170308

Termination date: 20200307