CN108170689A - 对实体进行语义化的信息处理装置和信息处理方法 - Google Patents

对实体进行语义化的信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN108170689A
CN108170689A CN201611114803.5A CN201611114803A CN108170689A CN 108170689 A CN108170689 A CN 108170689A CN 201611114803 A CN201611114803 A CN 201611114803A CN 108170689 A CN108170689 A CN 108170689A
Authority
CN
China
Prior art keywords
entity
weight
semantic
information processing
semanteme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611114803.5A
Other languages
English (en)
Inventor
宋双永
缪庆亮
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201611114803.5A priority Critical patent/CN108170689A/zh
Publication of CN108170689A publication Critical patent/CN108170689A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种用于对实体进行语义化的信息处理装置和信息处理方法,该信息处理装置包括:关联度计算单元,被配置为计算实体与语义之间的关联度;排序单元,被配置为根据关联度计算单元计算的关联度以及基于实体的上下文的排序权重,对语义进行排序;以及更新单元,被配置为根据用户基于排序对与实体对应的语义的选择,对排序单元在排序中使用的排序权重进行更新。

Description

对实体进行语义化的信息处理装置和信息处理方法
技术领域
本申请的实施例涉及信息处理领域,具体地涉及互联网和自然语言处理领域,更具体地涉及一种对实体进行语义化的信息处理装置和信息处理方法以及程序。
背景技术
语义网络是一种使用可以被计算机理解的方式描述事物的网络,其目的是通过对不同实体进行语义化来发现实体之间的关联,从而使整个互联网成为一个通用的信息交换媒介。其中,实体可以包括词语、文章、网页以及图片、视频等各种类型的内容。语义网络虽然是一种更加高效和更加合理的网络,但实现起来却是一项复杂而浩大的工程。目前语义网络的体系结构正在建设中,而语义网络建设中最关键的过程就是实体的语义化。
为了保证该语义化过程的准确性,可以由领域内的专家进行标注,建立实体与语义例如包括语义本体和语义资源之间的关联关系。此外,还可以对实体进行自动化的语义标注,该过程能够节省人力,不需要领域专家对实体进行直接的语义标注,只需要建立一个包含多种计算设定和规则设定的工具之后,即可使用。但是,对实体进行自动标注的过程往往会产生很多的错误,这是因为计算方式和关联判定规则的设定难以很好地覆盖各种可能性。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个方面,提供了一种用于对实体进行语义化的信息处理装置,包括:关联度计算单元,被配置为计算实体与语义之间的关联度;排序单元,被配置为根据关联度计算单元计算的关联度基于基于实体的上下文的排序权重,对语义进行排序;以及更新单元,被配置为根据用户基于排序对与实体对应的语义的选择,对排序单元在排序中使用的排序权重进行更新。
根据本发明的另一个方面,提供了一种用于对实体进行语义化的信息处理方法,包括:计算实体与语义之间的关联度;根据所计算的关联度以及基于实体的上下文的排序权重,对语义进行排序;以及根据用户基于排序对与实体对应的语义的选择,对排序中使用的排序权重进行更新。
根据本发明的另一个方面,还提供了一种信息处理装置,包括:一个或多个处理电路,被配置成:计算实体与语义之间的关联度;根据所计算的关联度以及基于实体的上下文的排序权重,对语义进行排序;以及根据用户基于排序对与实体对应的语义的选择,对排序中使用的排序权重进行更新。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
根据本申请的用于对实体进行语义化的信息处理装置和方法通过对可能与实体对应的语义进行排序并将该排序的结果提供给用户,进而基于用户的反馈来对排序过程中涉及的参数进行调整,能够实现高效且准确的实体语义标注。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:
图1是示出了根据本申请的一个实施例的用于对实体进行语义化的信息处理装置的结构框图;
图2是示出了根据本申请的一个实施例的排序单元的结构框图;
图3a和图3b示出了根据本申请的一个实施例的信息处理装置的一个应用示例的两个界面示例;
图4示出了根据本申请的一个实施例的用于对实体进行语义化的信息处理装置的结构框图;
图5示出了根据本申请的一个实施例的用于对实体进行语义化的信息处理方法的流程图;
图6示出了图5中的步骤S12的子步骤的流程图;以及
图7是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
下文中的描述按如下顺序进行:
1.信息处理装置
2.信息处理方法
3.用以实施本申请的装置和方法的计算设备
[1.信息处理装置]
图1示出了根据本申请的实施例的用于对实体进行语义化的信息处理装置100的结构框图,信息处理装置100包括:关联度计算单元101,被配置为计算实体与语义之间的关联度;排序单元102,被配置为根据关联度计算单元101计算的关联度以及基于实体的上下文的排序权重,对语义进行排序;以及更新单元103,被配置为根据用户基于排序对与实体对应的语义的选择,对排序单元102在排序中使用的排序权重进行更新。
其中,关联度计算单元101、排序单元102和更新单元103例如可以由一个或多个处理电路实现,该处理电路例如可以实现为芯片。
如前所述,实体可以为词语、文章、网页、图片、视频等各种类型的内容。对实体进行语义化即为对实体的语义进行标注,从而使得计算机能够理解该实体。该标注可以通过将实体与预定数据库中的语义进行关联来进行,预定数据库可以为已经建立的各种知识库,比如DBpedia的知识库、Schema知识库、OM知识库等。在下文中,为了方便,将以词语作为实体的示例并且使用DBpedia知识库为例进行描述,但是应该理解这仅是示例性的,本申请并不限于此。
本实施例的信息处理装置100可以针对实体获得预定数据库中可能与其对应的候选语义,并且由用户来从候选语义中进行手动选择,从而建立关联关系,实现该实体的语义化。此外,信息处理装置100还通过根据用户的手动选择的结果来对候选语义的排序中涉及的权重参数进行调整,以使得排序的结果更加准确,从而进一步提高效率。下面将参照附图来详细描述信息处理装置100的各个单元的结构和功能。
首先,关联度计算单元101计算实体与语义之间的关联度。该关联度也可以称为相似度,用于评估实体与相应的语义具有对应关系的可能性。应该理解,可以采用各种适当的方式来进行该关联度的计算。
在一个示例中,关联度计算单元101被配置为根据如下中的至少之一来计算实体与语义之间的关联度:实体与语义的表义部分的编辑距离、实体与语义之间的主题向量相似度、实体与语义之间的词嵌入向量相似度。
例如,实体与语义的表义部分的编辑距离可以具体如下计算。如前所述,在该示例中采用的预定数据库为DBpedia的知识库。DBpedia的知识库包括两个部分,ontology库(http://dbpedia.org/ontology/)和resource库(http://dbpedia.org/resource/),其中,ontology库主要定义一些属性类、抽象类的本体,下文中称为语义本体或本体,比如<http://dbpedia.org/ontology/Hospital>,<http://dbpedia.org/ontology/School>,而resource主要定义一些比较具体的资源,下文中称为语义资源或资源,比如<http://dbpedia.org/resource/McLean_Hospital>和<http://dbpedia.org/resource/Beijing_Jiaotong_University>。因此,语义包括两种类型,即本体类和资源类。语义(包括本体和/或资源)的表义部分包括在每个本体或资源的URL中,指的是将类似于“http://dbpedia.org/ontology/Hospital”中代表数据来源的链接部分“http://dbpedia.org/ontology/”去掉之后剩余的“Hospital”。
在计算编辑距离之前,可以将实体和语义统一成同样的格式,例如将下划线统一变成空格,字母全部换成小写等等。随后可以计算编辑距离,该编辑距离又称为Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。所许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符、以及删除一个字符。例如,“friend”与“friends”之间,只差一步“插入字符”的操作,因此二者的编辑距离为1。在此,可以将实体a和语义b之间的编辑距离记为Ed(a,b)。可以理解,该编辑距离越小,两个字串的相似度越大。
此外,在计算得到实体与语义的编辑距离之后,还可以对编辑距离的数值进行归一化,可以按如下式(1)计算:
其中,y为编辑距离的值,例如上述Ed(a,b)。y为大于等于0的整数,而σ(y)则为归一化之后的0~1之间的实数,当y=0的时候,σ(y)的值为1,说明编辑距离为0,而此时的相似度最大;而y越增大则σ(y)越小,说明编辑距离越大,则相似度就会相应减小。
此外,关联度计算单元101还可以通过发现实体和语义的主题向量并且计算它们的主题向量之间的相似度来计算关联度。
例如,首先利用大规模语料训练主题模型,得到实体和语义的主题向量。在该过程中,实体以及语义对应的字符串,仍然保留着字符串的形式,而不是分割成词语级别。主题模型及其训练可以采用本领域内已有的常用模型和训练方法,且与本申请的主旨并不直接相关,在此不再赘述。
接下来,可以按如下式(2)来计算实体与语义对应的主题向量的余弦相似度:
其中,vta是指实体对应的主题向量,vtb是指语义对应的主题向量。Tsim(vta,vtb)是指实体与语义之间的主题向量相似度,其值为0~1之间的实数。
另外,关联度计算单元101还可以通过发现实体和语义的词嵌入向量,并计算它们的词嵌入向量之间的相似度,来判定它们之间的关联度。
首先利用大规模语料训练词嵌入模型,得到实体和语义的词嵌入向量。在该过程中,实体以及语义对应的字符串,仍然保留着字符串的形式,而不是分割成词语级别。词嵌入模型可以采用本领域内常用的模型,且与本申请的主旨并不直接相关,在此不再赘述。
之后,可以按下式(3)计算实体与语义对应的词嵌入向量的余弦相似度:
其中,vea是指实体对应的词嵌入向量,veb是指语义对应的词嵌入向量。Esim(vea,veb)是指实体与语义之间的词嵌入向量相似度,其值为0~1之间的实数。
在一个示例中,关联度计算单元101综合考虑以上三种计算方式的结果,取三种结果的几何平均数作为最终的实体与语义之间关联度的值,如下式(4)所示。
可以理解,关联度计算单元101也可以仅使用三种计算方式中的一种计算方式的结果或使用其中两种计算方式的结果的平均作为最终关联度的值,这并不是限制性的。此外,平均也不限于式(4)所示的几何平均,而是可以采用其他形式。
在如上所述计算出了实体与语义的关联度之后,可以初步判断可能与实体相对应的语义。为了使得这种判断更准确,排序单元102根据所计算出的关联度,基于实体的上下文对语义进行排序。即,排序单元102还将实体的上下文所包含的与关联度有关的信息考虑在内,例如,这种信息可以表现为基于实体的上下文的排序权重的形式,可以使用该排序权重对关联度计算单元101计算的关联度进行加权。
在一个示例中,排序单元102根据所计算出的关联度,基于实体所属的成分以及实体的周边实体对语义进行排序,其中周边实体为实体周边的其他实体中的至少一个。可以看出,在该示例中,实体的上下文包含两个方面,一是实体属于语料比如语义三元组中的哪个部分,二是实体的周边实体。
图2示出了排序单元102的一个示例的结构框图。在该示例中,排序单元102包括:权重分配子单元1021,被配置为基于实体所属的成分和/或周边实体,为关联度超过预定阈值的每个候选语义分配权重;排序子单元1022,被配置为根据权重分配子单元1021分配的权重,对候选语义进行排序。
可以看出,在该示例中,将关联度超过预定阈值的语义例如本体或资源作为候选语义,权重分配子单元1021仅为候选语义分配权重。当然,也可以将计算了关联度的所有语义均作为候选语义,并为其分配权重。
其中,权重的分配可以包括两个方面,其一为根据实体所属的成分所分配的权重,其二为根据周边实体所分配的权重,为了便于在名称上进行区分,下文中还将前者称为第一权重,将后者称为第二权重。这里所述的权重例如用于对关联度计算单元101计算的关联度进行加权,并且在加权时这两方面的权重、即第一权重和第二权重可以具有相乘的关系。
在第一个方面中,权重分配子单元1021可以被配置为如下设置第一权重:在实体为谓语的情况下,增加候选语义中的语义本体的第一权重,在实体为主语或宾语的情况下,增加候选语义中的语义资源的第一权重。这是因为,类似于属性(谓语)的实体可能更多地与本体相关;而类似于属性值(主语或宾语)的实体可能更多地与资源相关。应该注意,这里所述的主语、谓语和宾语具有语义网络领域中的特定含义,比如针对语义三元组定义,其不同于通常的语法中的含义。增加第一权重例如为将第一权重系数设置为大于1的实数,或者采用其他增加第一权重的方式。
例如,考虑到实体与语义的不同类型的组合,可以存在四种第一权重系数:δao,将属性实体与本体关联时的权重系数;δar,将属性实体与资源关联时的权重系数;δvo,将属性值实体与本体关联时的权重系数;以及δvr,将属性值实体与资源关联时的权重系数。在这种情况下,权重分配子单元1021在实体为谓语(即属性实体)的情况下,增加候选本体的δao;在实体为主语或宾语(即属性值实体)的情况下,增加候选资源的δvr
应该理解,权重分配子单元1021的该操作可以是基于经验进行的,即所设置的权重系数的值为经验值,并且,该操作可以仅在语义化的初始运行中执行,此后权重可以由更新单元103进行更新,有关更新的操作在下文中将进行详细描述。
在第二个方面中,权重分配子单元1021可以将包含周边实体的语义的第二权重设置为大于不包含周边实体的语义的第二权重。这是因为,实体与周边实体共同出现在一个长句中,而语义中同样包含该周边实体,则可以判断该语义与实体对应的概率较高。类似地,该第二权重的设置也可以通过设置第二权重系数来进行,或者通过其他增加第二权重的方式来进行。
例如,针对句子“Machine Learning Books Suggested by Michael Jordan fromBerkeley”中的实体“Michael Jordan”,通过关联度计算单元101的计算,得到最相似的五个本体或者资源(即,候选语义)如下:
<http://dbpedia.org/resource/Michael_Jordan>;
<http://dbpedia.org/resource/Michael_I._Jordan>;
<http://dbpedia.org/resource/Michael_Jordan_(footballer)>;
<http://dbpedia.org/resource/Michael_J._Jordan>;
<http://dbpedia.org/resource/Michael_Jeffery_Jordan>,
此时,由于句子中包含“Machine Learning”这个关键词,而该关键词与MichaelI.Jordan在语义<http://dbpedia.org/resource/Michael_I._Jordan>中表现出了很强的共现关系,因此,要给予资源<http://dbpedia.org/resource/Michael_I._Jordan>更高的第二权重。例如,可以采用下式(5)所示的第二权重系数设定方式:
其中,δ是第二权重系数,f为实体的表义部分,nek为包含在输入句子中的除简称以外的其他命名实体、即周边实体,并且句子中共包含了K个这样的命名实体。R(f,nek)表示f与nek之间的关联关系,可以如下式(6)所示进行计算:
其中,N(f)为f在大规模语料库中出现的次数,N(nek)为nek在大规模语料库中出现的次数,N(f,nek)则表示f和nek同时出现在同一长句中的次数。这里提到的“长句”通常是指由句号、问号和感叹号等符号分割得到的句子。
可以通过采用式(5)计算得到的第二权重系数和在第一方面中设置的第一权重系数,对上述最相似的五个本体或者资源进行排序,例如,最终可以获得如下的排序结果:
<http://dbpedia.org/resource/Michael_I._Jordan>;
<http://dbpedia.org/resource/Michael_Jordan>;
<http://dbpedia.org/resource/Michael_Jordan_(footballer)>;
<http://dbpedia.org/resource/Michael_J._Jordan>;
<http://dbpedia.org/resource/Michael_Jeffery_Jordan>
将该排序结果呈现给用户比如专家,从而用户可以从中选择最合适的一项或者多项来进行关联。可以看出,这能够帮助用户缩小语义的查询范围,极大地减轻了用户的工作量,提高了标注效率和准确度。
应该理解,除了上述两方面的因素之外,在特定的数据背景下还可以考虑其他因素的影响,例如设置其他相应的权重,等等。
此外,还可以通过更新单元103在排序过程中引入用户标注的反馈信息,以进一步提高排序的准确度,进而提高标注的效率和准确度。例如,更新单元103可以基于用户从排序后的候选语义中选择的与实体对应的语义,对候选语义的权重进行更新。这里,候选语义的权重包括上文中所述的第一权重和第二权重的至少一个。
例如,更新单元103可以被配置为基于用户做出的选择的统计信息,来更新候选语义的权重。具体地,更新单元103可以基于用户为实体选择语义本体的次数和为实体选择语义资源的次数的比值来更新第一权重。
如前所述,第一权重可以由δao和δvr表示,可以按下式(7)来更新δao和δvr,而保持δar和δvo为1。
其中,Nao是指用户为属性实体最终选择语义本体进行标注的次数,Nar是指用户为属性实体最终选择语义资源进行标注的次数,Nvr是指用户为属性值实体最终选择语义资源进行标注的次数,Nvo是指用户为属性值实体最终选择语义本体进行标注的次数。换言之,更新单元103被配置为用上述比值来代替权重分配子单元1021基于实体所属的成分而为候选语义分配的权重。
通过如上所述来更新第一权重,可以使得排序单元102的排序更加准确。当然,也可以类似地更新δar和δvo。此外,更新单元103还可以根据用户的选择结果来更新上文所述的第二权重,这均不是限制性的。
图3a和图3b示出了信息处理装置100的一个应用示例的两个界面示例。其中,分别指定长句中的实体“engineer”和“machine learning”,该应用返回排序单元102计算得到的最相关的几个本体/资源查询结果,如图3a和3b中所示。用户可以从中选择最合适的一项或者多项将其与所指定的实体关联。
相应地,如图4所示,信息处理装置100还可以包括:输出单元104,被配置为向用户输出进行了排序的语义的至少一部分;以及输入单元105,被配置为输入用户对与实体对应的语义的选择。输出单元104和输入单元105例如可以通过各种用户接口实现。
综上所述,根据本实施例的信息处理装置100能够为用户提供准确且高效的语义排序结果,并且能够基于用户的反馈来调整排序中涉及的权重参数,从而进一步提高标注的效率和准确度。
[2.信息处理方法]
在上文的实施方式中描述信息处理装置的过程中,显然还公开了一些处理或方法。下文中,在不重复上文中已经讨论的一些细节的情况下给出这些方法的概要,但是应当注意,虽然这些方法在描述用于信息处理装置的过程中公开,但是这些方法不一定采用所描述的那些部件或不一定由那些部件执行。例如,信息处理装置的实施方式可以部分地或完全地使用硬件和/或固件来实现,而下面讨论的方法可以完全由计算机可执行的程序来实现,尽管这些方法也可以采用信息处理装置的硬件和/或固件。
图5示出了根据本申请的一个实施例的用于对实体进行语义化的信息处理方法的流程图,该方法包括如下步骤:计算实体与语义之间的关联度(S11);根据所计算的关联度基于基于实体的上下文的排序权重,对语义进行排序(S12);以及根据用户基于排序对与实体对应的语义的选择,对排序中使用的排序权重进行更新(S13)。
例如,在步骤S11中,可以根据如下中的至少之一来计算实体与语义之间的关联度:实体与语义的表义部分的编辑距离、实体与语义之间的主题向量相似度、实体与语义之间的词嵌入向量相似度。
在一个示例中,实体可以为词语,在步骤S12中根据S11中计算的关联度,基于实体所属的成分以及实体的周边实体对语义进行排序,其中,周边实体为实体周边的其他实体中的至少之一。
具体地,如图6所示,步骤S12可以包括如下子步骤:基于实体所属的成分和/或周边实体,为关联度超过预定阈值的每个候选语义分配权重(S121);以及根据在步骤S121中分配的权重,对所述候选语义进行排序(S122)。
在步骤S121中,可以基于实体所属的成分为候选语义分配权重,以使得:在实体为谓语的情况下,增加候选语义中的语义本体的权重,在实体为主语或宾语的情况下,增加候选语义中的语义资源的权重。
可替选地或者附加地,在步骤S121中还可以将包含周边实体的语义的权重设置为大于不包含周边实体的语义的权重。
此外,在步骤S13中,可以基于用户从排序后的候选语义中选择的与实体对应的语义,对候选语义的权重进行更新。例如,可以基于用户所做的选择的统计信息,来对候选语义的权重进行更新。具体地,可以基于用户为实体选择语义本体的次数和为实体选择语义资源的次数的比值来更新所述权重。例如,可以用该比值来代替基于实体所属的成分而为候选语义分配的权重。
以上实施例中的相关细节已经在对信息处理装置的描述中详细给出,在此不再赘述。
[3.用以实施本申请的装置和方法的计算设备]
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可移除介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质711。可移除介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是被配置为说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于此。
附记1.一种用于对实体进行语义化的信息处理装置,包括:
关联度计算单元,被配置为计算实体与语义之间的关联度;
排序单元,被配置为根据所述关联度计算单元计算的所述关联度以及基于所述实体的上下文的排序权重,对所述语义进行排序;以及
更新单元,被配置为根据用户基于所述排序对与所述实体对应的语义的选择,对所述排序单元在排序中使用的所述排序权重进行更新。
附记2.根据附记1所述的信息处理装置,其中,所述关联度计算单元被配置为根据如下中的至少之一来计算所述实体与所述语义之间的关联度:所述实体与所述语义的表义部分的编辑距离、所述实体与所述语义之间的主题向量相似度、所述实体与所述语义之间的词嵌入向量相似度。
附记3.根据附记1或2所述的信息处理装置,其中,所述实体为词语,所述排序单元被配置为根据所述关联度计算单元计算的所述关联度,基于所述实体所属的成分以及所述实体的周边实体对所述语义进行排序,所述周边实体为所述实体周边的其他实体中的至少之一。
附记4.根据附记3所述的信息处理装置,其中,所述排序单元包括:
权重分配子单元,被配置为基于所述实体所属的成分和/或所述周边实体,为所述关联度超过预定阈值的每个候选语义分配权重;
排序子单元,被配置为根据所述权重分配子单元分配的权重,对所述候选语义进行排序。
附记5.根据附记4所述的信息处理装置,其中,所述权重分配子单元被配置为基于所述实体所属的成分为所述候选语义分配权重,以使得:在所述实体为谓语的情况下,增加所述候选语义中的语义本体的权重,在所述实体为主语或宾语的情况下,增加所述候选语义中的语义资源的权重。
附记6.根据附记4或5所述的信息处理装置,其中,所述权重分配子单元被配置为将包含所述周边实体的语义的权重设置为大于不包含所述周边实体的语义的权重。
附记7.根据附记4至6中的任意一项所述的信息处理装置,其中,所述更新单元被配置为基于所述用户从排序后的候选语义中选择的与所述实体对应的语义,对所述候选语义的权重进行更新。
附记8.根据附记7所述的信息处理装置,其中,所述更新单元被配置为基于所述用户所做的选择的统计信息来更新所述候选语义的权重。
附记9.根据附记7或8所述的信息处理装置,其中,所述更新单元被配置为基于所述用户为所述实体选择语义本体的次数和为所述实体选择语义资源的次数的比值来更新所述候选语义的权重。
附记10.根据附记9所述的信息处理装置,其中,所述更新单元被配置为用所述比值来代替所述权重分配子单元基于所述实体所属的成分而为所述候选语义分配的权重。
附记11.一种用于对实体进行语义化的信息处理方法,包括:
计算实体与语义之间的关联度;
根据所计算的所述关联度以及基于所述实体的上下文的排序权重,对所述语义进行排序;以及
根据用户基于所述排序对与所述实体对应的语义的选择,对排序中使用的所述排序权重进行更新。
附记12.根据附记11所述的信息处理方法,其中,根据如下中的至少之一来计算所述实体与所述语义之间的关联度:所述实体与所述语义的表义部分的编辑距离、所述实体与所述语义之间的主题向量相似度、所述实体与所述语义之间的词嵌入向量相似度。
附记13.根据附记11或12所述的信息处理方法,其中,所述实体为词语,根据所计算的所述关联度,基于所述实体所属的成分以及所述实体的周边实体对所述语义进行排序,所述周边实体为所述实体周边的其他实体中的至少之一。
附记14.根据附记13所述的信息处理方法,其中,所述排序的步骤包括:
基于所述实体所属的成分和/或所述周边实体,为所述关联度超过预定阈值的每个候选语义分配权重;
根据所分配的权重,对所述候选语义进行排序。
附记15.根据附记14所述的信息处理方法,其中,基于所述实体所属的成分为所述候选语义分配权重,以使得:在所述实体为谓语的情况下,增加所述候选语义中的语义本体的权重,在所述实体为主语或宾语的情况下,增加所述候选语义中的语义资源的权重。
附记16.根据附记14或15所述的信息处理方法,其中,将包含所述周边实体的语义的权重设置为大于不包含所述周边实体的语义的权重。
附记17.根据附记14至16中的任意一项所述的信息处理方法,其中,基于所述用户从排序后的候选语义中选择的与所述实体对应的语义,对所述候选语义的权重进行更新。
附记18.根据附记17所述的信息处理方法,其中,基于所述用户所做的选择的统计信息来更新所述候选语义的权重。
附记19.根据附记17或18所述的信息处理方法,其中,基于所述用户为所述实体选择语义本体的次数和为所述实体选择语义资源的次数的比值来更新所述候选语义的权重。
附记20.根据附记19所述的信息处理装置,其中,用所述比值来代替基于所述实体所属的成分而为所述候选语义分配的权重。

Claims (10)

1.一种用于对实体进行语义化的信息处理装置,包括:
关联度计算单元,被配置为计算实体与语义之间的关联度;
排序单元,被配置为根据所述关联度计算单元计算的所述关联度以及基于所述实体的上下文的排序权重,对所述语义进行排序;以及
更新单元,被配置为根据用户基于所述排序对与所述实体对应的语义的选择,对所述排序单元在排序中使用的所述排序权重进行更新。
2.根据权利要求1所述的信息处理装置,其中,所述关联度计算单元被配置为根据如下中的至少之一来计算所述实体与所述语义之间的关联度:所述实体与所述语义的表义部分的编辑距离、所述实体与所述语义之间的主题向量相似度、所述实体与所述语义之间的词嵌入向量相似度。
3.根据权利要求1或2所述的信息处理装置,其中,所述实体为词语,所述排序单元被配置为根据所述关联度计算单元计算的所述关联度,基于所述实体所属的成分以及所述实体的周边实体对所述语义进行排序,所述周边实体为所述实体周边的其他实体中的至少之一。
4.根据权利要求3所述的信息处理装置,其中,所述排序单元包括:
权重分配子单元,被配置为基于所述实体所属的成分和/或所述周边实体,为所述关联度超过预定阈值的每个候选语义分配权重;
排序子单元,被配置为根据所述权重分配子单元分配的权重,对所述候选语义进行排序。
5.根据权利要求4所述的信息处理装置,其中,所述权重分配子单元被配置为基于所述实体所属的成分为所述候选语义分配权重,以使得:在所述实体为谓语的情况下,增加所述候选语义中的语义本体的权重,在所述实体为主语或宾语的情况下,增加所述候选语义中的语义资源的权重。
6.根据权利要求4所述的信息处理装置,其中,所述权重分配子单元被配置为将包含所述周边实体的语义的权重设置为大于不包含所述周边实体的语义的权重。
7.根据权利要求4所述的信息处理装置,其中,所述更新单元被配置为基于所述用户从排序后的候选语义中选择的与所述实体对应的语义,对所述候选语义的权重进行更新。
8.根据权利要求7所述的信息处理装置,其中,所述更新单元被配置为基于所述用户所做的选择的统计信息来更新所述候选语义的权重。
9.根据权利要求7所述的信息处理装置,其中,所述更新单元被配置为基于所述用户为所述实体选择语义本体的次数和为所述实体选择语义资源的次数的比值来更新所述候选语义的权重。
10.一种用于对实体进行语义化的信息处理方法,包括:
计算实体与语义之间的关联度;
根据所计算的所述关联度以及基于所述实体的上下文的排序权重,对所述语义进行排序;以及
根据用户基于所述排序对与所述实体对应的语义的选择,对排序中使用的所述排序权重进行更新。
CN201611114803.5A 2016-12-07 2016-12-07 对实体进行语义化的信息处理装置和信息处理方法 Pending CN108170689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611114803.5A CN108170689A (zh) 2016-12-07 2016-12-07 对实体进行语义化的信息处理装置和信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611114803.5A CN108170689A (zh) 2016-12-07 2016-12-07 对实体进行语义化的信息处理装置和信息处理方法

Publications (1)

Publication Number Publication Date
CN108170689A true CN108170689A (zh) 2018-06-15

Family

ID=62526534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611114803.5A Pending CN108170689A (zh) 2016-12-07 2016-12-07 对实体进行语义化的信息处理装置和信息处理方法

Country Status (1)

Country Link
CN (1) CN108170689A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186766A (ja) * 2012-03-09 2013-09-19 Fujitsu Ltd 情報検索方法、プログラムおよび情報検索装置
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN105260488A (zh) * 2015-11-30 2016-01-20 哈尔滨工业大学 一种用于语义理解的文本序列迭代方法
US20160148096A1 (en) * 2014-11-21 2016-05-26 International Business Machines Corporation Extraction of semantic relations using distributional relation detection
CN105989066A (zh) * 2015-02-09 2016-10-05 阿里巴巴集团控股有限公司 一种信息处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186766A (ja) * 2012-03-09 2013-09-19 Fujitsu Ltd 情報検索方法、プログラムおよび情報検索装置
US20160148096A1 (en) * 2014-11-21 2016-05-26 International Business Machines Corporation Extraction of semantic relations using distributional relation detection
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN105989066A (zh) * 2015-02-09 2016-10-05 阿里巴巴集团控股有限公司 一种信息处理方法和装置
CN105260488A (zh) * 2015-11-30 2016-01-20 哈尔滨工业大学 一种用于语义理解的文本序列迭代方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BENJAMIN GROSSMANN ET AL: "Improving Semantic Search through Entity-Based Document Ranking", 《WIMS "15: PROCEEDINGS OF THE 5TH INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE》 *
LIQUAN HAN ET AL: "Entity-Relationship semantic meta-model based on ontology", 《2010 INTERNATIONAL CONFERENCE ON COMPUTER APPLICATION AND SYSTEM MODELING (ICCASM 2010)》 *
李昊迪: "语义相似度的混合计算方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马武彬 等: "面向物联网的语义空间资源索引构建及其查询优化算法", 《系统工程与电子技术》 *

Similar Documents

Publication Publication Date Title
CN111125331B (zh) 语义识别方法、装置、电子设备及计算机可读存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN106407211B (zh) 对实体词的语义关系进行分类的方法和装置
CN103678418B (zh) 信息处理方法和信息处理设备
US8918348B2 (en) Web-scale entity relationship extraction
US7028250B2 (en) System and method for automatically classifying text
CN109726298B (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN103678316B (zh) 实体关系分类装置和实体关系分类方法
CN107704102A (zh) 一种文本输入方法及装置
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN110008309A (zh) 一种短语挖掘方法及装置
CN110119473A (zh) 一种目标文件知识图谱的构建方法及装置
US8583669B2 (en) Query suggestion for efficient legal E-discovery
Chatterjee et al. Single document extractive text summarization using genetic algorithms
CN109918499A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN107967285A (zh) 数据处理方法和数据处理装置
CN108182182A (zh) 翻译数据库中文档匹配方法、装置及计算机可读存储介质
WO2021135290A1 (zh) 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
Siklósi Using embedding models for lexical categorization in morphologically rich languages
CN103514168B (zh) 数据处理方法和设备
CN110442735A (zh) 一种成语近义词推荐方法及装置
CN110309513A (zh) 一种文本依存分析的方法和装置
CN105095385B (zh) 一种检索结果的输出方法及装置
CN101393549A (zh) 修改表格元素的显示属性的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180615

WD01 Invention patent application deemed withdrawn after publication