CN103678418B - 信息处理方法和信息处理设备 - Google Patents

信息处理方法和信息处理设备 Download PDF

Info

Publication number
CN103678418B
CN103678418B CN201210362152.7A CN201210362152A CN103678418B CN 103678418 B CN103678418 B CN 103678418B CN 201210362152 A CN201210362152 A CN 201210362152A CN 103678418 B CN103678418 B CN 103678418B
Authority
CN
China
Prior art keywords
semantic
text
concept
key words
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210362152.7A
Other languages
English (en)
Other versions
CN103678418A (zh
Inventor
缪庆亮
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210362152.7A priority Critical patent/CN103678418B/zh
Publication of CN103678418A publication Critical patent/CN103678418A/zh
Application granted granted Critical
Publication of CN103678418B publication Critical patent/CN103678418B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了信息处理方法和信息处理设备,该方法包括:候选语义关键词提取步骤,用于对输入文本进行分词以从文本提取候选语义关键词;权重计算步骤,用于计算提取的候选语义关键词的权重;语义关键词选择步骤,用于基于算出的权重,根据预定规则从提取的候选语义关键词中选择语义关键词;链接关系确定步骤,用于确定选择的语义关键词与预定语义知识库中的概念间的链接关系;及文本语义图构建步骤,用于基于确定的链接关系、语义知识库中的概念间的语义关系及根据预定推理规则确定的语义关键词与语义知识库中其他概念间的关系,构建表示文本中的语义关键词与语义知识库中的概念间的关系的文本语义图。根据本发明,能够高效地进行信息集成、检索和共享。

Description

信息处理方法和信息处理设备
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种信息处理方法和信息处理设备,其能够从海量的非结构化文本信息中提取表示文本的语义信息的关键词,并且将语义关键词链接到语义知识库中,从而更高效地进行信息集成、共享和检索,同时支持多种应用,诸如文本分类、聚类、主题提取以及机器翻译等等。
背景技术
随着信息技术的发展,文本信息的种类和数量(诸如新闻、博客、微博、专利文献和科技论文等等)得到了快速增长。如何对海量的非结构化文本信息加以利用,以更高效地进行信息集成、检索和共享等一系列应用,已对本领域技术人员提出了新的挑战。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
因此,鉴于上述情形,本发明的目的是提供一种信息处理方法和信息处理设备,其能够从文本信息中提取语义关键词,根据语义相似度将语义关键词链接到预设的语义知识库中,并结合语义知识库中概念间的语义关系和推理规则来产生语义关键词与其它概念间的新链接,从而构建文本的语义图。根据本发明的信息处理方法和设备可以用于多种应用,例如,通过计算两个文本的语义图之间的语义相似度来计算这两个文本之间的语义相似度,从而可以对文本进行分类和聚类处理;以及通过将文本链接到跨语言的语义知识库中,可以将原语言文本转换为由目标语言表示的语义图,进而辅助目标语言的用户对该文本的理解,这可以应用于机器翻译等领域。
为了实现上述目的,根据本发明的一方面,提供了一种信息处理方法,该方法包括:候选语义关键词提取步骤,用于对输入的文本进行分词,以从文本提取候选语义关键词;权重计算步骤,用于计算所提取的候选语义关键词的权重;语义关键词选择步骤,用于基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词;链接关系确定步骤,用于确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及文本语义图构建步骤,用于基于所确定的链接关系、语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与语义知识库中其他概念之间的关系,构建表示文本中的语义关键词与语义知识库中的概念之间的关系的文本语义图。
根据本发明的实施例,在权重计算步骤中,基于下述因素中的一个或多个来计算候选语义关键词的权重:词频-反文档频率(TF-IDF)、词频-比例文档频率(TF-PDF)、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在语义知识库中。
根据本发明的另一实施例,在语义关键词选择步骤中,将候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为语义关键词。
根据本发明的另一实施例,如果文本不包含语义知识库中的概念,则特定数量为零;如果文本仅包含语义知识库中的一个概念,则特定数量为1;以及如果文本中包含语义知识库中的概念的数量大于1,则基于文本的长度和预定均值来确定特定数量,其中该预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。
根据本发明的另一实施例,在链接关系确定步骤中,利用所选择的语义关键词在语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与语义关键词链接的概念;否则,基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
根据本发明的另一方面,还提供了一种信息处理设备,该设备包括:候选语义关键词提取单元,被配置成对输入的文本进行分词,以从文本提取候选语义关键词;权重计算单元,被配置成计算所提取的候选语义关键词的权重;语义关键词选择单元,被配置成基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词;链接关系确定单元,被配置成确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及文本语义图构建单元,被配置成基于所确定的链接关系、语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与语义知识库中其他概念之间的关系,构建表示文本中的语义关键词与语义知识库中的概念之间的关系的文本语义图。
另外,根据本发明的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在数据处理设备上执行程序代码时,该程序代码使得数据处理设备执行根据本发明的信息处理方法。
此外,根据本发明的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在数据处理设备上执行指令时,该指令使得数据处理设备执行根据本发明的信息处理方法。
因此,根据本发明的实施例,能够高效、准确地对非结构化文本信息进行处理,不仅将表示该文本信息的语义关键词链接到语义知识库中的相同实体,而且还利用语义知识库中的概念之间的语义链接关系以及推理规则来确定语义关键词与知识库中其他概念之间的链接关系,从而获得关于语义关键词的更多语义信息。
在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
附图说明
本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。其中:
图1是示出根据本发明的实施例的信息处理方法的示例的流程图;
图2示出通过根据本发明的实施例的信息处理方法构建的文本语义图的示例的示意图;
图3是示出通过根据本发明的实施例的信息处理方法构建的文本语义图的另一示例的示意图;
图4是示出根据本发明的实施例的信息处理设备的功能配置的结构框图;以及
图5是示出作为本发明的实施例中所采用的信息处理装置的个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
以下将参照图1至图5来详细描述根据本发明的实施例的信息处理方法和信息处理设备。
首先,将参照图1来描述根据本发明的实施例的信息处理方法。如图1所示,该信息处理方法可以包括候选语义关键词提取步骤S101、权重计算步骤S102、语义关键词选择步骤S103、链接关系确定步骤S104以及文本语义图构建步骤S105。
具体地,在候选语义关键词提取步骤S101中,对输入的文本进行分词,以从该文本提取候选语义关键词。优选地,输入的文本的类型可以包括但不限于新闻文本、博客、微博、专利文献以及科技论文等等。
优选地,在候选语义关键词提取步骤S101中,如果所输入的文本中的特定词与语义知识库中的概念最长匹配,则提取该词作为候选语义关键词。具体地,利用最长匹配策略,将知识库中的概念作为一个分词单元,如果文本中的某个词与知识库中的概念最长匹配,则将该词作为一个独立的词,然后去掉停止词,将剩余的词作为候选语义关键词。例如,对于输入文本中的一段信息“中华人民共和国成立于1949年10月1日”,其中的词“中华人民共和国”与语义知识库中的概念“中华人民共和国”实现了最长匹配,则提取词“中华人民共和国”作为该文本的候选语义关键词。优选地,该语义知识库可以是公知的知识库如DBPedia等,或者也可以是用户预设的语义知识库。
在权重计算步骤S102中,计算在步骤S101中所提取的候选语义关键词的权重。
优选地,在权重计算步骤S102中,基于下述因素中的一个或多个来计算各个候选语义关键词的权重:词频-反文档频率(TF-IDF)、词频-比例文档频率(TF-PDF)、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在语义知识库中。
在上述权重计算步骤S102中,由于同时考虑到该候选语义关键词的统计信息和语义知识库的信息,从而使得计算结果更加准确。优选地,可以通过将关于语义关键词的统计信息和关于知识库的信息进行线性加权来得到总权重,该计算过程可以以下述公式(1)来表示:
Score(word)=α*statistics(word)+(1-α)φ (1)
其中,Score(word)表示候选语义关键词word的权重,statistics(word)表示基于以下因素中的至少一个而统计的候选语义关键词word的信息重要度:词频-反文档频率(TF-IDF);词频-比例文档频率(TF-PDF);信息增益;以及候选语义关键词word在预定的语料库中被选作关键词的概率,φ为二值函数,当候选语义关键词word出现在语义知识库中时,φ为1,否则为0,并且α为基于输入文本的类型而预先确定的加权系数,其为经验值或者通过有限次的实验来确定。加权系数α表示统计信息重要度在总权重中所占的比例,通过根据不同的文本类型调整α,可以调整统计信息重要度和知识库权重的比例。
在上述权重计算步骤中,词的TF-IDF、TF-PDF以及信息增益的计算均为本领域公知的技术,在此不再赘述。预定的语料库可以是包括用户预先标注好的文本的集合或者公知的语料库(如维基百科等)。
接下来,在语义关键词选择步骤S103中,可以基于在步骤S102中算出的权重,根据预定规则从在步骤S101中提取的候选语义关键词中选择语义关键词。
优选地,在语义关键词选择步骤S103中,可以将所提取的候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为语义关键词。该特定数量可以以下述方式来确定:如果文本不包含语义知识库中的概念,则特定数量为0;如果文本仅包含语义知识库中的一个概念,则特定数量为1;以及如果文本中包含语义知识库中的概念的数量大于1,则基于该文本的长度和预定均值来确定该特定数量,该预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。该预定的语料库可以为在例如维基百科中随机选择的一些文本或者是用户预先标注好的一些文本。优选地,该特定数量的确定过程可以以下述公式(2)来表示:
其中,δ表示文本中含有语义知识库中的概念的数量,L表示文本的长度,并且p表示基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值分布的均值。
然后,在链接关系确定步骤S104中,确定在步骤S103中选择的语义关键词与语义知识库中的概念之间的链接关系。具体地,首先,利用所选择的语义关键词在语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与该语义关键词链接的概念;否则,如果检索到的概念不唯一,则基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。优选地,该预定语料库可以为用户预先标注好的已知文本的集合,或者可以为公知的百科全书(如维基百科等)。
优选地,上述语义关键词与概念的链接关系的确定方法可以以下述公式(3)来表示:
R=arg Max∑ωifi(word,concept) (3)
其中,fi(word,concept)为基于上述各个因素的特征函数,其表示语义关键词和概念之间的相似度,ωi表示各个特征函数的权重系数,其为经验值或者可通过有限次的实验来确定。其中,在以下表1中示出了各个特征函数的相关信息。
表1
特征函数名 取值 说明
互指函数 [0,1] 语义关键词与概念在预定语料库中互指的概率
关联函数 [0,1] 语义关键词与概念在预定语料库中共现的概率
距离函数 [0,1] 语义关键词与概念在预定语料库的分类结构树中的距离
语境相似函数 [0,1] 概念所在的文本与关键词所在的文本的余弦距离
应理解,在上述链接关系确定步骤S104中,由于基于多种语义相似度来确定语义关键词与概念之间的链接关系,因此确定结果更加准确。
接下来,在文本语义图构建步骤S105中,可以基于在步骤S104中所确定的链接关系、语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与语义知识库中的其他概念之间的关系,构建表示输入文本中的语义关键词与语义知识库中的概念之间的关系的文本语义图。
优选地,可以基于资源描述框架(RDF)来构建文本语义图。具体地,首先,为所选择的每个语义关键词赋予唯一的标识符(URI),然后根据在步骤S104中确定的语义关键词与概念之间的链接关系以及语义知识库中的概念之间的关系(例如,上下位关系(包括IsA,SubClassOf)、相同(TheSameAs)等等),利用推理规则,将语义关键词或语义知识库中的概念作为主语,表示语义关系的词(诸如IsA、SubClassOf等等)作为谓语,语义关键词或语义知识库中的概念作为宾语来构建关于该文本的文本语义图。
如图2和图3所示,其分别示出了在语义关键词未链接到语义知识库和链接到语义知识库两种情况下所构建的文本语义图。
其中,在图2中,201表示语义关键词,202表示语义知识库,C1至C6表示语义知识库中的概念,其中C2是C1的子类别。在该图示的示例中,语义关键词201未链接到语义知识库202。
在图3中,301表示语义关键词,302表示语义知识库,C1至C8表示语义知识库中的概念,其中,在步骤S104中确定语义关键词301链接到概念C2(语义关系为TheSameAs,即二者相同),由于概念C2与概念C1之间的语义关系为C2是C1的子类(即,SubClassOf),因此根据推理规则,语义关键词301与概念C1之间的语义关系也为SubClassOf。类似地,可以确定语义关键词301与其它概念之间的链接关系。
优选地,在文本语义图构建步骤S105中,根据预定的语义距离和上下位关系来选择与语义关键词相关的语义知识库中的概念,从而来构建文本语义图。这是由于,如果两个词之间的语义距离过大,则说明二者之间的相关程度较低,因此无需考虑二者之间的语义关系;此外,通常来说,对于确定文本的语义图,概念之间的上位关系比其之间的下位关系更有意义。例如,在图3中,假设语义关键词301表示“狗”,与其链接的概念C2表示“犬”,概念C1表示“哺乳动物”,与概念C1链接的两个概念C4和C5分别为“动物”和“猫”,其中概念C4与C1之间的语义关系为上位关系,概念C5与C1之间的语义关系为下位关系,则此时确定语义关键词301与概念C4之间的语义关系为SubClassOf,而概念C5对于确定文本的语义图来说相关性较小。
虽然上面结合图1至图3详细描述了根据本发明实施例的信息处理方法,但是本领域的技术人员应当明白,附图所示的流程图仅仅是示例性的,并且可以根据实际应用和具体要求的不同,对上述方法流程进行相应的修改。例如,根据需要,可以对上述方法中的某些步骤的执行顺序进行调整,或者可以省去或者添加某些处理步骤。此外,应理解,以上示例并不构成对本发明的限制,并且本领域技术人员可以在本发明所教导的原理内对以上示例进行修改以适应不同应用场合的需要。
与根据本发明实施例的信息处理方法相对应,本发明的实施例还提供了一种信息处理设备。
具体地,如图4所示,该信息处理设备可以包括候选语义关键词提取单元401、权重计算单元402、语义关键词选择单元403、链接关系确定单元404以及文本语义图构建单元405。以下将详细描述各个单元的功能配置。
候选语义关键词提取单元401可以被配置成对输入的文本进行分词,以从该文本提取候选语义关键词。其中,输入的文本的类型可以包括但不限于新闻文本、博客、微博、专利文献以及科技论文等等。
优选地,候选语义关键词提取单元401可以利用最长匹配策略,提取输入文本中与语义知识库中的概念最长匹配的特定词作为候选语义关键词。该语义知识库可以是公知的知识库如DBPedia等,或者也可以是用户预设的语义知识库。
权重计算单元402可以被配置成计算候选语义关键词提取单元401所提取的候选语义关键词的权重。
优选地,权重计算单元402可以被配置成基于下述因素中的一个或多个来计算各个候选语义关键词的权重:词频-反文档频率(TF-IDF)、词频-比例文档频率(TF-PDF)、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在语义知识库中。由于同时考虑了候选语义关键词的统计信息和语义知识库的信息,因此计算结果更加准确。其中,预定的语料库可以是包括用户预先标注好的文本的集合或者公知的语料库(如维基百科等)。
语义关键词选择单元403可以被配置成基于权重计算单元402算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词。
优选地,语义关键词选择单元403可以被配置成将所提取的候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为语义关键词。该特定数量可以以下述方式来确定:如果文本不包含语义知识库中的概念,则特定数量为0;如果文本仅包含语义知识库中的一个概念,则特定数量为1;以及如果文本中包含语义知识库中的概念的数量大于1,则基于该文本的长度和预定均值来确定该特定数量,该预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。该预定的语料库可以为在例如维基百科中随机选择的一些文本或者是用户预先标注好的一些文本。
链接关系确定单元404可以被配置成确定语义关键词选择单元403所选择的语义关键词与语义知识库中的概念之间的链接关系。具体地,首先,链接关系确定单元404可以利用所选择的语义关键词在语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与该语义关键词链接的概念;否则,如果检索到的概念不唯一,则基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
应理解,由于链接关系确定单元404基于多种语义相似度来确定语义关键词与概念之间的链接关系,因此确定结果更加准确。
文本语义图构建单元405可以被配置成基于链接关系确定单元404所确定的链接关系、语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与语义知识库中的其他概念之间的关系,构建表示输入文本中的语义关键词与语义知识库中的概念之间的关系的文本语义图。
优选地,文本语义图构建单元405可以基于资源描述框架(RDF)来构建文本语义图。
此外,优选地,文本语义图构建单元405可以根据预定的语义距离和上下位关系来选择与语义关键词相关的语义知识库中的概念,从而来构建文本语义图。
需要说明的是,本发明实施例所述的信息处理设备是与前述方法实施例相对应的,因此,设备实施例中未详述的部分,请参见方法实施例中相应位置的介绍,这里不再赘述。
另外,还应该指出的是,上述系列处理和设备也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图5所示的通用个人计算机500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等等时所需的数据。
CPU 501、5OM 602和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506,包括键盘、鼠标等等;输出部分507,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分508,包括硬盘等等;和通信部分509,包括网络接口卡比如LAN卡、调制解调器等等。通信部分509经由网络比如因特网执行通信处理。
根据需要,驱动器510也连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
根据本发明的实施例,还公开了以下附记:
附记1.一种信息处理方法,包括:
候选语义关键词提取步骤,用于对输入的文本进行分词,以从所述文本提取候选语义关键词;
权重计算步骤,用于计算所提取的候选语义关键词的权重;
语义关键词选择步骤,用于基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词;
链接关系确定步骤,用于确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及
文本语义图构建步骤,用于基于所确定的链接关系、所述语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与所述语义知识库中其他概念之间的关系,构建表示所述文本中的语义关键词与所述语义知识库中的概念之间的关系的文本语义图。
附记2.根据附记1所述的信息处理方法,其中,在所述候选语义关键词提取步骤中,如果所述文本中的特定词与所述语义知识库中的概念最长匹配,则提取该词作为所述候选语义关键词。
附记3.根据附记1所述的信息处理方法,其中,在所述权重计算步骤中,基于下述因素中的一个或多个来计算所述候选语义关键词的权重:词频-反文档频率TF-IDF、词频-比例文档频率TF-PDF、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在所述语义知识库中。
附记4.根据附记1所述的信息处理方法,其中,在所述语义关键词选择步骤中,将所述候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为所述语义关键词。
附记5.根据附记4所述的信息处理方法,其中,如果所述文本不包含所述语义知识库中的概念,则所述特定数量为零;如果所述文本仅包含所述语义知识库中的一个概念,则所述特定数量为1;以及如果所述文本中包含所述语义知识库中的概念的数量大于1,则基于所述文本的长度和预定均值来确定所述特定数量,其中所述预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。
附记6.根据附记1所述的信息处理方法,其中,在所述链接关系确定步骤中,利用所选择的语义关键词在所述语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与所述语义关键词链接的概念;否则,基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
附记7.根据附记1所述的信息处理方法,其中,在所述文本语义图构建步骤中,基于资源描述框架RDF来构建所述文本语义图。
附记8.根据附记1所述的信息处理方法,其中,在所述文本语义图构建步骤中,根据预定的语义距离和上下位关系来选择与语义关键词相关的语义知识库中的概念,构建所述文本语义图。
附记9.根据附记1-8中任一项所述的信息处理方法,其中,所述文本的类型包括新闻、博客、微博、专利文献以及科技论文。
附记10.一种信息处理设备,包括:
候选语义关键词提取单元,被配置成对输入的文本进行分词,以从所述文本提取候选语义关键词;
权重计算单元,被配置成计算所提取的候选语义关键词的权重;
语义关键词选择单元,被配置成基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词;
链接关系确定单元,被配置成确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及
文本语义图构建单元,被配置成基于所确定的链接关系、所述语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与所述语义知识库中其他概念之间的关系,构建表示所述文本中的语义关键词与所述语义知识库中的概念之间的关系的文本语义图。
附记11.根据附记10所述的信息处理设备,其中,所述候选语义关键词提取单元被配置成如果所述文本中的特定词与所述语义知识库中的概念最长匹配,则提取该词作为所述候选语义关键词。
附记12.根据附记10所述的信息处理设备,其中,所述权重计算单元被配置成基于下述因素中的一个或多个来计算所述候选语义关键词的权重:词频-反文档频率TF-IDF、词频-比例文档频率TF-PDF、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在所述语义知识库中。
附记13.根据附记10所述的信息处理设备,其中,所述语义关键词选择单元被配置成将所述候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为所述语义关键词。
附记14.根据附记13所述的信息处理设备,其中,如果所述文本不包含所述语义知识库中的概念,则所述特定数量为零;如果所述文本仅包含所述语义知识库中的一个概念,则所述特定数量为1;以及如果所述文本中包含所述语义知识库中的概念的数量大于1,则基于所述文本的长度和预定均值来确定所述特定数量,其中所述预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。
附记15.根据附记10所述的信息处理设备,其中,所述链接关系确定单元被配置成利用所选择的语义关键词在所述语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与所述语义关键词链接的概念;否则,基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
附记16.根据附记10所述的信息处理设备,其中,所述文本语义图构建单元被配置成基于资源描述框架RDF来构建所述文本语义图。
附记17.根据附记10所述的信息处理设备,其中,所述文本语义图构建单元被配置成根据预定的语义距离和上下位关系来选择与语义关键词相关的语义知识库中的概念,构建所述文本语义图。
附记18.根据附记10-17中任一项所述的信息处理设备,其中,所述文本的类型包括新闻、博客、微博、专利文献以及科技论文。

Claims (10)

1.一种信息处理方法,包括:
候选语义关键词提取步骤,用于对输入的文本进行分词,以从所述文本提取候选语义关键词;
权重计算步骤,用于计算所提取的候选语义关键词的权重;
语义关键词选择步骤,用于基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词;
链接关系确定步骤,用于确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及
文本语义图构建步骤,用于基于所确定的链接关系、所述语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与所述语义知识库中其他概念之间的关系,构建表示所述文本中的语义关键词与所述语义知识库中的概念之间的关系的文本语义图,
其中,在所述文本语义图构建步骤中,基于资源描述框架RDF,根据预定的语义距离和上下位关系来选择与语义关键词相关的语义知识库中的概念,构建所述文本语义图。
2.根据权利要求1所述的信息处理方法,其中,在所述权重计算步骤中,基于下述因素中的一个或多个来计算所述候选语义关键词的权重:词频-反文档频率TF-IDF、词频-比例文档频率TF-PDF、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在所述语义知识库中。
3.根据权利要求1所述的信息处理方法,其中,在所述语义关键词选择步骤中,将所述候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为所述语义关键词。
4.根据权利要求3所述的信息处理方法,其中,如果所述文本不包含所述语义知识库中的概念,则所述特定数量为零;如果所述文本仅包含所述语义知识库中的一个概念,则所述特定数量为1;以及如果所述文本中包含所述语义知识库中的概念的数量大于1,则基于所述文本的长度和预定均值来确定所述特定数量,其中所述预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。
5.根据权利要求1所述的信息处理方法,其中,在所述链接关系确定步骤中,利用所选择的语义关键词在所述语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与所述语义关键词链接的概念;否则,基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
6.一种信息处理设备,包括:
候选语义关键词提取单元,被配置成对输入的文本进行分词,以从所述文本提取候选语义关键词;
权重计算单元,被配置成计算所提取的候选语义关键词的权重;
语义关键词选择单元,被配置成基于算出的权重,根据预定规则从所提取的候选语义关键词中选择语义关键词;
链接关系确定单元,被配置成确定所选择的语义关键词与预定的语义知识库中的概念之间的链接关系;以及
文本语义图构建单元,被配置成基于所确定的链接关系、所述语义知识库中的概念之间的语义关系以及根据预定推理规则确定的语义关键词与所述语义知识库中其他概念之间的关系,构建表示所述文本中的语义关键词与所述语义知识库中的概念之间的关系的文本语义图,
其中,所述文本语义图构建单元进一步被配置成基于资源描述框架RDF,根据预定的语义距离和上下位关系来选择与语义关键词相关的语义知识库中的概念,构建所述文本语义图。
7.根据权利要求6所述的信息处理设备,其中,所述权重计算单元被配置成基于下述因素中的一个或多个来计算所述候选语义关键词的权重:词频-反文档频率TF-IDF、词频-比例文档频率TF-PDF、信息增益、在预定的语料库中被选择作为关键词的概率以及是否出现在所述语义知识库中。
8.根据权利要求6所述的信息处理设备,其中,所述语义关键词选择单元被配置成将所述候选语义关键词按其权重的降序进行排序,并且选择排序靠前的特定数量的候选语义关键词作为所述语义关键词。
9.根据权利要求8所述的信息处理设备,其中,如果所述文本不包含所述语义知识库中的概念,则所述特定数量为零;如果所述文本仅包含所述语义知识库中的一个概念,则所述特定数量为1;以及如果所述文本中包含所述语义知识库中的概念的数量大于1,则基于所述文本的长度和预定均值来确定所述特定数量,其中所述预定均值是基于预定的语料库而统计的各个文本中的语义关键词的数量与该文本的长度的比值的平均值。
10.根据权利要求6所述的信息处理设备,其中,所述链接关系确定单元被配置成利用所选择的语义关键词在所述语义知识库中进行检索,如果检索到的概念的数量为一个,则将该概念确定为要与所述语义关键词链接的概念;否则,基于下述因素中的一个或多个来确定各个语义关键词与检索到的两个或更多个概念之间的相似度,并且将相似度最大的概念确定为要与该语义关键词链接的概念:语义关键词与概念在预定语料库中互指的概率;语义关键词与概念在预定语料库中共现的概率;语义关键词与概念在预定语料库的分类结构树中的距离;以及语义关键词所在的文本与概念所在的文本之间的余弦距离。
CN201210362152.7A 2012-09-25 2012-09-25 信息处理方法和信息处理设备 Expired - Fee Related CN103678418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210362152.7A CN103678418B (zh) 2012-09-25 2012-09-25 信息处理方法和信息处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210362152.7A CN103678418B (zh) 2012-09-25 2012-09-25 信息处理方法和信息处理设备

Publications (2)

Publication Number Publication Date
CN103678418A CN103678418A (zh) 2014-03-26
CN103678418B true CN103678418B (zh) 2017-06-06

Family

ID=50315999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210362152.7A Expired - Fee Related CN103678418B (zh) 2012-09-25 2012-09-25 信息处理方法和信息处理设备

Country Status (1)

Country Link
CN (1) CN103678418B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102626B (zh) * 2014-07-07 2017-08-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN104361033B (zh) * 2014-10-27 2017-06-09 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN105718440B (zh) * 2014-12-03 2019-01-29 南开大学 基于聚合加权矩阵压缩算法的文本语义表示方法
CN107111784A (zh) * 2015-01-08 2017-08-29 西门子公司 用于集成语义数据处理的方法
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN105677874B (zh) * 2016-01-11 2018-11-13 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种对提取的Web表格数据进行集成的方法及装置
CN107229638A (zh) * 2016-03-24 2017-10-03 北京搜狗科技发展有限公司 一种文本信息处理方法及装置
CN109804371B (zh) * 2016-08-10 2023-05-23 瑞典爱立信有限公司 用于语义知识迁移的方法和装置
CN106649672B (zh) * 2016-12-14 2020-08-11 华南师范大学 一种基于语义网的安全数据语义分析方法及系统
CN108573750B (zh) 2017-03-07 2021-01-15 京东方科技集团股份有限公司 用于自动发现医学知识的方法和系统
CN106933809A (zh) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 信息处理装置及信息处理方法
US10872107B2 (en) * 2017-06-30 2020-12-22 Keysight Technologies, Inc. Document search system for specialized technical documents
CN107343043A (zh) * 2017-07-04 2017-11-10 冯贵良 一种医疗服务信息精准发布的方法和发布服务器
CN107918644B (zh) * 2017-10-31 2020-12-08 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施系统
CN109960727B (zh) * 2019-02-28 2023-04-07 天津工业大学 针对非结构化文本的个人隐私信息自动检测方法及系统
CN111950290A (zh) * 2019-04-30 2020-11-17 广东小天才科技有限公司 一种基于概念图的语义解析方法及装置
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN111090743B (zh) * 2019-11-26 2023-05-09 华南师范大学 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
CN113111155B (zh) * 2020-01-10 2024-04-19 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质
CN111400607B (zh) * 2020-06-04 2020-11-10 浙江口碑网络技术有限公司 搜索内容输出方法、装置、计算机设备及可读存储介质
CN112149414B (zh) * 2020-09-23 2023-06-23 腾讯科技(深圳)有限公司 文本相似度确定方法、装置、设备及存储介质
CN112528026A (zh) * 2020-12-17 2021-03-19 北京沃东天骏信息技术有限公司 关键词识别方法、装置、设备及介质
CN112733538B (zh) * 2021-01-19 2023-05-30 广东工业大学 一种基于文本的本体构建方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075929A (zh) * 2007-03-02 2007-11-21 腾讯科技(深圳)有限公司 信息查询系统、信息查询服务器及信息查询方法
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120233155A1 (en) * 2011-03-10 2012-09-13 Polycom, Inc. Method and System For Context Sensitive Content and Information in Unified Communication and Collaboration (UCC) Sessions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075929A (zh) * 2007-03-02 2007-11-21 腾讯科技(深圳)有限公司 信息查询系统、信息查询服务器及信息查询方法
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于图模型的关键词挖掘方法;翟周伟 等;《软件》;20120815;第33卷(第8期);第9-13页 *

Also Published As

Publication number Publication date
CN103678418A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103678418B (zh) 信息处理方法和信息处理设备
CN110674317B (zh) 一种基于图神经网络的实体链接方法及装置
US10997560B2 (en) Systems and methods to improve job posting structure and presentation
US20020022956A1 (en) System and method for automatically classifying text
US20100274770A1 (en) Transductive approach to category-specific record attribute extraction
US11887011B2 (en) Schema augmentation system for exploratory research
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
Ayala et al. AYNEC: all you need for evaluating completion techniques in knowledge graphs
Hsu et al. A hybrid Latent Dirichlet Allocation approach for topic classification
WO2015044934A1 (en) A method for adaptively classifying sentiment of document snippets
US20230394236A1 (en) Extracting content from freeform text samples into custom fields in a software application
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
Sahni et al. Topic modeling on online news extraction
Biletskiy et al. Information extraction from syllabi for academic e-Advising
Lei et al. Automatically classify chinese judgment documents utilizing machine learning algorithms
Roy et al. A tag2vec approach for questions tag suggestion on community question answering sites
Yan et al. Improving document clustering for short texts by long documents via a dirichlet multinomial allocation model
Roldán et al. Extracting web information using representation patterns
CN110717029A (zh) 一种信息处理方法和系统
Genovese et al. Web Crawling and Processing with Limited Resources for Business Intelligence and Analytics Applications.
Jo Automatic text summarization using string vector based K nearest neighbor
CN111488506B (zh) 资源信息的处理方法、装置、设备及存储介质
Denecke et al. Text classification based on limited bibliographic metadata
Wang et al. Mining Domain-Specific Accounts for Scientific Contents from Social Media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606

Termination date: 20180925

CF01 Termination of patent right due to non-payment of annual fee