CN108345625A

CN108345625A - 一种信息挖掘方法和装置、一种用于信息挖掘的装置

Info

Publication number: CN108345625A
Application number: CN201710062815.6A
Authority: CN
Inventors: 邸楠; 尹顺顺; 邓超
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2018-07-31
Anticipated expiration: 2037-01-25
Also published as: CN108345625B

Abstract

本发明实施例提供了一种信息挖掘方法和装置、一种用于信息挖掘的装置，其中的方法具体包括：从网页文本语料中获取包含预置谓语的目标语句；从所述目标语句对应的句法分析结果中提取主语和宾语；依据提取得到的主语和宾语，建立实体‑属性对，并保存所述实体‑属性对。本发明实施例可以从时效性更强的网页文本中及时地挖掘出新增实体或者实体的最新属性，进而能够提高实体信息的时效性。

Description

一种信息挖掘方法和装置、一种用于信息挖掘的装置

技术领域

本发明涉及互联网信息技术领域，特别是涉及一种信息挖掘方法和装置、一种用于信息挖掘的装置。

背景技术

随着互联网信息技术，特别是无线互联网信息技术的快速发展，信息服务变得越来越普遍。信息服务提供商提供信息服务时，例如，搜索引擎提供搜索服务等，通常会利用实体提供信息服务。具体地，可将现实世界中的客观事物称为实体，例如概念、事物或事件等。举例来说，影视剧“我是特种兵”、明星“刘德华”、作家“霍达”都是实体的实例。同时，每个实体具有属性，属性反映实体的相关信息，例如，“军旅题材”、“174cm”、“回族”分别是上述实体“我是特种兵”、“刘德华”、“霍达”对应的属性。

现有的信息挖掘方案可以从网站的结构化数据中定向抓取实体属性对，抓取的实体属性对中，一个实体可以包括多个属性。例如，“霍达”对应的属性可以包括：“出生地”、“毕业院校”、“信仰”、“界别”、“民族”、“政协职务”、“国籍”、“代表作品”、“出生日期”、“身高”、“成名作品”、“所获荣誉”等。现有的信息挖掘方案具有较高的挖掘精度和挖掘效率。

在实际应用中，随着互联网信息技术的发展，实体或者实体对应属性的更新速度较快，这样，将出现新增实体或者实体的属性发生变化等。例如，随着时间的推移，将新增网络流行的实体“摆渡人”、“老司机”等；或者，随着时间的推移，实体“王健林”对应的“主要成就”、“目标”等属性将发生变化，例如，在2016胡润百富榜公布后，其对应的“主要成就”将新增“2016 中国首富”。然而，网站的结构化数据对于实体或者实体对应属性的更新速度通常低于实体或者实体对应属性本身的更新速度，因此，现有的信息挖掘方案将无法及时地挖掘出新增实体或者实体的最新属性。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的信息挖掘方法、信息挖掘装置及用于信息挖掘的装置，本发明实施例可以从时效性更强的网页文本中及时地挖掘出新增实体或者实体的最新属性，进而能够提高实体信息的时效性。

为了解决上述问题，本发明公开了一种信息挖掘方法，包括：

从网页文本语料中获取包含预置谓语的目标语句；

从所述目标语句对应的句法分析结果中提取主语和宾语；

依据提取得到的主语和宾语，建立实体-属性对，并保存所述实体-属性对。

另一方面，本发明公开了一种信息挖掘装置，包括：

目标语句获取模块，用于从网页文本语料中获取包含预置谓语的目标语句；

主宾提取模块，用于从所述目标语句对应的句法分析结果中提取主语和宾语；

实体属性对建立模块，用于依据提取得到的主语和宾语，建立实体-属性对；以及

实体属性对保存模块，用于保存所述实体-属性对。

可选地，所述装置还包括：

关键属性获取模块，用于从实体对应的多个属性中获取对所述实体有指向性的关键属性；

实体关键属性对建立模块，用于依据所述实体和所述关键属性，建立实体-关键属性对；

实体关键属性对保存模块，用于保存所述实体-关键属性对。

可选地，所述关键属性获取模块包括：

概率统计子模块，用于针对所述实体对应的各属性，统计获取各属性对应的条件概率；所述属性对应的条件概率为预置语料中出现所述实体的情况下同时出现所述属性的概率；

关键属性确定子模块，用于将所述条件概率超过概率阈值的属性作为对所述实体有指向性的关键属性。

可选地，所述装置还包括：

第一置信度确定模块，用于在所述实体属性对保存模块保存所述实体- 属性对之前，确定所述实体-属性对对应的第一置信度；

则所述实体属性对保存模块，具体用于在所述第一置信度超过第一置信度阈值时，保存所述实体-属性对。

可选地，所述装置还包括：

第二置信度确定模块，用于在所述实体关键属性对保存模块保存所述实体-关键属性对之前，确定所述实体-关键属性对对应的第二置信度；

则所述实体关键属性对保存模块，具体用于在所述第二置信度超过第二置信度阈值时，保存所述实体-关键属性对。

可选地，所述第一置信度确定模块包括：

第一特征提取子模块，用于针对所述实体-属性对，提取对应的独立特征和/或联合特征；其中，所述独立特征用于表示所述实体-属性对中实体或者属性自身的特征，所述联合特征用于表示所述实体-属性对中实体和关键属性的特征；以及

第一置信度计算子模块，用于依据所述实体-属性对对应的独立特征和/ 或联合特征，确定对应的第一置信度。

可选地，所述第二置信度确定模块包括：

第二特征提取子模块，用于针对所述实体-关键属性对，提取对应的独立特征和/或联合特征；其中，所述独立特征用于表示所述实体-关键属性对中实体或者关键属性自身的特征，所述联合特征用于表示所述实体-关键属性对中实体和关键属性的特征；以及

第二置信度计算子模块，用于依据所述实体-关键属性对对应的独立特征和/或联合特征，确定对应的第二置信度。

可选地，所述独立特征包括如下特征中的至少一种：所述实体或者属性或者关键属性对应词汇在实体-属性对集合中的词频、共现词数、分布熵和在实体-属性对中作为后缀的次数；和/或

所述联合特征包括如下特征中的至少一种：所述实体-属性对或者实体- 关键属性对在实体-属性对集合中的共现信息、互相的条件概率和独立特征的差值。

再一方面，本发明公开了一种用于信息挖掘的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从网页文本语料中获取包含预置谓语的目标语句；

从所述目标语句对应的句法分析结果中提取主语和宾语；

本发明实施例包括以下优点：

本发明实施例可以针对非结构化或者半结构化的网页文本进行句法分析，并基于对应的句法分析结果从中挖掘出实体-属性对，而非结构化或者半结构化的网页文本的更新速度可以与实体或者实体对应属性的更新速度相当或者等同，因此，本发明实施例可以从时效性更强的网页文本中及时地挖掘出新增实体或者实体的最新属性，进而能够提高实体信息的时效性。

并且，本发明实施例从网页文本语料中获取包含预置谓语的目标语句，可以起到对网页文本语料所包含海量语句的筛选作用，这样，可以针对得到的目标语句进行句法分析，因此能够降低信息挖掘过程中的计算复杂度。

附图说明

图1是本发明的一种信息挖掘方法实施例一的步骤流程图

图2是本发明的一种信息挖掘方法实施例二的步骤流程图；

图3是本发明的一种信息挖掘方法实施例三的步骤流程图；

图4是本发明的一种信息挖掘方法实施例四的步骤流程图；

图5是本发明的一种信息挖掘装置实施例的结构框图；

图6是本发明的一种用于信息挖掘的装置900作为终端时的框图；及

图7是本发明的一种用于信息挖掘的装置作为服务器时的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

现有的信息挖掘方案可以从网站的结构化数据中定向抓取实体属性对，然而，由于网站的结构化数据对于实体或者实体对应属性的更新速度通常低于实体或者实体对应属性本身的更新速度，因此，现有的信息挖掘方案将无法及时地挖掘出新增实体或者实体的最新属性。

针对现有方案中存在的无法及时地挖掘出新增实体或者实体的最新属性的技术问题，本发明实施例提供了一种信息挖掘方案，该方案可以从网页文本语料挖掘出实体-属性对，相应的挖掘过程可以包括：从网页文本语料中获取包含预置谓语的目标语句，从所述目标语句对应的句法分析结果中提取主语和宾语，并依据提取得到的主语和宾语，建立实体-属性对并保存；由于本发明实施例可以针对非结构化或者半结构化的网页文本进行句法分析，并基于对应的句法分析结果从中挖掘出实体-属性对，而非结构化或者半结构化的网页文本的更新速度可以与实体或者实体对应属性本身的更新速度相当或者等同，因此，本发明实施例可以从时效性更强的网页文本中及时地挖掘出新增实体或者实体的最新属性，进而能够提高实体信息的时效性。

在本发明的一种应用示例中，随着时间的推移，互联网中将出现网络流行的新增实体“摆渡人”、“老司机”“必剩客”等，而这些新增实体会及时体现在网页文本(如新闻网页的文本、论坛网页的文本、社交网页的文本或者百科网页的文本)中，因此，本发明实施例可以从时效性更强的网页文本中及时地挖掘出新增实体，进而能够提高实体信息的时效性。

在本发明的另一种应用示例中，随着时间的推移，实体对应的属性将发生变化。例如，实体“傅园慧”有了“别名”，又如，实体“王健林”对应的“主要成就”、“目标”等属性将发生变化等等，由于实体对应的最新属性会及时体现在网页文本(如新闻网页的文本、论坛网页的文本、社交网页的文本或者百科网页的文本)中，因此，本发明实施例可以从时效性更强的网页文本中及时地挖掘出实体的最新属性，进而能够提高实体信息的时效性。例如，本发明实施例可以挖掘出实体“傅园慧”的“别名”属性，该“别名”属性的值可以包括：“洪荒少女”、“傅爷”等；本发明实施例可以挖掘出实体“王健林”对应的“主要成就”的最新属性“2016中国首富”等等。

本发明实施例中，挖掘得到的实体对应的属性可以为实体的别名。别名可用于表示法定名符或规范的名称以外的名称，针对概念、事物或事件对应的实体而言，其对应的别名可能不断发生变化，由于本发明实施例可以及时地挖掘出实体的最新别名，因此能够提高实体的别名属性的时效性。

本发明实施例挖掘得到的实体-属性对可被单独保存和使用，也可与现有方案得到的实体-属性对共同保存和使用，可以理解，本发明实施例对于挖掘得到的实体-属性对的具体维护和应用场景不加以限制。

方法实施例一

参照图1，示出了本发明的一种信息挖掘方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101、从网页文本语料中获取包含预置谓语的目标语句；

步骤102、从所述目标语句对应的句法分析结果中提取主语和宾语；

步骤103、依据提取得到的主语和宾语，建立实体-属性对，并保存所述实体-属性对。

本发明实施例中，网页文本语料可由网页文本组成，网页文本可用于表示网页包含的自然语言文本，该网页文本可以源自网页所包含的非结构化数据或者半结构化数据。可选地，该网页文本可以包括：网页的正文文本。另外，本发明实施例的网页文本所属的预置网页类别可以包括：新闻类别、百科类别、论坛类别、社交类别等，在实际应用中，可以从互联网中收集预置网页类别的网页文本，可以理解，本发明实施例对于网页文本所属的网页类别、以及网页文本的具体来源不加以限制。

在实际应用中，网页文本通常包括大量的语句，这样，网页文本语料中将包含海量的语句。该语句是语言运用的基本单位，其通常由词、词组、或短语等构成，能表达一个完整的意思。如告诉别人一件事，提出一个问题，表示要求或者制止，表示某种感慨，表示对一段话的延续或省略。为了将意思表达清楚，通常的语句包括：主语、谓语和宾语等成分，其中，主语是谓语陈述的对象，指明说的是“什么人”或“什么事物”；谓语是陈述主语的，说明主语的，说明主语“是什么”或“怎么样”；宾语在动语后面，表示动作、行为涉及的人或事物，回答“谁”或“什么”一类问题。

本发明的发明人在实施本发明实施例的过程中发现如下规律：基于语句的句法结构，包含预置谓语的语句中，主语和宾语虽然在位置上不相邻，但可以形成同位关系；这里，同位关系可用于表示语句中指代同一主体(如概念、事物或事件等)的两个单词或者词组。以预置谓语“是”为例，“中国首都是北京”、“政治家A是人们爱戴的好总理”、“傅园慧是洪荒少女”等语句所包含的主语和宾语分别可以指代同一实体“北京”、“政治家A”、“傅园慧”。

本发明实施例中，基于所述包含预置谓语的语句中，主语和宾语可以形成同位关系，从网页文本语料中挖掘出指代同一实体的主语和宾语，并将指代同一实体的主语和宾语作为实体-属性对进行保存。

本发明实施例中，步骤101所述的从网页文本语料中获取包含预置谓语的目标语句，由于包含预置谓语的目标语句可能包含存在同位关系的主语和宾语，故上述目标语句可能包含实体-属性对信息。并且，在实际应用中，本发明实施例的网页文本语料中包含海量的语句，如果直接对网页文本语料中包含的所有语句进行句法分析，将导致计算复杂度过高；而步骤101从网页文本语料中获取包含预置谓语的目标语句，可以起到对网页文本语料所包含海量语句的筛选作用，这样，可以针对得到的目标语句进行句法分析，能够降低信息挖掘过程中的计算复杂度。

在本发明的一种可选实施例中，上述预置谓语可以包括：“是”、“为”、“成为”、“作为”、“称”、“作”、“属于”、“属”、“成”、“就是”、“叫”、“称为”等，可以理解，任意的能够使得主语和宾语形成同位关系的谓语均在本发明实施例的预置谓语的保护范围之内，本发明实施例对于具体的预置谓语不加以限制。

步骤102可以从步骤101得到的目标语句对应的句法分析结果中提取主语和宾语。

在实际应用中，可以利用例如LTP(语言技术平台，Language TechnologyPlatform)的自然语言分析工具，对上述目标语句进行句法分析，以得到对应的句法分析结果。可选地，该句法分析结果可以包括：依存树，该依存树中的每个节点可以对应于目标语句中的一个单词，该依存树中的每条有向边也即依存边，用于表示一对单词之间的依存关系。可选地，该依存边表征的依存关系可以包括：“主谓关系”、“动宾关系”等。这样，可以依据该依存关系获得目标语句中包含的主语和宾语。可以理解，上述依存树只是作为句法分析结果的可选实施例，实际上，本发明实施例的句法分析结果可以直接包括：目标语句的单词对应的依存关系，可以理解，本发明实施例对于具体的句法分析结果不加以限制。

步骤103可以依据步骤102提取得到的主语和宾语，建立实体-属性对，并保存所述实体-属性对。

以目标语句“傅园慧是洪荒少女”为例，若步骤102从该目标语句中提取得到主语“傅园慧”和宾语“洪荒少女”，则可以将宾语“洪荒少女”作为实体“傅园慧”的“别名”属性进行保存。或者，以目标语句“王健林第三次成为中国首富”为例，若步骤102从该目标语句中提取主语“王健林”和宾语“中国首富”，则可以将宾语“中国首富”作为实体“王健林”的“主要成就”属性进行保存。或者，以目标语句“《摆渡人》是由阿里影业、泽东电影、和和影业联合出品的爱情喜剧片”为例，若步骤102从该目标语句中提取主语“摆渡人”和宾语“爱情喜剧片”，则可以将宾语“爱情喜剧片”作为实体“摆渡人”的“类型”属性进行保存。

可以理解，本领域技术人员可以根据实际应用需求，将步骤102提取得到的主语和宾语中的一种作为实体、另一种作为实体对应的属性。通常情况下，步骤102提取得到的主语和宾语中，主语可被作为实体，可以理解，宾语也可被作为实体；以主语“傅园慧”和宾语“洪荒少女”为例，宾语“洪荒少女”也可被作为实体，此种情况下，主语“傅园慧”可以被作为“洪荒少女”对应的“姓名”属性，可以理解，本发明实施例对于步骤103依据提取得到的主语和宾语，建立实体-属性对的具体过程不加以限制。

需要说明的是，依据步骤102提取得到的主语和宾语得到的实体-属性对中，实体可以为已有实体，也可以为新增实体，例如，若实体库中不存在实体“摆渡人”，则实体“摆渡人”可以作为新增实体。另外，依据步骤102 提取得到的主语和宾语得到的实体-属性对中，属性可以为已有属性，也可以为新增属性。例如，若实体“傅园慧”之前不存在“别名”属性，则在挖掘得到“洪荒少女”之后，可以新增实体“傅园慧”的“别名”属性，并将“别名”属性的属性值设置为“洪荒少女”。

另外，需要说明的是，本发明实施例可以采用<E,t>描述实体-属性对(也即实体与属性之间的对应关系)，其中，E表示实体，t表示属性，其中，对于t而言，其可以进一步包括：属性名和属性值等信息，可以理解，本发明实施例对于实体-属性对的具体描述方式不加以限制。

综上，本发明实施例的信息挖掘方法，可以针对非结构化或者半结构化的网页文本进行句法分析，并基于对应的句法分析结果从中挖掘出实体-属性对，而非结构化或者半结构化的网页文本的更新速度可以与实体或者实体对应属性的更新速度相当或者等同，因此，本发明实施例可以从时效性更强的网页文本中及时地挖掘出新增实体或者实体的最新属性，进而能够提高实体信息的时效性。

方法实施例二

参照图2，示出了本发明的一种信息挖掘方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201、从网页文本语料中获取包含预置谓语的目标语句；

步骤202、从所述目标语句对应的句法分析结果中提取主语和宾语；

步骤203、依据提取得到的主语和宾语，建立实体-属性对；

步骤204、确定实体-属性对对应的第一置信度；

步骤205、若所述第一置信度超过第一置信度阈值，则保存所述实体- 属性对。

相对于图1所示方法实施例一，本发明实施例在保存实体-属性对之前，可以确定实体-属性对对应的第一置信度，若所述第一置信度超过第一置信度阈值，则保存所述实体-属性对。其中，第一置信度可用于表示实体-属性对的可信程度，这样，本发明实施例在对第一置信度超过第一置信度阈值的实体-属性对进行保存，筛除第一置信度较低的实体-属性对，能够提高挖掘得到的实体-属性对的可信程度和精度。

在本发明的一种可选实施例中，上述确定实体-属性对对应的第一置信度的步骤204，可以包括：

针对所述实体-属性对，提取对应的独立特征和/或联合特征；其中，所述独立特征用于表示所述实体-属性对中实体或者属性自身的特征，所述联合特征用于表示所述实体-属性对中实体和属性的特征；

依据所述实体-属性对对应的独立特征和/或联合特征，确定对应的第一置信度。

假设实体-属性对包括实体对应的实体词和属性对应的属性词，则所述独立特征可用于表示实体词或者属性词自身的特征，以实体-属性对<刘德华，演员>为例，独立特征分别表示实体词“刘德华”或者属性词“演员”自身的特征。可选地，所述独立特征可以但不限于包括如下特征中的至少一种：所述实体或者属性对应词汇在实体-属性对集合中的词频、共现词数、分布熵和在实体-属性对中作为后缀的次数。

在实际应用中，实体-属性对集合可用于存储大量的实体-属性对，则可以依据该实体-属性对集合，统计得到上述词频、共现词数、分布熵和在实体-属性对中作为后缀的次数。

其中，词频可以为实体词或者属性词在实体-属性对集合中的出现次数。

共现词数可用于表示与实体词或者属性词配对的词的数量，也即，实体 -属性对集合中、一个实体词或者一个属性词与多少个词构成了实体-属性对；一般来说实体词对应的共现词数较小，而属性词对应的共现词数较大。

分布熵可用于表示实体-属性对中、实体对应的多个属性的有序化程度。在实际应用中，可以依据实体对应的各属性的特征(如词频、共现词数、在实体-属性对中作为后缀的次数等)，确定一个实体对应的多个属性的分布熵。例如，该分布熵对应的状态可以包括：均匀状态、混乱状态、或者均匀和混乱之间的状态等等。

在实体-属性对中作为后缀的次数可用于表示某实体词或者属性词是否作为后缀出现在其他实体-属性对的词汇中。例如，“演员”是“著名演员”、“女演员”的后缀。可选地，在实体-属性对中作为后缀的次数出现越多，则词汇为实体词的概率越小，词汇为属性词的概率越大。

若实体-属性对包括实体对应的实体词和属性对应的属性词，则所述实体-属性对的联合特征可用于表示实体词和属性词对应的联合特征。以实体- 属性对<刘德华，演员>为例，联合特征表示实体词“刘德华”和属性词“演员”对应的联合特征。

可选地，所述联合特征可以包括如下特征中的至少一种：所述实体-属性对在实体-属性对集合中的共现信息、互相的条件概率和独立特征的差值。

其中，所述实体-属性对在实体-属性对集合中的共现信息可以包括：共现次数和/或独立的共现次数。其中，共现次数可以为实体-属性对的共现次数，独立的共现次数可以为实体-属性对的共现次数减去作为后缀的共现次数。例如，实体-属性对集合中同时出现<刘德华，演员>和<刘德华，男演员>，则<刘德华，男演员>独立的共现次数会对<刘德华，演员>的共现次数作出贡献，也即，<刘德华，男演员>独立的共现次数可以等于<刘德华，演员>的共现次数减去“演员”作为后缀的共现词数。

所述条件概率，可用于表示在出现word1的情况下同时出现word2的概率：p(word1|word2)＝count(word1,word2)/count(word2)。具体到本发明实施例，word1和word2可以包括实体词和属性词，且word1可以包括：实体词和属性词中的任一，word2可以包括：实体词和属性词中的任一。

所述独立特征的差值，可用于表示实体词和属性词对应的独立特征的差值。例如，可以将实体词和属性词对应的词频相减、分布熵等特征相减。在实际应用中，可以认为，理想的实体-属性对对应独立特征的差值应超出差值阈值；也即，独立特征的差值越小，则两个词可能均为实体词或者属性词，也即二者成为实体-属性对的概率越小；反之，独立特征的差值越大，则两个词成为实体-属性对的概率越大。

在实际应用中，可以依据所述实体-属性对对应的独立特征和/或联合特征，得到所述实体-属性对对应的的第一特征向量，并通过置信度模型将该第一特征向量转换为对应的第一置信度，即为所述实体-属性对对应的第一置信度。

其中，置信度模型可以为机器学习模型，可以依据实体-属性对样本(也即真样本)和非实体-属性对样本(也即假样本)两类别的样本对应的特征向量，对实体-属性对样本和非实体-属性对样本进行训练，以得到上述置信度模型；在对实体-属性对样本和非实体-属性对样本进行训练后，上述置信度模型可以对实体-属性对样本和非实体-属性对样本的特征进行学习，以具备实体-属性对类别和非实体-属性对类别的判别能力。

这样，上述置信度模型针对第一特征向量输出的第一置信度可用于表示一个实体-属性对属于实体-属性对的可信度。可选地，上述置信度模型输出的第一置信度的范围在[0,1]之间，其中，1表示一个实体-属性对属于实体- 属性对(为真)的第一置信度为100％，0表示一个实体-属性对属于实体- 属性对的第一置信度为0，也即0表示一个实体-属性对属于实体-属性对为假。

可选地，上述置信度模型还可以利用各特征的含义，预置对应的影响规则，并利用该影响规则确定各特征对于可信度的影响参数，进而可以依据所有特征对应的影响参数，判别第一特征向量对应的第一置信度。

以在实体-属性对中作为后缀的次数为例，相应的影响规则可以包括：一个词汇在实体-属性对中作为后缀的次数出现越多，则该词汇为实体词的概率越小。以独立特征的差值为例，相应的影响规则可以包括：独立特征的差值越小，则两个词可能均为实体词或者属性词，也即二者成为实体-属性对的概率越小；反之，独立特征的差值越大，则两个词成为实体-属性对的概率越大。

可以理解，本发明实施例上述置信度模型判别第一特征向量对应的第一置信度的具体过程不加以限制。

本领域技术人员可以根据实际应用需求，确定上述第一置信度阈值，例如，该上述第一置信度阈值可以为0.6、0.7、0.8等数值，可以理解，第一置信度阈值越高，则最终保存的实体-属性对的精度越高。可以理解，若所述第一置信度未超过第一置信度阈值，则可以不保存该实体-属性词，例如可以丢弃该实体-属性对。

综上，本发明实施例的信息挖掘方法，在保存实体-属性对之前，可以确定实体-属性对对应的第一置信度，若所述第一置信度超过第一置信度阈值，则保存所述实体-属性对。其中，第一置信度可用于表示实体-属性对的可信程度，这样，本发明实施例针对第一置信度超过第一置信度阈值的实体 -属性对进行保存，筛除第一置信度较低的实体-属性对，能够提高实体-属性对的可信程度和精度。

方法实施例三

参照图3，示出了本发明的一种信息挖掘方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤301、获取实体对应的多个属性；

步骤302、从实体对应的多个属性中获取对所述实体有指向性的关键属性；

步骤303、依据所述实体和所述关键属性，建立实体-关键属性对，并保存所述实体-关键属性对。

在实际应用中，一个实体对应的属性是多种多样的，对应一个实体来说，从网站获取的属性只是其附属信息，因此该属性可能无法很好的满足用户的需求。

本发明实施例可以从实体对应的多个属性中获取对所述实体有指向性的关键属性，并依据所述实体和所述关键属性，建立和保存实体-关键属性对；这样，在信息服务过程中，可以依据该关键属性向用户提供相应的信息服务，以更好地满足用户的需求。

例如，本发明实施例的实体-关键属性对可以应用于人机交互、人机竞赛、抢答等QA场景中，在接收当前自然语言问题后，可以获取所述当前自然语言问题对应的关键属性，并将所述关键属性对应或指向的实体作为当前自然语言问题对应的答案。由于可以在接收完整的自然语言问题之前，确定当前自然语言问题对应的答案，因此能够提高QA场景下的答案反馈效率和准确度。

在本发明的一种应用示例中，实体“霍达”对应的可以属性包括：“出生地”、“毕业院校”、“信仰”、“界别”、“民族”、“政协职务”、“国籍”、“代表作品”、“出生日期”、“身高”、“成名作品”、“所获荣誉”等，其中，“出生地”、“毕业院校”、“信仰”、“界别”、“民族”、“政协职务”、“国籍”、“代表作品”、“出生日期”、“身高”、“所获荣誉”等可以指向多个实体，因此，可以认为，“出生地”、“毕业院校”、“信仰”、“界别”、“民族”、“政协职务”、“国籍”、“代表作品”、“出生日期”、“身高”、“所获荣誉”等不具备对“霍达”的指向性；而“成名作品”可以指向“霍达”，故本发明实施例可以从实体“霍达”对应的多个属性中挖掘出对其有指向性的关键属性“成名作品”，如“穆斯林的葬礼”，并建立和保存实体-关键属性对<霍达，穆斯林的葬礼>。这样，在QA场景下，假设完整问题为“矛盾文学奖作品《穆斯林的葬礼》的作者是谁”，若当前接收到的还未完整显示的问题为“矛盾文学奖作品《穆斯林的葬礼》”，则可以确定该问题对应的关键属性是“穆斯林的葬礼”，并可以将实体-属性对中“穆斯林的葬礼”对应或者指向的实体作为当前自然语言问题对应的备选答案，即为“霍达”，由此可以提高QA场景下的答案反馈效率和准确度。

可以理解，本领域技术人员可以实际应用需求，将上述实体-关键属性对应用于除了QA之外的其他应用场景，本发明实施例对于实体-关键属性对的具体应用场景不加以限制。

在实际应用中，步骤301可以按照图1所包含的步骤101至步骤103，获取实体对应的多个属性。或者，步骤301可以从网站的结构化数据中获取实体对应的多个属性，例如，可以通过百科词条的名片、tag(属性)列表等结构化数据，抽取实体E对应的多个属性<t₁,t₂,...,t_n>，其中，n为正整数。可以理解，本发明实施例对于步骤301获取实体对应的多个属性的具体过程不加以限制。

本发明实施例中，关键属性对实体有指向性，也即，通过关键属性能够链接和跳转到该关键属性对应的实体。在本发明的一种可选实施例中，上述从实体对应的多个属性中获取对所述实体有指向性的关键属性的302，可以包括：

针对所述实体对应的各属性，统计获取各属性对应的条件概率；所述属性对应的条件概率可以为预置语料中出现所述实体的情况下同时出现所述属性的概率；

将所述条件概率超过概率阈值的属性作为对所述实体有指向性的关键属性。

其中，上述预置语料可以为网页文本语料、结构化数据语料等任意语料，可选地，上述网页文本语料可以包括：百科网页语料、互联网微博语料、互联网博客语料等。例如，可以在海量网页文本语料中统计实体-属性对<E,t> 的条件概率作为特征，以挖掘对于实体E有指向性的属性t。

预置语料中出现所述实体的情况下同时出现所述属性的条件概率可以表示为p(实体|属性)＝count(实体,属性)/count(属性)，该p(实体|属性)可以反映属性对于实体E的指向程度。

例如，对于E＝“霍达”，<t＝穆斯林葬礼>在预置语料中出现的次数为100，而<t＝穆斯林葬礼>和“霍达”同时出现的次数为90，则p(实体|属性)＝0.9，说明<t＝穆斯林葬礼>是一个对于“霍达”有指向性的属性。而<t＝女>在预置语料中出现的次数为10000，而<t＝女>和“霍达”同时出现的次数为80，则 p(实体|属性)＝0.008，故<t＝女>则对“霍达”不具备指向性。

本领域技术人员可以根据实际应用需求，确定上述概率阈值，例如，该上述概率阈值可以为0.5等数值，可以理解，上述概率阈值越高，则关键属性对实体的指向性越强。

可以理解，上述依据预置语料中出现所述实体的情况下同时出现所述属性的条件概率、从所述实体对应的多个属性中获取对所述实体有指向性的关键属性的方式只是作为可选实施例，实际上，还可以依据预置语料中出现所述属性的情况下同时出现所述实体的条件概率和/或预置语料中实体和属性的共现信息，从所述实体对应的多个属性中获取对所述实体有指向性的关键属性，本发明实施例对于从所述实体对应的多个属性中获取对所述实体有指向性的关键属性的具体方式不加以限制。

综上，本发明实施例的信息挖掘方法，可以从实体对应的多个属性中获取对所述实体有指向性的关键属性，并依据所述实体和所述关键属性，建立和保存实体-关键属性对；这样，在信息服务过程中，可以依据该关键属性向用户提供相应的信息服务，以更好地满足用户的需求。

方法实施例四

参照图4，示出了本发明的一种信息挖掘方法实施例四的步骤流程图，具体可以包括如下步骤：

步骤401、获取实体对应的多个属性；

步骤402、从实体对应的多个属性中获取对所述实体有指向性的关键属性；

步骤403、依据所述实体和所述关键属性，建立实体-关键属性对；

步骤404、确定实体-关键属性对对应的第二置信度；

步骤405、若所述第二置信度超过第二置信度阈值，则保存所述实体- 关键属性对。

相对于图3所示方法实施例三，本发明实施例在保存所述实体-关键属性对之前，可以确定实体-关键属性对对应的第二置信度，若所述第二置信度超过第二置信度阈值，则保存所述实体-关键属性对。其中，第二置信度可用于表示实体-关键属性对的可信程度，这样，本发明实施例针对第二置信度超过第二置信度阈值的实体-属性对进行保存，筛除第二置信度较低的实体-关键属性对，能够提高实体-关键属性对的可信程度和精度。

在本发明的一种可选实施例中，上述确定实体-属性对对应的第二置信度的步骤403，可以包括：

针对所述实体-关键属性对，提取对应的独立特征和/或联合特征；其中，所述独立特征用于表示所述实体-关键属性对中实体或者关键属性自身的特征，所述联合特征用于表示所述实体-关键属性对中实体和关键属性的特征；

依据所述实体-关键属性对对应的独立特征和/或联合特征，确定对应的第二置信度。

可选地，所述独立特征可以包括如下特征中的至少一种：所述实体或者关键属性对应词汇在实体-属性对集合中的词频、共现次数、分布熵和在实体-属性对中作为后缀的次数；和/或

所述联合特征可以包括如下特征中的至少一种：所述实体-关键属性对在实体-属性对集合中的共现信息、互相的条件概率和独立特征的差值。

在实际应用中，可以依据所述实体-关键属性对对应的独立特征和/或联合特征，得到相应的第二特征向量，并通过置信度模型将该第二特征向量转换为对应的第二置信度。

其中，置信度模型可以为机器学习模型，可以依据实体-属性对样本和非实体-属性对样本两类别的样本对应的特征向量，对实体-属性对样本和非实体-属性对样本进行训练，以得到上述置信度模型；这样，上述置信度模型针对第二特征向量输出的第二置信度可用于表示一个实体-属性对属于实体-属性对的可信度，可选地，上述置信度模型输出的第二置信度的范围在 [0,1]之间，其中，1表示一个实体-属性对属于实体-属性对的第二可信度为 100％，0表示一个实体-属性对属于实体-属性对的可信度为0。

对于实体-关键属性对对应的独立特征和/或联合特征、以及对应的第二置信度的确定过程而言，由于其与实施例二中实体-属性对对应的独立特征和/或联合特征、以及对应的第一置信度的确定过程类似，故在此不作赘述，相互参照即可。

本领域技术人员可以根据实际应用需求，确定上述第二置信度阈值，例如，该上述第二置信度阈值可以为0.6、0.7、0.8等数值，可以理解，第二置信度阈值越高，则最终保存的实体-属性对的精度越高。可以理解，若所述第二置信度未超过第二置信度阈值，则可以不保存该实体-关键属性词，例如可以丢弃该实体-关键属性对。

综上，本发明实施例的信息挖掘方法，在保存实体-关键属性对之前，可以确定实体-关键属性对对应的第二置信度，若所述第二置信度超过第二置信度阈值，则保存所述实体-关键属性对。其中，第二置信度可用于表示实体-关键属性对的可信程度，这样，本发明实施例针对第二置信度超过第二置信度阈值的实体-关键属性对进行保存，筛除第二置信度较低的实体-关键属性对，能够提高实体-关键属性对的可信程度和精度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图5，示出了本发明的一种信息挖掘装置实施例的结构框图，具体可以包括：目标语句获取模块501、主宾提取模块502、实体属性对建立模块503、以及实体属性对保存模块504；

其中，上述目标语句获取模块501，用于从网页文本语料中获取包含预置谓语的目标语句；

上述主宾提取模块502，用于从所述目标语句对应的句法分析结果中提取主语和宾语；

上述实体属性对建立模块503，用于依据提取得到的主语和宾语，建立实体-属性对；

上述实体属性对保存模块504，用于保存所述实体-属性对。

可选地，所述装置还可以包括：

实体关键属性对保存模块，用于保存所述实体-关键属性对。

可选地，所述关键属性获取模块可以包括：

可选地，所述装置还可以包括：

则所述实体属性对保存模块504，具体用于在所述第一置信度超过第一置信度阈值时，保存所述实体-属性对。

可选地，所述装置还可以包括：

可选地，所述第一置信度确定模块可以包括：

可选地，所述第二置信度确定模块可以包括：

可选地，所述独立特征可以包括如下特征中的至少一种：所述实体或者属性或者关键属性对应词汇在实体-属性对集合中的词频、共现词数、分布熵和在实体-属性对中作为后缀的次数；和/或

所述联合特征可以包括如下特征中的至少一种：所述实体-属性对或者实体-关键属性对在实体-属性对集合中的共现信息、互相的条件概率和独立特征的差值。

综上，本发明实施例的信息挖掘装置，可以针对非结构化或者半结构化的网页文本进行句法分析，并基于对应的句法分析结果从中挖掘出实体-属性对，而非结构化或者半结构化的网页文本的更新速度可以与实体或者实体对应属性的更新速度相当或者等同，因此，本发明实施例可以从时效性更强的网页文本中及时地挖掘出新增实体或者实体的最新属性，进而能够提高实体信息的时效性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于信息挖掘的装置900作为终端时的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O) 的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908 和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器 (SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910 包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件 914还可以检测装置900或装置900一个组件的位置改变，用户与装置900 接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD 图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914 还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在 NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是根据一示例性实施例示出的一种用于信息挖掘的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序 1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端或服务器的处理器执行时，使得终端能够执行一种信息挖掘方法，所述方法包括：从网页文本语料中获取包含预置谓语的目标语句；从所述目标语句对应的句法分析结果中提取主语和宾语；依据提取得到的主语和宾语，建立实体 -属性对，并保存所述实体-属性对。

可选地，所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从实体对应的多个属性中获取对所述实体有指向性的关键属性；

依据所述实体和所述关键属性，建立实体-关键属性对，并保存所述实体-关键属性对。

可选地，所述从实体对应的多个属性中获取对所述实体有指向性的关键属性，包括：

针对所述实体对应的各属性，统计获取各属性对应的条件概率；所述属性对应的条件概率为预置语料中出现所述实体的情况下同时出现所述属性的概率；

在所述建立实体-属性对之后，所述保存所述实体-属性对之前，确定所述实体-属性对对应的第一置信度；

若所述第一置信度超过第一置信度阈值，则保存所述实体-属性对。

在所述建立实体-关键属性对之后，所述保存所述实体-关键属性对之前，确定所述实体-关键属性对对应的第二置信度；

若所述第二置信度超过第二置信度阈值，则保存所述实体-关键属性对。

可选地，所述确定实体-属性对对应的第一置信度，包括：

针对所述实体-属性对，提取对应的独立特征和/或联合特征；其中，所述独立特征用于表示所述实体-属性对中实体或者属性自身的特征，所述联合特征用于表示所述实体-属性对中实体和关键属性的特征；

可选地，所述确定实体-关键属性对对应的第二置信度，包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种信息挖掘方法、一种信息挖掘装置和一种用于信息挖掘的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信息挖掘方法，其特征在于，包括：

从网页文本语料中获取包含预置谓语的目标语句；

从所述目标语句对应的句法分析结果中提取主语和宾语；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述从实体对应的多个属性中获取对所述实体有指向性的关键属性的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，在所述建立实体-属性对之后，所述保存所述实体-属性对之前，所述方法还包括：

确定所述实体-属性对对应的第一置信度；

5.根据权利要求2所述的方法，其特征在于，在所述建立实体-关键属性对之后，所述保存所述实体-关键属性对之前，所述方法还包括：

确定所述实体-关键属性对对应的第二置信度；

6.根据权利要求4所述的方法，其特征在于，所述确定实体-属性对对应的第一置信度的步骤，包括：

7.根据权利要求5所述的方法，其特征在于，所述确定实体-关键属性对对应的第二置信度的步骤，包括：

8.根据权利要求6或7所述的方法，其特征在于，所述独立特征包括如下特征中的至少一种：所述实体或者属性或者关键属性对应词汇在实体-属性对集合中的词频、共现次数、分布熵和在实体-属性对中作为后缀的次数；和/或

所述联合特征包括如下特征中的至少一种：所述实体-属性对或者实体-关键属性对在实体-属性对集合中的共现信息、互相的条件概率和独立特征的差值。

9.一种信息挖掘装置，其特征在于，包括：

实体属性对保存模块，用于保存所述实体-属性对。

10.一种用于信息挖掘的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从网页文本语料中获取包含预置谓语的目标语句；

从所述目标语句对应的句法分析结果中提取主语和宾语；