CN106502988B

CN106502988B - 一种目标属性抽取的方法和设备

Info

Publication number: CN106502988B
Application number: CN201610950729.4A
Authority: CN
Inventors: 姚佳
Original assignee: Guangdong Hui He Science And Technology Development Co Ltd
Current assignee: Guangdong Hui He science and Technology Development Co., Ltd.
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2019-06-07
Anticipated expiration: 2036-11-02
Also published as: CN106502988A

Abstract

本发明提出了一种目标属性抽取的方法和设备，其中该方法，包括：根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。以此，实现了对目标属性更好地抽取，且具有很好的可移植性以及召回的多样性。

Description

一种目标属性抽取的方法和设备

技术领域

本发明涉及计算机以及信息处理领域，特别涉及一种目标属性抽取的方法和设备。

背景技术

在现有技术中，已有的目标属性抽取的方法，是基于人工确定的抽取规则来进行抽取的，其中，具体的基于人工确定的抽取规则进行抽取的基本思路为：人工制定一些抽取规则，然后符合抽取规则的句子直接抽取得到目标属性。

由此，基于人工确定的抽取规则方法中，所有的抽取知识都需要人工进行指定，十分依赖人工，如此这种方法的可移植性以及召回性是极其不够的。

发明内容

针对现有技术中的缺陷，本发明提出了一种目标属性抽取的方法和设备，用以克服现有技术中的缺陷，以实现更好地对目标属性的抽取。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种目标属性抽取的方法，包括：

根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；

基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；

基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。

在一个具体的实施例中，所述文本信息是基于搜索引擎对所述目标进行搜索得到的。

在一个具体的实施例中，所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型，包括：

根据与目标相关的文本信息进行word2vec的词向量表达训练，生成语义扩展模型；

先对所述文本信息进行文字转拼音处理，生成拼音文本；针对所述拼音文本进行HMM训练，以生成拼音语义扩展模型。

在一个具体的实施例中，所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型，包括：

获取与已知目标及已知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

对进行了切词处理后的文本信息进行词性标注处理，获取对应的名词以及形容词；

利用语义扩展模型对所获取的名词以及形容词进行语义召回，获取语义召回的词；

利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回，获取拼音召回的词；其中，语义召回的词和拼音召回的词都对应有分值；

对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理，生成训练语料；

基于所述训练语料进行目标属性的标注以及CRF参数训练，生成标注模型。

在一个具体的实施例中，所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性，包括：

获取与未知目标及未知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理，生成待标注语料；

利用所述标注模型对所述待标注语料进行处理，生成已标注语料；

从所述已标注语料中抽取所述未知目标的目标属性信息。

本发明还提出了一种目标属性抽取的设备，包括：

第一生成模块，用以根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；

第二生成模块，用以基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；

抽取模块，用以基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。

在一个具体的实施例中，所述第一生成模块，用于：

在一个具体的实施例中，所述第二生成模块，用于：

获取与已知目标及已知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

在一个具体的实施例中，所述抽取模块，用于：

获取与未知目标及未知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

从所述已标注语料中抽取所述未知目标的目标属性信息。

与现有技术相比，本发明提出了一种目标属性抽取的方法和设备，其中该方法，包括：根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。以此，实现了对目标属性更好地抽取，且具有很好的可移植性以及召回的多样性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种标属性抽取的方法的流程示意图；

图2为本发明实施例提出的一种生成标注模型的方法的流程示意图；

图3为本发明实施例提出的一种目标属性抽取的方法的流程示意图；

图4为本发明实施例提出的一种目标属性抽取的设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和出示的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体的，本发明提出了以下具体的实施例：

实施例1

本发明实施例1提出了一种目标属性抽取的方法，如图1所示，包括：

步骤101、根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；

步骤102、基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；

步骤103、基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。

在一个具体的实施例中，步骤101中的所述文本信息是基于搜索引擎对所述目标进行搜索得到的。

具体的，例如可以有百度，bing，谷歌等等搜索引擎。

此外，具体的步骤101，也即所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型，包括：

具体的，word2vec的模型可以参考论文：Distributed Representations ofWords and Phrases and their Compositionality；具体的，Word2vec为用来产生词嵌入的模型。这些模型为浅层和双层神经网络，用来训练以重新建构语言学之词文本，网络以词表现，并且需猜测相邻位置的输入词，在word2vec中bag-of-words假设下，词的顺序是不重要的；训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。

而HMM为隐马尔可夫模型，人工智能中一种决策模型。用于语音识别，行为识别，文字识别以及故障诊断等领域。

具体通过生成的语义扩展模型，目的在于充分利用待标注文本的语义信息，这样能够更加充分的理解待标注文本的意图，而不是仅仅依赖文本本身所有的词信息。另外，在面对有文本拼写错误的情况下，基于拼音语义扩展模型，可以对拼音进行语义召回，保证文本拼写错误的识别准确性。

在一个具体的实施例中，步骤102，也即所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型，如图2所示，包括：

步骤1021、获取与已知目标及已知目标的目标属性相关的文本信息；

步骤1022、对所获取的文本信息进行切词处理；

步骤1023、对进行了切词处理后的文本信息进行词性标注处理，获取对应的名词以及形容词；

步骤1024、利用语义扩展模型对所获取的名词以及形容词进行语义召回，获取语义召回的词；

步骤1025、利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回，获取拼音召回的词；其中，语义召回的词和拼音召回的词都对应有分值；具体的，例如召回的词1的分值可以为0.35，召回的词2的分值为0.34等等。

步骤1026、对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理，生成训练语料；

具体的，比如召回来的词的分值是0.34，需要进行离散化处理，以均衡的按照10份离散化为例来进行说明，则在离散化后是4。同理，若召回分值为0.5，离散化后则为5。

步骤1027、基于所述训练语料进行目标属性的标注以及CRF参数训练，生成标注模型。

在一个具体的实施例中，步骤103，也即所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性，包括：

获取与未知目标及未知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

从所述已标注语料中抽取所述未知目标的目标属性信息。

具体的，在对未知目标的上述操作中，执行了与已知目标相似的步骤1021-步骤1026，后利用

本方案利用了统计模型，保证在目标属性抽取中能够得到扩展性以及高召回率，且本方案不仅对句子本身进行了强分析，还对句子中的关键词(名词、形容词)进行了语义召回，这样就能够保证了对句子的本身语义信息进行更全面的采集。而且还对句子进行了拼音的语义召回，保证了在句子存在一定错误的情况下，依然能够对句子进行正确的解析以及分析。最后，还利用CRF(conditional random field，条件随机场)进行了所有特征信息的汇总，并进行了模型的学习，充分利用所有特征信息。其中，整个过程可以如图3所示。

实施例2

本发明实施例还提出了一种目标属性抽取的设备，如图4所示，包括：

第一生成模块201，用以根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；

第二生成模块202，用以基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；

抽取模块203，用以基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。

具体的，所述文本信息是基于搜索引擎对所述目标进行搜索得到的。

具体的，所述第一生成模块201，用于：

具体的，所述第二生成模块202，用于：

获取与已知目标及已知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

具体的，所述抽取模块203，用于：

获取与未知目标及未知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

从所述已标注语料中抽取所述未知目标的目标属性信息。

与现有技术相比，本发明提出了一种目标属性抽取的方法和设备，其中该方法，包括：根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。以此，实现了对目标属性更好地抽取，且具有很好的可移植性以及高召回性。此外，对句子语义有深度理解，对句子有误的高容忍性。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、系统或装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种目标属性抽取的方法，其特征在于，包括：

基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性；

所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型，包括：

获取与已知目标及已知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

基于所述训练语料进行目标属性的标注以及CRF参数训练，生成标注模型；

所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性，包括：

获取与未知目标及未知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

从所述已标注语料中抽取所述未知目标的目标属性信息。

2.如权利要求1所述的方法，其特征在于，所述文本信息是基于搜索引擎对所述目标进行搜索得到的。

3.如权利要求1所述的方法，其特征在于，所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型，包括：

4.一种目标属性抽取的设备，其特征在于，包括：

抽取模块，用以基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性；

所述第二生成模块，用于：

获取与已知目标及已知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

所述抽取模块，用于：

获取与未知目标及未知目标的目标属性相关的文本信息；

对所获取的文本信息进行切词处理；

从所述已标注语料中抽取所述未知目标的目标属性信息。

5.如权利要求4所述的设备，其特征在于，所述文本信息是基于搜索引擎对所述目标进行搜索得到的。

6.如权利要求4所述的设备，其特征在于，所述第一生成模块，用于：