CN107301167A

CN107301167A - 一种功性能描述信息识别方法及装置

Info

Publication number: CN107301167A
Application number: CN201710378496.XA
Authority: CN
Inventors: 时金桥; 柳厅文; 李柢颖; 李全刚; 亚静; 谭建龙
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2017-10-27

Abstract

本发明提供一种功性能描述信息识别方法及装置，该方法步骤包括：1)将测试文本按句子切分，过滤句子中包含的噪音；2)根据功性能描述性句子词典对从步骤1)得到的句子进行关键字匹配，过滤无关句子，得到功性能描述性句子候选集合；3)对上述功性能描述性句子候选集合中的功性能描述性句子进行分词，查询词向量表得到句子的向量表示，再输入神经网络模型进行分类，得到句子的分类标签；4)根据上述句子的分类标签，结合句子位置信息，得到文本识别结果。本发明方法及装置能够实现对未知文本尤其是包含大量噪音的网络文本中功性能描述片段的大规模自动识别，从而解决面向情报挖掘的功性能描述信息识别问题。

Description

一种功性能描述信息识别方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种功性能描述信息识别方法及装置。

背景技术

功性能描述信息是指文本内容以描述产品的功能特征和性能特征为主的信息，包括产品的参数、配置等信息。互联网作为现代社会最重要的信息发布、传播和交流的渠道，蕴含着丰富的信息。而对于电子、军工、商业等领域而言，产品的功能特征和性能特征是产品的核心竞争力。故从非结构化的网络文本中自动化识别产品的功性能描述信息，具有重要的情报价值。目前，已有的涉及情报信息的功性能描述识别与抽取的研究较少，相关工作集中在对商业产品的命名实体识别，主要方法分为两大类：一是基于规则与词典的方法，通过制定关键词或简单的规则，采用模式或字符串匹配找到相关信息，二是基于统计机器学习的方法，包括隐马尔可夫模型，最大熵，支持向量机、条件随机场等，实现对文本信息中产品实体识别。

网络文本海量、冗余、异构、不规范、含有大量噪音等特点，给计算机的自动处理带来了巨大的挑战。采用基于规则与词典的方法，进行功性能描述信息的识别，简单的词典和规则，得到的信息包含大量的噪音，无法直接应用。而复杂的规则往往依赖于具体语言、领域和文本风格，不能自适应多元的网络文本。基于统计机器学习的命名实体识别重点在于识别实体类型与边界，输出结果为实体名称与类型，而功性能信息识别的重点在于展示功能和性能特征的文本片段，输出结果应为单个或连续句子。因此，已有的方法和技术不能直接应用于网络文本功性能描述信息的识别问题。

发明内容

本发明的目的在于提供一种功性能描述信息识别方法及装置，该方法及装置能够实现对未知文本尤其是包含大量噪音的网络文本中功性能描述片段的大规模自动识别，从而解决面向情报挖掘的功性能描述信息识别问题。

针对上述目的，本发明所采用的技术方案为：

一种功性能描述信息识别方法，其步骤包括：

1)将测试文本按句子切分，过滤句子中包含的噪音；

2)根据功性能描述性句子词典对从步骤1)得到的句子进行关键字匹配，过滤无关句子，得到功性能描述性句子候选集合；

3)对上述功性能描述性句子候选集合中的功性能描述性句子进行分词，查询词向量表得到句子的向量表示，再输入神经网络模型进行分类，得到句子的分类标签；

4)根据上述句子的分类标签，结合句子位置信息，得到文本识别结果。

进一步地，步骤1)中所述噪音是指与功性能描述无关，且干扰模型分类的信息。

进一步地，步骤2)中所述功性能描述性句子词典是指利用功性能描述信息涉及到的参数名称构建的词典。

进一步地，步骤2)通过功性能描述性句子词典对句子的多个关键字进行匹配，并将匹配结果集合合并，得到功性能描述句子候选集合。

进一步地，步骤3)还包括：将分词后的功性能描述性句子截取为指定长度N；其中所述句子长度不足N时，在该句子后面补填充符PADDING；所述句子长度大于N时，将该句子截取为多段。

进一步地，步骤3)中需预先对神经网络进行训练得到神经网络模型；其中所述训练采用端对端方法。

进一步地，步骤3)中所述神经网络为卷积神经网络或循环神经网络。

进一步地，步骤4)中所述结合句子位置信息是指若连续多个句子均为正例或单句为正例且可接受距离内有正例，则将这组句子或单句抽取出来作为文本识别结果。

更进一步地，所述单句为正例且可接受距离内有正例是指单句为正例且该单句前后15个句子以内有正例。

一种功性能描述信息识别装置，包括预处理模块、词典过滤模块、神经网络分类模块和文本识别模块；

所述预处理模块用于将测试文本按句子切分，过滤句子中包含的噪音；

所述词典过滤模块用于根据功性能描述性句子词典对从所述预处理模块得到的句子进行关键字匹配，过滤无关句子，得到功性能描述性句子候选集合；

所述神经网络分类模块用于对上述功性能描述性句子候选集合中的功性能描述性句子进行分词，查询词向量表得到句子的向量表示，再输入神经网络模型进行分类，得到句子的分类标签；

所述文本识别模块用于根据上述句子的分类标签，结合句子位置信息，得到文本识别结果。

本发明的有益效果在于：本发明提供一种功性能描述信息识别方法及装置，该方法及装置只需要基本的功性能描述性句子词典，就可以实现对未知文本尤其是包含大量噪音的网络文本中功性能描述片段的大规模自动识别。同时利用本发明提供的方法进行功性能描述信息识别，具有以下优点：

1、该方法能有效识别网络文本中功性能描述信息，为电子、军工等领域的情报挖掘提供有力支持；

2、该方法采用基于神经网络的文本分类方法，避免了人工构建特征工程，且系统可移植性强，适用于处理多元海量的网络文本；

3、由于文本中大部分句子为非功性能描述信息，因此该方法在采用神经网络模型进行分类前采用词典过滤方法，可以过滤大量无关句子以有效提高分类效率；经过实验验证，对进行实验的测试文本采用词典过滤方法可以过滤测试文本中98.7％的非功性能描述信息的句子，即未采用词典过滤方法，需要分类判定的句子是采用词典过滤方法处理的句子的75倍。

附图说明

图1是本发明一种功性能描述信息识别方法流程图。

图2是本发明一种功性能描述信息识别方法中神经网络分类模块具体训练和测试过程示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明提供一种功性能描述信息识别方法及装置，所述装置包括预处理模块、词典过滤模块、神经网络分类模块和文本识别模块；如图1所示，所述方法的主要步骤包括：

1)文本预处理，即预处理模块将测试文本按句子切分，过滤句子中包含的噪音；

2)词典过滤，即词典过滤模块根据功性能描述性句子词典对从步骤1)得到的句子进行关键字匹配，过滤无关句子，输出可能的功性能描述性句子候选集合；

3)神经网络模型分类，请参考图2，即神经网络分类模块需要预先训练，采用句子级标注文本，具体的训练过程如图2所示离线训练部分。该神经网络分类过程，主要对步骤2)输出的可能的功性能描述性句子进行处理，具体过程如图2所示在线测试部分。该步骤中神经网络分类模块对上述功性能描述性句子候选集合中的功性能描述性句子进行分词，查询词向量表得到句子的向量表示，再输入已经训练好的神经网络进行分类，得到句子的分类标签；

4)文本识别，即文本识别模块根据上述句子的分类标签，结合句子位置信息，得到文本识别结果。

在步骤3)之后还包括：若有句子未分类，则对未分类的句子循环执行步骤2)-步骤3)，直到测试文本被切分得到的单句处理完毕。步骤4)还包括：将步骤2)-步骤3)所有已分类的单句进行拼接。

该方法的文本预处理中需要过滤的噪音是指如网址信息等与功性能描述无关，且可能会干扰模型分类的信息。

该方法中词典过滤是指通过功性能描述性句子词典对多个关键字进行匹配，并对匹配结果集合合并，得到可能的功性能描述性句子候选集合。所述词典过滤可以有效过滤与功性能描述无关的句子，提高模型分类效率与准确率。

请继续参考图2，该方法中神经网络模型分类分为离线训练和在线测试两部分，其中离线训练过程如图2离线测试部分，输入的语料为标注好的文本，即每个句子预先标记了是否是功性能描述信息。其主要包括以下三步：

i)句子处理，即对句子分词(如连续的英文及数字整体作为一个词，标点符号作为一个词)，并将句子截取为指定长度，如设定句子的词数为指定数目N(即句子的指定长度为N)，词数不足N的句子在后面补填充符PADDING，词数大于N的句子截取为多段。

ii)向量变换，即查询词向量表得到句子的向量表示。其中词向量表即可以利用大规模无标签语料采用word2vec方法训练得到，也可以直接采用要处理的语料的词袋集合的one-hot形式。

iii)模型训练，即采用卷积神经网络(或循环神经网络)对句子进行分类训练，训练好之后卷积神经网络能对输入的句子进行分类得到句子的分类标签。

所述在线测试过程如图2在线测试部分，其输入为测试文本中无分类标签的句子，其主要包括以下三步：

i)句子处理，同离线训练过程i)，即将句子变为定长的词序列。

ii)向量变换，同离线训练过程ii)，即将定长的词序列变为定长向量序列。

iii)模型测试，即将代表句子的定长向量序列输入训练好的卷积神经网络，得到句子的分类标签。

该方法中文本识别是指结合句子的分类标签和位置信息，得到文本识别结果。所述句子位置信息是指若连续多个句子均为正例或单句为正例且可接受距离内有正例，可将这组句子或单句抽取出来作为文本识别结果。

下面以军事论坛的帖子文本为例，识别并抽取其中描述武器参数的单个或连续句子。

1)首先对帖子文本进行预处理，即将帖子文本按句子切分，并过滤句子中网站地址等噪音信息(此处噪音信息是指对与后续判定是否为功性能描述信息无关，且可能会干扰后续规则匹配的文本内容)，这一步采用正则匹配，正则匹配的表达式为：

[a-zA-z]+://[^\s]*

其中正则匹配表达式的目标是匹配形如“http：//www.baidu.com”这种形式的超链接地址，若句子里面有这样的超链接地址就匹配成功，否则匹配不成功。若匹配成功则将匹配到的字段删除，剩下的句子输出到步骤2)。

2)对上述过滤噪音后的句子，采用词典过滤方法。该步主要用来筛选出可能属于武器参数描述的句子，提高分类效率。词典过滤模块匹配出至少包含一个数字和一个武器名称的句子，作为描述武器参数的句子候选集合，输出到步骤3)。其中武器名称采用词典匹配，词典为维基百科的武器分类下的所有词条。

如：“63式自动步枪有点儿沉，比56式半自动步枪稍沉些，20发的弹夹居然是工程塑料的。”可以匹配两个武器名称“63式自动步枪”和“56式半自动步枪”，同时匹配了数字63、56和20，可以认为可能是在讨论武器参数，会被词典过滤模块输出到下一步。

3)对上述步骤2)得到的的句子，采用卷积神经网络对句子分类。该步骤又可分为3步：

i)句子处理，即对句子分词，并将句子截取为指定长度。如设定句子的词数为指定数目N(即句子的指定长度为N)，词数不足N的句子在后面补填充符PADDING，词数大于N的句子截取为多段。

ii)向量变换，即查询词向量表得到句子的向量表示。相同的未登录词应保证有相同的词向量。未登录词的词向量利用随机函数得到与训练词向量维度相同的词向量表示。所述词向量表采用百度百科语料利用word2vec训练得到。如句子词数为N，训练得到的词向量维度为M，则每个句子转换为M*N的向量。

iii)模型分类，需预先训练卷积神经网络模型。训练过程中采用6982个句子作为训练集，正负例分布约为1:1.2，在用1745个句子测试的时候，得到模型分类的f1值为0.88。利用训练好的卷积神经网络模型对输入的每个句子进行分类。将卷积神经网络识别出来的正例认为是描述武器参数的句子，输出到步骤4)。

4)对步骤1)输入的帖子文本，根据步骤3)的输出可得到各句子的分类标签，并根据句子位置，连续L个句子均为正例或单句为正例且最近的正例距离小于D，可将这组句子或单句抽取出来作为文本抽取的结果。其中该实施例中L取2，D取15。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种功性能描述信息识别方法，其步骤包括：

1)将测试文本按句子切分，过滤句子中包含的噪音；

2.如权利要求1所述的方法，其特征在于，步骤1)中所述噪音是指与功性能描述无关，且干扰模型分类的信息。

3.如权利要求1所述的方法，其特征在于，步骤2)中所述功性能描述性句子词典是指利用功性能描述信息涉及到的参数名称构建的词典。

4.如权利要求1所述的方法，其特征在于，步骤2)通过功性能描述性句子词典对句子的多个关键字进行匹配，并将匹配结果集合合并，得到功性能描述句子候选集合。

5.如权利要求1所述的方法，其特征在于，步骤3)还包括：将分词后的功性能描述性句子截取为指定长度N；其中所述句子长度不足N时，在该句子后面补填充符PADDING；所述句子长度大于N时，将该句子截取为多段。

6.如权利要求1所述的方法，其特征在于，步骤3)中需预先对神经网络进行训练得到神经网络模型；其中所述训练采用端对端方法。

7.如权利要求1所述的方法，其特征在于，步骤3)中所述神经网络为卷积神经网络或循环神经网络。

8.如权利要求1所述的方法，其特征在于，步骤4)中所述结合句子位置信息是指若连续多个句子均为正例或单句为正例且可接受距离内有正例，则将这组句子或单句抽取出来作为文本识别结果。

9.如权利要求8所述的方法，其特征在于，所述单句为正例且可接受距离内有正例是指单句为正例且该单句前后15个句子以内有正例。

10.一种功性能描述信息识别装置，包括预处理模块、词典过滤模块、神经网络分类模块和文本识别模块；