CN107784048A

CN107784048A - 问答语料库的问题分类方法及装置

Info

Publication number: CN107784048A
Application number: CN201611036159.4A
Authority: CN
Inventors: 韩茂琨; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2018-03-09
Anticipated expiration: 2036-11-14
Also published as: CN107784048B

Abstract

本发明公开了一种问答语料库的问题分类方法及装置。该问答语料库的问题分类方法，包括：采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注，形成已标注问题；对已标注问题进行问题类型和问题内容抽取，获取原始数据；采用特征提取工具对原始数据进行特征提取，以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征；对三组原始分类特征进行线性组合，形成特征数据集；采用线性核的支持向量机对特征数据集进行分类，输出分类结果。该问答语料库的问题分类方法中，仅需对问题进行问题类型标注，无需耗费大量的人力成本进行焦点词标注，即可实现对问答语料库中的问题进行分类，分类效率高且成本低。

Description

问答语料库的问题分类方法及装置

技术领域

本发明涉及文本信息处理领域，尤其涉及一种问答语料库的问题分类方法及装置。

背景技术

自动问答系统(Question and Answering，简称QA)综合运用知识表示、信息检索、自然语言处理等技术，能够接收用户以自然语言形式输入问题，即可返回简洁而准确的答案的系统。自动问答系统相比于传统的搜索引擎，具有更方便、更准确的优点，是当前自然语言处理及人工智能领域的研究热点。在自动问答系统应用在具体业务时，自动问答系统会接收客户输入的大量的问题数据，自动答问系统上设有用于存储问题数据的问答语料库，问答语料库存储客户输入的问题数据，以电子计算机为载体，对问题数据进行分类，以确定客户关注的问题，有助于利用自动问答系统的用户提高服务质量。

现有自动问答系统中，在对问答语料库中进行分类过程通常采用统计机器学习(Machine Learning)的CRFs(Conditional Random Fields，条件随机域)模型，在采用CRFs模型对问题数据进行分类过程中，需先对问答语料库中的每一问题中的焦点词和疑问词进行标注，然后利用已标注焦点词和疑问词的数据集来训练CRFs模型。其中，疑问词的标注可采用词性标注工具自动获取，但焦点词标注通常只能采用人工标注。在问答语料库中存储有大量的问题数据，对大量的问题数据中的焦点词进行人工标注过程需耗费大量的人工成本，而人工标注过程效率慢，且容易出错，影响对问答语料库中的问题数据进行分类的效果。

发明内容

本发明要解决的技术问题在于，针对现有问答语料库中的问题进行分类时需采用人工标注焦点词所存在的不足，提供一种问答语料库的问题分类方法及装置。

本发明解决其技术问题所采用的技术方案是：一种问答语料库的问题分类方法，包括：

采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注，形成已标注问题；

对所述已标注问题进行问题类型和问题内容抽取，获取原始数据；

采用特征提取工具对所述原始数据进行特征提取，以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征；

对所述三组原始分类特征进行线性组合，形成特征数据集；

采用线性核的支持向量机对所述特征数据集进行分类，输出分类结果。

优选地，所述问题类型包括简写、实体、描述、人物、地点、数字和未知。

优选地，所述特征提取工具包括斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具中的至少一种。

优选地，所述采用线性核的支持向量机对所述特征数据集进行分类，输出分类结果，包括：

将所述特征数据集按预设比例划分成训练集、验证集和测试集；

将所述训练集上的特征数据集输入线性核的支持向量机进行训练，并通过所述验证集上的数据特征集进行验证，输出验证结果；

判断所述验证结果是否大于预设验证值；

若所述验证结果大于所述预设验证值，则保留训练结果模型，并采用所述测试集上的数据特征集进行测试，输出分类结果。

优选地，还包括：采用文本预处理算法对所述问答语料库中的每一问题进行预处理；所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。

本发明还提供一种问答语料库的问题分类装置，包括：

问题类型标注单元，用于采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注，形成已标注问题；

原始数据获取单元，用于对所述已标注问题进行问题类型和问题内容抽取，获取原始数据；

特征提取单元，用于采用特征提取工具对所述原始数据进行特征提取，以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征；

线性组合单元，用于对所述三组原始分类特征进行线性组合，形成特征数据集；

分类处理单元，用于采用线性核的支持向量机对所述特征数据集进行分类，输出分类结果。

优选地，所述分类处理单元包括：

数据集划分子单元：用于将所述特征数据集按预设比例划分成训练集、验证集和测试集；

训练验证子单元，用于将所述训练集上的特征数据集输入线性核的支持向量机进行训练，并通过所述验证集上的数据特征集进行验证，输出验证结果；

比较判断子单元，用于判断所述验证结果是否大于预设验证值；

判断处理子单元，用于在所述验证结果大于所述预设验证值时，保留训练结果模型，并采用所述测试集上的数据特征集进行测试，输出分类结果。

优选地，还包括预处理单元，用于采用文本预处理算法对所述问答语料库中的每一问题进行预处理；所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。

本发明与现有技术相比具有如下优点：本发明所提供的问答语料库的问题分类方法及装置中，通过对问答语料库中的每一问题进行问题类型标注，以形成已标注问题；再对已标注问题进行问题类型和问题内容抽取，获取原始数据；然后采用特征提取工具对原始数据进行特征提取后进行线性组合，以获得特征数据集；最后采用线性核的支持向量机对特征数据集进行分类，输出分类结果。在该问答语料库的问题分类方法及装置中，仅需对问题进行问题类型标注，无需耗费大量的人力成本进行焦点词标注，即可实现对问答语料库中的问题进行分类，分类效率高且成本低。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例1中问答语料库的问题分类方法的一流程图。

图2是本发明实施例2中问答语料库的问题分类装置的一原理框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

实施例1

图1未出本实施例中的问答语料库的问题分类方法的流程图。如图1所示，该问答语料库的问题分类方法包括如下步骤：

S1：采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注，形成已标注问题。在对问答语料库中的问题进行分类过程中，问题类型选取的适当与否直接影响问题分类的正确率，进而影响整体自动问答系统的性能。预设问题分类体系可以采用哈工大信息检索研究室的问题分类体系，该问题分类体系具有体系成熟的优点。本实施例中，问题类型包括简写(abbreviationn，简称ABBR)、实体(ENTITY)、描述(description，简称DESC)、人物(HUMAN)、地点(lacation，简称LOC)、数字(number，简称NUM)和未知(Unknown)。其中。未知是除简写、实体、描述、人物、地点和数字以外的问题类型。可以理解地，问答语料库中的每一问题的问题类型的划分取决于采用该问答语料库中自动问答系统的应用领域，如在金融服务领域，问答语料库中的问题更多涉及简写、描述、数字等问题类型；在旅游景点参观过程中，其问答语料库中的问题更多涉及地点、人物、描述等问题类型。

S2：对已标注问题进行问题类型和问题内容抽取，获取原始数据。具体地，在对已标注问题进行问题类型和问题内容抽取过程中，使每一已标注问题形成“问题类型：问题内容”这一预设格式的原始数据。以下示出部分已标注问题对应的原始数据：

DES_ABBR：信用卡上的"VRV"字样代表什么？

DES_DESC：信用卡的办理流程能讲一下吗？

DES_NUM：我的信用卡额度是多少？

DES_LOC：信用卡办理要在哪里办理？……

S3：采用特征提取工具对原始数据进行特征提取，以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征。其中，命名实体识别(Named Entity Recognition，简称NER)是指在句子的词序列中定位并识别人名、地名、机构名等实体的任务。词性标注(Part Of Speech Tagging，简称POS_TAG)，是指给句子中每个词一个词性类别的任务；其中，词性类别可能是名词、动词、形容词或其他。句子组块(Chunk)是指句子中相邻的、不嵌套的、内部不包含其他类型组块的词语序列；其中，组块通过由名词、动词、形容词、数词、量词、副词等实词构成。本实施例中，采用特征提取工具对原始数据的命名实体识别、词性标注和句子组块进行特征提取，其原因在于命名实体识别、词性标注和句子组块均可采用特征提取工具自动获取，无需进行人工标注，有利于提高特征提取效率。

本实施例中，特征提取工具包括斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具中的至少一种。

其中，斯坦福自然语言处理工具(即Stanford Natural Language Processing，简称NLP工具)主要研究如何让计算机处理和运用自然语言，包括分词器(Word SegmenterTagger)，词性标注工具(Part-Of-Speech Tagger)，命名实体识别工具(Named EntityRecognizer Tagger)，句法分析器(Parser Tagger)等开源的Java文本分析工具。

哈工大语言技术平台(Language Technology Platform，简称LTP)是一套开放中文自然语言处理系统，基于XML的语言处理结果表示，提供一整套自底向上的丰富、高效、高精度的中文自然语言处理模块，包括中文分词(Word Segmentation，简称WS，是指将汉字序列切分成词序列)、词性标注(Part-of-speech Tagging，简称POS，是指给句子中每个词一个词性类别的任务)、命名实体识别(Named Entity Recognition，简称NER，是指在句子的词序列中定位并识别人名、地名、机构名等实体的任务)、依存语法(Dependency Parsing,简称DP，是指通过分析语言单位内成分之间的依存关系揭示其句法结构)、语义角色标注(Semantic Role Labeling，简称SRL，是指一种浅层的语义分析技术，标注句子中某些短语为给定谓词的论元)。

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码、新增微博分词、新词发现与关键词提取等。

jieba中文分词工具是基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，并采用动态规划查找最大概率路径,找出基于词频的最大切分组合的一种中文分词工具。在对句子组块进行特征提取过程时有较好的效果。

在一种具体实施方式中，可以采用斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具中的任一种特征提取工具完成对命名实体识别、词性标注和句子组块对应的三组原始分类特征的提取，以提高特征提取效率。另一具体实施方式中，也可依据斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具分别对命名实体识别、词性标注和句子组块进行特征提取的效果，分别采取效果更好的特征提取工具进行处理，如采用斯坦福自然语言处理工具对命名实体识别进行特征提取，采用哈工大语言技术平台进行词性标注的特征提取，采用jieba中文分词工具进行句子组块的特征提取，以提高特征提取的整体效果。

在一具体实施方式中，步骤S3之前还包括：采用文本预处理算法对问答语料库中的每一问题进行预处理，以实现对问答语料库中的问题进行数据清洗。文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。中文分词(ChineseWord Segmentation)指的是将一个汉字序列切分成一个一个单独的词。停用词(StopWords)是指在处理自然语言数据时会自动过滤掉的某些字或词，如英文字符、数字、数字字符、标识符号及使用频率特高的单汉字等。采用文本预处理算法对问答语料库中的每一问题进行预处理，有利于节省问答语料库中的存储空间，并提高问答语料库的问题分类方法的处理效率。

S4：对三组原始分类特征进行线性组合，形成特征数据集。本实施例中，将三组原始分类特征按列为序进行线性组合，以形成一个较大的特征数据集，以便于采用线性性的支持向量机进行处理。

S5：采用线性核的支持向量机对特征数据集进行分类，输出分类结果。步骤S5具体包括：

S51：将所述特征数据集按预设比例划分成训练集(train set)、验证集(validation set)和测试集(test set)。训练集用来估计模型；验证集用来确定网络结构或者控制模型复杂程度的参数；测试集则检验最终选择最优的模型的性能。本实施例中，将特征数据集中的10％的数据作为测试集，其余90％的数据可按8.5：1.5的比例分割成训练集和验证集。

S52：将训练集上的特征数据集输入线性核的支持向量机进行训练，并通过验证集上的特征数据集进行验证，获取验证结果。本实施例中采用的线性核的支持向量机为sklearn工具中的linearSVC。

S53：判断验证结果是否大于预设验证值；若验证结果大于预设验证值，则保留训练结果模型，并采用测试集上的特征数据集进行测试，以输出分类结果。若验证结果不大于预设验证值，则重复步骤S52。

本实施例中，采用LinearSVC Classifier作训练的过程具体如下：

$LinearSVC.fit(self，X_train，train_class)：

train_class包括：[DESC，ENTY，DESC，ENTY，ABBR…]

X_train包括：NER,POS,Chunk.

采用Stanford NER Tagger来抽取NER，采用jieba来提取pos_tag和Chun，在训练集(train set)上进行训练，得到X_train：

$X＝hstack((X_words,X_POS))

$X_train＝hstack((X,X_NER))

$X_train＝hstack((X_train,X_Chunk))

再在测试集(test set)上进行测试，得到X_test：

$X＝hstack((X_words,X_POS))

$X_test＝hstack((X,X_NER))

$X_test＝hstack((X_test,X_Chunk))

与X_train与X_test的处理过程相同，其区别在于所采用的数据是在训练集和测试集。

测试：

$test_class＝LinearSVC.predict(self，X_test)

本实施例所提供的问答语料库的问题分类方法中，通过对问答语料库中的每一问题进行问题类型标注，以形成已标注问题；再对已标注问题进行问题类型和问题内容抽取，获取原始数据；然后采用特征提取工具对原始数据进行特征提取后进行线性组合，以获得特征数据集；最后采用线性核的支持向量机对特征数据集进行分类，输出分类结果。在该问答语料库的问题分类方法中，仅需对问题进行问题类型标注，无需耗费大量的人力成本进行焦点词标注，即可实现对问答语料库中的问题进行分类，分类效率高且成本低。

实施例2

图2未出本实施例中的问答语料库的问题分类装置的原理框图。如图2所示，该问答语料库的问题分类装置包括问题类型标注单元10、原始数据获取单元20、特征提取单元30、线性组合单元40、分类处理单元50和预处理单元60。

问题类型标注单元10，用于采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注，形成已标注问题。在对问答语料库中的问题进行分类过程中，问题类型选取的适当与否直接影响问题分类的正确率，进而影响整体自动问答系统的性能。预设问题分类体系可以采用哈工大信息检索研究室的问题分类体系，该问题分类体系具有体系成熟的优点。本实施例中，问题类型包括简写(abbreviationn，简称ABBR)、实体(ENTITY)、描述(description，简称DESC)、人物(HUMAN)、地点(lacation，简称LOC)、数字(number，简称NUM)和未知(Unknown)。其中。未知是除简写、实体、描述、人物、地点和数字以外的问题类型。可以理解地，问答语料库中的每一问题的问题类型的划分取决于采用该问答语料库中自动问答系统的应用领域，如在金融服务领域，问答语料库中的问题更多涉及简写、描述、数字等问题类型；在旅游景点参观过程中，其问答语料库中的问题更多涉及地点、人物、描述等问题类型。

原始数据获取单元20，用于对已标注问题进行问题类型和问题内容抽取，获取原始数据。具体地，在对已标注问题进行问题类型和问题内容抽取过程中，使每一已标注问题形成“问题类型：问题内容”这一预设格式的原始数据。以下示出部分已标注问题对应的原始数据：

DES_ABBR：信用卡上的"VRV"字样代表什么？

DES_DESC：信用卡的办理流程能讲一下吗？

DES_NUM：我的信用卡额度是多少？

DES_LOC：信用卡办理要在哪里办理？……

特征提取单元30，用于采用特征提取工具对原始数据进行特征提取，以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征。其中，命名实体识别(NamedEntity Recognition，简称NER)是指在句子的词序列中定位并识别人名、地名、机构名等实体的任务。词性标注(Part Of SpeechTagging，简称POS_TAG)，是指给句子中每个词一个词性类别的任务；其中，词性类别可能是名词、动词、形容词或其他。句子组块(Chunk)是指句子中相邻的、不嵌套的、内部不包含其他类型组块的词语序列；其中，组块通过由名词、动词、形容词、数词、量词、副词等实词构成。本实施例中，采用特征提取工具对原始数据的命名实体识别、词性标注和句子组块进行特征提取，其原因在于命名实体识别、词性标注和句子组块均可采用特征提取工具自动获取，无需进行人工标注，有利于提高特征提取效率。

在一具体实施方式中，该问答语料库中的问题分类装置还包括预处理单元60，用于采用文本预处理算法对问答语料库中的每一问题进行预处理，以实现对问答语料库中的问题进行数据清洗。文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。停用词(Stop Words)是指在处理自然语言数据时会自动过滤掉的某些字或词，如英文字符、数字、数字字符、标识符号及使用频率特高的单汉字等。采用文本预处理算法对问答语料库中的每一问题进行预处理，有利于节省问答语料库中的存储空间，并提高问答语料库的问题分类装置的处理效率。

线性组合单元40，用于对三组原始分类特征进行线性组合，形成特征数据集。本实施例中，将三组原始分类特征按列为序进行线性组合，以形成一个较大的特征数据集，以便于采用线性性的支持向量机进行处理。

分类处理单元50，用于采用线性核的支持向量机对特征数据集进行分类，输出分类结果。分类处理单元50具体包括：

数据集划分子单元51：用于将所述特征数据集按预设比例划分成训练集(trainset)、验证集(validation set)和测试集(test set)。训练集用来估计模型；验证集用来确定网络结构或者控制模型复杂程度的参数；测试集则检验最终选择最优的模型的性能。本实施例中，将特征数据集中的10％的数据作为测试集，其余90％的数据可按8.5：1.5的比例分割成训练集和验证集。

训练验证子单元52，用于将训练集上的特征数据集输入线性核的支持向量机进行训练，并通过验证集上的特征数据集进行验证，获取验证结果。本实施例中采用的线性核的支持向量机为sklearn工具中的linearSVC。

比较判断子单元53，用于判断验证结果是否大于预设验证值。

判断处理子单元54，用于在验证结果大于预设验证值时，保留训练结果模型，并采用测试集上的特征数据集进行测试，以输出分类结果。若验证结果不大于预设验证值。

本实施例中，采用LinearSVC Classifier作训练的过程具体如下：

$LinearSVC.fit(self，X_train，train_class)：

train_class包括：[DESC，ENTY，DESC，ENTY，ABBR…]

X_train包括：NER,POS,Chunk.

$X＝hstack((X_words,X_POS))

$X_train＝hstack((X,X_NER))

$X_train＝hstack((X_train,X_Chunk))

再在测试集(test set)上进行测试，得到X_test：

$X＝hstack((X_words,X_POS))

$X_test＝hstack((X,X_NER))

$X_test＝hstack((X_test,X_Chunk))

测试：

$test_class＝LinearSVC.predict(self，X_test)

本实施例所提供的问答语料库的问题分类装置中，通过对问答语料库中的每一问题进行问题类型标注，以形成已标注问题；再对已标注问题进行问题类型和问题内容抽取，获取原始数据；然后采用特征提取工具对原始数据进行特征提取后进行线性组合，以获得特征数据集；最后采用线性核的支持向量机对特征数据集进行分类，输出分类结果。在该问答语料库的问题分类装置中，仅需对问题进行问题类型标注，无需耗费大量的人力成本进行焦点词标注，即可实现对问答语料库中的问题进行分类，分类效率高且成本低。

本发明是通过上述具体实施例进行说明的，本领域技术人员应当明白，在不脱离本发明范围的情况下，还可以对本发明进行各种变换和等同替代。另外，针对特定情形或具体情况，可以对本发明做各种修改，而不脱离本发明的范围。因此，本发明不局限于所公开的具体实施例，而应当包括落入本发明权利要求范围内的全部实施方式。

Claims

1.一种问答语料库的问题分类方法，其特征在于，包括：

对所述三组原始分类特征进行线性组合，形成特征数据集；

2.根据权利要求1所述的问答语料库的问题分类方法，其特征在于，所述问题类型包括简写、实体、描述、人物、地点、数字和未知。

3.根据权利要求1所述的问答语料库的问题分类方法，其特征在于，所述特征提取工具包括斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具中的至少一种。

4.根据权利要求1所述的问答语料库的问题分类方法，其特征在于，所述采用线性核的支持向量机对所述特征数据集进行分类，输出分类结果，包括：

判断所述验证结果是否大于预设验证值；

5.根据权利要求1-4任一项所述的问答语料库的问题分类方法，其特征在于，还包括：采用文本预处理算法对所述问答语料库中的每一问题进行预处理；所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。

6.一种问答语料库的问题分类装置，其特征在于，包括：

7.根据权利要求6所述的问答语料库的问题分类装置，其特征在于，所述问题类型包括简写、实体、描述、人物、地点、数字和未知。

8.根据权利要求6所述的问答语料库的问题分类装置，其特征在于，所述特征提取工具包括斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具中的至少一种。

9.根据权利要求6所述的问答语料库的问题分类装置，其特征在于，所述分类处理单元包括：

10.根据权利要求6-9任一项所述的问答语料库的问题分类装置，其特征在于，还包括预处理单元，用于采用文本预处理算法对所述问答语料库中的每一问题进行预处理；所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。