CN109241276A

CN109241276A - 文本中词语分类方法、言语创造性评价方法和系统

Info

Publication number: CN109241276A
Application number: CN201810757336.0A
Authority: CN
Inventors: 沈汪兵; 邵美玲
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2019-01-18
Anticipated expiration: 2038-07-11
Also published as: CN109241276B

Abstract

本发明公开了一种文本中词语分类方法、言语创造性评价方法和系统，其中文本中词语分类方法包括如下步骤；1、分行读取文本，以正则方式分割每行文本数据，获得短语和词语；2、将步骤1获得的短语和词语采用结巴分词进一步切分，获得简单词语；3、设置分类参数，根据词频得到候选主题，进行初步分类；4、选择每一类中词频最高的词语作为本类的主题；5、对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果是，则划分到所述主题下；否则划分到低频词集合中；6、对低频词集合使用word2vec.model作进一步划分；7、统计分类结果。该词语分类方法适用于词汇或词语独立或孤立出现，而不是以篇章或句子形式出现的场景。

Description

文本中词语分类方法、言语创造性评价方法和系统

技术领域

本发明属于数据处理、机器学习与分类领域，具体涉及一种文本中词语的分类方法，以及言语创造性评价方法和系统。

背景技术

分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化(Description and Visualization)、复杂数据类型挖掘(Text/Web/图形图像/视频/音频等)都属于数据挖掘技术。分类是一种基本的机器学习任务。通过事物的分类分析可以确定其类别或彼此间的关联性，能够根据事物特征的相似性或相异性将相似、相近或者相异的事物分别归并或划分到合适的类别或组内。

在已有的技术中，基于TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本频率指数)的向量空间模型文本相似度计算方法是使用最广泛的文本相似度计算方法，这种方法主要以词语或单词在文本中出现的频率以及在文本集中出现的该词的频率来表征词的权重，通过计算向量之间的余弦相似度来计算文本间的相似度，由于该方法忽略了文本中词项的含义，因而也就无法分辨出同义词与多义词，而同义词与多义词对于计算文档相似度具有重要的意义。此外，对于大多数文本数据集而言，词项的数目和文本数目通常都很大，加之采用词频向量模型必须将文本转换为词项数目与文本数目大致相当的矩阵，且经过转换后的矩阵的行数为文本集内的词项数，列数为文本集中的文本数量，两者通常都是几千或几万维，这样下来矩阵维度就很高且结构很稀疏。

基于词项语义来考察文本相似度的方法在文本表示模型上多数沿用了词频向量模型，通过引入外部词典(如WordNet、HowNet、同义词词林等)来计算词项之间的相似度，但该方法无法解决词典中未登录词的语义问题，而且这种方法很难移植到没有语义词典的应用中。

LDA(Latent Dirichlet Allocation)模型是另一种广泛应用于分类的技术，主要是使语料或材料库中提供的各个词语或词汇最终聚集到不同类别的主题下。聚集到相同主题或同一类别中的各个词语或词汇通常在语义上彼此之间的关系更加紧密或近似，而聚集到不同类别或不同主题下的词语或词汇之间的联系更加薄弱或没有明显关联。这种方法的优点在于它避免了对文本材料中各个词语或词汇之间的语义相似性或关联性进行复杂的运算，而且不依赖于外部词典，就能够获得或者提供足够有价值的有关词语或词汇之间语义相似性的信息。但这种方法最显著的不足就是它一般是针对分析较长篇幅的语料或文本中词汇与词语的语义相似度。在实际生活中，许多词汇的呈现是由于情境或即时交流的限制，通常是单个的词汇或词语，孤立的方式出现或者与少数几个词语相伴出现。因此，上述方法可能并不适合具有短篇或者非篇章的词汇语义相似性的分析。

伴随着创新驱动战略的启动和深入，创造性越来越被各行各业所重视。如何评估和测量创造性自然成为一个非常重要的现实问题。通过理论与实践领域的充分联动形成了不少颇具价值的创造性测量工具。总体上，这些创造性测量工具主要围绕创造性思维过程和创造性思维结果(产品)来设计，且可以根据各自特点划分为不同的类别。其中，创造性成就测验、发散思维测验和顿悟类测验是最常用的三种创造性测评工具。创造性成就测验和顿悟类测验的评分相对明确，通常是通过问卷的评定等级或者测试者提供答案的正确与否来确定他们的创造性成就或聚合思维表现。发散思维测验则是一类非常重要和广泛使用的发散思维和创造性潜能的测验工具，其中最常用的是“一物多用测验”(alternative usetest,又称替代用途测验)和“非常规用途测验”(uncommon use test)。一般地，该测验会事先向测验者呈现一个或若干个常规物品，要求测验者在规定时间内尽可能多列举出该物品的其他用途或新应用途。该测验有明显的发散的特点，答案不唯一，因此没有非常客观的方法。当前学界和实践过程中主要是通过哈佛大学Amiable教授提出的同感评估技术或称共识性评估技术(consesus assessment technique,CAT)来对测验者提供的答案进行评估，主要评估言语创造性的灵活性或变通性(flexibility)、原创性(originality)或新颖性(novelty)、以及流畅性(fluency)。由于言语创造性评价测验中词汇或词语的出现通常不是篇章或句子形式，而是少数几个独立或孤立出现的词语。因此，上述的方法无法应用到语言创造性思维尤其是发散思维测验之中。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供了一种基于word2vec的文本中词语分类方法，以及应用该方法的言语创造性评价方法和系统。该词语分类方法适用于词汇或词语独立或孤立出现，而不是以篇章或句子形式出现的场景。本发明提供的言语创造性评价方法基于创造性测验的同感评估技术或共识性评估原理，从流畅性、原创性和变通性三个方面来进行评分。

技术方案：本发明一方面提供了一种文本中词语分类方法，包括如下步骤；

(1)分行读取文本，以正则方式分割每行文本数据，过滤标点符号和数字，获得短语和词语；

(2)将步骤(1)获得的短语和词语进一步切分，并过滤停用词，获得简单词语，设共获得L个简单词语；统计每个简单词语的词频；

(3)设置分类参数K[k,limit]，其中k为频次参数，limit为词频限制参数；词频高于k的词语中选择词频最高的前limit个设置为候选主题；对L个简单词语依次判断属于哪个候选主题，进行初步分类，设分为M类，M≤limit；

(4)对分类后的结果，选择每一类中词频最高的词语作为本类的主题；

(5)对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果属于本类的主题，则划分到所述主题下；如果不属于本类主题，划分到低频词集合中；

(6)对低频词集合使用word2vec.model作进一步划分；

(7)统计分类结果，得到P类。

所述正则方式分割每行文本数据，包括定义特定字符及特定字符的组合，组成规则字符串；搜索文本匹配一个或多个规则字符串，对文本数据进行过滤。

所述步骤(2)采用结巴分词对短语和词语进一步切分。

步骤(4)中选择每一类中词频最高的词语，且词频大于设定的频次参数k时，该词语才被设为本类的主题，否则本类所有词语都划分到低频词集合中。

作为一种改进，初步分类之后还包括用户自主提升分类精确度，所述用户自主提升分类精确度为：设计相似字文本和相似词文本，对初步分类后的M类词语进行合并，得到N类，N≤M；

所述步骤(4)为：对用户自主提升分类精确度后的结果，选择每一类中词频最高的词语作为本类的主题。

另一方面，本发明提供了一种言语创造性评价方法，包括如下步骤：

(S1)获取用户输入的言语文本；

(S2)采用上述任一种文本中词语分类方法对言语文本进行分类；

(S3)根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；所述原创性为当前用户输入的某个词语在所有用户群体输入的词语中出现的频次；

所述流畅性为言语分类结果中所有类别的词语个数之和；

所述变通性为言语分类结果中的类别数。

同时，本发明提供了一种言语创造性评价系统，包括数据导入模块、数据处理模块、运行模块和输出模块；所述数据导入模块用于接收用户输入的言语文本；所述数据处理模块采用上述任一种文本中词语分类方法对言语文本进行分类；所述运行模块根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；输出模块用于输出或存储中间结果和最终结果。

有益效果：与现有技术相比，本发明公开的文本中词语分类方法具有分类准确，且分类过程可以通过修改停用词文本、相似词文本和相似字文本来调整的优点。言语创造性评价方法和系统数据直接导入，不涉及任何必须的人工处理；操作简单，结果呈现界面友好。分类结果和数据统计结果分别存入result.txt和result.xls中，可以反复使用与保存。result.xls中首个横行即清楚显示各个类别名以及“原创性”、“流畅性”、“变通性”三个指标的结果，纵列依次呈现了每个被试在不同类别中所占的回答数，并在其后统计出流畅性、变通性以及原创性的计分，结果呈现直观易懂。为了保证精度和必要的人工调整，用户可以在查看分类结果后，适当根据需要和理论基础合理提升分类精度或准确度。

附图说明

图1为本发明公开的文本中词语分类方法的流程图；

图2为本发明公开的言语创造性评价系统；

图3为本发明公开的言语创造性评价系统中各模块逻辑关系图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

实施例1：

如图1所示，为本发明公开的文本中词语分类方法的流程图，包括如下步骤：

步骤1、分行读取文本，以正则方式分割每行文本数据，过滤标点符号和数字，获得短语和词语；

正则方式分割每行文本数据，包括定义特定字符及特定字符的组合，组成规则字符串；搜索文本匹配一个或多个规则字符串，对文本数据进行过滤；

文本中的短语间存在“，”、“。”和“；”等标点符号则自动转换成空格，获得相应词组。

步骤2、将步骤1获得的短语和词语进一步切分，并过滤停用词，获得简单词语，设共获得L个简单词语；统计每个简单词语的词频；

本发明中采用结巴分词对短语和词语进一步切分；停用词为无意义字符或词语，如“想不到了”、“不知道”等无实际意义回答。本实施例中停用词组成stopWord文本，通过过滤stopWord文本中的停用词，将无意义词语过滤掉。

stopWord文本可以通过多次测评和训练来调整，使之给出的分类结果越来越准确。

步骤3、设置分类参数K[k,limit]，其中k为频次参数，limit为词频限制参数；词频高于k的词语中选择词频最高的前limit个设置为候选主题；对L个简单词语依次判断属于哪个候选主题，进行初步分类，设分为M类，M≤L。如果词频高于k的词语不足limit个，那么最终选择的候选主题数目为词频高于k的词语的数目，少于limit，这种情况下M＜limit。考虑一般情况，有M≤limit。

分类参数K[k,limit]的设置要合理，k和limit的取值要与待处理的词语数据量相匹配。

步骤4、对分类后的结果，选择每一类中词频最高的词语作为本类的主题；

步骤5、对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果属于本类的主题，则划分到所述主题下；如果不属于本类主题，划分到低频词集合中；

为了取得更好的聚类效果，步骤4中选择每一类中词频最高的词语，且词频大于设定的频次参数k时，该词语才被设为本类的主题，否则本类所有词语都划分到低频词集合中。

步骤6、对低频词集合使用word2vec.model作进一步划分；

步骤7、统计分类结果，得到P类。

实施例2：

通常情况下，实施例1中的分类结果可以符合要求，用户不需进行处理。在某些精度要求高的情况下，为了获得更精确的分类效果，用户可以人为干预分类。本实施例在步骤3的初步分类之后还包括用户自主提升分类精确度，所述用户自主提升分类精确度为：设计相似字文本和相似词文本，对初步分类后的M类词语进行合并，得到N类，N≤M；由此步骤4在用户自主提升分类精确度的结果上操作，所述步骤(4)为：对用户自主提升分类精确度后的结果，选择每一类中词频最高的词语作为本类的主题。

本实施例中相似词文本命名为Normalword.txt，表示的是同类词语的处理单元。例如，“铁钉”提供的功能包括“打孔”和“钻孔”，应该划分为同一类别之中。假设系统根据某种内在运算结果将其划分为两个不同类别时，通过Normalword.txt，将“打孔”和“钻孔”两个词语合并为同一类别。

本实施例中相似字文本命名为simchar.txt，其是在Normalword.txt的基础上又一次精细划分。例如，铁钉的“打孔”和“钻孔”都表示同一含义，则可以把“打”和“钻”放在simchart.txt中的同一行，将包含这两个字的词语划分在同一个类别中。

与stopWord文本类似，Normalword.txt和simchar.txt文本也可以通过多次测评和训练来调整，使之给出的分类结果越来越准确，这也是本方法的一大优点。

实施例3：

本发明还公开了一种应用上述文本中词语分类方法的言语创造性评价方法，该方法基于创造性测验的同感评估技术或共识性评估原理，从流畅性、原创性和变通性三个方面来进行评分，包括如下步骤：

(S1)获取用户输入的言语文本；

(S2)采用上述文本中词语分类方法对言语文本进行分类；

(S3)根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；根据同感性评分规则，所述原创性为当前用户输入的某个词语在所有用户群体输入的词语中出现的频次；

所述流畅性为言语分类结果中所有类别的词语个数之和；

所述变通性为言语分类结果中的类别数。

本发明公开的言语创造性评价方法可以应用于图2所示的言语创造性评价系统中，该系统包括数据导入模块、数据处理模块、运行模块和输出模块；各模块间的逻辑关系如图3所示。其中，数据导入模块用于接收用户输入的言语文本data.txt；数据处理模块采用上述文本中词语分类方法对言语文本data.txt进行分类，处理过程中还需要输入停止词stopWord文本、相似词文本Normalword.txt和相似字simchar.txt这三个文本；运行模块根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果，用户可以根据评价结果，修改停止词stopWord文本、相似词文本Normalword.txt和相似字simchar.txt这三个文本来进一步提升分类准确度；输出模块用于输出或存储中间结果和最终结果。本实施例中，分类结果保存在result.txt文件中，创造性评价结果保存在result.xls文件中，可以反复使用与保存。

为了评估言语创造性评价系统的可靠性，本实施例借助已有数据对系统评价结果与三名经过训练人员(简称a,b,c)的评价结果之间的关联性进行分析。该数据为152名测试者就“蜡烛”的非常规用途测试或发散思维测验的结果。如表1所示，三名人工处理关于“蜡烛”变通性(flexibility)结果的一致性相关系数为0.979，与言语创造性评价系统得出的结果，其肯德尔相关系数为0.836，除去第一位评分者后的肯德尔相关系数为0.810。三名人工处理关于“蜡烛”流畅性(fluency)结果的肯德尔相关系数为1，与言语创造性评价系统得出的结果肯德尔相关系数为0.860，除去第一位评分者后的相关系数为0.834。同时，三名人工处理关于“蜡烛”原创性(originality)结果的一致性相关系数为0.804，与言语创造性评价系统得出的结果肯德尔相关系数为0.627，除去第一位评分者后肯德尔相关系数为0.638。

表1系统评分与a,b,c三位评分者结果关联性分析

	系统与a、b、c	系统与b、c	a,b与c
				流畅性	0.860	0.834	1.000
变通性	0.836	0.810	0.979
				原创性	0.627	0.638	0.804

Claims

1.文本中词语分类方法，其特征在于，包括如下步骤；

(6)对低频词集合使用word2vec.model作进一步划分；

(7)统计分类结果，得到P类。

2.根据权利要求1所述的文本中词语分类方法，其特征在于，所述正则方式分割每行文本数据，包括定义特定字符及特定字符的组合，组成规则字符串；搜索文本匹配一个或多个规则字符串，对文本数据进行过滤。

3.根据权利要求1所述的文本中词语分类方法，其特征在于，所述步骤(2)采用结巴分词对短语和词语进一步切分。

4.根据权利要求1所述的文本中词语分类方法，其特征在于，初步分类之后还包括用户自主提升分类精确度，所述用户自主提升分类精确度为：设计相似字文本和相似词文本，对初步分类后的M类词语进行合并，得到N类，N≤M；

5.根据权利要求1所述的文本中词语分类方法，其特征在于，步骤(4)中选择每一类中词频最高的词语，且词频大于设定的频次参数k时，该词语才被设为本类的主题，否则本类所有词语都划分到低频词集合中。

6.言语创造性评价方法，其特征在于，包括如下步骤：

(S1)获取用户输入的言语文本；

(S2)采用权利要求1-5中任一项所述的文本中词语分类方法对言语文本进行分类；

所述流畅性为言语分类结果中所有类别的词语个数之和；

所述变通性为言语分类结果中的类别数。

7.言语创造性评价系统，其特征在于，包括数据导入模块、数据处理模块、运行模块和输出模块；所述数据导入模块用于接收用户输入的言语文本；所述数据处理模块采用权利要求1-5中任一项所述的文本中词语分类方法对言语文本进行分类；所述运行模块根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；输出模块用于输出或存储中间结果和最终结果。