CN111709226B

CN111709226B - 一种文本处理方法及装置

Info

Publication number: CN111709226B
Application number: CN202010559552.1A
Authority: CN
Inventors: 严洁
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2023-10-13
Anticipated expiration: 2040-06-18
Also published as: CN111709226A

Abstract

本申请公开了一种文本处理方法及装置，所述方法包括：获取手机银行的评论文本；对评论文本进行切词，获得评论文本的切词结果；基于预先构建的评论对象集合，提取切词结果中的评论对象；根据评论对象，利用依存语法获取评论对象对应的评论结果。采用本申请实施例的技术方案，通过预先构建的评论对象集合，能够获得手机银行评论文本中的评论对象及其评论内容，且手机银行的评论文本可以随时从应用商店获得，从而可以及时获得用户对于手机银行评论对象及其评论内容。无需再通过传统的方式获得用户的反馈，降低了评测成本，缩短了评测周期。

Description

一种文本处理方法及装置

技术领域

本发明涉及计算机技术领域，尤其是涉及一种文本处理方法及装置。

背景技术

近年来，手机银行的用户量在不断的增加，银行越来越重视手机银行用户的体验感。例如，精准定位用户的需求，挖掘用户体验痛点，完备手机银行功能和服务，及时有效地为用户提供便捷服务等。

目前，主要通过两种方式获得用户体验感的反馈。第一种：问卷调查，即整理一些关于手机银行的问题，然后以问卷的形式随机找用户进行填写，最后回收问卷并统计整理出结果。第二种：产品体验官，即聘请专业的产品体验官对手机银行进行评测，然后生成评测报告进行分析。

然而，上述两种方式评测成本高，且评测周期长。

发明内容

针对上述问题，本申请提供一种评论分析方法及装置，能够降低评测成本，缩短评测周期。

本申请实施例第一方面提供一种文本处理方法，包括：

获取手机银行的评论文本；

对所述评论文本进行切词，获得所述评论文本的切词结果；

基于预先构建的评论对象集合，提取所述切词结果中的评论对象；

根据所述评论对象，利用依存语法获取所述评论对象对应的评论结果。

可选的，预先构建评论对象集合，包括:

获取所述手机银行的历史评论文本；

对所述历史评论文本进行切词，获得所述历史评论文本的基础词；

计算每一个所述基础词在所述评论文本中的第一出现频率；

计算所述基础词的词频-逆文本频率；

通过词性标注获得所述基础词中的名词和所述分词中的动词；

将第一出现频率大于第一频率阈值的基础词添加至第一候选词集合，将所述词频-逆文本频率大于词频-逆文本频率阈值的基础词添加至第二候选词集合，将所述基础词中的名词和所述基础词中的动词添加至第三候选词集合；

将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为评论对象集合。

可选的，所述将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为评论对象集合，包括：

将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为候选评论对象集合；

将所述候选评论对象集合输入至Word2vec模型中，获得评论对象词义向量集合；

通过聚类算法将所述评论对象词义向量集合中的同义词划分为一类；

将划分为一类的评论对象词义向量按类构成所述评论对象词集合。

可选的，在所述根据所述评论对象，利用依存语法获取所述评论对象对应的评论结果，之后还包括：

获取多个评论文本中的评论对象与所述评论对象对应的评论结果；

通过聚类算法将多个所述评论结果中的同义词划分为一类；

计算每一类的评论结果与所述评论结果对应的评论对象在所述多个评论文本中的第二出现频率；

输出所述第二出现频率大于第二频率阈值的评论对象与所述评论对象对应的评论结果。

可选的，预先构建专有词集合，包括：

获取所述手机银行的历史评论文本；

计算每两个所述基础词的相关性值；

将所述相关性值大于相关性阈值的两个基础词合并成一个组合词；

根据所述组合词构建所述专有词集合。

本申请实施例第二方面提供一种文本处理装置，包括：获取单元、切词单元、提取评论对象单元和提取评论结果单元；

所述获取单元，用于获取手机银行的评论文本；

所述切词单元，用于对所述评论文本进行切词，获得所述评论文本的切词结果；

所述提取评论对象单元，用于基于预先构建的评论对象集合，提取所述切词结果中的评论对象；

所述提取评论结果单元，用于根据所述评论对象，利用依存语法获取所述评论对象对应的评论结果。

可选的，还包括评论对象集合构建单元，用于获取所述手机银行的历史评论文本；

计算每一个所述基础词在所述评论文本中的第一出现频率；

计算所述基础词的词频-逆文本频率；

可选的，所述评论对象集合构建单元，用于将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为候选评论对象集合；

可选的，还包括输出单元，用于获取多个评论文本中的评论对象与所述评论对象对应的评论结果；

通过聚类算法将多个所述评论结果中的同义词划分为一类；

可选的，还包括专有词集合构建单元，用于获取所述手机银行的历史评论文本；

计算每两个所述基础词的相关性值；

根据所述组合词构建所述专有词集合。

相对于现有技术，本申请上述技术方案的优点在于：

本申请实施例提供一种文本处理方法，首先，获取手机银行的评论文本。其次，对评论文本进行切词，获得评论文本的切词结果。然后，基于预先构建的评论对象集合，提取切词结果中的评论对象。最后，根据评论对象，利用依存语法获取评论对象对应的评论结果。

采用本申请实施例的技术方案，通过预先构建的评论对象集合，能够获得手机银行评论文本中的评论对象及其评论内容，且手机银行的评论文本可以随时从应用商店获得，从而可以及时获得用户对于手机银行评论对象及其评论内容。无需再通过传统的方式获得用户的反馈，降低了评测成本，缩短了评测周期。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种文本处理方法的流程图；

图2为本申请实施例提供的一种构建专有词集合的方法的流程图；

图3为本申请实施例提供的一种预先构建评论对象集合的方法的流程图；

图4为本申请实施例提供的又一种预先构建评论对象集合的方法的流程图；

图5为本申请实施例提供的一种输出评论对象与评论结果的方法的流程图；

图6为本申请实施例提供的一种文本处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着手机银行用户的不断增加，银行越来越重视用户的体验感。目前，主要通过两种方式获得用户体验感的反馈。第一种：问卷调查，需要整理一些关于手机银行的问题，然后以问卷的形式随机找用户进行填写，最后回收问卷并统计整理出结果。该种方式人工成本较高，且从设计问题到统计问题的时间周期较长。第二种：产品体验官，即聘请专业的产品体验官对手机银行进行评测，然后生成评测报告进行分析。该种方式依赖于产品体验官的经验，经验越多的产品体验官成本越高，且产品体验官从开始体验到生成报告的时间周期较长。综上，上述两种方式通过人工的方式进行获取，评测成本高，且从开始评测到完成评测需要的评测周期长，实时性较差。

为了解决这一问题，在本申请实施例中，首先，获取手机银行的评论文本。其次，对评论文本进行切词，获得评论文本的切词结果。然后，基于预先构建的评论对象集合，提取切词结果中的评论对象。最后，根据评论对象，利用依存语法获取评论对象对应的评论结果。

下面结合附图，通过实施例来详细说明本申请实施例中文本处理方法和相关装置的具体实现方式。

参见图1，图1为本申请实施例提供的一种文本处理方法的流程图。

S101：获取手机银行的评论文本。

在应用商店中，用户在下载手机银行后，能够在应用商店中对手机银行进行评论，评论中包括了大量用户体验以及需求相关的信息，例如：“下载后能看到页面，输密码弹出个什么鬼文章然后必须点“我知道了”才能进入，结果点完就闪退，试了几次都这样，无语了！”。

获取手机银行的评论文本后，分析评论文本能够知道用户的观点，从而挖掘出用户的需求，提高用户的体验感。

作为一种可能的实现方式，在获取手机银行的评论文本后，可以对收集的评论文本进行清洗，滤除其中的非法标识以及无效信息，以便更好地进行切词。

S102：对所述评论文本进行切词，获得所述评论文本的切词结果。

在获取手机银行的评论文本后，对评论文本进行切词，获得评论文本的切词结果。

本申请实施例不具体限定切词的方式。例如，可以采用Ansj分词器。

作为一种可能的实现方式，由于手机银行的评价文本属于特定领域的文本，一些专有名词可能被基础的切词方式切分为两个词，例如“手机充值”一般会被切分为“手机”和“充值”，从而影响后续评价对象及评价内容的分析。基于此，本申请实施例提供一种预先构建用于分析手机银行的评价文本的专有词集合，以便对手机银行的评论文本进行切词后获得的切词结果更准确。

参见图2，该图为本申请实施例提供的一种构建专有词集合的方法的流程图。

S201：获取所述手机银行的历史评论文本。

基于手机银行的历史评论文本，分析手机银行的历史评论文本中经常出现的内容，以便更好地构建用于手机银行的评价文本的专有词集合。

S202：对所述历史评论文本进行切词，获得所述历史评论文本的基础词。

S203：计算每两个所述基础词的相关性值。

在S202中，将所有历史评论文本的语句切分为基础词。为了保证一个专有名词不被切分为两个基础词，计算每两个基础词之间的相关性值。

本申请不具体限定计算相关性值的方式。例如，可以采用卡方检验、二项式似然比测试等。下面以采用点互信息(Pointwise Mutual Information，PMI)方法为例进行说明。

点互信息的计算公式为：

其中，x和y是两个基础词，在x出现的情况下y出现的条件概率除以y本身出现的概率，表示x和y的相关程度。

S204：将所述相关性值大于相关性阈值的两个基础词合并成一个组合词。

当两个基础词的相关性值大于相关性阈值，则表明两个基础词的内在紧密较高，应该是一个具有独立意义的短语，所以应该将这两个基础词合并成一个组合词。

本申请实施例不具体限定相关性阈值的大小，本领域技术人员可以根据实际需要进行设置。

S205：根据所述组合词构建所述专有词集合。

将得到的所有组合词放在一起，构建成专有词集合，以便后续切词时，基于专有词集合进行切词，以免具有独立意义的词被切分为两个词。

以上是构建专有词集合的方法，下面继续对文本处理方法进行介绍。

S103：基于预先构建的评论对象集合，提取所述切词结果中的评论对象。

下面结合附图介绍一种预先构建评论对象集合的方法。

参见图3，该图为本申请实施例提供的一种预先构建评论对象集合的方法的流程图。

S301：获取所述手机银行的历史评论文本。

S302：对所述历史评论文本进行切词，获得所述历史评论文本的基础词。

S301与S302参照上述S201与S202，在此不再赘述。

S303：计算每一个所述基础词在所述评论文本中的第一出现频率。

S304：计算所述基础词的词频-逆文本频率。

有时候用词频来衡量文章中的一个词的重要性不够全面，下面采用词频-逆文本频率(term frequency–inverse document frequency，TF-IDF)方法计算分析的词频-逆文本频率。

TF值为某个词在文本中出现次数与文本中总次数的比值，IDF值为在语料库中文本总数与包含该词的文档数的比值，如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。

当有TF值和IDF值后，将这两个词相乘，就能得到一个词的TF-IDF的值。TF-IDF值与一个词在文本中的出现次数成正比，与该词在整个语料库中的出现次数成反比。某个词在文本中的TF-IDF越大，那么一般而言这个词在这篇文本的重要性会越高，所以通过计算文本中各个词的TF-IDF值，当某个词的TF-IDF值超过词频-逆文本频率阈值，那么该词就是该文本的关键词。

S305：通过词性标注获得所述基础词中的名词和所述基础词中的动词。

词性标注(Part-of-Speech tagging，POS)，是指为基础词中的每个单词标注一个正确的词性，也即确定每个词是名词、动词、形容词或其他词性的过程。相对而言，命名实体识别(Named Entity Recognition，NER)，是指识别文本中具有特定意义的实体。在研究领域，命名实体识别的任务多是识别出待处理文本中的三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)。

本申请实施例不具体限定词性标注的方法。例如，使用切词工具时，切词工具包含的词性标注功能。

本申请不具体限定S303、S304与S305之间的顺序，可以同时进行，也可以分先后进行。

S306：将第一出现频率大于第一频率阈值的基础词添加至第一候选词集合，将所述词频-逆文本频率大于词频-逆文本频率阈值的基础词添加至第二候选词集合，将所述基础词中的名词和所述基础词中的动词添加至第三候选词集合。

S307：将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为评论对象集合。

作为一种可能的实现方式，为了体现基础词在文章中的位置信息，可以通过Word2vec模型体现词的上下文结构，使构建的评论对象集合更准确。

下面结合附图介绍又一种预先构建评论对象集合的方法。

参见图4，该图为本申请实施例提供的又一种预先构建评论对象集合的方法的流程图。

S401：将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为候选评论对象集合。

S402：将所述候选评论对象集合输入至Word2vec模型中，获得评论对象词义向量集合。

S403：通过聚类算法将所述评论对象词义向量集合中的同义词划分为一类。

S404：将划分为一类的评论对象词义向量按类构成所述评论对象词集合。

按类构成评论对象集合，可以对每个类进行统一命名，命名原则为：首先，依据目前手机银行所有功能、产品标准名称进行命名，即若同一类词集合中包含标准名称词语，即以此名称命名，否则统计每个词出现频率，以频率最高者命名。

基于此，进行评论对象集合构建，具体形式问“类别名：评价属性词集合”。例如转账汇款：转账汇款、转账、汇款、打钱、转钱。

作为一种可能的实现方式，可以通过同义词表对划分为一类的评论对象词义向量进行补充与修正。

以上是构建评论对象集合的方法，下面继续对文本处理方法进行介绍。

S104：根据所述评论对象，利用依存语法获取所述评论对象对应的评论结果。

在评论文本中的评论对象后，利用依存语法获得该评论对象对应的评论结果。

依然以评论文本“下载后能看到页面，输密码弹出个什么鬼文章然后必须点“我知道了”才能进入，结果点完就闪退，试了几次都这样，无语了！”为例进行说明。

基于评论对象集合，获得该评论文本中的评论对象为“输密码”，利用依存语法与“输密码”，获得的评论结果为“闪退”。

由此，“输密码”与“闪退”为上述评论文本中的评论对象与评论结果。

当手机银行的评论文本逐渐增多时，无法逐一查看用户的评论对象。可以将评论较多一些评论对象与评论内容进行输出，下面结合图5具体进行介绍。

参见图5，该图为本申请实施例提供的一种输出评论对象与评论结果的方法的流程图。

S501：获取多个评论文本中的评论对象与所述评论对象对应的评论结果。

S502：通过聚类算法将多个所述评论结果中的同义词划分为一类。

S501与S502参照上述的方法实施例，在此不再赘述。

作为一种可能的实现方式，对评价结果进行同类命名，以评论集合中出现频率最高者命名。

S503：计算每一类的评论结果与所述评论结果对应的评论对象在所述多个评论文本中的第二出现频率。

将评论对象与评论结果作为一对词对，计算该词对在获得的多个评论文本中的出现概率，即第二出现频率。

S504：输出所述第二出现频率大于第二频率阈值的评论对象与所述评论对象对应的评论结果。

本领域不具体限定第二频率阈值的大小，本领域技术人员可以根据实际需要进行设置。

例如，将按照第二出现频率对评论对象与评论结果词对进行排序，输出排名为前几的评论对象与评论结果词对。

本申请实施例提供一种文本处理方法，首先，获取手机银行的评论文本。其次，对评论文本进行切词，获得评论文本的切词结果。然后，基于预先构建的评论对象集合，提取切词结果中的评论对象。最后，根据评论对象，利用依存语法获取评论对象对应的评论结果。采用本申请实施例的技术方案，通过预先构建的评论对象集合，能够获得手机银行评论文本中的评论对象及其评论内容，且手机银行的评论文本可以随时从应用商店获得，从而可以及时获得用户对于手机银行评论对象及其评论内容。无需再通过传统的方式获得用户的反馈，降低了评测成本，缩短了评测周期。

本发明实施例除了提供的一种文本处理方法外，还提供了一种文本处理装置，如图6所示，包括：获取单元601、切词单元602、提取评论对象单元603和提取评论结果单元604，下面分别进行介绍。

获取单元601，用于获取手机银行的评论文本；

切词单元602，用于对所述评论文本进行切词，获得所述评论文本的切词结果；

提取评论对象单元603，用于基于预先构建的评论对象集合，提取所述切词结果中的评论对象；

提取评论结果单元604，用于根据所述评论对象，利用依存语法获取所述评论对象对应的评论结果。

作为一种可能的实现方式，文本处理装置还包括评论对象集合构建单元，用于获取所述手机银行的历史评论文本；

计算每一个所述基础词在所述评论文本中的第一出现频率；

计算所述基础词的词频-逆文本频率；

作为一种可能的实现方式，所述评论对象集合构建单元，用于将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为候选评论对象集合；

作为一种可能的实现方式，文本处理装置还包括输出单元，用于获取多个评论文本中的评论对象与所述评论对象对应的评论结果；

通过聚类算法将多个所述评论结果中的同义词划分为一类；

作为一种可能的实现方式，文本处理装置还包括专有词集合构建单元，用于获取所述手机银行的历史评论文本；

计算每两个所述基础词的相关性值；

根据所述组合词构建所述专有词集合。

相对于现有技术，本申请上述技术方案的优点在于：

本申请实施例提供一种文本处理装置，首先，获取单元获取手机银行的评论文本。其次，切词单元对评论文本进行切词，获得评论文本的切词结果。然后，提取评论对象单元基于预先构建的评论对象集合，提取切词结果中的评论对象。最后，提取评论结果单元根据评论对象，利用依存语法获取评论对象对应的评论结果。采用本申请实施例的技术方案，通过预先构建的评论对象集合，能够获得手机银行评论文本中的评论对象及其评论内容，且手机银行的评论文本可以随时从应用商店获得，从而可以及时获得用户对于手机银行评论对象及其评论内容。无需再通过传统的方式获得用户的反馈，降低了评测成本，缩短了评测周期。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本处理方法，其特征在于，包括：

获取手机银行的评论文本；

根据预先构建的专有词集合对所述评论文本进行切词，获得所述评论文本的切词结果，所述专有词集合包括多个组合词，所述组合词包括相关性值大于相关性阈值的两个基础词；

根据所述评论对象，利用依存语法获取所述评论对象对应的评论结果；

预先构建所述专有词集合，包括：

获取所述手机银行的历史评论文本；

计算每两个所述基础词的相关性值；

根据所述组合词构建所述专有词集合；预先构建所述评论对象集合，包括:

获取所述手机银行的历史评论文本；

计算每一个所述基础词在所述评论文本中的第一出现频率；

计算所述基础词的词频-逆文本频率；

通过词性标注获得所述基础词中的名词和分词中的动词；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为评论对象集合，包括：

3.根据权利要求1所述的方法，其特征在于，在所述根据所述评论对象，利用依存语法获取所述评论对象对应的评论结果，之后还包括：

通过聚类算法将多个所述评论结果中的同义词划分为一类；

4.一种文本处理装置，其特征在于，包括：获取单元、切词单元、提取评论对象单元、提取评论结果单元、专有词集合构建单元和评论对象集合构建单元；

所述获取单元，用于获取手机银行的评论文本；

所述切词单元，用于根据预先构建的专有词集合对所述评论文本进行切词，获得所述评论文本的切词结果，所述专有词集合包括多个组合词，所述组合词包括相关性值大于相关性阈值的两个基础词；

所述提取评论结果单元，用于根据所述评论对象，利用依存语法获取所述评论对象对应的评论结果；

所述专有词集合构建单元，用于获取所述手机银行的历史评论文本；

计算每两个所述基础词的相关性值；

根据所述组合词构建所述专有词集合；

所述评论对象集合构建单元，用于获取所述手机银行的历史评论文本；

计算每一个所述基础词在所述评论文本中的第一出现频率；

计算所述基础词的词频-逆文本频率；

通过词性标注获得所述基础词中的名词和分词中的动词；

5.根据权利要求4所述的装置，其特征在于，所述评论对象集合构建单元，用于将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为候选评论对象集合；

6.根据权利要求4所述的装置，其特征在于，还包括输出单元，用于获取多个评论文本中的评论对象与所述评论对象对应的评论结果；

通过聚类算法将多个所述评论结果中的同义词划分为一类；