CN113536772A

CN113536772A - 一种文本处理方法、装置、设备及存储介质

Info

Publication number: CN113536772A
Application number: CN202110801284.4A
Authority: CN
Inventors: 郭帅
Original assignee: Zhejiang Nuonuo Network Technology Co ltd
Current assignee: Zhejiang Nuonuo Network Technology Co ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-22

Abstract

本申请公开了一种文本处理方法、装置、设备及存储介质，包括：获取原始待处理文本，对原始待处理文本进行预处理，得到目标待处理文本；对各个目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个目标待处理文本对应的词权重；利用文本表示方法获取与各个目标待处理文本对应的词向量；基于词权重和词向量确定相应的文本向量，并利用各个文本向量对待处理文本进行文本挖掘。本申请通过对原始待处理文本进行预处理得到目标待处理文本，然后分别利用依存句法分析和文本表示方法确定目标待处理文本的词权重和词向量，在此基础上确定文本向量以进行文本挖掘，提高文本向量表示的准确度，进而提高文本挖掘深度和精确度。

Description

一种文本处理方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种文本处理方法、装置、设备及存储介质。

背景技术

在信息爆炸的时代，从大量的基础信息中挖掘出潜在的信息量能在较大程度上提升工作效率。对于基于文本向量进行文本挖掘的方式，文本向量化的精确度直接影响文本挖掘的结果。

传统的文本向量化表示主要基于词袋模型和词嵌入模型。词袋模型是信息检索领域常用的文档表示方法，其使用一组词语序列来表示一段文本，但是忽略了词序、语法等文档结构信息，仅仅看作是若干个词汇的集合。基于词袋模型的One-Hot表示、TF表示、TFIDF及其变种表示都无法考虑词语之间的共现关系。另外，词袋模型表示的向量通常维度高，矩阵稀疏，同时会造成计算量非常大。最早的词嵌入模型是2003年由Bengio提出的神经网络语言模型(Neural Network Language Model，NNLM)，最常见的词嵌入模型是2013由T.Mikolov提出的Word2Vec模型。Word2Vec包含Skip-gram模型和CBOW模型，Skip-gram模型假设基于中心词来生成上下文，CBOW模型假设基于上下文来生成中心词。Word2Vec一旦训练好，每个词语的向量表达是固定的，对多义词无法很好的表示和处理，另外Word2Vec只对每个local context window单独训练，没有利用包含在global co-concurrence矩阵中的统计信息。在得到词向量后，通常是对短文本所包含的所有词向量求平均值，当作该短文本的向量。目前也有人使用TFIDF算法生成词权重，再结合Word2Vec词向量生成文本向量，但只考虑词频作为权重未免太单一，生成文本向量精度不够。

因此，如何提供一种文本处理方法以提高文本向量表示的准确度，进而提高文本挖掘深度和精确度是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种文本处理方法、装置、设备及存储介质，能够提高文本向量表示的准确度，进而提高文本挖掘深度和精确度。其具体方案如下：

本申请的第一方面提供了一种文本处理方法，包括：

获取原始待处理文本，并对所述原始待处理文本进行预处理，以得到相应的目标待处理文本；

对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重；

利用文本表示方法获取与各个所述目标待处理文本对应的词向量；

基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量，并利用各个所述文本向量对所述待处理文本进行文本挖掘。

可选的，所述对所述原始待处理文本进行预处理，以得到相应的目标待处理文本，包括：

对所述原始待处理文本进行去重操作，并对去重后的所述原始待处理文本进行分词处理，以得到相应的目标待处理文本。

可选的，所述对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重，包括：

构建与各个所述目标待处理文本对应的依存句法树，并基于所述依存句法树中词语之间的词性关系为所述目标待处理文本的每个词语分配相应的权重，以得到与各个所述目标待处理文本对应的词权重。

可选的，所述基于所述依存句法树中词语之间的词性关系为所述目标待处理文本的每个词语设置相应的权重，包括：

确定所述依存句法树中的核心谓语，并将所述核心谓语的权重设置为第一预设值；

确定所述依存句法树中与所述核心谓语存在主谓关系、动宾关系、间宾关系、前置宾语关系的二类词语，并将所述二类词语的权重设置为第二预设值；

确定所述依存句法树中与所述二类词语存在定中关系、状中关系、并列关系的三类词语，并将所述三类词语的权重设置为第三预设值；

将所述依存句法树中的其他词语确定为四类词语，并将所述四类词语的权重设置为第四预设值；

其中，所述第一预设值、所述第二预设值、所述第三预设值、所述第四预设值的数值大小依次递减。

可选的，所述利用文本表示方法获取与各个所述目标待处理文本对应的词向量，包括：

利用Glove模型获取与各个所述目标待处理文本对应的词向量。

可选的，所述基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量，包括：

利用与所述目标待处理文本对应的所述词权重对所述词向量进行加权求和，以得到相应的文本向量。

可选的，所述利用各个所述文本向量对所述待处理文本进行文本挖掘，包括：

利用流式数据聚类算法对各个所述文本向量进行聚类分析，并确定每类所述文本向量对应的所述待处理文本中的代表文本。

本申请的第二方面提供了一种文本处理装置，包括：

获取模块，用于获取原始待处理文本，并对所述原始待处理文本进行预处理，以得到相应的目标待处理文本；

词权重生成模块，用于对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重；

词向量表示模块，用于利用文本表示方法获取与各个所述目标待处理文本对应的词向量；

文本挖掘模块，用于基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量，并利用各个所述文本向量对所述待处理文本进行文本挖掘。

本申请的第三方面提供了一种电子设备，所述电子设备包括处理器和存储器；其中所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述文本处理方法。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述文本处理方法。

本申请中，先获取原始待处理文本，并对所述原始待处理文本进行预处理，以得到相应的目标待处理文本；然后对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重；接着利用文本表示方法获取与各个所述目标待处理文本对应的词向量；最后基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量，并利用各个所述文本向量对所述待处理文本进行文本挖掘。可见，本申请通过对原始待处理文本进行预处理得到目标待处理文本，然后分别利用依存句法分析和文本表示方法确定目标待处理文本的词权重和词向量，在此基础上确定相应的文本向量以进行文本挖掘，提高文本向量表示的准确度，进而提高文本挖掘深度和精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种文本处理方法流程图；

图2为本申请提供的一种文本中的词性关系示意图；

图3为本申请提供的一种具体的文本处理方法示意图；

图4为本申请提供的一种文本处理装置结构示意图；

图5为本申请提供的一种文本处理电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的文本向量化表示主要基于词袋模型和词嵌入模型。但现有的词袋模型忽略了词序、语法等文档结构信息，仅仅看作是若干个词汇的集合，无法考虑词语之间的共现关系，且词袋模型表示的向量通常维度高，矩阵稀疏，同时会造成计算量非常大。现有的词嵌入模型的权重确定过于太单一，生成文本向量精度不够。针对上述技术缺陷，本申请提供一种文本处理方案，通过对原始待处理文本进行预处理得到目标待处理文本，然后分别利用依存句法分析和文本表示方法确定目标待处理文本的词权重和词向量，在此基础上确定文本向量以进行文本挖掘，提高文本向量表示的准确度，进而提高文本挖掘深度和精确度。

图1为本申请实施例提供的一种文本处理方法流程图。参见图1所示，该文本处理方法包括：

S11：获取原始待处理文本，并对所述原始待处理文本进行预处理，以得到相应的目标待处理文本。

本实施例中，获取原始待处理文本，并对所述原始待处理文本进行预处理，以得到相应的目标待处理文本。上述预处理可进一步包括去重操作和分词操作，也即对所述原始待处理文本进行去重操作，并对去重后的所述原始待处理文本进行分词处理，以得到相应的目标待处理文本。可以使用自然语言处理工具包进行分词和词性获取操作。分词前可以使用自定义的用户词典增加分词的准确性，分词后使用停用词词典、消歧词典过滤掉无关的词语，本实施例对去重和分词的具体手段不进行限定。

S12：对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重。

本实施例中，对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重。具体的，可以构建与各个所述目标待处理文本对应的依存句法树，并基于所述依存句法树中词语之间的词性关系为所述目标待处理文本的每个词语分配相应的权重，以得到与各个所述目标待处理文本对应的词权重。其中，所述依存句法分析的基本任务是确定句式的句法结构(短语结构)或句子中词汇之间的依存关系。也即，所有词汇之间的依存关系构成了一棵句法树，树的根节点为句子核心谓词，用来表达整个句子的核心内容。通过依存句法树中的依赖关系，可以获得具有特定语法关系的两个词汇。如图2所示的句子，“Root”(核心词)和“买”(修饰词)之间存在核心关系，“小王”(修饰词)和“买”(核心词)之间存在主谓关系、“买”(核心词)和“电脑”(修饰词)之间存在动宾关系。

本实施例中，可以借助句法分析工具包对句子进行词性和依存句法分析和构建句法树，例如基于神经网络的高性能依存句法分析器。所述句法分析工具包可以为HanLP、LTP、Stanford Parser、DDparser等。进一步地，实现依存句法分析的算法，大体可分基于图的算法和基于转移的算法。其中，基于图的依存句法可分为自顶向下、自底向上、最大生成树等算法，基于转移的依存句法可分为基于栈、基于列表的算法。基于栈的算法又分为arc-standard和arc-eager算法，本实施例中所述的基于神经网络的高性能依存句法分析是arc-standard优化后的算法。

本实施例中，首先，确定所述依存句法树中的核心谓语，并将所述核心谓语的权重设置为第一预设值；然后，确定所述依存句法树中与所述核心谓语存在主谓关系、动宾关系、间宾关系、前置宾语关系的二类词语，并将所述二类词语的权重设置为第二预设值；其次，确定所述依存句法树中与所述二类词语存在定中关系、状中关系、并列关系的三类词语，并将所述三类词语的权重设置为第三预设值；最后，将所述依存句法树中的其他词语确定为四类词语，并将所述四类词语的权重设置为第四预设值。其中，所述第一预设值、所述第二预设值、所述第三预设值、所述第四预设值的数值大小依次递减。所述第一预设值、所述第二预设值、所述第三预设值、所述第四预设值的数值可根据实际业务需求进行设定，本申请实施例对此不进行限定。

可以理解，词语的不同词性直接影响贡献度和影响力，通过对公共数据集的分析发现，名词动词所占的比重尤其突出，形容词、副词次之，人名、地名、连词、代词等之类的词语所占比重和影响力最低。因此，根据不同依存关系引入一个词性权重。通过调整该权重，凸显词、词汇之间的相对重要程度。本实施例中，对于分词和词性获取，可借助上述如HanLP、LTP等的句法分析工具包。具体来说，首先寻找句子的核心关系，即确定核心谓语，同时标记权重为1；记录跟核心谓语有主谓关系、动宾关系、间宾关系、前置宾语关系的二类词语，标记权重为0.8；记录跟二类词语有定中关系、状中关系、附加关系、并列关系的三类词语，标记权重为0.4；对于其他词语，标记权重为0。

S13：利用文本表示方法获取与各个所述目标待处理文本对应的词向量。

本实施例中，利用文本表示方法获取与各个所述目标待处理文本对应的词向量。上文所述的词袋模型和词嵌入模型均为文本表示方法，本实施例利用Glove模型获取与各个所述目标待处理文本对应的词向量。Glove模型本质上为以加权最小二乘为目标的对数双线性模型，最直观感觉就是一个词语与另外两个不同的词语共现的概率之比可以编码该词的意义，它既可以查找词语最近邻，也可以学习到线性子结构。相对比Word2Vec模型只考虑到词的局部信息，没有考虑到词与局部窗口外词的联系，Glove模型利用共现矩阵，同时考虑了局部信息和整体的信息。利用Glove模型生成词向量的具体过程本申请实施例不再进行赘述。

S14：基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量，并利用各个所述文本向量对所述待处理文本进行文本挖掘。

本实施例中，基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量的具体过程为利用与所述目标待处理文本对应的所述词权重对所述词向量进行加权求和，以得到相应的文本向量。也即累加句子中所有词语的词权重和词向量的乘积，作为该句子对应的向量表达，公式表示为：

另外，利用各个所述文本向量对所述待处理文本进行文本挖掘的过程即为文本聚类的过程，例如，可以利用流式数据聚类算法对各个所述文本向量进行聚类分析，并确定每类所述文本向量对应的所述待处理文本中的代表文本。

表1为分别基于本实施例中的方法步骤及其他现有方法对5000条测试数据进行处理得到的文本向量在用户热点问题挖掘上的结果，本实施例中的方法步骤的结果的准确率、召回率、F分数上、平均Jaccard均比单使用TFIDF做文本向量，或单使用Word2Vec加权平均词向量得到文本向量，都有着明显的提升。

表1测试数据的各指标比对结果

下面结合具体业务咨询场景，对本申请实施例提供的文本处理方法进行具体说明，如图3所示。随着互联网的发展，智能客服成了搜集用户反馈、解决用户需求、回答用户问题的主要途径。每天在聊天群、web端、移动网站等平台累计有上万的咨询问题，如何高质量地从这些咨询的问题中获取用户关注度比较高的问题即热点问题，能帮助减少客服人员的工作量，同时提升用户对智能客服的好感度，某种程度上可增加一定的用户粘性。

为此，本实施例中首先拉取某一历史时间段(如过去90天内)所有的咨询问题，组成语料库。然后对语料库进行去重，使用自然语言处理工具包进行分词和词性获取操作。分词前可以使用自定义的用户词典增加分词的准确性，分词后使用停用词词典、消歧词典过滤掉语料库中无关的词语。针对经过上述步骤处理过的语料库，一方面使用Glove模型计算出每个词语的向量，另一方面使用句法分析工具包，得到每条文本的依存句法树，并利用前述实施例中的基于所述依存句法树中词语之间的词性关系分配权重的方法确定语料库中的词权重，继而计算出语料库中所有文本的向量。最后使用流式数据聚类算法，其中相似算法采用词移距离，将得到的文本向量代入运算后的最终结果即为针对该语料库的分组结果。进一步的，为了提高分组合理性，可以根据设定的阈值或对分组结果进行排序，以保留有价值或有意义的分组。对于进一步筛选后的分组，选取跟聚类中心最接近的问题，作为该类的代表问题，即该类对应的热点问题。

可见，本申请实施例先获取原始待处理文本，并对所述原始待处理文本进行预处理，以得到相应的目标待处理文本；然后对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重；接着利用文本表示方法获取与各个所述目标待处理文本对应的词向量；最后基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量，并利用各个所述文本向量对所述待处理文本进行文本挖掘。本申请实施例通过对原始待处理文本进行预处理得到目标待处理文本，然后分别利用依存句法分析和文本表示方法确定目标待处理文本的词权重和词向量，在此基础上确定相应的文本向量以进行文本挖掘，提高文本向量表示的准确度，进而提高文本挖掘深度和精确度。

参见图4所示，本申请实施例还相应公开了一种文本处理装置，包括：

获取模块11，用于获取原始待处理文本，并对所述原始待处理文本进行预处理，以得到相应的目标待处理文本；

词权重生成模块12，用于对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重；

词向量表示模块13，用于利用文本表示方法获取与各个所述目标待处理文本对应的词向量；

文本挖掘模块14，用于基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量，并利用各个所述文本向量对所述待处理文本进行文本挖掘。

在一些具体实施例中，所述获取模块11，具体用于对所述原始待处理文本进行去重操作，并对去重后的所述原始待处理文本进行分词处理，以得到相应的目标待处理文本。

在一些具体实施例中，所述词权重生成模块12，具体包括：

句法树构建单元，用于构建与各个所述目标待处理文本对应的依存句法树；

第一权重分配单元，用于确定所述依存句法树中的核心谓语，并将所述核心谓语的权重设置为第一预设值；

第二权重分配单元，用于确定所述依存句法树中与所述核心谓语存在主谓关系、动宾关系、间宾关系、前置宾语关系的二类词语，并将所述二类词语的权重设置为第二预设值；

第三权重分配单元，用于确定所述依存句法树中与所述二类词语存在定中关系、状中关系、并列关系的三类词语，并将所述三类词语的权重设置为第三预设值；

第四权重分配单元，用于将所述依存句法树中的其他词语确定为四类词语，并将所述四类词语的权重设置为第四预设值。

在一些具体实施例中，所述词向量表示模块13，具体用于利用Glove模型获取与各个所述目标待处理文本对应的词向量。

在一些具体实施例中，所述文本挖掘模块14，具体包括：

文本向量确定单元，用于利用与所述目标待处理文本对应的所述词权重对所述词向量进行加权求和，以得到相应的文本向量；

聚类单元，用于利用流式数据聚类算法对各个所述文本向量进行聚类分析，并确定每类所述文本向量对应的所述待处理文本中的代表文本。

进一步的，本申请实施例还提供了一种电子设备。图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的文本处理方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的文本处理方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的原始待处理文本。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的文本处理方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的文本处理方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的文本处理方法，其特征在于，所述对所述原始待处理文本进行预处理，以得到相应的目标待处理文本，包括：

3.根据权利要求1所述的文本处理方法，其特征在于，所述对各个所述目标待处理文本进行依存句法分析，并基于依存句法分析结果生成与各个所述目标待处理文本对应的词权重，包括：

4.根据权利要求3所述的文本处理方法，其特征在于，所述基于所述依存句法树中词语之间的词性关系为所述目标待处理文本的每个词语设置相应的权重，包括：

5.根据权利要求3所述的文本处理方法，其特征在于，所述利用文本表示方法获取与各个所述目标待处理文本对应的词向量，包括：

6.根据权利要求5所述的文本处理方法，其特征在于，所述基于与所述目标待处理文本对应的所述词权重和所述词向量确定相应的文本向量，包括：

7.根据权利要求1至6任一项所述的文本处理方法，其特征在于，所述利用各个所述文本向量对所述待处理文本进行文本挖掘，包括：

8.一种文本处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的文本处理方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述的文本处理方法。