CN110347800A

CN110347800A - 文本处理方法和装置、以及电子设备和可读存储介质

Info

Publication number: CN110347800A
Application number: CN201910639511.0A
Authority: CN
Inventors: 李嘉淳; 张培
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-18
Anticipated expiration: 2039-07-15
Also published as: CN110347800B

Abstract

本公开提供了一种文本处理方法，包括：获取待处理文本；确定待处理文本中包括的属于多个预定类型词库中每个预定类型词库的词汇量；以及根据词汇量，利用预测模型得到待处理文本的预测价值度。本公开还提供了一种文本处理装置、一种电子设备和一种计算机可读存储介质。

Description

文本处理方法和装置、以及电子设备和可读存储介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种文本处理方法和装置、以及一种电子设备和计算机可读存储介质。

背景技术

随着互联网的快速发展，通过线上渠道获取客户问题留言，并对此留言进行深入分析已经成为提升产品满意度和客户体验的重要方式。

在实现本公开构思的过程中，发明人发现现有技术中至少存在如下问题：对于客户问题留言内容的快速、精准分析尚无法离开人工处理。但人工处理成本较高，效率难以得到有效提升。其中，导致上述问题的原因主要包括：客户问题留言的数量增长迅速，从而导致人工分析的工作量大幅增加。客户问题留言通常具有较强的主观性，获取的问题留言中包含了相当一部分价值较低的信息，这部分价值较低的信息严重影响了分析效率。客户留言时所使用的语言不规范，进一步阻碍了分析效率。

发明内容

有鉴于此，本公开提供了一种能够分析问题价值度，从而提高分析效率的文本处理方法和装置，以及一种电子设备和计算机可读存储介质。

本公开的一个方面提供了一种文本处理方法，该方法包括：获取待处理文本；确定待处理文本的文本长度，以及待处理文本包括的属于多个预定类型词库中每个预定类型词库的词汇量；以及根据文本长度及词汇量，利用预测模型得到待处理文本的预测价值度。

可选地，上述文本处理方法还包括获取预测模型，其中，获取预测模型包括循环执行以下第一循环操作，直至多个第二已处理文本的相关值大于等于预定相关值：获取与多个第一已处理文本一一对应的多个第一样本数据；根据多个第一样本数据及原始预测模型，调整原始预测模型以得到待优化预测模型；以及利用待优化预测模型处理与多个第二已处理文本对应的多个第二样本数据，得到针对多个第二已处理文本中每个第二已处理文本的预测价值度。其中，在针对多个第二已处理文本的相关值大于等于预定相关值的情况下，确定待优化预测模型为预测模型；其中，每个第二已处理文本的相关值包括每个第二已处理文本的预测价值度与每个第二已处理文本的实际价值度的相关值。

可选地，上述调整原始预测模型以得到待优化预测模型包括：利用原始预测模型得到每个第一已处理文本的第一初始预测价值度；以及以原始预测模型作为初始预测模型，循环执行以下第二循环操作，直至第一初始预测价值度与第二初始预测价值度的差值小于等于预定差值：采用预定策略调整初始预测模型，得到调整后初始预测模型；利用调整后初始预测模型得到每个第一已处理文本的第二初始预测价值度；以及在第一初始预测价值度与第二初始预测价值度的差值大于预定差值的情况下，更改预定策略，并以调整后初始预测模型作为初始预测模型，以第二初始预测价值度作为第一初始预测价值度，返回重新调整初始预测模型。其中，在第一初始预测价值度与第二初始预测价值度的差值小于等于预定差值的情况下，确定初始预测模型为待优化预测模型。

可选地，在获取多个第一样本数据之前，第一循环操作还包括：根据预定抽样比，从已处理文本库中获取多个第一已处理文本。在得到针对多个第二已处理文本中每个第二已处理文本的预测价值度之前，第一循环操作还包括：从已处理文本库中获取多个第二已处理文本，以及获取多个第二已处理文本中每个第二已处理文本的实际价值度。第一循环操作还包括：调整预定抽样比；和/或增加多个预定类型词库中至少一个预定类型词库的词汇量。

可选地，上述获取每个第二已处理文本的实际价值度包括：获取每个第二已处理文本的内容详细度和功能定位准确度；以及根据内容详细度和功能定位准确度，确定每个第二已处理文本的实际价值度。

可选地，上述相关值包括Pearson相关值。

可选地，上述文本处理方法还包括：根据多个待处理文本的预测价值度，确定多个待处理文本的预测价值度的数值分布；根据数值分布，确定预测价值度阈值；以及展示预测价值度大于等于预测价值度阈值的待处理文本。

本公开的另一个方面提供了一种文本处理装置，该装置包括：文本获取模块，用于获取待处理文本；词汇确定模块，用于确定待处理文本的文本长度，以及待处理文本包括的属于多个预定类型词库中每个预定类型词库的词汇量；价值度预测模块，用于根据文本长度及词汇量，利用预测模型得到待处理文本的预测价值度。

可选地，上述文本处理装置还包括：输入单元，用于输入原始预测模型；以及预测模型获取模块，用于获取所述预测模型，具体用于执行以下第一循环操作，直至多个第二已处理文本的相关值大于等于预定相关值：获取与多个第一已处理文本一一对应的多个第一样本数据；根据多个第一样本数据及原始预测模型，调整原始预测模型以得到待优化预测模型；以及利用待优化预测模型处理与多个第二已处理文本对应的多个第二样本数据，得到针对多个第二已处理文本中每个第二已处理文本的预测价值度。其中，在针对多个第二已处理文本的相关值大于等于预定相关值的情况下，确定待优化预测模型为预测模型；其中，每个第二已处理文本的相关值包括每个第二已处理文本的预测价值度与每个第二已处理文本的实际价值度的相关值。

可选地，在获取多个样本数据之前，上述第一循环操作还包括：根据预定抽样比，从已处理文本库中获取多个第一已处理文本。在得到针对多个第二已处理文本中每个第二已处理文本的预测价值度之前，第一循环操作还包括：从已处理文本库中获取多个第二已处理文本，以及获取多个第二已处理文本中每个第二已处理文本的实际价值度。上述输入单元还用于响应于用户操作：调整预定抽样比；和/或增加多个预定类型词库中至少一个预定类型词库的词汇量。

本公开的另一方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个指令，其中，当所述一个或多个指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的文本处理方法。

本公开的另一方面提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的文本处理方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，通过建立价值度预测模型，能够根据待处理文本属于预定类型词库的词汇量来确定文本的预测价值度。用户根据预测价值度即可选择性的确定是否对该待处理文本进行答复，而无需再人工分析待处理文本价值度。因此可以缩减人工分析成本，并因此提高答复效率。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的文本处理方法和装置、以及电子设备和计算机可读存储介质的应用场景；

图2示意性示出了根据本公开实施例的文本处理方法的流程图；

图3示意性示出了根据本公开另一实施例的文本处理方法的流程图；

图4示意性示出了根据本公开实施例的获取预测模型的流程图；

图5示意性示出了根据本公开实施例的调整原始预测模型得到待优化预测模型的流程图；

图6示意性示出了根据本公开另一实施例的获取预测模型的流程图；

图7示意性示出了根据本公开实施例的获取每个第二已处理文本的实际价值度的流程图；

图8示意性示出了根据本公开实施例的文本处理装置的结构框图；

图9示意性示出了根据本公开另一实施例的文本处理装置的结构框图；以及

图10示意性示出了根据本公开实施例的适于执行文本处理方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种文本处理方法。该方法包括：首先获取待处理文本。然后确定待处理文本的文本长度，以及待处理文本中包括的属于多个预定类型词库中每个预定类型词库的词汇量。最后根据文本长度和词汇量，利用预测模型得到待处理文本的预测价值度。

图1示意性示出了根据本公开实施例的文本处理方法和装置、以及电子设备和计算机可读存储介质的应用场景100。需要注意的是，图1所示仅为可以应用本公开实施例的应用场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据本公开实施例的应用场景100可以包括终端设备101、102、103，网络104和数据库服务器105。网络104用于在终端设备101、102、103与数据库服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

终端设备101、102、103例如可以是支持网页浏览，并且/或者可以安装各种客户端应用的电子设备，包括但不限于台式计算机、膝上型便捷计算机、平板电脑或智能手机等等。

终端设备101、102、103例如还可以具有处理能力，以从数据库服务器105中获取大量已处理文本，并根据该大量的已处理文本得到样本数据以用于训练得到预测模型。该终端设备101、102、103还可以获取安装的客户端应用中实时产生的待处理文本，并根据该预测模型预测待处理文本的价值度。

根据本公开的实施例，如图1所示，该应用场景100还可以包括有服务器106，服务器106可以是提供各种服务的服务器。该服务器106例如可以通过网络104与终端设备101、102、103交互，来根据预先训练好的预测模型对终端设备101、102、103实时产生的待处理文本进行处理，得到预测价值度，以及将该预测价值度反馈给终端设备101、102、103。

根据本公开的实施例，该应用场景100中的数据库服务器105与服务器106还可以为同一服务器，在此不再赘述。

应该理解，图1中的终端设备101、102、103，网络104、数据库服务器105和服务器106的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备101、102、103，网络104、数据库服务器105和服务器106。

图2示意性示出了根据本公开实施例的文本处理方法的流程图。

如图2所示，本公开实施例的文本处理方法可以包括操作S210～操作S230。该文本处理方法可以有终端设备101、102、103执行或者服务器106执行。

在操作S210，获取待处理文本。

根据本公开的实施例，该待处理文本例如可以是用户通过终端设备101、102、103提供的各种应用程序或网页输入的文本。或者，该待处理文本还可以是用户通过与终端设备101、102、103通信连接的其他终端设备输入的。上述操作S210例如可以从数据库服务器105中获取待处理文本，相应地，数据库服务器105中具有与待处理文本对应的存储空间。

根据本公开的实施例，该待处理文本例如可以是用户对银行等机构通过终端设备提供的各功能栏目的留言文本，或对与银行等机构对应的应用程序的评价与反馈文本等。该些待处理文本通常需要工作人员筛选后对其中记载的问题信息等进行答复。

在操作S220，确定待处理文本的文本长度及待处理文本中包括的属于多个预定类型词库中每个预定类型词库的词汇量。

根据本公开的实施例，该操作S220例如可以包括：先对待处理文本进行文字识别，根据识别结果确定待处理文本的文本长度。其中，该文本长度例如可以包括待处理文本包括的文字个数等。然后根据识别结果对待处理文本进行分词处理，得到该待处理文本包括的多个词汇。然后将该多个词汇依次与多个预定类型词库中每个预定类型词库包括的词汇进行比对，确定多个词汇中的每个词汇所属的预定类型词库。最后对多个词汇中属于同一预定类型词库的词汇进行汇总，得到多个词汇中属于多个预定类型词库中每个预定类型词库的词汇数量。

根据本公开的实施例，对待处理文本进行分词处理时例如可以采用基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法等。其中，基于字符串匹配的分词方法例如可以是预定策略将待分析的汉字串与充分大的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功，识别出一个词。其中，按照扫描方法的不同，该基于字符串匹配的分词方法可以包括有正向匹配、逆向匹配和双向匹配。基于理解的分词方法是通过让机器人模拟人对句子的理解，达到识别词的效果。基于统计的分词方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律，从而实现对未知文本的切分。

根据本公开的实施例，其中的预定类型词库例如可以包括：动词词库、名词词库、形容词词库和/或感叹词词库等。本公开对该预定类型词库的设定不作限定，该预定类型词库的类型和个数可以根据实际需求进行设定。例如，在待处理文本包括用户对银行等机构提供的各功能栏目的留言文本时，该预定类型词库例如可以包括：功能栏目重点名词词库、功能栏目一般名词词库、操作动作词库、使用场景副词词库、表达疑问副词词库和形容词词库等。其中，功能栏目重点名词词库例如包括与功能栏目相关度较高的名词，例如可以是功能栏目独有的名词，例如“信用卡”、“理财产品”等。功能栏目一般名词词库例如可以包括提供的多个功能栏目能够共用的名词，例如“本人”等。使用场景副词词库例如可以包括用于表示使用场景、且限制动词或形容词的词汇，例如“净”、“总共”、“都”等。表达疑问副词词库例如可以包括用于表达疑问的语气副词，例如“难道”等。

在操作S230，根据文本长度及词汇量，利用预测模型得到待处理文本的预测价值度。

根据本公开的实施例，该操作S230例如可以是将操作S220得到的待处理文本的文本长度及待处理文本中包括的属于多个预定类型词库中每个预定类型词库的词汇量作为输入向量，输入预测模型，经由预测模型处理后得到待处理文本的预测价值度。其中，该预测模型例如可以包括回归模型，该回归模型的自变量可以包括操作S220得到的属于每个预定类型词库的词汇量，因变量可以包括待处理文本的预测价值度。其中，为了便于输入预测模型，该操作S230还可以先将操作S220得到的文本长度和多个词汇数量组成一维向量，并以该一维向量作为预测模型的输入。

根据本公开的实施例，所述的预测模型例如可以包括多元线性回归模型，该模型的自变量包括七个，该七个自变量分别包括：待处理文本的文本长度、待处理文本包括的词汇中分别属于功能栏目重点名词词库、功能栏目一般名词词库、操作动作词库、使用场景副词词库、表达疑问副词词库和形容词词库的词汇数量，因变量为待处理文本的预测价值度。根据本公开的实施例，预测模型例如可以通过图4～图7描述的方法训练得到，在此不再详述。

综上可知，本公开实施例的文本处理方法，能够对待处理文本的价值度进行预测，从而能够便于工作人员根据待处理文本的预测价值度确定是否需要对该待处理文本进行答复。通过该文本处理方法，无需工作人员再进行待处理文本价值度的评估，使得工作人员可以仅聚焦于价值度较高的留言信息，并因此提高工作效率。

根据本公开的实施例，为了便于工作人员根据预测价值度确定需要答复的待处理文本，本公开实施例的文本处理方法还可以对多个待处理文本的预测价值度进行统计分析，仅向工作人员展示需要答复的待处理文本，从而进一步提高工作人员的工作效率。

图3示意性示出了根据本公开另一实施例的文本处理方法的流程图。

如图3所示，本公开实施例的文本处理方法除了操作S210～操作S230外，还可以包括操作S340～操作S360。

在操作S340，根据多个待处理文本的预测价值度，确定多个待处理文本的预测价值度的数值分布。

根据本公开的实施例，多个待处理文本的预测价值度例如可以包括：根据在预定时段(例如一天内)获取的多个待处理文本，通过多次执行操作S210～操作S230得到的与多个待处理文本一一对应的多个预测价值度。

根据本公开的实施例，该操作S340例如可以包括：先确定多个预测价值度中具有相同值的价值度的个数，然后统计得到各个取值下预测价值度的个数。

根据本公开的实施例，该操作S340例如可以包括：先将多个预测价值度划分至预定的多个价值度区间，然后统计得到每个价值度区间包括的预测价值度个数。然后根据该多个价值度区间中每个价值度区间包括的预测价值度个数，统计得到预测价值度个数随着价值度区间的变化规律。例如，随着价值度区间取值的增大，该预测价值度个数可以呈正态分布等。

在操作S350，根据数值分布，确定预测价值度阈值。在操作S360，展示预测价值度大于等于预测价值度阈值的待处理文本。

根据本公开的实施例，该操作S350例如可以包括：根据数值分布，确定取值大于等于多个预定值中每个预定值的预测价值度个数。例如可以包括确定预测价值度大于等于所述多个预定值(例如0.7、0.75、0.8、0.85、0.9、0.95等)中每个预定值的待处理文本(例如留言文本)占所述多个待处理文本的比例，然后将多个预定值中确定的比例最接近预定比例(例如70％)的预定值作为预测价值度阈值。其中，上述多个预定值和预定比例的取值可以根据实际需求进行设定，本公开对此不作限定。例如，该多个预定值和预定比例的取值可以由工作人员通过终端设备101、102、103提供的输入页面输入得到。

根据本公开的实施例，该操作S350可以包括：先根据数值分布，确定多个预测价值度中取值最大的预定数量(例如10个)预测价值度，然后将该预定数量预测价值度中最小预测价值度的取值作为所述预测价值度阈值。其中，上述的预定数量可以根据实际需求进行设定，本公开对此不作限定。例如，该预定数量可以由工作人员通过终端设备101、102、103提供的输入页面输入得到。

根据本公开的实施例，上述操作S360例如可以包括：先根据操作S350确定的预测价值度阈值，确定多个待处理文本中预测价值度大于等于该预测价值度阈值的待处理文本。然后通过终端设备101、102、103展示给工作人员，以便工作人员对展示的待处理文本进行答复处理。

根据本公开的实施例，为了执行操作S230，在操作S230之前，还需要获取预测模型。因此，如图3所示，本公开实施例的文本处理方法除了操作S210～操作S230外，还可以包括操作S370，获取预测模型。其中，该操作S370例如可以通过图4～图7描述的方法来实现，在此不再详述。

图4示意性示出了根据本公开实施例的获取预测模型的流程图。

如图4所示，本公开实施例可以通过循环执行操作S471～操作S474，直至多个第二已处理文本的相关值大于等于预定相关值来获取预测模型。

首先包括对原始预测模型进行训练的操作，例如可以包括操作S471～操作S472。在操作S471，获取与多个第一已处理文本一一对应的多个第一样本数据。在操作S472，根据多个第一样本数据及原始预测模型，调整原始预测模型以得到待优化预测模型。

根据本公开的实施例，该多个第一已处理文本可以从数据库服务器105中获取。该多个第一处理文本例如可以包括已由工作人员答复或由工作人员确定不答复的留言文本。

与每个第一已处理文本对应的样本数据可以包括：根据该每个第一已处理文本，通过类似于操作S220得到的该每个第一已处理文本的文本长度，及该每个第一已处理文本包括的属于多个预定类型词库的多个词汇数量组成的一维向量。

根据本公开的实施例，原始预测模型例如可以为多元线性回归模型，所述预定的模型调整策略例如可以包括稳健回归(robust regression)策略和/或对数变换策略等。其中，对数变换策略例如可以包括：将该初始预测模型调整为关于自变量的对数值的线性模型、和/或将该初始预测模型调整为关于因变量的对数值的线性模型等。

根据本公开的实施例，采用预定的模型调整策略，对该初始预测模型进行调整得到待优化预测模型例如可以通过图5描述的操作流程来实现，在此不再详述。

在得到待优化预测模型后，需要对该待优化预测模型进行校验。因此，再从数据库服务器105获取多个第二已处理文本，以根据该多个第二已处理文本得到的样本数据来校验待优化预测模型。该校验过程可以包括以下操作S473～操作S474。

在操作S473，利用待优化预测模型处理与多个第二已处理文本一一对应的多个第二样本数据，得到针对多个第二已处理文本中每个第二已处理文本的预测价值度。在操作S474，判断多个第二已处理文本的相关值是否小于预定相关值。

根据本公开的实施例，上述操作S473例如可以包括：将多个第二样本数据依次作为待优化预测模型的输入，通过待优化预测模型处理得到与每个第二样本数据对应的第二已处理文本的预测价值度。

根据本公开的实施例，每个第二已处理文本的实际价值度例如可以由工作人员预先处理得到。或者，该每个第二已处理文本的实际价值度可以通过图7描述的方法得到，在此不再详述。

根据本公开的实施例，每个第二已处理文本的相关值例如可以包括每个第二已处理文本的预测价值度与所述每个第二已处理文本的实际价值度的相关值。其中，该相关值例如可以包括能够用于表征每个第二已处理文本的预测价值度与实际价值度的相关性的参数。例如，该相关值例如可以包括Pearson相关值，例如可以是根据每个第二已处理文本的预测价值度与实际价值度，计算得到的Pearson相关系数。该Pearson相关系数的取值越接近于1或-1，说明第二已处理文本的预测价值度与实际价值度的相关度越强，该第二已处理文本的预测价值度与实际价值度的差值越小，待优化预测模型越准确。

相应地，上述操作S474例如可以包括：先根据每个第二已处理文本的预测价值度和实际价值度，确定每个第二已处理文本的相关值。然后判断每个第二已处理文本的相关值是否小于预定相关值。其中，预定相关值例如可以为0.8。该相关值的取值可以根据实际需求进行设定，本公开对此不作限定。该相关值例如还可以由工作人员通过终端设备101、102、103提供的输入页面输入得到。

根据本公开的实施例，上述操作S474例如可以是判断多个第二已处理文本中的每一个第二已处理文本的相关值是否小于预定相关值。在多个第二已处理文本的相关值均大于预定相关值的情况下，则说明该待优化预测模型的准确率足够高，无需再训练。因此，本公开实施例的文本处理方法还包括操作S475，确定待优化模型为预测模型。该操作S475在操作S474判断结果为多个第二已处理文本的相关值不小于预定相关值时执行。

根据本公开的实施例，考虑到多个第二已处理文本中可能具有非常规文本，因此，操作S474在判断多个第二已处理文本的相关值是否小于预定相关值后，还可以判断多个第二已处理文本的相关值中小于预定相关值的比例是否占多数(例如比例大于80％)，若是，则执行操作S475。

根据本公开的实施例，在多个第二已处理文本的相关值小于预定相关值的情况下，说明待优化预测模型的当前解释力还不足，则还需要对模型进行训练。因此可以返回执行操作S471，以重新训练原始预测模型。

图5示意性示出了根据本公开实施例的调整原始预测模型得到待优化预测模型的流程图。

如图5所示，在操作S472调整原始预测模型得到待优化预测模型时，该操作S472例如可以包括操作S5721、以及以原始预测模型作为初始预测模型，循环执行的操作S5722～操作S5725，直至第一初始预测价值度与第二初始预测价值度的差值小于等于预定差值。

在操作S5721，利用原始预测模型得到每个第一已处理文本的第一初始预测价值度。

根据本公开的实施例，该操作S5721例如可以包括：以与每个第一已处理文本对应的第一样本数据作为自变量，采用原始预测模型计算得到第一初始预测价值度。

在操作S5722，采用预定策略调整初始预测模型，得到调整后初始预测模型。

其中，该预定调整策略可以是前述的对数变换策略或稳健回归策略等统计学常用的调整策略，还可以是将该初始预测模型调整为关于自变量的平方值或平方根的线性模型等。该操作S5722中可以采用任一种预定策略调整初始预测模型。例如，可以采用对数变换策略。

在操作S5723，利用调整后初始预测模型得到每个第一已处理文本的第二初始预测价值度。

根据本公开的实施例，该操作S5723可以包括：以与每个第一已处理文本对应的第一样本数据作为自变量，采用调整后初始预测模型计算得到第二初始预测价值度。

在操作S5724，判断第一初始预测价值度与第二初始预测价值度的差值是否大于预定差值。

其中，预定差值的量级例如可以为10^-2～10^-4量级等，该预定差值的取值可以根据实际需求进行设定，本公开对此不作限定。该预定差值的取值还可以由工作人员通过终端设备101、102、103提供的输入页面输入得到。

在第一初始预测价值度与第二初始预测价值度的差值大于预定差值的情况下，说明当前初始预测模型不稳定，则需要再次优化。因此执行操作S5725，更改预定策略，并以调整后初始预测模型作为初始预测模型，以第二初始预测价值度作为第一初始预测价值度，返回重新调整初始预测模型。其中，更改预定策略例如可以包括：将对数变换策略更改为稳健回归策略等。本公开对此不作限定。

在第一初始预测价值度与第二初始预测价值度的差值小于等于预定差值的情况下，说明初始预测模型基本稳定。因此执行操作S5726，确定初始预测模型为待优化预测模型。

图6示意性示出了根据本公开另一实施例的获取预测模型的流程图。

根据本公开的实施例，在执行图4中的操作S471之前，还应先获取多个第一已处理文本。因此，如图6所示，循环执行的第一循环操作还可以包括操作S676，根据预定抽样比，从已处理文本库中获取多个第一已处理文本。

其中，预定抽样比例如可以根据实际需求进行设定，例如，该预定抽样比可以为10％。操作S676可以包括：根据预定抽样比，采用分层或概率比例规模抽样(PPS抽样)等抽样方法从数据库服务器105中获取多个第一已处理文本。

根据本公开的实施例，在执行图4中的操作S473之前，还应先获取多个第二已处理文本，获取与该多个第二已处理文本一一对应的第二样本数据，以及获取该多个第二已处理文本的实际价值度。因此，如图6所示，上述第一循环操作还包括操作S677，从已处理文本库中获取多个第二已处理文本，以及获取多个第二已处理文本中每个第二已处理文本的实际价值度。其中，获取第二样本数据的方法与获取第一样本数据的方法相同，在此不再赘述。

为了进一步提高预测模型的准确率，在重新训练原始预测模型之前，还可以适当的调整样本数量。因此，如图6所示，第一循环操作可以在确定多个第二已处理文本的相关值大于等于预定相关值的情况下，先执行操作S678，调整预定抽样比。在调整了预定抽样比后，再返回执行操作S676，以重新获取多个第一已处理文本。

根据本公开的实施例，基于统计学规律和留言信息的特征，为了便于后续对待优化预测模型进行校验，应保证在获取多个第一已处理文本后，剩余的已处理文本在300条以上，以将该300条已处理文本作为第二已处理文本。

为了进一步提高预测模型的准确率，在重新训练原始预测模型之前，还可以适当的扩充预定类型词库的词汇量。因此，如图6所示，第一循环操作可以在确定多个第二已处理文本的相关值大于等于预定相关值的情况下，先执行操作S679，增加多个预定类型词库中至少一个预定类型词库的词汇量。在扩充了预定类型词库的词汇量后，再返回执行操作S676，以重新获取第一已处理文本，重新得到样本数据。

根据本公开的实施例，该扩充预定类型词库的词汇量的操作例如可以响应于工作人员对终端设备101、102、103提供的输入页面的操作而执行。工作人员可以通过终端设备101、102、103提供的输入页面输入增加的词汇。

图7示意性示出了根据本公开实施例的获取每个第二已处理文本的实际价值度的流程图。

根据本公开的实施例，如图7所示，获取多个第二已处理文本中每个第二已处理文本的实际价值度的操作例如可以包括操作S7711～操作S7712。

在操作S7711，获取每个第二已处理文本的内容详细度和功能定位准确度。

其中，为了便于获取第二已处理文本的价值度，可以用内容详细度和功能定位准确度来恒量第二已处理文本的价值度。内容详细度例如可以表征该第二已处理文本对应的留言信息的完整度等，若留言信息完整，留言信息表达的问题全面清楚，则内容详细度高。功能定位准确度例如可以用于表征该留言信息指向功能的针对性，若根据该留言信息能够确定对应的功能，则功能定位准确度高。

根据本公开的实施例，该每个第二已处理文本的内容详细度和功能定位准确度可以是在标记后预先存储于数据库服务器105中，则该操作S7711可以在获取多个第二已处理文本的同时获取每个第二已处理文本的内容详细度和功能定位准确度。

在操作S7712，根据内容详细度和功能定位准确度，确定每个第二已处理文本的实际价值度。

根据本公开的实施例，该操作S7712例如可以包括：对内容详细度和功能定位准确度求平均值，得到每个第二已处理文本的实际价值度。该操作S7712还可以根据内容详细度和功能定位准确度的取值规则，来确定实际价值度与内容详细度和功能定位准确度的关系。

图8示意性示出了根据本公开实施例的文本处理装置的结构框图。

如图8所示，本公开实施例的文本处理装置800包括文本获取模块810、词汇确定模块820和价值度预测模块830。

文本获取模块810用于获取待处理文本(操作S210)。

词汇确定模块820用于确定待处理文本的文本长度和待处理文本中包括的属于多个预定类型词库中每个预定类型词库的词汇量(操作S220)。

价值度预测模块830用于根据文本长度及词汇量，利用预测模型得到待处理文本的预测价值度(操作S230)。

根据本公开的实施例，上述相关值例如可以包括皮尔森(Pearson)相关度。

图9示意性示出了根据本公开另一实施例的文本处理装置的结构框图。

如图9所示，本公开实施例的文本处理装置900除了文本获取模块810、词汇确定模块820和价值度预测模块830外，还可以包括输入单元940和预测模型获取模块950。

输入单元940用于输入原始预测模型。其中，该输入单元940例如可以通过显示屏显示有输入界面，该输入界面支持上传留言信息、选择初始预测模型等。

预测模型获取模块950用于获取预测模型(操作S370)，具体用于执行以下循环操作，直至多个第二已处理文本的相关值大于等于预定相关值：先获取与多个第一已处理文本一一对应的多个第一样本数据(操作S471)。再根据多个第一样本数据及原始预测模型，调整原始预测模型以得到待优化预测模型(操作S472)。最后利用待优化预测模型处理与多个第二已处理文本对应的多个第二样本数据，得到针对多个第二已处理文本中每个第二已处理文本的预测价值度(操作S473)。其中，在多个第二已处理文本的相关值大于等于预定相关值的情况下，确定待优化预测模型为所述预测模型；其中，每个第二已处理文本的相关值包括每个第二已处理文本的预测价值度与每个第二已处理文本的实际价值度的相关值。工作人员还可以通过显示屏显示的输入界面，设定该预定相关值。

根据本公开的实施例，上述调整原始预测模型以得到待优化预测模型包括：利用原始预测模型得到每个第一已处理文本的第一初始预测价值度(操作S5721)；以及以原始预测模型作为初始预测模型，循环执行第二循环操作，直至第一初始预测价值度与第二初始预测价值度的差值小于等于预定差值。该第二循环操作包括：先采用预定策略调整初始预测模型，得到调整后初始预测模型(操作S5722)。再利用调整后初始预测模型得到每个第一已处理文本的第二初始预测价值度(操作S5723)。最后在第一初始预测价值度与第二初始预测价值度的差值大于预定差值的情况下，更改预定策略，并以调整后初始预测模型作为初始预测模型，以第二初始预测价值度作为第一初始预测价值度，返回重新调整初始预测模型(操作S5725)。其中，在第一初始预测价值度与第二初始预测价值度的差值小于等于预定差值的情况下，确定初始预测模型为待优化预测模型(操作S5726)。工作人员还可以通过显示屏显示的输入界面，设定该预定差值。

根据本公开的实施例，上述第一循环操作在获取多个第一样本数据之前还包括：根据预定抽样比，从已处理文本库中获取多个第一已处理文本。上述第一循环操作在得到针对多个第二已处理文本中每个第二已处理文本的预测价值度之前还包括：从已处理文本库中获取多个第二已处理文本，以及获取多个第二已处理文本中每个第二已处理文本的实际价值度(操作S677)。上述输入单元940还用于响应于用户操作：调整预定抽样比(操作S678)；和/或增加多个预定类型词库中至少一个预定类型词库的词汇量(操作S679)。工作人员还可以通过显示屏显示的输入界面，设定抽样比、选择抽样方法等。

根据本公开的实施例，上述获取每个第二已处理文本的实际价值度例如可以包括：获取每个第二已处理文本的内容详细度和功能定位准确度(操作S7711)，并根据内容详细度和功能定位准确度，确定每个第二已处理文本的实际价值度(操作S7712)。

根据本公开的实施例，如图9所示，上述文本处理装置900还可以包括数值分布确定模块960、阈值确定模块970和展示模块980。其中，数值分布确定模块960用于根据多个待处理文本的预测价值度，确定多个待处理文本的预测价值度的数值分布(操作S340)。阈值确定模块970用于根据数值分布，确定预测价值度阈值(操作S350)。展示模块980用于展示预测价值度大于等于预测价值度阈值的待处理文本(操作S360)。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，文本获取模块810、词汇确定模块820、价值度预测模块830、输入单元940、预测模型获取模块950、数值分布确定模块960、阈值确定模块970和展示模块980中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，文本获取模块810、词汇确定模块820、价值度预测模块830、输入单元940、预测模型获取模块950、数值分布确定模块960、阈值确定模块970和展示模块980中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，文本获取模块810、词汇确定模块820、价值度预测模块830、输入单元940、预测模型获取模块950、数值分布确定模块960、阈值确定模块970和展示模块980中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图10示意性示出了根据本公开实施例的适于执行文本处理方法的电子设备的框图。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，根据本公开实施例的电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种文本处理方法，包括：

获取待处理文本；

确定所述待处理文本的文本长度，以及所述待处理文本中包括的属于多个预定类型词库中每个预定类型词库的词汇量；以及

根据所述文本长度及所述词汇量，利用预测模型得到所述待处理文本的预测价值度。

2.根据权利要求1所述的方法，还包括获取所述预测模型；

其中，所述获取所述预测模型包括循环执行以下第一循环操作，直至多个第二已处理文本的相关值大于等于预定相关值：

获取与多个第一已处理文本一一对应的多个第一样本数据；

根据所述多个第一样本数据及原始预测模型，调整所述原始预测模型以得到待优化预测模型；以及

利用所述待优化预测模型处理与所述多个第二已处理文本对应的多个第二样本数据，得到针对所述多个第二已处理文本中每个第二已处理文本的预测价值度，

其中，在针对所述多个第二已处理文本的相关值大于等于所述预定相关值的情况下，确定所述待优化预测模型为所述预测模型；其中，每个第二已处理文本的相关值包括每个第二已处理文本的预测价值度与所述每个第二已处理文本的实际价值度的相关值。

3.根据权利要求2所述的方法，其中，调整所述原始预测模型以得到待优化预测模型包括：

利用所述原始预测模型得到所述每个第一已处理文本的第一初始预测价值度；以及

以所述原始预测模型作为初始预测模型，循环执行以下第二循环操作，直至所述第一初始预测价值度与第二初始预测价值度的差值小于等于预定差值：

采用预定策略调整所述初始预测模型，得到调整后初始预测模型；

利用所述调整后初始预测模型得到所述每个第一已处理文本的第二初始预测价值度；以及

在所述第一初始预测价值度与所述第二初始预测价值度的差值大于预定差值的情况下，更改所述预定策略，并以所述调整后初始预测模型作为初始预测模型，以所述第二初始预测价值度作为所述第一初始预测价值度，返回重新调整所述初始预测模型，

其中，在所述第一初始预测价值度与所述第二初始预测价值度的差值小于等于预定差值的情况下，确定所述初始预测模型为所述待优化预测模型。

4.根据权利要求2所述的方法，其中：

在获取所述多个第一样本数据之前，所述第一循环操作还包括：根据预定抽样比，从已处理文本库中获取所述多个第一已处理文本；

在得到针对所述多个第二已处理文本中每个第二已处理文本的预测价值度之前，所述第一循环操作还包括：从已处理文本库中获取所述多个第二已处理文本，以及获取所述多个第二已处理文本中每个第二已处理文本的实际价值度，

所述第一循环操作还包括：

调整所述预定抽样比；和/或

增加所述多个预定类型词库中至少一个预定类型词库的词汇量。

5.根据权利要求4所述的方法，其中，获取所述每个第二已处理文本的实际价值度包括：

获取所述每个第二已处理文本的内容详细度和功能定位准确度；以及

根据所述内容详细度和所述功能定位准确度，确定所述每个第二已处理文本的实际价值度。

6.根据权利要求2所述的方法，其中，所述相关值包括Pearson相关值。

7.根据权利要求1所述的方法，还包括：

根据多个待处理文本的预测价值度，确定所述多个待处理文本的预测价值度的数值分布；

根据所述数值分布，确定预测价值度阈值；以及

展示预测价值度大于等于所述预测价值度阈值的待处理文本。

8.一种文本处理装置，包括：

文本获取模块，用于获取待处理文本；

词汇确定模块，用于确定所述待处理文本的文本长度，以及所述待处理文本包括的属于多个预定类型词库中每个预定类型词库的词汇量；

价值度预测模块，用于根据所述文本长度及所述词汇量，利用预测模型得到所述待处理文本的预测价值度。

9.根据权利要求8所述的装置，还包括：

输入单元，用于输入原始预测模型；以及

预测模型获取模块，用于获取所述预测模型，具体用于执行以下第一循环操作，直至多个第二已处理文本的相关值大于等于预定相关值：

获取与多个第一已处理文本一一对应的多个第一样本数据；

10.根据权利要求9所述的装置，其中：

在得到针对所述多个第二已处理文本中每个第二已处理文本的预测价值度之前，所述第一循环操作还包括：从已处理文本库中获取所述多个第二已处理文本，以及获取所述多个第二已处理文本中每个第二已处理文本的实际价值度；

所述输入单元还用于响应于用户操作：

调整所述预定抽样比；和/或

11.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1～7中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1～7中任一项所述的方法。