CN110717326B

CN110717326B - 基于机器学习的文本信息作者的识别方法及其装置

Info

Publication number: CN110717326B
Application number: CN201910878031.XA
Authority: CN
Inventors: 钱柏丞
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2022-12-23
Anticipated expiration: 2039-09-17
Also published as: CN110717326A

Abstract

本发明的实施例提供了一种基于机器学习的文本信息作者的识别方法及装置。该基于机器学习的文本信息作者的识别方法包括：通过将获取的所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中文本不同的分词出现的频率集合输入预设的机器学习模型，获取由所述机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果。本发明实施例的技术方案可以在在提高作者识别准确率的同时提高作者识别的效率。

Description

基于机器学习的文本信息作者的识别方法及其装置

技术领域

本发明涉及数据分析技术领域，具体而言，涉及一种基于机器学习的文本信息作者的识别方法及装置。

背景技术

由于早期对文学作品的作者缺乏历史记载，在文学作品多年后，无法获知文学作品的作者是谁，是否是人们口头或其他书籍记载的作者。

另外随着互联网技术的不断发展，网络文学作品也火了起来，因网络文学作品的篇幅较长其通常采取每天更新的方式来吸引大量的读者，通过获取读者打赏或者购买阅读币或券的方式获取收益，但因每天更新的字数较多，部分作者能力有限，因此会采取由不知名作者代写，自己审核的方式更新或者由小说生成器等类似的软件生成小说自己再进行修改的方式更新，另外还存在一些不知名的作者冒充知名作者发表等情形，另外因为网络文学作品呈现爆发式增长，进而也就造成对网络作品作者审核的松懈甚至不加审核是否为签约作者所撰写，从而造成网络文学作品环境的混乱，给相关网络文学的读者及与作者签约的平台方造成不良影响。

在现有技术中，通常采用人工的方式对上述场景中的文学作品的作者进行识别判断，其鉴定结果过于雨来人的文学鉴定经验，因此其结果的准确度较低，另外虽然现在也存在一些论文检测技术，该技术重要通过论文中的句子与其他论文中的句子进行比对等方式来进行检测，因此其准确率也较低，灵活性较差。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种基于机器学习的文本信息作者的识别方法及装置，进而可以至少在一定程度上克服现有技术中存在的作者识别效率及准确率低的问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本发明实施例的一个方面，提供了一种基于机器学习的文本信息作者的识别方法，包括：响应于用户端发送的识别请求，提取所述识别请求中包含的待判定的文本信息及待判定的作者；对所述文本信息进行分词，获取所述待判定文本信息的分词结果；确定所述分词结果中各文本不同的分词出现的次数、各词类的分词个数、所述分词结果中分词的总个数；将所述各词类的分词个数，依照预设的词类顺序排列，获取词类个数集合；基于所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数，确定所述分词结果中文本不同的分词出现的频率；将所述分词结果中文本不同的分词出现的频率依照所述分词在所述待判定的文本信息中首次出现的顺序排列，获取所述分词结果中不同的分词出现的频率集合；从预存的数据库中提取所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合；将所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中不同的分词出现的频率集合输入预设的机器学习模型，获取由所述机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果。

根据本发明的一实施例，所述确定各文本不同的分词出现的次数，包括：确定所述分词结果中文本不同的分词结果；针对所述文本不同的分次结果中任一分词结果，在所述分词结果中确定该文本不同的分词结果出现的次数。

根据本发明的一实施例，所述确定各词类的分词个数，包括：

将所述分词结果中每个分词与预设的数据字典库中的分词进行比对，判断是否相同，若相同，则将所述预设数据字典库中对应的分词所属词类确定为所述分词结果中分词对应的词类；基于所述分词结果中每个分词对应的词类，确定所述各词类的分词个数。

根据本发明的一实施例，所述预设机器学习模型通过以下方式进行训练：将预先设置的多个待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本集合；预先确定每个待判定的文本信息的作者是否是该待判定作者的结果；将所述待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本输入预设的机器学习模型，获取由所述机器学习模型输出的是否为所述待确定作者的判断结果，将所述机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果进行比较，如不一致，则调整所述机器学习模型的参数，使所述机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果一致。

根据本发明的一实施例，在所述获取由所述机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果之后，还包括：若所述机器学习模型输出的所述待判定的文本信息的作者是所述待判定的作者，则提取所述待判定的作者的历史记录，若所述待判定的作者的历史记录中包含有多个处罚措施且正处于处罚期内，则将所述待判定文本信息实施上述所述待判定的作者正处于处罚期内的处罚措施。

根据本发明的一实施例，在所述获取由所述机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果之后，还包括：若所述机器学习模型输出的所述待判定的文本信息的作者不是所述待判定的作者，则从预存的数据库中提取其他作者对应的词类个数集合和文本不同的分词出现的频率集合；基于所述其他作者对应的词类个数集合和文本不同的分词出现的频率集合、所述待判定的文本信息对应的词类个数集合和所述分词结果中不同的分词出现的频率集合与预设的机器学习模型，确定所述待判定文本信息对应的作者。根据本发明实施例的一个方面，提供了一种文本信息作者的识别装置，包括：第一获取单元，用于响应于用户端发送的识别请求，提取所述识别请求中包含的待判定的文本信息及待判定的作者；第二获取单元，用于对所述文本信息进行分词，获取所述待判定文本信息的分词结果；第一确定单元，用于确定所述分词结果中各文本不同的分词出现的次数、各词类的分词个数、所述分词结果中分词的总个数；第三获取单元，用于将所述各词类的分词个数，依照预设的词类顺序排列，获取词类个数集合；第二确定单元，用于基于所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数，确定所述分词结果中文本不同的分词出现的频率；第四获取单元，用于将所述分词结果中文本不同的分词出现的频率依照所述分词在所述待判定的文本信息中首次出现的顺序排列，获取所述分词结果中不同的分词出现的频率集合；第五获取单元，用于从预存的数据库中提取所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合；第四确定单元，用于将所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中不同的分词出现的频率集合输入预设的机器学习模型，获取由所述机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果。

根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的基于机器学习的文本信息作者的识别方法。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的基于机器学习的文本信息作者的识别方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，通过将获取的待判定作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和接收的用户端发送的识别请求中包含的待判定文本信息对应的词类个数集合和分词结果中不同的分词出现的频率集合输入预设的机器学习模型，获取由所述预设机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果。同时，由于采用预设的训练好的机器学习模型的方式，可提高对文学作品作者识别的效率。可见，本发明实施例的技术方案可以在保证对作者识别准确率的同时提高作者识别的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的基于机器学习的文本信息作者的识别方法或文本信息作者的识别装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本发明的一个实施例的基于机器学习的文本信息作者的识别方法的流程图；

图4示意性示出了图3中所示的步骤S330的一种实现过程的流程图；

图5示意性示出了图3中所示的步骤S380之后的一种实施过程的流程图；

图6示意性示出了图3中所示的步骤S380之后的另一种实施过程的流程图；

图7示意性示出了根据本发明的一个实施例的文本信息作者的识别装置的框图；

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的基于机器学习的文本信息作者的识别方法或文本信息作者的识别装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如服务器105提取的识别请求中包含的可以是获取一已知署有作者标识的文本信息，也可以是一未知作者的文本信息与推测该未知作者的文本信息的作者的标识。服务器105在提取识别请求中包含的未知作者的文本信息与推测该未知作者的文本信息的作者的标识之后，对所述该未知作者的文本信息进行分词，获取该未知作者的文本信息的分词结果，然后确定该未知作者的文本信息的分词结果中各文本不同的分词出现的次数、各词类的分词个数和该未知作者的文本信息中分词的总个数，将其中各词类的分词个数，依照预设的词类顺序排列以得到该未知作者的文本信息的词类个数集合，然后再确定该未知作者的文本信息的分词结果中文本不同的分词出现的频率，进而将该文本不同的分词频率按照该分词在该未知作者的文本信息中首次出现的次序排列，得到该未知作者的文本信息中文本不同的分词出现的频率集合，再将上述获取的该未知作者的文本信息的词类个数集合和文本不同的分词出现的频率集合与从预存数据库中提取的推测的作者对应的词类个数集合和文本不同的分词出现的频率集合输入预设的机器学习模型中，由该预设的机器学习模型输出该未知作者的文本信息是否是推测的作者所撰写，进而实现了在保证对作者识别的准确率的同时提高了作者识别的效率。

需要说明的是，本发明实施例所提供的基于机器学习的文本信息作者的识别方法一般由服务器105执行，相应地，文本信息作者的识别装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端也可以与服务器具有相似的功能，从而执行本发明实施例所提供的文本信息作者的识别方案。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3至图6所示的各个步骤。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

图3示意性示出了根据本发明的一个实施例的基于机器学习的文本信息作者的识别方法的流程图，该基于机器学习的文本信息作者的识别方法适用于前述实施例中所述的电子设备。参照图3所示，该数据处理方法至少包括步骤S310至步骤S380，详细介绍如下：

在步骤S310中，响应于用户端发送的识别请求，提取所述识别请求中包含的待判定的文本信息及待判定的作者。

在本发明的一个实施例中，待判定的文本信息可以是已署有相应作者标识的文本信息也可以是未知作者的文本信息，当待判定的文本信息是已署有相应作者的标识的文本信息时，则相应的待判定的作者是该已署有相应作者标识的文本信息上署的作者，进而可以通过本发明公开的技术方案检测该文本信息是否为所署名的作者撰写；当待判定的文本信息是未知的作者的文本信息时，则相应的待判定的作者可以是预先推测出的该未知作者的文本信息最有可能的作者，进而可以通过本发明公开的技术方案检测该文本信息是否为所推测的作者所撰写。

在步骤S320中，对所述文本信息进行分词，获取所述待判定文本信息的分词结果。

在本发明的一个实施例中，对所述文本信息机进行分词可采取正向最大匹配法，逆向最大匹配法、最少切分法、双向最大匹配法等方法也可以采用多种分词方法，进而通过加权、方差等常见的方式择优进行分词的方式，目前中文分词技术也发展的较为成熟，进而可以保证分词的结果的准确性。

在步骤S330中，确定所述分词结果中各文本不同的分词出现的次数、各词类的分词个数、所述分词结果中分词的总个数。

在本发明的一实施例中，所述分词是指文本信息的分词结果中的每个词或词语，如得到的一文本信息对应的分词结果为：我、今天、要、坐、飞机、去、北京。则其中的“我”是一个分词，“今天”是一个分词“要”也是一个分词，其他的“坐”是一个分词，“飞机”是一个分词，“去”也是一个分词，“北京”也是一个分词。则该文本信息中的每个分词“我”“今天”“要”“坐”“飞机”“去”“北京”出现的次数均为1，该文本信息中分词的总个数为7。

在本发明的一实施例中，所述词类是指按照词在结构中能起的作用，即词的句法功能分的类，如汉语的词主要分为两大类十四小类，大类即实词和虚词，名词、动词、形容词、数词、量词、代词、区别词共7小类是实词，副词、介词、连词、助词、叹词、语气词、拟声词等7小类是虚词；而英语的词有十二类即名词，动词，形容词，副词，介词，代词，数词，量词，连词，感叹词，疑问词和冠词，因分词可能同时对应有多个词类，因此只需采用实词或虚词的一种分类方式即可。

在本发明的一实施例中，图3中步骤S330可以包括：

确定所述分词结果中文本不同的分词结果；针对所述文本不同的分次结果中任一分词结果，在所述分词结果中确定该文本不同的分词结果出现的次数。

在本发明的一实施例中，如图4所示，图3中步骤S330可以包括：

步骤S3301：将所述分词结果中每个分词与预设的数据字典库中的分词进行比对，判断是否相同，若相同，则将所述预设数据字典库中对应的分词所属词类确定为所述分词结果中分词对应的词类；

步骤S3302：基于所述分词结果中每个分词对应的词类，确定所述各词类的分词个数。

在本发明的一实施例中，所述数据字典描述数据的信息集合，是对系统中使用的所有数据元素的定义的集合。即数据字典中存储有各个词或词语对应的词类。通过数据字典的方式可以快速的确定文本信息对应的分词结果中每个分词对应的词类，且通过数据字典的方式也便于后期的维护。

继续参照图3，在步骤S340中：将所述各词类的分词个数，依照预设的词类顺序排列，获取词类个数集合。

在本发明的一实施例中，汉语文化博大精深，同样意思的文本存在多种表达方式，通过将个此类的分词个数，按照预先设定的词类顺序排列，可以将杂乱无章的词类顺序，按照一定的次序排列，即便于整理又可提高后续机器学习模型对作者识别的准确率。如可以预先设定为：名词、动词、形容词、数词、量词、代词、区别词的排序，同样也可以调整部分词类间的顺序以形成其他排序方式。

在步骤S350中，基于所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数，确定所述分词结果中文本不同的分词出现的频率。

在本发明的一实施例中，确定所述分词结果中文本不同的分词出现的频率，可以通过将所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数间的商值作为所述分词结果中文本不同的分词出现的频率。所述分词结果中文本不同的分词出现的频率具有表明作者用语习惯的特征信息，可提高后续步骤中机器学习模型作者识别的准确率。如上述分词结果(我、今天、要、坐、飞机、去、北京)中，分词我出现的次数为1，而该分词结果中的分词总个数为7，则分词我对应的频率为七分之一；分词今天出现的次数为1，而该分词结果中的分词总个数为7，则分词我对应的频率为七分之一；其他分词出现的频率如上述分词“我”“今天”相同，在此不再累述。

在步骤S360中，将所述分词结果中文本不同的分词出现的频率依照所述分词在所述待判定的文本信息中首次出现的顺序排列，获取所述分词结果中文本不同的分词出现的频率集合。

在本发明的一实施例中，还以上述分词结果(我、今天、要、坐、飞机、去、北京)为例，其中分词“我”“今天”“要”“坐”“飞机”“去”“北京”对应出现频率均为七分之一，则将上述分词对应的出现频率依照在文本信息中排列的顺序得到的文本不同的分词出现的频率集合为{我_1/7、今天_1/7、要_1/7、坐_1/7、飞机_1/7、去_1/7、北京_1/7}。

在本发明的另一实施例中，还以上述分词结果(我、今天、要、坐、飞机、去、北京)为例，得到的文本不同的分词出现的频率集合还可以包含将分词对应的词类上标于上述分词，如以上述集合中的“我_1/7”为例，则将分词对应的词类上标于分词“我”之后可得到“我^代词 _1/7”，也可将各词类分配一个标识，如代词对应的标识为3，则上述频率集合中的“我^代词 _1/7”可表示为“我³ _1/7”。

在步骤S370中，从预存的数据库中提取所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合。

在步骤S380中，将所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中不同的分词出现的频率集合输入预设的机器学习模型，获取由所述机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果。

在本发明的一实施例中，词类个数集合与文本不同的分词出现的频率集合中均包含有大量不同作者间行文风格的特征信息，机器学习模型可以通过不通过作者间的行文风格的特征信息对作者进行识别，其中所述行文风格是指一个人的写作风格。就像每个人都有自己的个性一样，每一个人写出的文章，也都因为个性、气度、经历背景、知识结构、思想认识的不同而展现出不同的风貌，从而使这个人的文章整体展现出异于他人的个性特点。这就是行文风格。例如，有些人文字顺畅，一气呵成。有些作家写作喜欢用一些生僻字，冷门词语，那整篇文章读下来就会觉得晦涩难懂。这也是一种风格。有的人喜欢用口语化句子写作，显得通俗易懂。等等。

同时采用机器学习模型的方式可以节省大量的人工，又能解决上述背景技术中人工的方式所出现的结果准确率低于效率低的问题。

在本发明的一实施例中，所述机器学习模型通过以下方式进行训练：将预先设置的多个待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本集合；

预先确定每个待判定的文本信息的作者是否是该待判定作者的结果；

将所述待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本输入预设的机器学习模型，获取由所述机器学习模型输出的是否为所述待确定作者的判断结果，将所述机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果进行比较，如不一致，则调整所述机器学习模型的参数，使所述机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果一致。

在本发明的一实施例中，如图5所示，在图3中步骤S380之后还可以包括：若所述机器学习模型输出的所述待判定的文本信息的作者是所述待判定的作者，则提取所述待判定的作者的历史记录，若所述待判定的作者的历史记录中包含有多个处罚措施且正处于处罚期内，则将所述待判定文本信息实施上述所述待判定的作者正处于处罚期内的处罚措施。

在本发明的一实施例中，所述处罚措施是指惩罚性的行为，如封禁、冻结账号、限制交易等。如经确认获取的文本信息的作者待判定的作者王三，而王三对应的历史记录里面存有多个针对王三的处罚措施，如禁止发布文章、冻结账号、限制交易；其中禁止发布文章还处于处罚期内，则获取的文本信息实施禁止发布文章的措施，即将王三发布的上述文章撤回，等禁止发布文章的处罚措施失效后再发布。

在本发明的另一实施例中，如图6所示，在图3中步骤380之后还可以包括：

步骤S390`：若所述机器学习模型输出的所述待判定的文本信息的作者不是所述待判定的作者，则在预存的数据库中提取其他作者对应的词类个数集合和文本不同的分词出现的频率集合；

步骤S391`：基于所述其他作者对应的词类个数集合和文本不同的分词出现的频率集合、所述待判定的文本信息对应的词类个数集合和所述分词结果中不同的分词出现的频率集合与预设的机器学习模型，确定所述待判定文本信息对应的作者。

在本发明的一实施例中，若获取的机器学习模型输出的结果为所述待判定的文本信息不是所述待判定的作者所撰写，则将所述待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与预存数据库中其他作者中每个作者对应的词类个数集合和文本不同的分词出现的频率集合输入所述机器学习模型，直至所述机器学习模型识别出所述待判定的文本信息对应的作者为止。

若所述机器学习模型将预存数据库中每个作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合进行比对后，仍未确定所述待判定文本信息对应的作者，则将所述待判定的文本信息对应的署名作者确定为所述待判定的文本信息的作者。

需要说明的是，在图3中所示的基于机器学习的文本信息作者的识别方法中，以先执行步骤S340、后执行步骤S350和S360、S370为例进行了说明，但是在本发明的其他实施例中，也可以先执行步骤S370，再执行步骤S350和S360或S340，还可以先执行步骤S350和S360再执行S370或S340，或者同时执行步骤S370和步骤S340和S350与S360。

图7示意性示出了根据本发明的一个实施例的文本信息作者识别的框图。

参照图5所示，根据本发明的一个实施例的数据处理装置500，包括：第一获取单元410，第二获取单元420，第一确定单元430，第三获取单元440，第二确定单元450，第四获取单元460，第五获取单元470，第三确定单元480。

其中，第一获取单元410，用于响应于用户端发送的识别请求，提取所述识别请求中包含的待判定的文本信息及待判定的作者；第二获取单元420，用于对所述文本信息进行分词，获取所述待判定文本信息的分词结果；第一确定单元430，用于确定所述分词结果中各文本不同的分词出现的次数、各词类的分词个数、所述分词结果中分词的总个数；第三获取单元440，用于将所述各词类的分词个数，依照预设的词类顺序排列，获取词类个数集合；第二确定单元450，用于基于所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数，确定所述分词结果中文本不同的分词出现的频率；第四获取单元460，用于将所述分词结果中文本不同的分词出现的频率依照所述分词在所述待判定的文本信息中首次出现的顺序排列，获取所述分词结果中不同的分词出现的频率集合；第五获取单元470，用于从预存的数据库中提取所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合；第三确定单元480，用于将所述待判定作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中不同的分词出现的频率集合输入预设的机器学习模型，获取由所述机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果。

在本发明的一实施例中，所述第一确定单元430还用于，确定所述分词结果中文本不同的分词结果；针对所述文本不同的分次结果中任一分词结果，在所述分词结果中确定该文本不同的分词结果出现的次数。

在本发明的一实施例中，所述第一确定单元430还用于，将所述分词结果中每个分词与预设的数据字典库中的分词进行比对，判断是否相同，若相同，则将所述预设数据字典库中对应的分词所属词类确定为所述分词结果中分词对应的词类；基于所述分词结果中每个分词对应的词类，确定所述各词类的分词个数。

在本发明的一实施例中，所述基于机器学习的文本信息作者的识别装置还包括，机器模型训练单元，用于将预先设置的多个待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本集合；预先确定每个待判定的文本信息的作者是否是该待判定作者的结果；将所述待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本输入预设的机器学习模型，获取由所述机器学习模型输出的是否为所述待确定作者的判断结果，将所述机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果进行比较，如不一致，则调整所述机器学习模型的参数，使所述机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果一致。

在本方发明的一实施例中，所述基于机器学习的文本信息作者的识别装置还包括，处理单元用于，若所述机器学习模型输出的所述待判定的文本信息的作者是所述待判定的作者，则提取所述待判定的作者的历史记录，若所述待判定的作者的历史记录中包含有多个处罚措施且正处于处罚期内，则将所述待判定文本信息实施上述所述待判定的作者正处于处罚期内的处罚措施。

在本发明的一实施例中，所述处理单元还用于，若所述机器学习模型输出的所述待判定的文本信息的作者不是所述待判定的作者，则在预存的数据库中提取其他作者对应的词类个数集合和文本不同的分词出现的频率集合；基于所述其他作者对应的词类个数集合和文本不同的分词出现的频率集合、所述待判定的文本信息对应的词类个数集合和所述分词结果中文本不同的分词出现的频率集合与预设的机器学习模型，确定所述待判定文本信息对应的作者。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于机器学习的文本信息作者的识别方法，其特征在于，包括：

响应于用户端发送的识别请求，提取所述识别请求中包含的待判定的文本信息及待判定的作者；

对所述文本信息进行分词，获取所述待判定的文本信息的分词结果；

确定所述分词结果中各文本不同的分词出现的次数、各词类的分词个数、所述分词结果中分词的总个数；

将所述各词类的分词个数，依照预设的词类顺序排列，获取词类个数集合；

基于所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数，确定所述分词结果中文本不同的分词出现的频率；

将所述分词结果中文本不同的分词出现的频率依照所述分词在所述待判定的文本信息中首次出现的顺序排列，获取所述分词结果中文本不同的分词出现的频率集合；其中，所述文本不同的分词出现的频率集合包含将各分词对应的词类上标于不同的分词上；

从预存的数据库中提取所述待判定的作者对应的依照所述预设的词类顺序排列的词类个数集合和文本不同的分词出现的频率集合；

将所述待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中文本不同的分词出现的频率集合输入预设的机器学习模型，获取由所述预设的机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果;

所述预设的机器学习模型通过以下方式进行训练：

将预先设置的多个待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本集合；

预先确定每个待判定的文本信息的作者是否是该待判定的作者的结果；

将所述待判定的文本信息对应的词类个数集合和文本不同的分词出现的频率集合与该待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合构成的样本输入预设的机器学习模型，获取由所述预设的机器学习模型输出的是否为所述待判定的作者的判断结果，将所述预设的机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果进行比较，如不一致，则调整所述预设的机器学习模型的参数，使所述预设的机器学习模型输出的判断结果与预先确定的该待判定的文本信息的作者是否是该待判定的作者的结果一致。

2.根据权利要求1所述的基于机器学习的文本信息作者的识别方法，其特征在于，所述确定各文本不同的分词出现的次数，包括：

确定所述分词结果中文本不同的分词结果；

针对所述文本不同的分次结果中任一分词结果，在所述分词结果中确定该文本不同的分词结果出现的次数。

3.根据权利要求1所述的基于机器学习的文本信息作者的识别方法，其特征在于，所述确定各词类的分词个数，包括：

将所述分词结果中每个分词与预设的数据字典库中的分词进行比对，判断是否相同，若相同，则将所述预设的数据字典库中对应的分词所属词类确定为所述分词结果中分词对应的词类；

基于所述分词结果中每个分词对应的词类，确定所述各词类的分词个数。

4.根据权利要求1所述的基于机器学习的文本信息作者的识别方法，其特征在于，在所述获取由所述预设的机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果之后，还包括：

若所述预设的机器学习模型输出的所述待判定的文本信息的作者是所述待判定的作者，则提取所述待判定的作者的历史记录，若所述待判定的作者的历史记录中包含有多个处罚措施且正处于处罚期内，则将所述待判定的文本信息实施上述所述待判定的作者正处于处罚期内的处罚措施。

5.根据权利要求1所述的基于机器学习的文本信息作者的识别方法，其特征在于，在所述获取由所述预设的机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果之后，还包括：

若所述预设的机器学习模型输出的所述待判定的文本信息的作者不是所述待判定的作者，则从预存的数据库中提取其他作者对应的词类个数集合和文本不同的分词出现的频率集合；

基于所述其他作者对应的词类个数集合和文本不同的分词出现的频率集合、所述待判定的文本信息对应的词类个数集合和所述分词结果中文本不同的分词出现的频率集合与预设的机器学习模型，确定所述待判定的文本信息对应的作者。

6.一种基于机器学习的文本信息作者的识别装置，其特征在于，包括：

第一获取单元，用于响应于用户端发送的识别请求，提取所述识别请求中包含的待判定的文本信息及待判定的作者；

第二获取单元，用于对所述文本信息进行分词，获取所述待判定的文本信息的分词结果；

第一确定单元，用于确定所述分词结果中各文本不同的分词出现的次数、各词类的分词个数、所述分词结果中分词的总个数；

第三获取单元，用于将所述各词类的分词个数，依照预设的词类顺序排列，获取词类个数集合；

第二确定单元，用于基于所述分词结果中各文本不同的分词出现的次数与所述分词结果中分词的总个数，确定所述分词结果中文本不同的分词出现的频率；

第四获取单元，用于将所述分词结果中文本不同的分词出现的频率依照所述分词在所述待判定的文本信息中首次出现的顺序排列，获取所述分词结果中不同的分词出现的频率集合；其中，所述文本不同的分词出现的频率集合包含将各分词对应的词类上标于不同的分词上；

第五获取单元，用于从预存的数据库中提取所述待判定的作者对应的依照所述预设的词类顺序排列的词类个数集合和文本不同的分词出现的频率集合；

第三确定单元，用于将所述待判定的作者对应的词类个数集合和文本不同的分词出现的频率集合与所述待判定的文本信息对应的词类个数集合和所述分词结果中不同的分词出现的频率集合输入预设的机器学习模型，获取由所述预设的机器学习模型输出的所述待判定的文本信息的作者是否为所述待判定的作者的结果；

所述预设的机器学习模型通过以下方式进行训练：

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于机器学习的文本信息作者的识别方法。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的基于机器学习的文本信息作者的识别方法。