CN111259662A

CN111259662A - 处理文本的方法和装置

Info

Publication number: CN111259662A
Application number: CN202010098938.7A
Authority: CN
Inventors: 江少华; 钟文亮
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-09
Anticipated expiration: 2040-02-18
Also published as: CN111259662B

Abstract

本说明书的实施例提供了处理文本的方法、装置、计算设备和机器可读存储介质。该方法包括：对的当前文本进行分词处理，以获得m个词汇；基于预先确定的权重信息，确定m个词汇各自对应的权重，其中，权重信息用于指示n个词汇各自对应的权重，n个词汇是从h条历史文本中获得的，n个词汇各自对应的权重表示n个词汇各自与历史用户点击率之间的相关性；基于m个词汇各自对应的权重，确定m个词汇中的要进行标记的至少一个目标词汇；对至少一个目标词汇进行标记，生成要呈现给用户的最终文本。

Description

处理文本的方法和装置

技术领域

本说明书的实施例涉及信息技术领域，并且更具体地，涉及处理文本的方法、装置、计算设备和机器可读存储介质。

背景技术

随着通信和互联网等技术的快速发展，已经可以向用户终端传送各种各样的信息。例如，可以向用户终端传送用于描述对象的文本(比如文案)，然后通过用户终端向用户呈现这样的文本，使得用户能够便捷地了解相应的对象。

发明内容

考虑到现有技术的上述问题，本说明书的实施例提供了处理文本的方法、装置、计算设备和机器可读存储介质。

一方面，本说明书的实施例提供了一种处理文本的方法，包括：对当前文本进行分词处理，以获得m个词汇，m为正整数；基于预先确定的权重信息，确定所述m个词汇各自对应的权重，其中，所述权重信息用于指示n个词汇各自对应的权重，所述n个词汇是从h条历史文本中获得的，所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性，h和n为正整数；基于所述m个词汇各自对应的权重，确定所述m个词汇中的要进行标记的至少一个目标词汇；对所述至少一个目标词汇进行标记，生成要呈现给用户的最终文本。

另一方面，本说明书的实施例提供了一种用于处理信息的装置，包括：分词单元，其对当前文本进行分词处理，以获得m个词汇，m为正整数；确定单元，其执行以下操作：基于预先确定的权重信息，确定所述m个词汇各自对应的权重，其中，所述权重信息用于指示n个词汇各自对应的权重，所述n个词汇是从h条历史文本中获得的，所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性，h和n为正整数；基于所述m个词汇各自对应的权重，确定所述m个词汇中的要进行标记的至少一个目标词汇；标记单元，其对所述至少一个目标词汇进行标记，生成要呈现给用户的最终文本。

另一方面，本说明书的实施例提供了一种计算设备，包括：至少一个处理器；与所述至少一个处理器进行通信的存储器，其上存储有可执行指令，所述可执行指令在被所述至少一个处理器执行时使得所述至少一个处理器实现上述方法。

另一方面，本说明书的实施例提供了一种机器可读存储介质，其存储有可执行指令，所述可执行指令在被执行时使得机器执行上述方法。

附图说明

通过结合附图对本说明书的实施例的更详细的描述，本说明书的实施例的上述以及其它目的、特征和优势将变得更加明显，其中，在本说明书的实施例中，相同的附图标记通常代表相同的元素。

图1是根据一个实施例的处理文本的方法的示意性流程图。

图2是根据一个实施例的处理文本的过程的示意性流程图。

图3是根据一个实施例的处理文本的装置的示意性框图。

图4是根据一个实施例的处理文本的计算设备的硬件结构图。

具体实施方式

现在将参考各实施例讨论本文描述的主题。应当理解的是，讨论这些实施例仅是为了使得本领域技术人员能够更好地理解并且实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者例子的限制。可以在不脱离权利要求书的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个实施例可以根据需要，省略、替换或者添加各种过程或组件。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其它实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其它的定义，无论是明确的还是隐含的，除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

目前，可以向用户终端传送各种各样的文本。例如，文本可以用于描述对象，通过用户终端向用户呈现这样的文本，使得用户能够快速且方便地了解相应的对象。例如，这种文本的一个例子是文案。文案通常可以用于描述对象，比如描述对象的属性、优缺点、使用场景等等。

在一些情况下，可能期望对文本中的一个或多个词汇进行标记，比如将其显示为特殊颜色、加粗、将其高亮显示、将其字号增大等等，使得用户能够快速掌握文本的关键点，从而增强用户体验。那么，如何高效地对文本进行这样的处理，成为需要解决的问题之一。

鉴于此，本说明书的实施例提供了一种处理文本的技术方案。下面将结合具体实施例进行描述。

图1是根据一个实施例的处理文本的方法的示意性流程图。

如图1所示，在步骤102中，可以对当前文本进行分词处理，以获得m个词汇。m可以为正整数。

在步骤104中，可以基于预先确定的权重信息，确定m个词汇各自对应的权重。

权重信息可以用于指示n个词汇各自对应的权重。n个词汇可以是从h条历史文本中获得的。n个词汇各自对应的权重可以表示n个词汇各自与历史用户点击率之间的相关性。h和n可以为正整数。

在步骤106中，可以基于m个词汇各自对应的权重，确定m个词汇中的要进行标记的至少一个目标词汇。

在步骤108中，可以对至少一个目标词汇进行标记，以生成要呈现给用户的最终文本。

容易明白的是，如果通过人工来标记文本中的词汇，可能耗费时间长，效率低下，而且可能在确定要标记的词汇时较为主观，而非用户实际感兴趣的关键点，容易导致用户体验差以及文本的点击率低，影响文本的呈现效果。

然而，在该实施例中，基于用于表示词汇与历史用户点击率之间的相关性的权重，来确定当前文本中要进行标记的目标词汇，进而通过对目标词汇进行标记来得到最终文本。可见，该实施例能够高效且准确地确定在文本中用户可能感兴趣的关键点，从而提升用户体验，进而有利于提高用户对文本的点击率，由此提升文本的呈现效果。

点击率通常可以表示点击信息的用户数量与该信息被呈现给(也可以被称为“曝光”)的用户数量之间的比。

在一个实施例中，可以首先确定权重信息。具体地，可以获取历史数据，比如先前曝光的h条历史文本以及这h条历史文本各自的历史用户点击率。此处，h的取值可以基于实际需求、计算资源等等各种因素来确定，本文中不作限定。

可以对h条历史文本进行分词处理，从而得到n个词汇。

可以理解的是，可以采用任何适用的算法来对文本进行分词处理，本文对此不作限定。

可以利用所得到的n个词汇以及h条历史文本各自的历史用户点击率，来对线性回归(Linear Regression，LR)模型进行训练，从而得到n个词汇各自对应的权重。可以理解的是，此处对LR模型进行训练，所得到的模型参数即为n个词汇各自对应的权重。

每个词汇的权重可以表示该词汇与历史用户点击率之间的相关性。例如，权重越高，可以表示词汇的历史用户点击率越高，这也可以说明该词汇可能是用户较为感兴趣的。而权重越低，可以表示词汇的历史用户点击率越低，这可以说明该词汇可能是用户不太感兴趣的。

在该实施例中，利用历史文本以及其相应的用户点击率来训练LR模型，实质上是学习历史文本中的词汇与用户点击率之间的相关性。这样，能够为后续确定要标记的词汇提供有效的依据。

此外，随着历史数据的不断累积，可以不断地对LR模型进行优化，从而优化n个词汇各自对应的权重，还可以丰富权重信息中的词汇，使得权重信息能够提供更多词汇的权重以及这些词汇的更为优化的权重。这样，使得所确定的目标词汇也更为准确。

在一个实施例中，权重信息可以包括n个词汇以及其相对应的权重。也就是说，权重信息可以表示为词汇与权重的对应关系。举一个例子，权重信息可以包括：词汇“红包”，权重为0.9；词汇“免费”，权重为0.8。

在一些情况下，可以将权重的取值设置为在小数点后保留多位数字，使得各个权重之间的区分粒度更为精细一些，这样能够更为细粒度地表示词汇与用户点击率之间的相关性，有利于所确定的目标词汇更为精准。

在一个实施例中，在步骤104中，如果当前文本的m个词汇都能在权重信息中检索到，则可以从权重信息中获取这m个词汇对应的权重。

而在一些情况下，权重信息可能包括m个词汇中的部分词汇。在这种情况下，为了便于描述，对于m个词汇而言，在权重信息中存在的词汇可以被称为已知词汇，而在权重信息中不存在的词汇可以被称为未知词汇。

那么，在步骤104中，对于已知词汇，可以直接从权重信息中获取其对应的权重。而对于未知词汇，可以将其对应的权重设置为预定权重。例如，预定权重可以是较小的值。预定权重可以基于实际应用场景等因素来设置。

在一个实施例中，在步骤106中，至少一个目标词汇对应的权重可以比m个词汇中的其它词汇高。例如，可以从m个词汇中选择权重最高的一个词汇或者权重从高到低的前几个词汇作为要标记的目标词汇。此处可以理解的是，至少一个目标词汇与用户点击率的相关性可以高于m个词汇中的其它词汇与用户点击率的相关性。这样，选择与用户点击率的相关性较高的词汇作为要标记的词汇，实质上是选择了用户可能更为感兴趣的词汇，不仅能够提升用户体验，而且有利于提升用户对所得到的最终文本的点击率，从而提升最终文本的呈现效果。

在一个实施例中，如果至少一个目标词汇的数量大于1，则至少一个目标词汇在所述当前文本中可以是连续出现的。换句话说，要标记的目标词汇可以包括在当前文本中连续出现的多个词汇。这多个词汇的权重可以高于其它词汇的权重。也就是说，这多个词汇在当前文本中可以是连在一起的。这样，能够更为完整地表示所得到的最终文本的关键点，从而有效地提升用户的关注度，并且增强用户体验。例如，在一种情况下，如果权重最高的词汇和权重次高的词汇是连在一起的，则将这两个词汇一起进行标记。

在一个实施例中，关于要标记的目标词汇的数量，可以是由信息提供方设置的。比如，可以获取信息提供方输入的设置信息，该设置信息可以指示要标记的目标词汇的数量。这样，可以基于该设置信息以及m个词汇对应的权重，来确定至少一个目标词汇。这样，能够灵活地满足信息提供方的需求。

在一个实施例中，在步骤108中，可以在当前文本中将至少一个目标词汇进行标记。比如，可以采用各种方式或者各种方式的组合对至少一个目标词汇进行标记，例如，使用与其它词汇可区分开的特殊颜色来显示至少一个目标词汇，将至少一个目标词汇加粗，将至少一个目标词汇进行高亮显示，使至少一个目标词汇的字号大于其它词汇的字号等等。在本文中，对至少一个目标词汇进行标记可以使得至少一个目标词汇相比于其它词汇而言显示得更为突出。

可以理解的是，所得到的最终文本的内容可以与当前文本的内容是相同的，但是最终文本可以包括经过标记的至少一个目标词汇。这样，向用户呈现包括经过标记的至少一个目标词汇的最终文本，能够提升用户的关注度，从而有利于提升最终文本的点击率。

为了本领域技术人员更好地理解本说明书的技术方案，下面将结合具体例子进行描述。应当理解的是，以下例子仅是说明性的，而非限制本说明书的技术方案的范围。

图2是根据一个实施例的用于处理信息的过程的示意性流程图。

如图2所示，在步骤202中，可以获取h条历史文本以及h条历史文本各自的历史用户点击率。

在步骤204中，可以对h条历史文本进行分词处理，得到n个词汇。

在步骤206中，可以利用n个词汇和h条历史文本各自的历史用户点击率，对LR模型进行训练。

在训练完成后，可以得到LR模型的模型参数，即n个词汇各自对应的权重。每个词汇的权重可以表示该词汇与历史用户点击率之间的相关性。在本文中，可以将模型参数称为权重信息，其可以表示n个词汇与权重的对应关系。

在步骤208中，可以接收当前文本。

在步骤210中，可以对当前文本进行分词处理，得到m个词汇。

在步骤212中，可以确定在权重信息中是否存在上述m个词汇。

对于在权重信息中存在的词汇(本文中称为已知词汇)，则在步骤214中，可以从权重信息中获得已知词汇对应的权重。

对于在权重信息中不存在的词汇(本文中称为未知词汇)，则在步骤216中，可以将未知词汇对应的权重设置为预定权重。

在步骤218中，可以基于m个词汇各自对应的权重，确定m个词汇中的要进行标记的至少一个目标词汇。

在步骤220中，可以对至少一个目标词汇进行标记，从而生成最终文本。

可以理解的是，最终文本的内容与当前文本的内容是相同的，但是最终文本中的至少一个目标词汇是经过标记的。

例如，当前文本可以是“支付宝送你大红包，点击领取”。假设词汇“红包”的权重是0.9，高于其它词汇的权重。进一步假设选择权重最高的词汇作为目标词汇，则可以确定目标词汇是“红包”，那么，可以在当前文本中对“红包”进行标记。比如，将“红包”这个词汇显示为红色字体，而其它词汇是黑色字体。那么，最终文本的内容依然是“支付宝送你大红包，点击领取”，但是其中的“红包”是红色字体，而其它词汇是黑色字体。

再例如，假设将目标词汇“红包”加粗，则最终文本可以表示为“支付宝送你大红包，点击领取”。

在一种情况下，所确定的目标词汇可以包括在当前文本中连续出现的多个词汇，并且这多个词汇的权重可以高于其它词汇的权重。例如，如果权重最高的词汇和权重次高的词汇是连续出现的，则可以将这两个词汇一起进行标记。

在步骤222中，可以向用户终端发送最终文本，以便通过用户终端向用户呈现最终文本。

在该实施例中，基于用于表示词汇与历史用户点击率之间的相关性的权重，来确定当前文本中要进行标记的目标词汇，进而通过对目标词汇进行标记来得到最终文本。这样，能够高效且准确地确定在文本中用户可能感兴趣的关键点，从而提升用户体验，进而有利于提高用户对最终文本的点击率，由此提升最终文本的呈现效果。

图3是根据一个实施例的用于处理信息的装置的示意性框图。

如图3所示，装置300包括分词单元302、确定单元304和标记单元306。

分词单元302可以对当前文本进行分词处理，以获得m个词汇，m为正整数。

确定单元304可以基于预先确定的权重信息，确定m个词汇各自对应的权重。权重信息可以用于指示n个词汇各自对应的权重。n个词汇可以是从h条历史文本中获得的。n个词汇各自对应的权重可以表示n个词汇各自与历史用户点击率之间的相关性。h和n可以为正整数。

确定单元304可以基于m个词汇各自对应的权重，确定m个词汇中的要进行标记的至少一个目标词汇。

标记单元306可以在当前文本中对至少一个目标词汇进行标记，生成要呈现给用户的最终文本。

在一个实施例中，装置300还可以包括模型训练单元308。模型训练单元308可以获取h条历史文本以及h条历史文本各自的历史用户点击率。模型训练单元308可以对h条历史文本进行分词处理，以得到n个词汇。模型训练单元308可以利用n个词汇和h条历史文本各自的历史用户点击率，对线性回归模型进行训练，以获得n个词汇各自对应的权重。

在一个实施例中，确定单元304可以针对m个词汇中的已知词汇，从权重信息中获得已知词汇对应的权重，其中，已知词汇是在权重信息中存在的词汇。

确定单元304可以针对m个词汇中的未知词汇，将未知词汇对应的权重设置为预定权重，其中，未知词汇是在权重信息中不存在的词汇。

在一个实施例中，至少一个目标词汇对应的权重可以比m个词汇中的其它词汇对应的权重高。

在一个实施例中，如果至少一个目标词汇的数量大于1，则至少一个目标词汇在当前文本中是连续出现的。

装置300的各个单元可以执行图1-2的方法实施例中的相应步骤，因此，为了描述的简洁，装置300的各个单元的具体操作和功能此处不再赘述。

上述装置300可以采用硬件实现，也可以采用软件实现，或者可以通过软硬件的组合来实现。例如，装置300在采用软件实现时，其可以通过其所在设备的处理器将存储器(比如非易失性存储器)中对应的可执行指令读取到内存中运行来形成。

图4是根据一个实施例的处理文本的计算设备的硬件结构图。如图4所示，计算设备400可以包括至少一个处理器402、存储器404、内存406和通信接口408，并且至少一个处理器402、存储器404、内存406和通信接口408经由总线410连接在一起。至少一个处理器402执行在存储器404中存储或编码的至少一个可执行指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器404中存储的可执行指令在被至少一个处理器402执行时，使得计算设备实现以上结合图1-2描述的各种过程。

计算设备400可以采用本领域任何适用的形式来实现，例如，其包括但不限于台式计算机、膝上型计算机、智能电话、平板计算机、消费电子设备、可穿戴智能设备等等。

本说明书的实施例还提供了一种机器可读存储介质。该机器可读存储介质可以存储有可执行指令，可执行指令在被机器执行时使得机器实现上面参照图1-2描述的方法实施例的具体过程。

例如，机器可读存储介质可以包括但不限于随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、静态随机存取存储器(Static Random Access Memory，SRAM)、硬盘、闪存等等。

应当理解的是，本说明书中的各个实施例均采用递进的方式来描述，各个实施例之间相同或相似的部分相互参见即可，每个实施例重点说明的都是与其它实施例的不同之处。例如，对于上述关于装置的实施例、关于计算设备的实施例以及关于机器可读存储介质的实施例而言，由于它们基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上文对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分别由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作例子、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本公开内容的实施例的可选实施方式，但是，本公开内容的实施例并不限于上述实施方式中的具体细节，在本公开内容的实施例的技术构思范围内，可以对本公开内容的实施例的技术方案进行多种变型，这些变型均属于本公开内容的实施例的保护范围。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的例子和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种处理文本的方法，包括：

对当前文本进行分词处理，以获得m个词汇，m为正整数；

基于预先确定的权重信息，确定所述m个词汇各自对应的权重，其中，所述权重信息用于指示n个词汇各自对应的权重，所述n个词汇是从h条历史文本中获得的，所述n个词汇各自对应的权重表示所述n个词汇各自与历史用户点击率之间的相关性，h和n为正整数；

基于所述m个词汇各自对应的权重，确定所述m个词汇中的要进行标记的至少一个目标词汇；

对所述至少一个目标词汇进行标记，生成要呈现给用户的最终文本。

2.根据权利要求1所述的方法，还包括：

获取所述h条历史文本以及所述h条历史文本各自的历史用户点击率；

对所述h条历史文本进行分词处理，以得到所述n个词汇；

利用所述n个词汇和所述h条历史文本各自的历史用户点击率，对线性回归模型进行训练，以获得所述n个词汇各自对应的权重。

3.根据权利要求1或2所述的方法，其中，基于预先确定的权重信息，确定所述m个词汇分别对应的权重，包括：

针对所述m个词汇中的已知词汇，从所述权重信息中获得所述已知词汇对应的权重，其中，所述已知词汇是在所述权重信息中存在的词汇；

针对所述m个词汇中的未知词汇，将所述未知词汇对应的权重设置为预定权重，其中，所述未知词汇是在所述权重信息中不存在的词汇。

4.根据权利要求1至3中任一项所述的方法，其中，所述至少一个目标词汇对应的权重比所述m个词汇中的其它词汇对应的权重高。

5.根据权利要求1至4中任一项所述的方法，其中，如果所述至少一个目标词汇的数量大于1，则所述至少一个目标词汇在所述当前文本中是连续出现的。

6.一种处理文本的装置，包括：

分词单元，其对当前文本进行分词处理，以获得m个词汇，m为正整数；

确定单元，其执行以下操作：

标记单元，其对所述至少一个目标词汇进行标记，生成要呈现给用户的最终文本。

7.根据权利要求6所述的装置，还包括模型训练单元，其执行以下操作：

对所述h条历史文本进行分词处理，以得到所述n个词汇；

8.根据权利要求6或7所述的装置，其中，所述确定单元执行以下操作：

9.根据权利要求6至8中任一项所述的装置，其中，所述至少一个目标词汇对应的权重比所述m个词汇中的其它词汇对应的权重高。

10.根据权利要求6至9中任一项所述的装置，其中，如果所述至少一个目标词汇的数量大于1，则所述至少一个目标词汇在所述当前文本中是连续出现的。

11.一种计算设备，包括：

至少一个处理器；

与所述至少一个处理器进行通信的存储器，其上存储有可执行指令，所述可执行指令在被所述至少一个处理器执行时使得所述至少一个处理器实现根据权利要求1至5中任一项所述的方法。

12.一种机器可读存储介质，其存储有可执行指令，所述可执行指令在被执行时使得机器执行根据权利要求1至5中任一项所述的方法。