CN112364642B

CN112364642B - 一种文本处理方法及装置

Info

Publication number: CN112364642B
Application number: CN201910666073.7A
Authority: CN
Inventors: 乔宏利; 权圣
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2024-04-02
Anticipated expiration: 2039-07-23
Also published as: CN112364642A

Abstract

本发明提供一种文本处理方法及装置，该方法包括：获取待处理的目标文本中的数值字符串；确定所述数值字符串对应的单字符，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同；将所述目标文本中的所述数值字符串替换为对应的所述单字符；对替换后的所述目标文本进行文本处理，其中，所述文本处理至少包括切分处理。通过本发明提供的文本处理方法，在切分文本的过程中可以避免数值字符串被切分为碎片，保证数值字符串的完整性，进而可以提高文本中的数值字符串切分准确性。

Description

一种文本处理方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种文本处理方法及装置。

背景技术

文本是互联网中重要的交互信息载体。在各种网络通讯工具中，人们大量使用自然语言文本进行交流。因而，文本成为机器学习和自然语言处理中的重要对象。

实际情况中，文本中往往会包括数值字符串，例如，电话号码、身份证号码、邮编等。在对文本进行切分(例如，基于词典的分词或N-Gram切分等)的情况下，容易把完整的数值字符串切分成无意义的碎片。

可见，现有技术中存在对文本中的数值字符串切分准确性较低的问题。

发明内容

本发明实施例提供一种文本处理方法及装置，以解决现有技术中对文本中的数值字符串切分准确性较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种文本处理方法。该方法包括：

获取待处理的目标文本中的数值字符串；

确定所述数值字符串对应的单字符，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同；

将所述目标文本中的所述数值字符串替换为对应的所述单字符；

对替换后的所述目标文本进行文本处理，其中，所述文本处理至少包括切分处理。

第二方面，本发明实施例还提供一种文本处理装置。该文本处理装置包括：

获取模块，用于获取待处理的目标文本中的数值字符串；

确定模块，用于确定所述数值字符串对应的单字符，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同；

第一替换模块，用于将所述目标文本中的所述数值字符串替换为对应的所述单字符；

处理模块，用于对替换后的所述目标文本进行文本处理，其中，所述文本处理至少包括切分处理。

第三方面，本发明实施例还提供一种文本处理装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的文本处理方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的文本处理方法的步骤。

本发明实施例中，通过获取待处理的目标文本中的数值字符串；确定所述数值字符串对应的单字符，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同；将所述单字符替换所述目标文本中的对应的所述数值字符串；对替换后的所述目标文本进行文本处理，其中，所述文本处理至少包括切分处理。由于文本中的数值字符串均替换为其对应的单字符，这样在切分文本的过程中可以避免数值字符串被切分为碎片，保证数值字符串的完整性，进而可以提高文本中的数值字符串切分准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的文本处理方法的流程图；

图2是本发明又一实施例提供的文本处理方法的流程图；

图3是本发明实施例提供的文本处理装置的结构图；

图4是本发明又一实施例提供的文本处理装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种文本处理方法。参见图1，图1是本发明实施例提供的文本处理方法的流程图，如图1所示，包括以下步骤：

步骤101、获取待处理的目标文本中的数值字符串。

本实施例中，上述目标文本可以是任意需要进行文本处理的文本。此外，上述目标文本可以包括一个或多个文本实例，例如，上述目标文本可以包括不同文件的文本。上述数值字符串可以包括由数字组成的字符串或由数字和符号组成的字符串。

可选的，在该步骤中，可以遍历目标文本，以识别目标文本中的每个数值字符串，例如，可以通过正则匹配等算法识别目标文本中的数值字符串。需要说明的是，本发明实施例对于识别目标文本中的数值字符串的方式不做限定。

步骤102、确定所述数值字符串对应的单字符，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同。

本实施例中，上述单字符可以是任意与目标文本中除数值字符串之外的字符均不相同的字符。上述单字符可以理解为仅包括一个字符，例如，上述单字符可以是单个数字、单个符号等。

可选的，本实施例可以直接将不同的数值字符串对应不同的单字符；也可以先对各个数值字符串进行特征编码，并将不同的特征编码对应不同的单字符。

步骤103、将所述目标文本中的所述数值字符串替换为对应的所述单字符。

该步骤中，可以将目标文本中的数值字符串替换为其对应的单字符，从而可以避免目标文本中的数值字符串被切分。

步骤104、对替换后的所述目标文本进行文本处理，其中，所述文本处理至少包括切分处理。

本实施例中，上述切分处理可以包括但不限于分词或N-Gram切分等。由于文本中的数值字符串均替换为其对应的单字符，这样在切分文本的过程中可以避免数值字符串被切分为碎片。

可选的，上述文本处理除了切分处理之外，还可以包括词频统计、词嵌入计算等处理，本实施例对此不做限定。

本发明实施例提供的文本处理方法，通过获取待处理的目标文本中的数值字符串；确定所述数值字符串对应的单字符，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同；将所述单字符替换所述目标文本中的所述数值字符串；对替换后的所述目标文本进行文本处理，其中，所述文本处理至少包括切分处理。由于文本中的数值字符串均替换为其对应的单字符，这样在切分文本的过程中可以避免数值字符串被切分为碎片，保证数值字符串的完整性，进而可以提高文本中的数值字符串切分准确性。

可选的，上述步骤102，也即所述确定所述数值字符串对应的单字符，可以包括：

对所述数值字符串进行特征编码，得到目标特征编码；

确定所述目标特征编码对应的单字符。

本实施例中，上述对所述数值字符串进行特征编码，可以理解为根据上述数值字符串的特征对数值字符串进行编码。例如，可以根据数值字符串所表征含义进行编码，如对于表征手机号的数值字符串编码为PHONE，对于表征身份证号的数值字符串编码为ID，对于其他类型的数值字符串编码为ELSE；或可以根据数值字符串的符号、类型、长度和进制等一项或多项特征进行编码，例如，基于符号、类型和长度编码，若正数编码为P，负数编码为N，整数编码为I，浮点数编码为F，则12411110000可以编码为PI11。

实际应用中，可以根据实际需求确定用于数值字符串编码的特征。例如，若仅关注盈亏情况，则可以基于数值字符串的符号对数值字符串进行编码；若仅关注用户的使用情况，则可以基于数值字符串的长度和类型进行编码。

需要说明的是，若上述步骤101中识别到多个数值字符串，则本实施例可以分别对多个数值字符串中的每个数值字符串进行特征编码，得到多个特征编码。

上述单字符可以是任意与目标文本中除数值字符串之外的字符均不相同的字符。可选的，若目标特征编码包括多个特征编码，则多个特征编码中不同特征编码对应的单字符不同。

本实施例基于数值字符串的特征对数值字符串进行编码，相比于数值字符串的数量，特别编码的数量相对较少，这样可以减少所需的单字符的数量。此外，基于数值字符串的特征对数值字符串进行编码，在进行词频统计和词嵌入计算等处理的情况下，数值字符串物理含义更为突出，处理结果具有更好的有效性。例如，若电话号码用实际的11位数值字符串表示，统计词频和计算词嵌入时容易被边缘化，而若电话号码统一用PI11这种特征编码表示，由于所有电话号码都一样，则其统计值和嵌入向量的作用会更为明显。

可选的，所述对所述数值字符串进行特征编码，得到目标特征编码，可以包括：

对所述数值字符串进行解析，得到所述数值字符串的特征参数，其中，所述特征参数包括符号、类型、长度和进制中的至少一项；

根据所述特征参数对所述数值字符串进行编码，得到所述目标特征编码。

本实施例中，上述符号可以包括正号(即+)和负号(即-)。上述类型可以包括整数型和浮点型等。上述长度可以表示数值字符串中除符号之外字符的长度，也可以表示数值字符串的整数部分的长度和/或小数部分的长度等。上述进制可以包括十进制、八进制和十六进制等。

需要说明的是，上述各个特征参数对应的编码可以根据实际需求进行合理设置。例如，整数型可以编码为I，浮点型可以编码为F；或整数型可以编码为A，浮点型可以编码为B；或整数型可以编码为n1，浮点型可以编码为n2。

以下结合举例对本实施例进行说明：

方式一：根据数值字符串的符号进行编码。

例如，若正数编码为P，负数编码为N，则+88.5可以编码为P，-75.4可以表示为N。

方式二：根据数值字符串的符号和长度进行编码。

例如，若正数编码为P，负数编码为N，长度表示表示数值字符串的整数部分的长度，则+866.57可以编码为P3，-75.446可以表示为N2。

方式三：根据数值字符串的符号、类型和长度进行编码。

例如，若正数编码为P，负数编码为N，整数编码为I，浮点数编码为F，长度表示数值字符串中除符号之外字符的长度，则12411110000可以编码为PI11，-8824.44可以表示为NF6。

本发明实施例根据数值字符串的符号、类型、长度和进制中的至少一项对数值字符串进行编码，不仅实现较为简单，还可以一定程度反映该数值字符串的物理含义，在进行词频统计的情况下可以更好的反映统计特性。

可选的，所述对所述数值字符串进行特征编码，得到目标特征编码之后，所述方法还可以包括：

判断码表中是否存在所述目标特征编码，其中，所述码表用于对应存储特征编码与单字符，且不同的特征编码对应的单字符不同；

在所述码表中不存在所述目标特征编码的情况下，确定所述目标特征编码对应的单字符；

将所述目标特征编码和所述目标特征编码对应的单字符对应存储于所述码表中；

所述对替换后的所述目标文本进行文本处理之后，所述方法还包括：

根据所述码表，将文本处理结果中的单字符替换为其对应的特征编码。

本实施例中，上述码表可以存储各个特征编码以及各个特征编码对应的单字符，其中，特征编码与单字符之间一一对应。例如，上述码表可以是键值(即Key-Value)映射表，其中，特征编码作为值(即Value)，单字符作为键(即Key)。

实际应用中，可以在得到目标特征编码之后，遍历码表，以判断码表中是否存在目标特征编码。若码表中存在目标特征编码，则可以从码表中获取目标特征编码对应的单字符，并通过该单字符替换目标文本中与其对应的数值字符串，此时可以不存储该目标特征编码。若码表中不存在目标特征编码，则可以确定目标特征编码对应的单字符，例如，可以将任一不存在于码表且与目标文本中除数值字符串之外的字符均不相同的单字符，作为目标特征编码对应的单字符，并将目标特征编码和其对应的单字符对应存储于码表中，例如，将目标特征编码和其对应的单字符存储于码表的同一行，此外还可以利用所确定的单字符替换目标文本中与其对应的数值字符串。

需要说明的是，上述存储目标特征编码和其对应的单字符的步骤和利用所确定的单字符替换目标文本中与其对应的数值字符串的步骤可以并行执行，也可以串行执行，本实施例对此不做限定。

本实施例可以利用码表将文本处理结果中的单字符恢复为其对应的特征编码，使得其更为直观，可读性更好。

可选的，对于一些较短的文本，上述码表可以是有序列表，其中，有序列表的各个数据元素为特征编码，各个数据元素的下标为该特征编码对应的单字符。例如，对于长度为10的有序列表，10个数据元素的下标依次为0至9，也即10个特征编码分别对应单字符0至10。

可选的，所述在所述码表中不存在所述目标特征编码的情况下，确定所述目标特征编码对应的单字符，包括：

在所述码表中不存在所述目标特征编码的情况下，从预设单字符集合中获取目标单字符，其中，所述目标单字符为所述预设单字符集合中除所述码表已存储的单字符之外的任一单字符，所述预设单字符集合中的每个单字符均与所述目标文本中除所述数值字符串之外的字符不相同；

将所述目标单字符确定为所述目标特征编码对应的单字符。

实际应用中，文本中出现的字符类型通常较为固定，因此，可以统计文本中出现的字符，并可以依据所统计的字符确定一预设单字符集合，该预设单字符集合可以包括不属于所统计字符的多个字符。

本实施例通过从预设单字符集合中确定目标特征编码对应的单字符，不仅速度较快，还可以较大概率保证所确定的单字符与目标文本中除所述数值字符串之外的字符不相同。

可选的，所述目标文本包括N个子文本，所述码表包括N个子码表，所述N个子码表与所述N个子文本一一对应，在所述N个子码表的每个子码表中不同的特征编码对应的单字符不同，N为大于1的整数。

本实施例中，在目标文本包括多个子文本的情况下，可以为每个子文本均设置一子码表，以存储该子文本相关的特征编码和特征编码对应的单字符。每个子码表中不同的特征编码对应的单字符不同。多个子码表之间相同的特征编码对应的单字符可以相同，也可以不同。多个子码表之间不同的特征编码对应的单字符可以不同，也可以相同。

本实施例中，通过针对每个子文本设置一子码表，可以提高特征编码和单字符之间对应关系设置的灵活性。此外，由于每个子文本均设置一子码表，每个子码表的数据相对较少，这样查找特征编码对应的单字符和查找单字符对应的特征编码的速度更快，进而可以提高文本替换速度。

可选的，在所述目标文本包括N个子文本的情况下，所述N个子文本均对应于同一码表，也即N个子文本相关的特征编码和特征编码对应的单字符均存储于同一码表中。

以下结合示例对本发明实施例进行说明：

参见图2，本发明实施例提供的文本处理方法包括如下步骤：

步骤201、遍历文本，匹配其中的数值字符串。

该步骤中，可以遍历待处理的文本，识别该文本中的数值字符串，其中，该数值字符串可以包括符号，即正号或负号。

步骤202、对数值字符串进行特征编码，并加入码表。

该步骤中，可以根据数值字符串的符号、类型、长度和进制中的至少一项对其编码，并将所得到的特征编码和其对应的单字符加入码表。其中，上述码表可以是键值映射表，其中，特征编码作为值(即Value)，单字符作为键(即Key)。上述码表中存储的单字符可以是预设单字符集合中的单字符。

需要说明的是，若是码表已存在上述数值字符串编码得到的特征编码，则可以不更新码表。

步骤203、将文本中的数值字符串替换成其编码对应的单字符，得到生成串。

该步骤中，可以将文本中每个数值字符串，替换为其编码对应的单字符。其中，上述生成串也即将文本中的数值字符串替换成其编码对应的单字符之后的文本。

步骤204、对生成串进行文本处理。

该步骤中，上述文本处理可以包括分词或N-Gram切分等处理。

步骤205、将文本处理结果中的单字符，替换回其对应的编码。

该步骤中，可以根据上述码表，将文本处理结果中的单字符，替换回其对应的编码。

可选的，在上述步骤205之后，可以对替换后的文本处理结果执行词频统计、词嵌入计算等处理。

本发明实施例采用特征编码的方式代替文本中形式多样，数值各异的数值字符串，保留了数值字符串原始特征差异化的同时，极大的归纳了其表示形式，为自然语言处理(Natural Language Processing，NLP)中词频统计、词嵌入计算等提供了更好的计算输入形式。

本发明实施例用单字符做键(即Key)的码表来存储特征编码；Key字符代替文本中数值字符串。这种处理方法保持了数值字符串的完整性和独立性，又使得替换后的文本更容易做N-Gram等切分处理。

本发明实施例在做文本切分处理时使用单字符，并将切分结果中的单字符替换回其映射的特征编码，前者很好解决了连续字符语言环境切词问题，后者解决了原始数值字符串特征多样化保持问题。

本发明实施例特征化编码数值字符串的方式，得到的特征编码是有意义的，可以自解释的。此外，以特定特征和规则进行编码，所以无论什么文本输入，符合相同特征的数值字符串，得到的特征编码具有一致性，不需要缓存全局的编码映射来做跨文件的编码。

参见图3，图3是本发明实施例提供的文本处理装置的结构图。如图3所示，文本处理装置300包括：

获取模块301，用于获取待处理的目标文本中的数值字符串；

第一确定模块302，用于确定所述数值字符串对应的单字符，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同；

第一替换模块303，用于将所述目标文本中的所述数值字符串替换为对应的所述单字符；

处理模块304，用于对替换后的所述目标文本进行文本处理，其中，所述文本处理至少包括切分处理。

可选的，所述第一确定模块包括：

编码单元，用于对所述数值字符串进行特征编码，得到目标特征编码；

确定单元，用于确定所述目标特征编码对应的单字符。

可选的，所述编码单元具体用于：

可选的，所述装置还包括：

判断模块，用于所述对所述数值字符串进行特征编码，得到目标特征编码之后，判断码表中是否存在所述目标特征编码，其中，所述码表用于对应存储特征编码与单字符，且不同的特征编码对应的单字符不同；

第二确定模块，用于在所述码表中不存在所述目标特征编码的情况下，确定所述目标特征编码对应的单字符；

存储模块，用于将所述目标特征编码和所述目标特征编码对应的单字符对应存储于所述码表中；

所述装置还包括：

第二替换模块，用于所述对替换后的所述目标文本进行文本处理之后，根据所述码表，将文本处理结果中的单字符替换为其对应的特征编码。

可选的，所述第二确定模块具体用于：

将所述目标单字符确定为所述目标特征编码对应的单字符。

本发明实施例提供的文本处理装置300能够实现上述方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的文本处理装置300，获取模块301，用于获取待处理的目标文本中的数值字符串；第一替换模块302，用于将所述目标文本中的所述数值字符串替换为所述数值字符串对应的单字符，其中，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同；处理模块303，用于对替换后的所述目标文本进行文本处理，其中，所述文本处理至少包括切分处理。由于文本中的数值字符串均替换为其对应的单字符，这样在切分文本的过程中可以避免数值字符串被切分为碎片，保证数值字符串的完整性，进而可以提高文本中的数值字符串切分准确性。

参见图4，图4是本发明又一实施提供的文本处理装置的结构图，如图4所示，文本处理装置400包括：处理器401、存储器402及存储在所述存储器402上并可在所述处理器上运行的计算机程序，数据发送装置400中的各个组件通过总线接口403耦合在一起，所述计算机程序被所述处理器401执行时实现如下步骤：

获取待处理的目标文本中的数值字符串；

将所述单字符替换所述目标文本中的所述数值字符串；

可选的，所述计算机程序被所述处理器401执行时还用于：

对所述数值字符串进行特征编码，得到目标特征编码；

确定所述目标特征编码对应的单字符。

可选的，所述计算机程序被所述处理器401执行时还用于：

所述对所述数值字符串进行特征编码，得到目标特征编码之后，判断码表中是否存在所述目标特征编码，其中，所述码表用于对应存储特征编码与单字符，且不同的特征编码对应的单字符不同；

所述计算机程序被所述处理器401执行时还用于：

所述对替换后的所述目标文本进行文本处理之后，根据所述码表，将文本处理结果中的单字符替换为其对应的特征编码。

可选的，所述计算机程序被所述处理器401执行时还用于：

将所述目标单字符确定为所述目标特征编码对应的单字符。

本发明实施例还提供一种文本处理装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述文本处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述文本处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种文本处理方法，其特征在于，包括：

获取待处理的目标文本中的数值字符串；

2.根据权利要求1所述的方法，其特征在于，所述确定所述数值字符串对应的单字符，包括：

对所述数值字符串进行特征编码，得到目标特征编码；

确定所述目标特征编码对应的单字符。

3.根据权利要求2所述的方法，其特征在于，所述对所述数值字符串进行特征编码，得到目标特征编码，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述数值字符串进行特征编码，得到目标特征编码之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述码表中不存在所述目标特征编码的情况下，确定所述目标特征编码对应的单字符，包括：

将所述目标单字符确定为所述目标特征编码对应的单字符。

6.根据权利要求4所述的方法，其特征在于，所述目标文本包括N个子文本，所述码表包括N个子码表，所述N个子码表与所述N个子文本一一对应，在所述N个子码表的每个子码表中不同的特征编码对应的单字符不同，N为大于1的整数。

7.一种文本处理装置，其特征在于，包括：

获取模块，用于获取待处理的目标文本中的数值字符串；

第一确定模块，用于确定所述数值字符串对应的单字符，所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同；

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块包括：

确定单元，用于确定所述目标特征编码对应的单字符。

9.一种文本处理装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的文本处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本处理方法的步骤。