CN112364642A - 一种文本处理方法及装置 - Google Patents
一种文本处理方法及装置 Download PDFInfo
- Publication number
- CN112364642A CN112364642A CN201910666073.7A CN201910666073A CN112364642A CN 112364642 A CN112364642 A CN 112364642A CN 201910666073 A CN201910666073 A CN 201910666073A CN 112364642 A CN112364642 A CN 112364642A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- code
- character string
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 21
- 239000012634 fragment Substances 0.000 abstract description 6
- 238000007667 floating Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 101000701902 Homo sapiens Serpin B4 Proteins 0.000 description 3
- 102100030326 Serpin B4 Human genes 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本处理方法及装置,该方法包括:获取待处理的目标文本中的数值字符串;确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;将所述目标文本中的所述数值字符串替换为对应的所述单字符;对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。通过本发明提供的文本处理方法,在切分文本的过程中可以避免数值字符串被切分为碎片,保证数值字符串的完整性,进而可以提高文本中的数值字符串切分准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种文本处理方法及装置。
背景技术
文本是互联网中重要的交互信息载体。在各种网络通讯工具中,人们大量使用自然语言文本进行交流。因而,文本成为机器学习和自然语言处理中的重要对象。
实际情况中,文本中往往会包括数值字符串,例如,电话号码、身份证号码、邮编等。在对文本进行切分(例如,基于词典的分词或N-Gram切分等)的情况下,容易把完整的数值字符串切分成无意义的碎片。
可见,现有技术中存在对文本中的数值字符串切分准确性较低的问题。
发明内容
本发明实施例提供一种文本处理方法及装置,以解决现有技术中对文本中的数值字符串切分准确性较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文本处理方法。该方法包括:
获取待处理的目标文本中的数值字符串;
确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
将所述目标文本中的所述数值字符串替换为对应的所述单字符;
对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
第二方面,本发明实施例还提供一种文本处理装置。该文本处理装置包括:
获取模块,用于获取待处理的目标文本中的数值字符串;
确定模块,用于确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
第一替换模块,用于将所述目标文本中的所述数值字符串替换为对应的所述单字符;
处理模块,用于对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
第三方面,本发明实施例还提供一种文本处理装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文本处理方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本处理方法的步骤。
本发明实施例中,通过获取待处理的目标文本中的数值字符串;确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;将所述单字符替换所述目标文本中的对应的所述数值字符串;对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。由于文本中的数值字符串均替换为其对应的单字符,这样在切分文本的过程中可以避免数值字符串被切分为碎片,保证数值字符串的完整性,进而可以提高文本中的数值字符串切分准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本处理方法的流程图;
图2是本发明又一实施例提供的文本处理方法的流程图;
图3是本发明实施例提供的文本处理装置的结构图;
图4是本发明又一实施例提供的文本处理装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本处理方法。参见图1,图1是本发明实施例提供的文本处理方法的流程图,如图1所示,包括以下步骤:
步骤101、获取待处理的目标文本中的数值字符串。
本实施例中,上述目标文本可以是任意需要进行文本处理的文本。此外,上述目标文本可以包括一个或多个文本实例,例如,上述目标文本可以包括不同文件的文本。上述数值字符串可以包括由数字组成的字符串或由数字和符号组成的字符串。
可选的,在该步骤中,可以遍历目标文本,以识别目标文本中的每个数值字符串,例如,可以通过正则匹配等算法识别目标文本中的数值字符串。需要说明的是,本发明实施例对于识别目标文本中的数值字符串的方式不做限定。
步骤102、确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同。
本实施例中,上述单字符可以是任意与目标文本中除数值字符串之外的字符均不相同的字符。上述单字符可以理解为仅包括一个字符,例如,上述单字符可以是单个数字、单个符号等。
可选的,本实施例可以直接将不同的数值字符串对应不同的单字符;也可以先对各个数值字符串进行特征编码,并将不同的特征编码对应不同的单字符。
步骤103、将所述目标文本中的所述数值字符串替换为对应的所述单字符。
该步骤中,可以将目标文本中的数值字符串替换为其对应的单字符,从而可以避免目标文本中的数值字符串被切分。
步骤104、对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
本实施例中,上述切分处理可以包括但不限于分词或N-Gram切分等。由于文本中的数值字符串均替换为其对应的单字符,这样在切分文本的过程中可以避免数值字符串被切分为碎片。
可选的,上述文本处理除了切分处理之外,还可以包括词频统计、词嵌入计算等处理,本实施例对此不做限定。
本发明实施例提供的文本处理方法,通过获取待处理的目标文本中的数值字符串;确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;将所述单字符替换所述目标文本中的所述数值字符串;对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。由于文本中的数值字符串均替换为其对应的单字符,这样在切分文本的过程中可以避免数值字符串被切分为碎片,保证数值字符串的完整性,进而可以提高文本中的数值字符串切分准确性。
可选的,上述步骤102,也即所述确定所述数值字符串对应的单字符,可以包括:
对所述数值字符串进行特征编码,得到目标特征编码;
确定所述目标特征编码对应的单字符。
本实施例中,上述对所述数值字符串进行特征编码,可以理解为根据上述数值字符串的特征对数值字符串进行编码。例如,可以根据数值字符串所表征含义进行编码,如对于表征手机号的数值字符串编码为PHONE,对于表征身份证号的数值字符串编码为ID,对于其他类型的数值字符串编码为ELSE;或可以根据数值字符串的符号、类型、长度和进制等一项或多项特征进行编码,例如,基于符号、类型和长度编码,若正数编码为P,负数编码为N,整数编码为I,浮点数编码为F,则12411110000可以编码为PI11。
实际应用中,可以根据实际需求确定用于数值字符串编码的特征。例如,若仅关注盈亏情况,则可以基于数值字符串的符号对数值字符串进行编码;若仅关注用户的使用情况,则可以基于数值字符串的长度和类型进行编码。
需要说明的是,若上述步骤101中识别到多个数值字符串,则本实施例可以分别对多个数值字符串中的每个数值字符串进行特征编码,得到多个特征编码。
上述单字符可以是任意与目标文本中除数值字符串之外的字符均不相同的字符。可选的,若目标特征编码包括多个特征编码,则多个特征编码中不同特征编码对应的单字符不同。
本实施例基于数值字符串的特征对数值字符串进行编码,相比于数值字符串的数量,特别编码的数量相对较少,这样可以减少所需的单字符的数量。此外,基于数值字符串的特征对数值字符串进行编码,在进行词频统计和词嵌入计算等处理的情况下,数值字符串物理含义更为突出,处理结果具有更好的有效性。例如,若电话号码用实际的11位数值字符串表示,统计词频和计算词嵌入时容易被边缘化,而若电话号码统一用PI11这种特征编码表示,由于所有电话号码都一样,则其统计值和嵌入向量的作用会更为明显。
可选的,所述对所述数值字符串进行特征编码,得到目标特征编码,可以包括:
对所述数值字符串进行解析,得到所述数值字符串的特征参数,其中,所述特征参数包括符号、类型、长度和进制中的至少一项;
根据所述特征参数对所述数值字符串进行编码,得到所述目标特征编码。
本实施例中,上述符号可以包括正号(即+)和负号(即-)。上述类型可以包括整数型和浮点型等。上述长度可以表示数值字符串中除符号之外字符的长度,也可以表示数值字符串的整数部分的长度和/或小数部分的长度等。上述进制可以包括十进制、八进制和十六进制等。
需要说明的是,上述各个特征参数对应的编码可以根据实际需求进行合理设置。例如,整数型可以编码为I,浮点型可以编码为F;或整数型可以编码为A,浮点型可以编码为B;或整数型可以编码为n1,浮点型可以编码为n2。
以下结合举例对本实施例进行说明:
方式一:根据数值字符串的符号进行编码。
例如,若正数编码为P,负数编码为N,则+88.5可以编码为P,-75.4可以表示为N。
方式二:根据数值字符串的符号和长度进行编码。
例如,若正数编码为P,负数编码为N,长度表示表示数值字符串的整数部分的长度,则+866.57可以编码为P3,-75.446可以表示为N2。
方式三:根据数值字符串的符号、类型和长度进行编码。
例如,若正数编码为P,负数编码为N,整数编码为I,浮点数编码为F,长度表示数值字符串中除符号之外字符的长度,则12411110000可以编码为PI11,-8824.44可以表示为NF6。
本发明实施例根据数值字符串的符号、类型、长度和进制中的至少一项对数值字符串进行编码,不仅实现较为简单,还可以一定程度反映该数值字符串的物理含义,在进行词频统计的情况下可以更好的反映统计特性。
可选的,所述对所述数值字符串进行特征编码,得到目标特征编码之后,所述方法还可以包括:
判断码表中是否存在所述目标特征编码,其中,所述码表用于对应存储特征编码与单字符,且不同的特征编码对应的单字符不同;
在所述码表中不存在所述目标特征编码的情况下,确定所述目标特征编码对应的单字符;
将所述目标特征编码和所述目标特征编码对应的单字符对应存储于所述码表中;
所述对替换后的所述目标文本进行文本处理之后,所述方法还包括:
根据所述码表,将文本处理结果中的单字符替换为其对应的特征编码。
本实施例中,上述码表可以存储各个特征编码以及各个特征编码对应的单字符,其中,特征编码与单字符之间一一对应。例如,上述码表可以是键值(即Key-Value)映射表,其中,特征编码作为值(即Value),单字符作为键(即Key)。
实际应用中,可以在得到目标特征编码之后,遍历码表,以判断码表中是否存在目标特征编码。若码表中存在目标特征编码,则可以从码表中获取目标特征编码对应的单字符,并通过该单字符替换目标文本中与其对应的数值字符串,此时可以不存储该目标特征编码。若码表中不存在目标特征编码,则可以确定目标特征编码对应的单字符,例如,可以将任一不存在于码表且与目标文本中除数值字符串之外的字符均不相同的单字符,作为目标特征编码对应的单字符,并将目标特征编码和其对应的单字符对应存储于码表中,例如,将目标特征编码和其对应的单字符存储于码表的同一行,此外还可以利用所确定的单字符替换目标文本中与其对应的数值字符串。
需要说明的是,上述存储目标特征编码和其对应的单字符的步骤和利用所确定的单字符替换目标文本中与其对应的数值字符串的步骤可以并行执行,也可以串行执行,本实施例对此不做限定。
本实施例可以利用码表将文本处理结果中的单字符恢复为其对应的特征编码,使得其更为直观,可读性更好。
可选的,对于一些较短的文本,上述码表可以是有序列表,其中,有序列表的各个数据元素为特征编码,各个数据元素的下标为该特征编码对应的单字符。例如,对于长度为10的有序列表,10个数据元素的下标依次为0至9,也即10个特征编码分别对应单字符0至10。
可选的,所述在所述码表中不存在所述目标特征编码的情况下,确定所述目标特征编码对应的单字符,包括:
在所述码表中不存在所述目标特征编码的情况下,从预设单字符集合中获取目标单字符,其中,所述目标单字符为所述预设单字符集合中除所述码表已存储的单字符之外的任一单字符,所述预设单字符集合中的每个单字符均与所述目标文本中除所述数值字符串之外的字符不相同;
将所述目标单字符确定为所述目标特征编码对应的单字符。
实际应用中,文本中出现的字符类型通常较为固定,因此,可以统计文本中出现的字符,并可以依据所统计的字符确定一预设单字符集合,该预设单字符集合可以包括不属于所统计字符的多个字符。
本实施例通过从预设单字符集合中确定目标特征编码对应的单字符,不仅速度较快,还可以较大概率保证所确定的单字符与目标文本中除所述数值字符串之外的字符不相同。
可选的,所述目标文本包括N个子文本,所述码表包括N个子码表,所述N个子码表与所述N个子文本一一对应,在所述N个子码表的每个子码表中不同的特征编码对应的单字符不同,N为大于1的整数。
本实施例中,在目标文本包括多个子文本的情况下,可以为每个子文本均设置一子码表,以存储该子文本相关的特征编码和特征编码对应的单字符。每个子码表中不同的特征编码对应的单字符不同。多个子码表之间相同的特征编码对应的单字符可以相同,也可以不同。多个子码表之间不同的特征编码对应的单字符可以不同,也可以相同。
本实施例中,通过针对每个子文本设置一子码表,可以提高特征编码和单字符之间对应关系设置的灵活性。此外,由于每个子文本均设置一子码表,每个子码表的数据相对较少,这样查找特征编码对应的单字符和查找单字符对应的特征编码的速度更快,进而可以提高文本替换速度。
可选的,在所述目标文本包括N个子文本的情况下,所述N个子文本均对应于同一码表,也即N个子文本相关的特征编码和特征编码对应的单字符均存储于同一码表中。
以下结合示例对本发明实施例进行说明:
参见图2,本发明实施例提供的文本处理方法包括如下步骤:
步骤201、遍历文本,匹配其中的数值字符串。
该步骤中,可以遍历待处理的文本,识别该文本中的数值字符串,其中,该数值字符串可以包括符号,即正号或负号。
步骤202、对数值字符串进行特征编码,并加入码表。
该步骤中,可以根据数值字符串的符号、类型、长度和进制中的至少一项对其编码,并将所得到的特征编码和其对应的单字符加入码表。其中,上述码表可以是键值映射表,其中,特征编码作为值(即Value),单字符作为键(即Key)。上述码表中存储的单字符可以是预设单字符集合中的单字符。
需要说明的是,若是码表已存在上述数值字符串编码得到的特征编码,则可以不更新码表。
步骤203、将文本中的数值字符串替换成其编码对应的单字符,得到生成串。
该步骤中,可以将文本中每个数值字符串,替换为其编码对应的单字符。其中,上述生成串也即将文本中的数值字符串替换成其编码对应的单字符之后的文本。
步骤204、对生成串进行文本处理。
该步骤中,上述文本处理可以包括分词或N-Gram切分等处理。
步骤205、将文本处理结果中的单字符,替换回其对应的编码。
该步骤中,可以根据上述码表,将文本处理结果中的单字符,替换回其对应的编码。
可选的,在上述步骤205之后,可以对替换后的文本处理结果执行词频统计、词嵌入计算等处理。
本发明实施例采用特征编码的方式代替文本中形式多样,数值各异的数值字符串,保留了数值字符串原始特征差异化的同时,极大的归纳了其表示形式,为自然语言处理(Natural Language Processing,NLP)中词频统计、词嵌入计算等提供了更好的计算输入形式。
本发明实施例用单字符做键(即Key)的码表来存储特征编码;Key字符代替文本中数值字符串。这种处理方法保持了数值字符串的完整性和独立性,又使得替换后的文本更容易做N-Gram等切分处理。
本发明实施例在做文本切分处理时使用单字符,并将切分结果中的单字符替换回其映射的特征编码,前者很好解决了连续字符语言环境切词问题,后者解决了原始数值字符串特征多样化保持问题。
本发明实施例特征化编码数值字符串的方式,得到的特征编码是有意义的,可以自解释的。此外,以特定特征和规则进行编码,所以无论什么文本输入,符合相同特征的数值字符串,得到的特征编码具有一致性,不需要缓存全局的编码映射来做跨文件的编码。
参见图3,图3是本发明实施例提供的文本处理装置的结构图。如图3所示,文本处理装置300包括:
获取模块301,用于获取待处理的目标文本中的数值字符串;
第一确定模块302,用于确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
第一替换模块303,用于将所述目标文本中的所述数值字符串替换为对应的所述单字符;
处理模块304,用于对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
可选的,所述第一确定模块包括:
编码单元,用于对所述数值字符串进行特征编码,得到目标特征编码;
确定单元,用于确定所述目标特征编码对应的单字符。
可选的,所述编码单元具体用于:
对所述数值字符串进行解析,得到所述数值字符串的特征参数,其中,所述特征参数包括符号、类型、长度和进制中的至少一项;
根据所述特征参数对所述数值字符串进行编码,得到所述目标特征编码。
可选的,所述装置还包括:
判断模块,用于所述对所述数值字符串进行特征编码,得到目标特征编码之后,判断码表中是否存在所述目标特征编码,其中,所述码表用于对应存储特征编码与单字符,且不同的特征编码对应的单字符不同;
第二确定模块,用于在所述码表中不存在所述目标特征编码的情况下,确定所述目标特征编码对应的单字符;
存储模块,用于将所述目标特征编码和所述目标特征编码对应的单字符对应存储于所述码表中;
所述装置还包括:
第二替换模块,用于所述对替换后的所述目标文本进行文本处理之后,根据所述码表,将文本处理结果中的单字符替换为其对应的特征编码。
可选的,所述第二确定模块具体用于:
在所述码表中不存在所述目标特征编码的情况下,从预设单字符集合中获取目标单字符,其中,所述目标单字符为所述预设单字符集合中除所述码表已存储的单字符之外的任一单字符,所述预设单字符集合中的每个单字符均与所述目标文本中除所述数值字符串之外的字符不相同;
将所述目标单字符确定为所述目标特征编码对应的单字符。
可选的,所述目标文本包括N个子文本,所述码表包括N个子码表,所述N个子码表与所述N个子文本一一对应,在所述N个子码表的每个子码表中不同的特征编码对应的单字符不同,N为大于1的整数。
本发明实施例提供的文本处理装置300能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的文本处理装置300,获取模块301,用于获取待处理的目标文本中的数值字符串;第一替换模块302,用于将所述目标文本中的所述数值字符串替换为所述数值字符串对应的单字符,其中,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;处理模块303,用于对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。由于文本中的数值字符串均替换为其对应的单字符,这样在切分文本的过程中可以避免数值字符串被切分为碎片,保证数值字符串的完整性,进而可以提高文本中的数值字符串切分准确性。
参见图4,图4是本发明又一实施提供的文本处理装置的结构图,如图4所示,文本处理装置400包括:处理器401、存储器402及存储在所述存储器402上并可在所述处理器上运行的计算机程序,数据发送装置400中的各个组件通过总线接口403耦合在一起,所述计算机程序被所述处理器401执行时实现如下步骤:
获取待处理的目标文本中的数值字符串;
确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
将所述单字符替换所述目标文本中的所述数值字符串;
对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
可选的,所述计算机程序被所述处理器401执行时还用于:
对所述数值字符串进行特征编码,得到目标特征编码;
确定所述目标特征编码对应的单字符。
可选的,所述计算机程序被所述处理器401执行时还用于:
对所述数值字符串进行解析,得到所述数值字符串的特征参数,其中,所述特征参数包括符号、类型、长度和进制中的至少一项;
根据所述特征参数对所述数值字符串进行编码,得到所述目标特征编码。
可选的,所述计算机程序被所述处理器401执行时还用于:
所述对所述数值字符串进行特征编码,得到目标特征编码之后,判断码表中是否存在所述目标特征编码,其中,所述码表用于对应存储特征编码与单字符,且不同的特征编码对应的单字符不同;
在所述码表中不存在所述目标特征编码的情况下,确定所述目标特征编码对应的单字符;
将所述目标特征编码和所述目标特征编码对应的单字符对应存储于所述码表中;
所述计算机程序被所述处理器401执行时还用于:
所述对替换后的所述目标文本进行文本处理之后,根据所述码表,将文本处理结果中的单字符替换为其对应的特征编码。
可选的,所述计算机程序被所述处理器401执行时还用于:
在所述码表中不存在所述目标特征编码的情况下,从预设单字符集合中获取目标单字符,其中,所述目标单字符为所述预设单字符集合中除所述码表已存储的单字符之外的任一单字符,所述预设单字符集合中的每个单字符均与所述目标文本中除所述数值字符串之外的字符不相同;
将所述目标单字符确定为所述目标特征编码对应的单字符。
可选的,所述目标文本包括N个子文本,所述码表包括N个子码表,所述N个子码表与所述N个子文本一一对应,在所述N个子码表的每个子码表中不同的特征编码对应的单字符不同,N为大于1的整数。
本发明实施例还提供一种文本处理装置,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述文本处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文本处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
获取待处理的目标文本中的数值字符串;
确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
将所述目标文本中的所述数值字符串替换为对应的所述单字符;
对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
2.根据权利要求1所述的方法,其特征在于,所述确定所述数值字符串对应的单字符,包括:
对所述数值字符串进行特征编码,得到目标特征编码;
确定所述目标特征编码对应的单字符。
3.根据权利要求2所述的方法,其特征在于,所述对所述数值字符串进行特征编码,得到目标特征编码,包括:
对所述数值字符串进行解析,得到所述数值字符串的特征参数,其中,所述特征参数包括符号、类型、长度和进制中的至少一项;
根据所述特征参数对所述数值字符串进行编码,得到所述目标特征编码。
4.根据权利要求2所述的方法,其特征在于,所述对所述数值字符串进行特征编码,得到目标特征编码之后,所述方法还包括:
判断码表中是否存在所述目标特征编码,其中,所述码表用于对应存储特征编码与单字符,且不同的特征编码对应的单字符不同;
在所述码表中不存在所述目标特征编码的情况下,确定所述目标特征编码对应的单字符;
将所述目标特征编码和所述目标特征编码对应的单字符对应存储于所述码表中;
所述对替换后的所述目标文本进行文本处理之后,所述方法还包括:
根据所述码表,将文本处理结果中的单字符替换为其对应的特征编码。
5.根据权利要求4所述的方法,其特征在于,所述在所述码表中不存在所述目标特征编码的情况下,确定所述目标特征编码对应的单字符,包括:
在所述码表中不存在所述目标特征编码的情况下,从预设单字符集合中获取目标单字符,其中,所述目标单字符为所述预设单字符集合中除所述码表已存储的单字符之外的任一单字符,所述预设单字符集合中的每个单字符均与所述目标文本中除所述数值字符串之外的字符不相同;
将所述目标单字符确定为所述目标特征编码对应的单字符。
6.根据权利要求4所述的方法,其特征在于,所述目标文本包括N个子文本,所述码表包括N个子码表,所述N个子码表与所述N个子文本一一对应,在所述N个子码表的每个子码表中不同的特征编码对应的单字符不同,N为大于1的整数。
7.一种文本处理装置,其特征在于,包括:
获取模块,用于获取待处理的目标文本中的数值字符串;
第一确定模块,用于确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
第一替换模块,用于将所述目标文本中的所述数值字符串替换为对应的所述单字符;
处理模块,用于对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
编码单元,用于对所述数值字符串进行特征编码,得到目标特征编码;
确定单元,用于确定所述目标特征编码对应的单字符。
9.一种文本处理装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的文本处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666073.7A CN112364642B (zh) | 2019-07-23 | 2019-07-23 | 一种文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666073.7A CN112364642B (zh) | 2019-07-23 | 2019-07-23 | 一种文本处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364642A true CN112364642A (zh) | 2021-02-12 |
CN112364642B CN112364642B (zh) | 2024-04-02 |
Family
ID=74516290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910666073.7A Active CN112364642B (zh) | 2019-07-23 | 2019-07-23 | 一种文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364642B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090315744A1 (en) * | 2008-06-18 | 2009-12-24 | Microsoft Corporation | Dynamic character encoding |
US20120016657A1 (en) * | 2010-07-13 | 2012-01-19 | Dublin City University | Method of and a system for translation |
US20150055868A1 (en) * | 2013-08-26 | 2015-02-26 | Fujitsu Limited | Character data processing method, information processing method, and information processing apparatus |
CN106776677A (zh) * | 2016-10-25 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 文件转换方法、装置及文件传输系统 |
CN107491423A (zh) * | 2016-06-12 | 2017-12-19 | 北京云量数盟科技有限公司 | 一种基于数值‑字符串混合编码的中文文档基因量化与表征方法 |
CN107592116A (zh) * | 2017-09-21 | 2018-01-16 | 咪咕文化科技有限公司 | 一种数据压缩方法、装置及存储介质 |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
CN107861949A (zh) * | 2017-11-22 | 2018-03-30 | 珠海市君天电子科技有限公司 | 文本关键词的提取方法、装置及电子设备 |
CN108536713A (zh) * | 2017-03-03 | 2018-09-14 | 广东神马搜索科技有限公司 | 字符串审核方法、装置及电子设备 |
CN109213973A (zh) * | 2018-07-04 | 2019-01-15 | 珠海市特车网络科技有限公司 | Vin码转码存储方法及装置和对应的读取方法及装置 |
CN109545183A (zh) * | 2018-11-23 | 2019-03-29 | 北京羽扇智信息科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
-
2019
- 2019-07-23 CN CN201910666073.7A patent/CN112364642B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090315744A1 (en) * | 2008-06-18 | 2009-12-24 | Microsoft Corporation | Dynamic character encoding |
US20120016657A1 (en) * | 2010-07-13 | 2012-01-19 | Dublin City University | Method of and a system for translation |
US20150055868A1 (en) * | 2013-08-26 | 2015-02-26 | Fujitsu Limited | Character data processing method, information processing method, and information processing apparatus |
CN107491423A (zh) * | 2016-06-12 | 2017-12-19 | 北京云量数盟科技有限公司 | 一种基于数值‑字符串混合编码的中文文档基因量化与表征方法 |
CN106776677A (zh) * | 2016-10-25 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 文件转换方法、装置及文件传输系统 |
CN108536713A (zh) * | 2017-03-03 | 2018-09-14 | 广东神马搜索科技有限公司 | 字符串审核方法、装置及电子设备 |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
CN107592116A (zh) * | 2017-09-21 | 2018-01-16 | 咪咕文化科技有限公司 | 一种数据压缩方法、装置及存储介质 |
CN107861949A (zh) * | 2017-11-22 | 2018-03-30 | 珠海市君天电子科技有限公司 | 文本关键词的提取方法、装置及电子设备 |
CN109213973A (zh) * | 2018-07-04 | 2019-01-15 | 珠海市特车网络科技有限公司 | Vin码转码存储方法及装置和对应的读取方法及装置 |
CN109545183A (zh) * | 2018-11-23 | 2019-03-29 | 北京羽扇智信息科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
PAUL R. MCWHIRTER: "SQL Injection Attack classification through the feature extraction of SQL query strings using a Gap-Weighted String Subsequence Kernel", JOURNAL OF INFORMATION SECURITY AND APPLICATIONS, vol. 40, pages 199 - 216 * |
乔宏利: "《基于内容的短信息审计系统研究与实现》", 中国优秀硕士论文电子期刊库, pages 1 - 87 * |
王静婷;: "基于规则的中文字符串近似匹配研究", 网络安全技术与应用, no. 12, pages 42 - 46 * |
Also Published As
Publication number | Publication date |
---|---|
CN112364642B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN112667780B (zh) | 一种评论信息的生成方法、装置、电子设备及存储介质 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
WO2018213783A1 (en) | Computerized methods of data compression and analysis | |
CN114298039B (zh) | 敏感词识别方法、装置、电子设备及存储介质 | |
CN113850251A (zh) | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN113961768A (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
CN110390104B (zh) | 用于语音对话平台的不规则文本转写方法及系统 | |
CN112052649B (zh) | 文本生成方法、装置、电子设备及存储介质 | |
CN108090044B (zh) | 联系方式的识别方法和装置 | |
CN107832341B (zh) | Agnss用户去重统计方法 | |
CN103136166B (zh) | 字体确定方法和设备 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN109614494B (zh) | 一种文本分类方法及相关装置 | |
CN112364642A (zh) | 一种文本处理方法及装置 | |
US12050557B2 (en) | Computerized systems and methods of data compression | |
CN111460088A (zh) | 相似文本的检索方法、装置和系统 | |
CN115712722A (zh) | 多语言短信文本的聚类系统、方法、电子设备及存储介质 | |
CN112765236B (zh) | 自适应异常设备挖掘方法、存储介质、设备及系统 | |
CN114490969A (zh) | 基于表格的问答方法、装置以及电子设备 | |
CN114154503A (zh) | 一种敏感数据类型识别方法 | |
CN114722806A (zh) | 文本处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |