CN107967314B - 文本特征值的提取方法、装置及电子设备 - Google Patents

文本特征值的提取方法、装置及电子设备 Download PDF

Info

Publication number
CN107967314B
CN107967314B CN201711172233.XA CN201711172233A CN107967314B CN 107967314 B CN107967314 B CN 107967314B CN 201711172233 A CN201711172233 A CN 201711172233A CN 107967314 B CN107967314 B CN 107967314B
Authority
CN
China
Prior art keywords
sequence
preset
text
codes
current extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711172233.XA
Other languages
English (en)
Other versions
CN107967314A (zh
Inventor
米明恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Juntian Electronic Technology Co Ltd
Original Assignee
Zhuhai Juntian Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Juntian Electronic Technology Co Ltd filed Critical Zhuhai Juntian Electronic Technology Co Ltd
Priority to CN201711172233.XA priority Critical patent/CN107967314B/zh
Publication of CN107967314A publication Critical patent/CN107967314A/zh
Application granted granted Critical
Publication of CN107967314B publication Critical patent/CN107967314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供的一种文本特征值的提取方法、装置及电子设备。通过将待提取特征值的文本中的字符转换为对应的编码,得到编码序列,按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果,再将多个编码的混淆结果求和,得到针对当前提取位置的叠加值;当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码;使用选取的编码,确定出文本的针对当前提取位置的特征值,从而生成包含文本结构信息的特征序列,消除了对特定语言的限制,增强了提取文本特征值的通用性。

Description

文本特征值的提取方法、装置及电子设备
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种文本特征值的提取方法、装置及电子设备。
背景技术
在新闻网页抓取过程中,往往遇到不同网站转载同一篇新闻文本,或同一媒体对某一事件持续报道并连续更新该新闻页面。在为用户提供新闻文本时,此类新闻文本应当合并为同一篇新闻文本,避免用户看到重复的新闻文本,从而提升用户体验。为高效检索相似文本,需要将较长的文本转换为较短的特征序列,通过对文本较短的特征序列的相似性比对,实现相似文本的检索。
目前主要通过文本排重的方法检测相似的文本特征序列,从而检测到相似的文本。文本排重的特征序列算法主要有simhash算法和spotsig算法。simhash算法是将文本转换为定长特征序列,转换后的特征序列会丢失了文章的结构信息,无法用于检测段落增删导致的文章差异;spotsig算法是根据文本中的指定的特征词生成变长特征序列。
以英文为例,spotsig算法以常用词is、to、be、for、in作为锚点特征。可以假设在英文文本段落中上述词在文本中均匀分布,因此,在全文中找出上述所有冠词的位置作为锚点,以冠词后面第一个英文字母作为锚点对应的特征值,将所有特征值连接起来,即可得到代表文档信息的特征序列。例如对于以下文本:This domain is established to beused for illustrative examples in documents.You may use this domain inexamples without prior coordination or asking for permission.按照文本阅读顺序,其is、to、be、for、in五个词后面的第一个英文字母如表1所示:
表1
Figure BDA0001477477080000011
Figure BDA0001477477080000021
由表1可知,由规定的锚点位置生成的代表上述文本的特征序列为ebuidep。
如果将上述文本修改为如下:For example,this domain is established to beused for illustrative examples in documents.You may use this domain inexamples without prior coordination.按照上述规则可以得到新的特征串eebuide,对比两个特征序列,以1表示相同部分,0表示不同部分,则可以得到序列01111110,如表2所示:
表2
e b u i d e p
e e b u i d e
0 1 1 1 1 1 1 0
从表2可知,两段文本首尾部分有差异,但主体内容匹配,可以认为是相似文本。
可见,spotsig算法以锚点确定特征词的位置,当文章删除段落时,保留下来的段落所对应的特征词及其顺序保持不变,只是被删掉的段落对应的特征词也被删掉,对比两个特征序列里面特征值出现的位置,就可以知道被删除段落的相应位置。因此,spotsig算法不会丢失文章的结构信息。
然而,spotsig算法依赖于特定的语言,针对不同语言需要制定不同的特征词,如中文文本可以将“的”、“了”等常用字作为锚点,且无法适用于非文本类型数据(如二进制文件)的特征提取,通用性较差。
发明内容
本发明实施例的目的在于提供一种文本特征值的提取方法、装置及电子设备,以实现消除了对特定语言的限制,增强了提取文本特征值的通用性。具体技术方案如下:
第一方面提供了一种文本特征值的提取方法,该方法可以包括:将待提取特征值的文本中的字符转换为对应的编码,得到包含编码的编码序列,针对编码序列执行如下步骤:
步骤A:按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始位置;
步骤B:将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;
步骤C:将多个编码的混淆结果求和,得到针对当前提取位置的叠加值;
步骤D:当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码;
步骤E:使用选取的编码,确定出文本的针对当前提取位置的特征值。
在一个可选的示例中,该方法还包括:当叠加值不在预设范围内时,按照所述预设顺序,将当前提取位置的下一个位置,确定为新的当前提取位置,并返回步骤A。
在一个可选的示例中,选取与当前提取位置相隔第二预设数量的编码之后,该方法还包括:将选取的该编码的下一个位置,确定为新的当前提取位置,并返回步骤A。
在一个可选的示例中,使用选取的该编码,确定出文本的针对当前提取位置的特征值,包括:将选取的该编码,确定为文本的针对当前提取位置的特征值;或者将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定序列位置对应的字符,作为文本的针对当前提取位置的特征值。
在一个可选的示例中,该方法还包括:将针对编码序列确定出的多个特征值,按照先后顺序组成文本的特征序列。
在一个可选的示例中,待提取特征值的文本包括英文字符、汉字字符、数字字符或二进制序列。
第二方面,提供了一种提取装置,该装置可以包括:转换模块、提取模块、运算模块、求和模块和选取模块;
转换模块,用于将待提取特征值的文本中的字符转换为对应的编码,得到包含编码的编码序列;
提取模块,用于按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始位置;
运算模块,用于将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;
求和模块,用于将多个编码的混淆结果求和,得到针对当前提取位置的叠加值;
选取模块,用于当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码;
确定模块,用于使用选取的编码,确定出文本的针对当前提取位置的特征值。
在一个可选的示例中,确定模块还用于,当叠加值不在预设范围内时,按照预设顺序,将当前提取位置的下一个位置,确定为新的当前提取位置,并触发提取模块。
在一个可选的示例中,选取模块选取与当前提取位置相隔第二预设数量的编码之后,确定模块,具体用于将选取的该编码的下一个位置,确定为新的当前提取位置,并触发提取模块。
在一个可选的示例中,确定模块,具体用于将选取的该编码,确定为文本的针对当前提取位置的特征值;或者将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定序列位置对应的字符,作为文本的针对当前提取位置的特征值。
在一个可选的示例中,该装置还包括排序模块;排序模块,用于将针对编码序列确定出的多个特征值,按照先后顺序组成文本的特征序列。
在一个可选的示例中,待提取特征值的文本包括英文字符、汉字字符、数字字符或二进制序列。
第三方面,提供一种电子设备,该电子设备可以包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的文本特征值的提取方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文本特征值的提取方法。
本发明实施例提供的一种文本特征值的提取方法、装置及电子设备。通过将待提取特征值的文本中的字符转换为对应的编码,得到包含编码的编码序列,按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始位置;将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果,再将多个编码的混淆结果求和,得到针对当前提取位置的叠加值;当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码;使用选取的编码,确定出文本的针对当前提取位置的特征值,从而生成特征序列,该方法采用数学转换方式,摆脱了对特定语言的依赖,生成的特征序列是由包含文本结构信息的特征值构成的,即本发明实施例不是采用固定的文本,即不需要考虑文本的结构特征,消除了对特定语言的限制,增强了提取文本特征值的通用性。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种文本特征值的提取方法的流程示意图;
图2为本发明实施例中的一种滑动窗口提取编码的过程示意图;
图3为本发明实施例提供的另一种文本特征值的提取方法的流程示意图;
图4为本发明实施例提供的一种提取装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本申请提供的文本特征值的提取方法与传统的spotsig算法不同,本申请提供的文本特征值的提取方法不需要依赖具体的固定文本作为锚点,而是通过对输入文本预处理后,从处理后的输入文本中提取第一预设数量的多个字符,对多个字符的相应编码进行数学变换,得到一个代表该第一预设数量的多个编码的叠加值,然后通过叠加值是否在预设概率区间(或称预设范围)内,来判定选取的第一预设数量的多个编码所在的位置是否为锚点位置。
在计算机领域中,每个字符都有一个与之对应的数值,称作Unicode编码。由于语言的多样性,在任何语言中,若第一预设数量的多个编码内存在连续的若干个字符,则截取出字符的组合都具有很大的随机性,即这些字符对应的Unicode编码组合具有很大的随机性。其中,输入文本为待提取特征值的文本;锚点为输入文本中设置的位置标记点。通过创建锚点,可以使链接指向当前文本或不同文本中的指定位置,从而加快信息检索速度。当第一预设数量的多个编码相互独立时,每个编码可以代表一个独立随机变量,依据中心极限定理,对多个独立随机变量求和,所得到的叠加值服从正态分布。根据正态分布的特点,可以选取一个预设概率区间,第一预设数量的多个编码的叠加值落在该预设概率区间(或称预设范围)内,即认为提取第一预设数量的多个编码的当前位置是一个锚点位置。
由于该方法采用概率的方式而不是具体的字符组合,因此摆脱了对特定语言的依赖,同时可以保证锚点位置均匀分布在文本中。基于确定的锚点位置,选取与该锚点位置存在第二预设数量距离的编码作为输入文本特征序列的一个特征值,如选取与该锚点位置存在一个字符距离的编码,即该锚点位置后面紧跟着的编码,之后将特征值按照选取的先后顺序组成输入文本的特征序列。
其中,预设概率区间的选取需要根据实际情况选取,如根据实验得出。若选取的区间较大,则叠加值容易落入该区间中,导致产生较多的锚点,每个锚点对应一个特征值,这样会导致最终的特征序列长度较长;如果区间较小,符合条件的锚点位置也变少,特征序列变短。较多的锚点可以更加细致的刻画原文本的特征,但是占据存储空间更大,使运算耗时,然而过少的锚点占据存储空间小,运算快捷,但是过少的锚点可能会对原文本的特征刻画不细致,故需要由实验得出适当的预设概率区间。
需要说明的是,截取的输入文本内连续的若干个字符对应的Unicode编码也可以不相互独立。
可选地,常见语言字符的Unicode编码范围是0x0000~0xFFFF,而对于英文文本来说,其26个英文字母字符所在的Unicode编码区间为0x0061~0x007A,即英文字母字符没有均匀分布在0x0000~0xFFFF内。为了克服文本语言的限制,该方法将第一预设数量的多个编码输入预设混淆函数中,预设混淆函数用于将Unicode编码转化为具有随机性的混淆数值,该混淆数值不再包含字符原来在Unicode编码表中的分布位置信息,从而使不同语言的字符或序列都能均匀映射到一个预设概率区间内。
可选地,将选取后的编码通过预设序列位置函数,将提取的第一预设数量的多个编码映射为预设数值区间内的字符,即将范围较大的Unicode编码压缩到较小的范围内,从而使叠加值分布在较小的范围内,易于程序处理。例如,仅包含小写字母的字符和数字的字符,从而使最终得到的特征序列是仅包含小写字母和数字组成的特征序列。
需要说明的是,输入文本可以包括英文字符、汉字字符、数字字符或二进制序列。其中,英文字符、汉字字符和数字字符都可以转换为相应的编码;对于二进制序列可以按照8、16或32等不同个数进行分组,转变成一个数值,即转变为Uint8、Uint16、Uint32等类型的数值,该数值可以认为是编码,从而正常执行本申请提供的方法。
下面以输入文本为英文文本为例详细进行说明。
图1为本发明实施例提供的一种文本特征值的提取方法的流程示意图。如图1所示,该方法的执行主体可以是特征值的提取装置,该方法可以包括:
步骤101、将待提取特征值的文本中的字符转换为对应的编码,得到包含编码的编码序列。
在执行该步骤之前,提取装置对输入文本进行预处理,获取待提取特征值的文本。预处理包括对该输入文本进行去标点符号、去特殊字符,以及统一大小写的处理。其中,标点符号可以为逗号、分号、句号中的至少一种符号,特殊字符可以为@、&、*、()、%、#等,以及包含空格,换行等不可见字符中的至少一种字符,从而获取包含编码的编码序列。
步骤102、按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码。
编码序列的预设顺序可以是组成该编码序列的从左到右的顺序。预设初始提取位置,其中,首次提取时的当前提取位置为预设初始提取位置。
从编码序列的当前提取位置,提取第一预设数量的多个编码。
可选地,提取装置可以设置提取特征值的滑动窗口,滑动窗口的宽度为第一预设数量,滑动窗口的初始滑动位置为预设初始提取位置,提取装置提取每次滑动过程中该滑动窗口内第一预设数量的多个编码。如设置提取特征值的滑动窗口,该滑动窗口设置固定的窗口宽度,如W个编码的宽度,W为正整数。设置滑动窗口的初始滑动位置为P,如初始滑动位置P可以为编码序列中第一个编码的位置,记为P=0。从设定的初始滑动位置P,按照编码序列的预设顺序,如从左到右的顺序,滑动该滑动窗口,提取每次滑动过程中该滑动窗口内的W个编码。
在一个例子中,以编码序列为0x74、0x68、0x65、0x62、0x72、0x6f、0x77,滑动窗口宽度为3个编码为例,每次提取的滑动窗口内的编码的过程可以如图2所示,滑动窗口的初始滑动位置P=0,此时可以提取滑动窗口在P=0时的3个编码为:0x74、0x68、0x65,之后滑动该滑动窗口至P=1,此时可以提取滑动窗口在P=1时的3个编码为:0x68、0x65、0x62。
步骤103、将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果。
预设混淆算法可以通过预设混淆函数进行运算。预设混淆函数用于将编码转化为具有随机性的混淆数值,该混淆数值不再包含字符原来在Unicode编码表中的分布位置信息,从而使不同语言的字符或序列都能均匀映射到一个预设数值区间内,增大了提取的编码值的随机性。将每次提取的多个编码输入预设混淆函数,得到相应的多个混淆结果。
例如,预设混淆函数可以进行异或运算,将16bit长度的编码值拆分为4个4bit长度的编码值片段,并用异或运算将4个4bit长度的编码值片段融合和为1个4bit长度的编码值片段,此时,这1个4bit长度的编码值片段继承了原来16bit长度的编码值的随机性,且可以将任意字符的编码值范围缩小到0x0000~0x000F范围内。
步骤104、将多个编码的混淆结果求和,得到针对当前提取位置的叠加值。
将上述每次提取的多个编码对应的多个混淆结果相加,得到当前提取位置的叠加值。随着滑动窗口的移动,在不同的当前提取位置可以得到不同的叠加值。在某一个固定的窗口位置,叠加值是固定的。整体来看,不同的当前提取位置的叠加值是一个随机变量,随机变量服从正态分布。
步骤105、当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码。
预设范围为上文所述的该预设概率区间。执行该步骤之前,提取装置依次检测叠加值是否满足预设范围。
当叠加值在预设范围内时,确定当前提取位置为锚点位置,基于锚点位置,按照编码的预设顺序,选取与该锚点位置相隔第二预设数量的编码。
为了避免重复使用相同的编码导致的冗余情况,当叠加值在预设范围内时,设置提取位置满足第二预设数量大于第一预设数量,如P2=P1+W,其中,P1为滑动窗口的当前位置,P2为滑动窗口的下一位置,W为第一预设数量。
当叠加值不在预设范围内时,确定当前提取位置不为锚点位置,按照预设顺序,将当前提取位置的下一个位置,确定为新的当前提取位置,并返回步骤102。
步骤106、使用选取的编码,确定出该待提取特征值的文本的针对当前提取位置的特征值。
提取装置将选取的该编码,确定为该待提取特征值的文本的针对当前提取位置的特征值。
或者,为了使选取的特征值能够以指定的字符集表示,可以将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定序列位置对应的字符,作为该待提取特征值的文本的针对当前提取位置的特征值。
具体的,在执行上述步骤之前,预设密码序列表,如预设的字母顺序表。
将选取的该编码输入预设序列位置函数,得到序列位置,选取预设密码序列表中该序列位置对应的字符,将该字符确定为该待提取特征值的文本的针对当前提取位置的特征值。
进一步的,当检测到当前提取位置后面的编码数量不小于第二预设数量时,将选取的该编码的下一个位置,确定为新的当前提取位置,并返回步骤102。
当检测到当前提取位置后面的编码数量小于第二预设数量时,结束特征值的提取。
之后,将针对编码序列确定出的多个特征值,按照先后顺序组成文本的特征序列。
将特征值按照选取的先后顺序组成该待提取特征值的文本的特征序列,即输入文本的特征序列。
在一个例子中,以待提取特征值的文本为“The brown fox jumps.”为例,如图3所示,该方法可以包括:
步骤301、获取待提取特征值的文本。
对输入文本去标点符号、特殊字符,且统一为小写后,获取待提取特征值的文本,该待提取特征值的文本为“thebrownfoxjumps”。
步骤302、获取待提取特征值的文本对应的编码序列。
对步骤301中的待提取特征值的文本中每个字符转换为对应的Unicode编码,获取编码序列,该编码序列为:0x74、0x68、0x65、0x62、0x72、0x6f、0x77、0x6e、0x66、0x6f、0x78、0x6a、0x75、0x6d、0x70、0x73。
步骤303、按照编码序列的从左到右顺序,从编码序列的当前提取位置提取4个编码。
当前提取位置为初始提取位置,即P=0,提取的4个编码为0x74、0x68、0x65、0x62。当前提取位置为P=1时,提取的4个编码为0x68、0x65、0x62、0x72。当前提取位置为P=2时,提取的4个编码为0x6f、0x77、0x6e、0x66。以此类推。
步骤304、将提取的4个编码通过预设混淆函数R(x),获取4个混淆数值。
预设混淆函数R(x)=(x^(x>>4)^(x>>8)^(x>>12))&0x0f,得到4个字符对应的混淆结果序列:0x3,0xe,0x3,0x4。
步骤305、将获取4个混淆数值求和,得到当前提取位置的叠加值。
将该序列中的数值相加:0x3+0xe+0x3+0x4=24,得到在当前提取位置的叠加值为24。
步骤306、检测叠加值是否在预设概率区间内。若否,则执行步骤307;若是,则执行步骤308。
步骤307、确定该叠加值对应的当前提取位置不为锚点位置,此时将P加1得到新的当前提取位置,返回执行步骤303。
由于在初始提取位置P=0时得到的叠加值不在预设概率区间内,即a=25<24<b=33,故P=0不是一个锚点位置。之后将P加1得到新的当前提取位置,提取新的4个编码,如0x68、0x65、0x62、0x72,返回执行步骤303。
步骤308、确定该叠加值对应的当前提取位置为锚点位置,执行步骤309。
在P=1时,得到了新的当前提取位置,在该当前提取位置上提取4个编码:0x68、0x65、0x62、0x72,通过预设混淆函数R(x)后的序列为:0xe、0x3、0x4、0x5,将该序列中的数值相加,得到叠加值为26。由于该叠加值在预设概率区间内,即a=25<26<b=33,故P=1(即字母h)的当前位置为一个锚点位置。
步骤309、选取特征值。
按照编码序列的预设顺序,选取与当前提取位置(或称锚点位置)相隔4个字符的编码0x6F(即字母o的编码),确定为该待提取特征值的文本的针对所述当前提取位置的特征值。
或者,为了使得最终特征值能够以指定的字符集表示,可以将选取的编码值通过预设序列位置函数map(x)=(x^(x>>5)^(x>>10)^(x>>15))&0x1f,将其映射为0~31之间的一个整数,再将其根据预设密码序列表,如字母顺序abcdefghijklmnopqrstuvwxyz456789,映射为32个字符中的一个字符,在这里,编码0x6F映射为数值12,对应字母顺序列表中的m,从而得到的第一个特征值为字母m。
步骤310、检测当前提取位置后面的编码数量是否小于第二预设数量。若否,则执行步骤311;若是,则执行步骤312。
步骤311、将选取的该编码的下一个位置,确定为新的当前提取位置,并返回步骤303。
步骤312、结束特征值的提取。
步骤313、将针对编码序列确定出的多个特征值,按照先后顺序组成文本的特征序列。
将特征值按照选取的先后顺序组成该待提取特征值的文本的特征序列,即输入文本的特征序列。
与上述方法对应的本发明实施例还提供了一种提取装置,如图4所示,该装置可以包括:转换模块410、提取模块420、运算模块430、求和模块440、选取模块450和确定模块460。
转换模块410,用于将待提取特征值的文本中的字符转换为对应的编码,得到包含编码的编码序列;
提取模块420,用于按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始位置。
运算模块430,用于将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果。
求和模块440,用于将多个编码的混淆结果求和,得到针对当前提取位置的叠加值。
选取模块450,用于当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码。
确定模块460,用于使用选取的编码,确定出文本的针对当前提取位置的特征值。
可选地,确定模块460还用于,当叠加值不在预设范围内时,按照预设顺序,将当前提取位置的下一个位置,确定为新的当前提取位置,并触发提取模块420。
可选地,选取模块450选取与当前提取位置相隔第二预设数量的编码之后,确定模块,具体用于将选取的该编码的下一个位置,确定为新的当前提取位置,并触发提取模块420。
可选地,确定模块460,具体用于将选取的该编码,确定为文本的针对当前提取位置的特征值;或者将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定序列位置对应的字符,作为文本的针对当前提取位置的特征值。
可选地,该装置还包括排序模块470;
排序模块470,用于将针对编码序列确定出的多个特征值,按照先后顺序组成文本的特征序列。
可选地,待提取特征值的文本包括英文字符、汉字字符、数字字符或二进制序列。
图5为本发明实施例提供的一种电子设备的结构示意图。如图5所示,包括处理器510、通信接口520、存储器530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信,
存储器530,用于存放计算机程序;
处理器510,用于执行存储器530上所存放的程序时,实现如下步骤:
将待提取特征值的文本中的字符转换为对应的编码,得到包含编码的编码序列,针对编码序列执行如下步骤:
步骤A:按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始位置;
步骤B:将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;
步骤C:将多个编码的混淆结果求和,得到针对当前提取位置的叠加值;
步骤D:当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码;
步骤E:使用选取的编码,确定出文本的针对当前提取位置的特征值。
可选地,当叠加值不在预设范围内时,按照预设顺序,将当前提取位置的下一个位置,确定为新的当前提取位置,并返回步骤A。
可选地,选取与当前提取位置相隔第二预设数量的编码之后,将选取的该编码的下一个位置,确定为新的当前提取位置,并返回步骤A。
可选地,使用选取的该编码,确定出文本的针对当前提取位置的特征值,包括:将选取的该编码,确定为文本的针对当前提取位置的特征值;或者
将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定序列位置对应的字符,作为文本的针对当前提取位置的特征值。
可选地,将针对编码序列确定出的多个特征值,按照先后顺序组成文本的特征序列。
可选地,待提取特征值的文本包括英文字符、汉字字符、数字字符或二进制序列。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本特征值的提取方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本特征值的提取方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (13)

1.一种文本特征值的提取方法,其特征在于,所述方法包括:
将待提取特征值的文本中的字符转换为对应的编码,得到包含所述编码的编码序列,针对所述编码序列执行如下步骤:
步骤A:按照所述编码序列的预设顺序,从所述编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始提取位置;
步骤B:将提取的所述多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;
步骤C:将所述多个编码的混淆结果求和,得到针对所述当前提取位置的叠加值;
步骤D:当所述叠加值在预设范围内时,按照所述预设顺序,选取与所述当前提取位置相隔第二预设数量的编码;
步骤E:使用选取的所述编码,确定出所述文本的针对所述当前提取位置的特征值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述叠加值不在预设范围内时,按照所述预设顺序,将所述当前提取位置的下一个位置,确定为新的当前提取位置,并返回步骤A。
3.根据权利要求1所述的方法,其特征在于,在所述选取与所述当前提取位置相隔第二预设数量的编码之后,所述方法还包括:
将选取的该编码的下一个位置,确定为新的当前提取位置,并返回步骤A。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述使用选取的该编码,确定出所述文本的针对所述当前提取位置的特征值,包括:
将选取的该编码,确定为所述文本的针对所述当前提取位置的特征值;或者
将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定所述序列位置对应的字符,作为所述文本的针对所述当前提取位置的特征值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将针对所述编码序列确定出的多个特征值,按照先后顺序组成所述文本的特征序列。
6.根据权利要求1所述的方法,其特征在于,所述待提取特征值的文本包括英文字符、汉字字符、数字字符或二进制序列。
7.一种提取装置,其特征在于,所述装置包括:转换模块、提取模块、运算模块、求和模块、选取模块和确定模块;
所述转换模块,用于将待提取特征值的文本中的字符转换为对应的编码,得到包含所述编码的编码序列;
所述提取模块,用于按照所述编码序列的预设顺序,从所述编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始位置;
所述运算模块,用于将提取的所述多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;
所述求和模块,用于将所述多个编码的混淆结果求和,得到针对所述当前提取位置的叠加值;
所述选取模块,用于当所述叠加值在预设范围内时,按照所述预设顺序,选取与所述当前提取位置相隔第二预设数量的编码;
所述确定模块,用于使用选取的所述编码,确定出所述文本的针对所述当前提取位置的特征值。
8.根据权利要求7所述的装置,其特征在于,所述确定模块还用于,当所述叠加值不在预设范围内时,按照所述预设顺序,将所述当前提取位置的下一个位置,确定为新的当前提取位置,并触发所述提取模块。
9.根据权利要求7所述的装置,其特征在于,所述选取模块选取与所述当前提取位置相隔第二预设数量的编码之后,
所述确定模块,具体用于将选取的该编码的下一个位置,确定为新的当前提取位置,并触发所述提取模块。
10.根据权利要求7-9任一项所述的装置,其特征在于,所述确定模块,具体用于将选取的该编码,确定为所述文本的针对所述当前提取位置的特征值;或者
将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定所述序列位置对应的字符,作为所述文本的针对所述当前提取位置的特征值。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括排序模块;
所述排序模块,用于将针对所述编码序列确定出的多个特征值,按照先后顺序组成所述文本的特征序列。
12.根据权利要求7所述的装置,其特征在于,所述待提取特征值的文本包括英文字符、汉字字符、数字字符或二进制序列。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
CN201711172233.XA 2017-11-22 2017-11-22 文本特征值的提取方法、装置及电子设备 Active CN107967314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711172233.XA CN107967314B (zh) 2017-11-22 2017-11-22 文本特征值的提取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711172233.XA CN107967314B (zh) 2017-11-22 2017-11-22 文本特征值的提取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107967314A CN107967314A (zh) 2018-04-27
CN107967314B true CN107967314B (zh) 2022-01-21

Family

ID=62000769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711172233.XA Active CN107967314B (zh) 2017-11-22 2017-11-22 文本特征值的提取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107967314B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500670B (zh) * 2022-02-28 2024-04-05 北京京东振世信息技术有限公司 一种编码压缩方法、解码方法及装置
CN115392192B (zh) * 2022-10-27 2023-01-17 北京中科汇联科技股份有限公司 一种混合神经网络和字符信息的文本编码方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996298A (zh) * 2009-08-14 2011-03-30 鸿富锦精密工业(深圳)有限公司 加密方法及与加密方法相对应的解密方法
US20130077864A1 (en) * 2009-04-27 2013-03-28 King Abdulaziz City for Science & Technology System and methods for arabic text recognition based on effective arabic text feature extraction
CN105912514A (zh) * 2016-04-28 2016-08-31 吴国华 基于指纹特征的文本复制检测系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130077864A1 (en) * 2009-04-27 2013-03-28 King Abdulaziz City for Science & Technology System and methods for arabic text recognition based on effective arabic text feature extraction
CN101996298A (zh) * 2009-08-14 2011-03-30 鸿富锦精密工业(深圳)有限公司 加密方法及与加密方法相对应的解密方法
CN105912514A (zh) * 2016-04-28 2016-08-31 吴国华 基于指纹特征的文本复制检测系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SPSS统计分析的文本特征值提取算法;付敏 等;《计算机与数字工程》;20141231(第292期);全文 *

Also Published As

Publication number Publication date
CN107967314A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN107861949B (zh) 文本关键词的提取方法、装置及电子设备
JP2020057438A (ja) 文抽出方法及びシステム
KR20150038738A (ko) 비밀 정보의 검출
US20180260475A1 (en) Systems and methods for verbatim-text mining
US20160048482A1 (en) Method for automatically partitioning an article into various chapters and sections
JPWO2018159337A1 (ja) プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム
US10025784B2 (en) Similarity determination apparatus, similarity determination method, and computer-readable recording medium
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN110019640B (zh) 涉密文件检查方法及装置
CN107967314B (zh) 文本特征值的提取方法、装置及电子设备
CN112364625A (zh) 文本筛选方法、装置、设备及存储介质
CN106569989A (zh) 一种用于短文本的去重方法及装置
Benavides-Astudillo et al. Comparative study of deep learning algorithms in the detection of phishing attacks based on HTML and text obtained from web pages
CN106202349B (zh) 网页分类字典生成方法及装置
CN112182337A (zh) 从海量短新闻中识别相似新闻的方法及相关设备
JP2017224240A (ja) 表データ検索装置、表データ検索方法、及び表データ検索プログラム
CN112487181A (zh) 关键词确定方法和相关设备
JPWO2019235074A1 (ja) 生成方法、生成装置および生成プログラム
CN112567377A (zh) 使用字符跳过的表达式识别
JP7007793B2 (ja) 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム
CN114707026A (zh) 网络模型训练方法、字符串检测方法、装置及电子设备
CN114168871A (zh) 用于页面跳转的方法及装置、电子设备、存储介质
CN114266045A (zh) 网络病毒的识别方法、装置、计算机设备及存储介质
KR102246405B1 (ko) Tf-idf 기반 벡터 변환 및 데이터 분석 장치 및 방법
CN111984867A (zh) 一种网络资源确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant