CN112395853A - 文本内容检测方式确定方法、装置、设备和存储介质 - Google Patents

文本内容检测方式确定方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112395853A
CN112395853A CN202011216570.6A CN202011216570A CN112395853A CN 112395853 A CN112395853 A CN 112395853A CN 202011216570 A CN202011216570 A CN 202011216570A CN 112395853 A CN112395853 A CN 112395853A
Authority
CN
China
Prior art keywords
text content
detection object
detected
candidate
current detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011216570.6A
Other languages
English (en)
Other versions
CN112395853B (zh
Inventor
田育珅
程红兵
沈瑞
舒乐乐
朱勤章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN202011216570.6A priority Critical patent/CN112395853B/zh
Publication of CN112395853A publication Critical patent/CN112395853A/zh
Priority to CA3137640A priority patent/CA3137640A1/en
Application granted granted Critical
Publication of CN112395853B publication Critical patent/CN112395853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本内容检测方式确定方法、装置、计算机设备和存储介质。该方法包括:获取待检测文本内容;从待检测文本内容中确定当前检测对象;根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。采用本方法能够减少文本内容的无效检测,从而提高文本内容的检测效率。

Description

文本内容检测方式确定方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本内容检测方式确定方法、装置、计算机设备和存储介质。
背景技术
在目前文本内容的检测过程中,通常都是通过逐个对待检测的文本内容中的字符进行检测,最终得到检测结果。然而,在遇到文本内容较多重复的字符时,通过逐个字符的检测这种方式需要花费更多的时间进行检测,出现重复字符的无效检测,从而造成文本内容检测效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种文本内容检测方式确定方法、装置、计算机设备和存储介质,在待检测文本内容进行检测之前,通过待检测文本内容中的当前检测对象的位置距离特征来确定待检测文本内容相应的检测方式,可以减少文本内容的无效检测,从而提高文本内容的检测效率。
一种文本内容检测方式确定方法,该方法包括:
获取待检测文本内容;
从待检测文本内容中确定当前检测对象;
根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;
获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;
根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
在其中一个实施例中,根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合,包括:获取当前检测对象在待检测文本内容中的第一位置;根据指定顺序遍历待检测文本内容,获取待检测文本内容中的上一个当前检测对象;获取上一个当前检测对象在待检测文本内容中的第二位置;根据第一位置和第二位置计算得到当前检测对象在待检测文本内容的当前位置距离特征;获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征;根据各个当前待检测对象对应的当前位置距离特征生成待检测文本内容对应的当前位置距离特征集合。
在其中一个实施例中,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合,包括:获取当前检测对象在候选文本内容中的第三位置;根据指定顺序遍历候选文本内容,获取候选文本内容中的上一个当前检测对象;获取上一个当前检测对象在候选文本内容中的第四位置;根据第三位置和第四位置计算得到当前检测对象在候选文本内容的当前候选位置距离特征;获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历候选文本内容,直至得到各个当前待检测对象对应的当前候选位置距离特征;根据各个当前待检测对象对应的当前位置距离特征生成与候选文本内容对应的候选位置距离特征集合。
在其中一个实施例中,根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式,包括:在当前位置距离特征集合与候选位置距离特征集合匹配时,确定待检测文本内容的检测方式为待检测文本内容中各个检测对象进行逐个检测;在当前位置距离特征集合与候选位置距离特征集合不匹配时,确定待检测文本内容的检测方式为不进行待检测文本内容的检测。
在其中一个实施例中,待检测文本内容为待检测中文文本内容,待检测英文文本内容,待检测字符串中的至少一个。
在其中一个实施例中,根据当前检测对象对候选文本内容进行特征处理之前,还包括:检测候选文本内容中是否存在与当前检测对象相同的检测对象;在候选文本内容中不存在与当前检测对象相同的检测对象时,返回步骤从待检测文本内容中确定当前检测对象重新确定当前检测对象,直至检测出候选文本内容中存在与当前检测对象相同的检测对象;在候选文本内容中存在与当前检测对象相同的检测对象时,进入步骤根据当前检测对象对候选文本内容进行特征处理。
一种文本内容检测方式确定装置,该装置包括:
文本内容获取模块,用于获取待检测文本内容;
检测对象确定模块,用于从待检测文本内容中确定当前检测对象;
文本内容处理模块,用于根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;
候选文本内容处理模块,用于获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;
检测方式确定模块,用于根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待检测文本内容;
从待检测文本内容中确定当前检测对象;
根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;
获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;
根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待检测文本内容;
从待检测文本内容中确定当前检测对象;
根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;
获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;
根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
上述文本内容检测方式确定方法、装置、计算机设备和存储介质,获取待检测文本内容;从待检测文本内容中确定当前检测对象;根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。因此,在待检测文本内容进行逐个检测对象进行检测之前,根据待检测文本内容的当前检测对象的位置距离特征和候选文本内容的候选位置距离特征可以确定待检测文本内容相应的检测方式,进而根据检测方式进行待检测文本内容的检测,可以减少文本内容的无效检测,从而提高文本内容的检测效率。
附图说明
图1为一个实施例中文本内容检测方式确定方法的应用环境图;
图2为一个实施例中文本内容检测方式确定方法的流程示意图;
图3为一个实施例中当前位置距离特征集合获取步骤的流程示意图;
图4为一个实施例中候选位置距离特征集合获取步骤的流程示意图;
图5为一个实施例中待检测文本内容的检测方式确定步骤的流程示意图;
图6为一个实施例中候选文本内容特征处理步骤的流程示意图;
图7为一个实施例中文本内容检测方式确定装置的结构框图;
图8为一个实施例中计算机设备的内部结构图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本内容检测方式确定方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端102获取到待检测文本内容,将待检测文本内容发送至服务器104,服务器104接收到待检测文本内容后,从待检测文本内容中确定当前检测对象,根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合,获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合,根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
在另一个实施例中,终端102获取到待检测文本内容,从待检测文本内容中确定当前检测对象,根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合,获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合,根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
在一个实施例中,如图2所示,提供了一种文本内容检测方式确定方法,以该方法应用于图1中的终端或服务器为例进行说明,包括以下步骤:
步骤202,获取待检测文本内容。
其中,这里的待检测文本内容是目前正在进行检测的文本内容,所谓文本内容是具有完整、系统含义的一个句子或多个句子的组合,文本内容可以是一个句子、一个段落或者一个篇章,或者还可以是一个字符串。其中,文本内容可以是英文文本内容、中文文本内容、字符串或者其结合等等。具体地,文本内容的获取可以是通过现有的爬取技术从大量网页上爬取得到,或者还可以是根据业务需求、产品需求或其他应用场景设置得到的。
在一个实施例中,待检测文本内容为待检测中文文本内容,待检测英文文本内容,待检测字符串中的至少一个。
其中,待检测中文文本内容是指中文文本内容,文本内容由中文汉字组成的,而待检测英文文本内容是指英文文本内容,文本内容由大小写字母组成的。其中,待检测字符串是指字符串,所谓字符串是由一串字符组成的集合,字符包括字母、数字、运算符号、标点符号和其他符号,以及一些功能性符号。其中,字符串可以是英文文本内容,字符串还可以是英文和数字组成的文本内容,文本内容例如,文章、新闻、评论等等。
步骤204,从待检测文本内容中确定当前检测对象。
其中,这里的当前检测对象是待检测文本内容中目前正在用来检测的检测对象,当前检测对象可以根据业务需求、产品需求或实际应用场景从待检测文本内容中确定得到。其中,若待检测文本内容为待检测中文文本内容,则当前检测对象可以是目标中文汉字,若待检测文本内容为待检测英文文本内容,则当前检测对象可以是目标英文单词,同样地,若待检测文本内容为待检测字符串,则当前检测对象可以是目标英文字母或者目标数字等等。其中,待检测文本内容可以由检测对象组成得到的,检测对象可以是中文汉字、英文单词、英文字母或者数字等等。
例如,待检测文本内容为待检测中文文本内容,则检测对象可以是各个中文汉字,若待检测文本内容为待检测英文文本内容,则检测对象可以是各个英文单词,若待检测文本内容为待检测字符串,则检测对象可以是各个英文字母或者数字等等,即检测对象可以理解为待检测文本内容的组成元素,
具体地,在获取到待检测文本内容后,可以从待检测文本内容中确定当前检测对象,其中,当前检测对象的确定方式可自定义,自定义可以是随机从待检测文本内容中确定某一检测对象为当前检测对象,还可以是根据业务需求、实际应用场景或产品需求从待检测文本内容中确定当前检测对象,自定义还可以是,依次将待检测文本内容中的检测对象确定为当前检测对象。
步骤206,根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合。
其中,这里的当前位置距离特征集合是待检测文本内容中当前检测对象对应的当前位置距离特征的集合。其中,当前检测对象对应的当前位置距离特征是待检测文本内容中所有当前检测对象之间的位置距离特征,可以根据当前位置距离特征确定各个当前检测对象在待检测文本内容中的具体位置。
其中,根据当前检测对象对待检测文本内容进行特征处理具体可以是,获取待检测文本内容中各个当前检测对象对应的当前位置,根据各个当前检测对象对应的当前位置计算得到相应的当前位置距离特征,从而得到待检测文本内容对应的当前位置距离特征集合。具体可以是,获取当前检测对象在待检测文本内容中的第一位置,根据指定顺序遍历待检测文本内容中各个检测对象,获取待检测文本内容中第一位置对应的当前检测对象对应的上一个当前检测对象,获取上一个当前检测对象在待检测文本内容中的第二位置,最后可以根据第一位置和第二位置计算得到当前检测对象的当前位置距离特征,进一步地,从待检测文本内容中获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历所述待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征,最后可根据各个当前待检测对象对应的当前位置距离特征生成待检测文本内容对应的当前位置距离特征集合。
其中,根据各个当前待检测对象对应的当前位置距离特征生成待检测文本内容对应的当前位置距离特征集合具体可以是,根据各个当前待检测对象在待检测文本内容中的先后顺序排列各个当前位置距离特征,进而生成当前位置距离特征集合。
步骤208,获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合。
其中,这里的候选文本内容是用来检测待检测文本内容的一个标准文本内容,候选文本内容可以根据业务需求、实际应用场景或产品需求进行确定得到。其中,候选文本内容还可以根据现有的爬取技术从大量的网页中爬取得到。
其中,在获取到候选文本内容后,可以根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合。其中,根据当前检测对象对候选文本内容进行特征处理,可以是获取候选文本内容中各个当前检测对象对应的当前候选位置,根据各个当前检测对象对应的当前候选位置计算得到相应的当前位置距离特征,从而得到候选文本内容对应的候选位置距离特征集合。
具体可以是,获取当前检测对象在候选文本内容中的第三位置,根据指定顺序遍历候选文本内容中的各个检测对象,获取候选文本内容中第三位置对应的当前检测对象的上一个当前检测对象,获取上一个当前检测对象在候选文本内容中的第四位置,最后可根据第三位置和第四位置计算得到当前检测对象的当前候选位置距离特征,进一步地,从候选文本内容中获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历候选文本内容,直至得到各个当前待检测对象对应的当前候选位置距离特征。最后,可根据各个当前待检测对象对应的当前候选位置距离特征生成与候选文本内容对应的候选位置距离特征集合。
其中,根据各个当前待检测对象对应的当前位置距离特征生成与候选文本内容对应的候选位置距离特征集合具体可以是,根据各个当前待检测对象在候选文本内容中的先后顺序排列各个当前候选位置距离特征,进而生成候选位置距离特征集合。
步骤210,根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
具体地,在得到当前位置距离特征集合和候选位置距离特征集合后,可以根据这两者确定待检测文本内容的检测方式。具体可以是,根据当前位置距离特征集合和候选位置距离特征集合是否匹配来确定待检测文本内容的检测方式,如果当前位置距离特征集合与候选位置距离特征集合匹配时,可以确定待检测文本内容的检测方式为对待检测文本中各个检测对象进行逐个检测,反之,如果当前位置距离特征集合与候选位置距离特征集合不匹配时,可以确定待检测文本内容的检测方式为不进行待检测文本内容的检测。因此,在待检测文本内容进行逐个检测对象进行检测之前,根据待检测文本内容的当前检测对象的位置距离特征来确定待检测文本内容相应的检测方式,可以减少文本内容的无效检测,从而提高文本内容的检测效率。
其中,根据当前位置距离特征集合和候选位置距离特征集合是否匹配具体可以是,比较当前位置距离特征集合中各个当前位置距离特征是否在候选位置距离特征集合中存在相同的位置距离特征,且各个当前位置距离特征在当前位置距离特征集合中的位置与候选位置距离特征集合中的位置相同,则可确定当前位置距离特征集合与候选位置距离特征集合相匹配,反之,如果当前位置距离特征集合中各个当前位置距离特征在候选位置距离特征集合中不存在相同的位置距离特征,或者各个当前位置距离特征在当前位置距离特征集合中的位置与候选位置距离特征集合中的位置不同,则可确定当前位置距离特征集合与候选位置距离特征集合不匹配。
上述文本内容检测方式确定方法中,获取待检测文本内容;从待检测文本内容中确定当前检测对象;根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。因此,在待检测文本内容进行逐个检测对象进行检测之前,根据待检测文本内容的当前检测对象的位置距离特征和候选文本内容的候选位置距离特征可以确定待检测文本内容相应的检测方式,进而根据检测方式进行待检测文本内容的检测,可以减少文本内容的无效检测,从而提高文本内容的检测效率。
在一个实施例中,如图3所示,根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合,包括:
步骤302,获取当前检测对象在待检测文本内容中的第一位置。
步骤304,根据指定顺序遍历待检测文本内容,获取待检测文本内容中的上一个当前检测对象。
步骤306,获取上一个当前检测对象在待检测文本内容中的第二位置。
步骤308,根据第一位置和第二位置计算得到当前检测对象在待检测文本内容的当前位置距离特征。
其中,这里的当前检测对象是待检测文本内容中目前正在用来检测的检测对象,当前检测对象可以根据业务需求、产品需求或实际应用场景从待检测文本内容中确定得到。其中,若待检测文本内容为待检测中文文本内容,则当前检测对象可以是目标中文汉字,若待检测文本内容为待检测英文文本内容,则当前检测对象可以是目标英文单词,同样地,若待检测文本内容为待检测字符串,则当前检测对象可以是目标英文字母或者目标数字等等。其中,待检测文本内容可以由检测对象组成得到的,检测对象可以是中文汉字、英文单词、英文字母或者数字等等。
具体地,获取当前检测对象在待检测文本内容中的第一位置,这里的第一位置是指当前检测对象在待检测文本内容中的位置,再按照指定顺序遍历待检测文本内容中的各个检测对象,其中,指定顺序根据业务需求、产品需求或实际应用场景进行确定得到,例如,指定顺序可以是以待检测文本内容的首个检测对象为起点,向后遍历待检测文本内容。
进一步地,通过遍历待检测文本内容的各个检测对象,获得待检测文本内容中的上一个当前检测对象,其中,这里的上一个当前检测对象是相对于当前检测对象的,上一个当前检测对象可以与当前检测对象相同,但是上一个当前检测对象在待检测文本内容中位于当前检测对象之前。同时,获取上一个当前检测对象在待检测文本内容中的第二位置,这里的第二位置是用来描述上一个当前检测对象在待检测文本内容中的位置。最后,可以根据第一位置和第二位置计算得到当前检测对象在待检测文本内容的当前位置距离特征,具体可以是,可以将第一位置和第二位置之间的位置差的绝对值确定为当前检测对象在待检测文本内容的当前位置距离特征。
步骤310,获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征。
步骤312,根据各个当前待检测对象对应的当前位置距离特征生成待检测文本内容对应的当前位置距离特征集合。
具体地,在得到当前检测对象对应的当前位置距离特征后,获取下一个当前检测对象,其中,下一个当前检测对象可以是相对于当前检测对象的,下一个当前检测对象可以与当前检测对象相同,但是下一个当前检测对象在待检测文本内容中位于当前检测对象之后。进一步地,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征。
例如,待检测文本内容为:abcdabcaba,当前检测对象为第2个a,其中,由于当前检测对象在待检测文本内容中位于第5位,因此可以获取当前检测对象的第一位置为:5,同时,获取当前检测对象的上一个当前检测对象为第1个a,由于上一个当前检测对象在待检测文本内容中位于第1位,因此可以获取上一个当前检测对象的第二位置为:1,最后,根据第一位置和第二位置计算得到当前检测对象在待检测文本内容的当前位置距离特征为:4。进一步地,获取下一个当前检测对象为第3个a,将下一个当前检测对象确定为当前检测对象,获取其对应的第一位置为:8,获取该当前检测对象对应的上一个当前检测对象为第2个a,其第二位置为:5,可以确定当前检测对象的当前位置距离特征为:3,依次类推,可以得知待检测文本内容对应的当前位置距离特征集合为:[4,3,2]。
在一个实施例中,如图4所示,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合,包括:
步骤402,获取当前检测对象在候选文本内容中的第三位置。
步骤404,根据指定顺序遍历候选文本内容,获取候选文本内容中的上一个当前检测对象。
步骤406,获取上一个当前检测对象在候选文本内容中的第四位置。
步骤408,根据第三位置和第四位置计算得到当前检测对象在候选文本内容的当前候选位置距离特征。
具体地,获取当前检测对象在候选文本内容中的第三位置,这里的第三位置是指当前检测对象在候选文本内容中的位置,再按照指定顺序遍历候选文本内容中的各个检测对象,其中,指定顺序根据业务需求、产品需求或实际应用场景进行确定得到,例如,指定顺序可以是以候选文本内容的首个检测对象为起点,向后遍历候选文本内容。
进一步地,通过遍历候选文本内容的各个检测对象,获得候选文本内容中的上一个当前检测对象,其中,这里的上一个当前检测对象是相对于当前检测对象的,上一个当前检测对象可以与当前检测对象相同,但是上一个当前检测对象在候选文本内容中位于当前检测对象之前。同时,获取上一个当前检测对象在候选文本内容中的第四位置,这里的第四位置是用来描述上一个当前检测对象在候选文本内容中的位置。最后,可以根据第三位置和第四位置计算得到当前检测对象在候选文本内容的当前位置距离特征,具体可以是,可以将第三位置和第四位置之间的位置差的绝对值确定为当前检测对象在候选文本内容的当前位置距离特征。
步骤410,获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历候选文本内容,直至得到各个当前待检测对象对应的当前候选位置距离特征。
步骤412,根据各个当前待检测对象对应的当前位置距离特征生成与候选文本内容对应的候选位置距离特征集合。
具体地,在得到当前检测对象对应的当前位置距离特征后,获取下一个当前检测对象,其中,下一个当前检测对象可以是相对于当前检测对象的,下一个当前检测对象可以与当前检测对象相同,但是下一个当前检测对象在候选文本内容中位于当前检测对象之后。进一步地,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历候选文本内容,直至得到各个当前待检测对象对应的当前位置距离特征。
例如,候选文本内容为:abcdabca,当前检测对象为第2个a,其中,由于当前检测对象在候选文本内容中位于第5位,因此可以获取当前检测对象的第三位置为:5,同时,获取当前检测对象的上一个当前检测对象为第1个a,由于上一个当前检测对象在候选文本内容中位于第1位,因此可以获取上一个当前检测对象的第四位置为:1。最后,根据第三位置和第四位置计算得到当前检测对象在候选文本内容的当前位置距离特征为:4。进一步地,获取下一个当前检测对象为第3个a,将下一个当前检测对象确定为当前检测对象,获取其对应的第三位置为:8,获取该当前检测对象对应的上一个当前检测对象为第2个a,其第四位置为:5,可以确定当前检测对象的当前位置距离特征为:3,依次类推,可以得知候选文本内容对应的当前位置距离特征集合为:[4,3]。
在一个实施例中,如图5所示,根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式,包括:
步骤502,在当前位置距离特征集合与候选位置距离特征集合匹配时,确定待检测文本内容的检测方式为待检测文本内容中各个检测对象进行逐个检测。
步骤504,在当前位置距离特征集合与候选位置距离特征集合不匹配时,确定待检测文本内容的检测方式为不进行待检测文本内容的检测。
具体地,在得到当前位置距离特征集合和候选位置距离特征集合后,可以根据这两者确定待检测文本内容的检测方式。具体可以是,根据当前位置距离特征集合和候选位置距离特征集合是否匹配来确定待检测文本内容的检测方式,如果当前位置距离特征集合与候选位置距离特征集合匹配时,可以确定待检测文本内容的检测方式为对待检测文本中各个检测对象进行逐个检测,反之,如果当前位置距离特征集合与候选位置距离特征集合不匹配时,可以确定待检测文本内容的检测方式为不进行待检测文本内容的检测。因此,在待检测文本内容进行逐个检测对象进行检测之前,根据待检测文本内容的当前检测对象的位置距离特征来确定待检测文本内容相应的检测方式,可以减少文本内容的无效检测,从而提高文本内容的检测效率。
其中,根据当前位置距离特征集合和候选位置距离特征集合是否匹配具体可以是,比较当前位置距离特征集合中各个当前位置距离特征是否在候选位置距离特征集合中存在相同的位置距离特征,且各个当前位置距离特征在当前位置距离特征集合中的位置与候选位置距离特征集合中的位置相同,则可确定当前位置距离特征集合与候选位置距离特征集合相匹配,反之,如果当前位置距离特征集合中各个当前位置距离特征在候选位置距离特征集合中不存在相同的位置距离特征,或者各个当前位置距离特征在当前位置距离特征集合中的位置与候选位置距离特征集合中的位置不同,则可确定当前位置距离特征集合与候选位置距离特征集合不匹配。
例如,当前位置距离特征集合为:[4,2],候选位置距离特征集合为;[4,2,3,6],由于当前位置距离特征集合中各个当前位置距离特征4、2在候选位置距离特征集合中存在相同的位置距离特征,且当前位置距离特征集合中的4、2的位置与候选位置距离特征集合中的4、2相同,可以确定当前位置距离特征集合与候选位置距离特征集合匹配。
又例如,当前位置距离特征集合为:[4,2],候选位置距离特征集合为;[4,3,2,6],由于当前位置距离特征集合中各个当前位置距离特征4、2在候选位置距离特征集合中存在相同的位置距离特征,但是当前位置距离特征集合中的4、2的位置与候选位置距离特征集合中的4、2不同,候选位置距离特征中第3个位置对应的位置距离特征不是2而是3,因此,可以确定当前位置距离特征集合与候选位置距离特征集合不匹配。
在一个实施例中,如图6所示,根据当前检测对象对候选文本内容进行特征处理之前,还包括:
步骤602,检测候选文本内容中是否存在与当前检测对象相同的检测对象。
步骤604,在候选文本内容中不存在与当前检测对象相同的检测对象时,返回步骤从待检测文本内容中确定当前检测对象重新确定当前检测对象,直至检测出候选文本内容中存在与当前检测对象相同的检测对象。
步骤606,在候选文本内容中存在与当前检测对象相同的检测对象时,进入步骤根据当前检测对象对候选文本内容进行特征处理。
其中,在根据当前检测对象对候选文本内容进行特征处理之前,需要检测候选文本内容中是否存在与当前检测对象相同的检测对象,如果候选文本内容中不存在与当前检测对象相同的检测对象,则无法根据当前检测对象对候选文本内容进行特征处理,当候选文本内容中存在与当前检测对象相同的检测对象时,则可根据当前检测对象对候选文本内容进行特征处理。具体地,检测候选文本内容中是否存在与当前检测对象相同的检测对象,具体可以是,逐个遍历候选文本内容中的各个检测对象,若遍历到与当前检测对象相同的检测对象,则可以确定候选文本内容中存在与当前检测对象相同的检测对象,反之,若遍历不到与当前检测对象相同的检测对象,则可以确定候选文本内容中不存在与当前检测对象相同的检测对象。
进一步地,在候选文本内容中不存在与当前检测对象相同的检测对象时,返回步骤从待检测文本内容中确定当前检测对象重新确定当前检测对象,重新进行当前检测对象的确定,直至检测出候选文本内容中存在与当前检测对象相同的检测对象,才能进入步骤根据当前检测对象对候选文本内容进行特征处理。其中,在候选文本内容中存在与当前检测对象相同的检测对象时,则可直接进入步骤根据当前检测对象对候选文本内容进行特征处理。
在一个具体的实施例中,提供了一种文本内容检测方式确定方法,具体包括以下步骤:
1、获取待检测文本内容,其中,待检测文本内容为待检测中文文本内容,待检测英文文本内容,待检测字符串中的至少一个。
2、从待检测文本内容中确定当前检测对象。
3、检测候选文本内容中是否存在与当前检测对象相同的检测对象。
4、在候选文本内容中不存在与当前检测对象相同的检测对象时,返回步骤2,直至检测出候选文本内容中存在与当前检测对象相同的检测对象。
5、在候选文本内容中存在与当前检测对象相同的检测对象时,进入步骤6。
6、根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合。
6-1、获取当前检测对象在待检测文本内容中的第一位置。
6-2、根据指定顺序遍历待检测文本内容,获取待检测文本内容中的上一个当前检测对象。
6-3、获取上一个当前检测对象在待检测文本内容中的第二位置。
6-4、根据第一位置和第二位置计算得到当前检测对象在待检测文本内容的当前位置距离特征。
6-5、获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征。
6-6、根据各个当前待检测对象对应的当前位置距离特征生成待检测文本内容对应的当前位置距离特征集合。
7、获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合。
7-1、获取当前检测对象在候选文本内容中的第三位置。
7-2、根据指定顺序遍历候选文本内容,获取候选文本内容中的上一个当前检测对象。
7-3、获取上一个当前检测对象在候选文本内容中的第四位置。
7-4、根据第三位置和第四位置计算得到当前检测对象在候选文本内容的当前候选位置距离特征。
7-5、获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历候选文本内容,直至得到各个当前待检测对象对应的当前候选位置距离特征。
7-6、根据各个当前待检测对象对应的当前位置距离特征生成与候选文本内容对应的候选位置距离特征集合。
8、根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
8-1、在当前位置距离特征集合与候选位置距离特征集合匹配时,确定待检测文本内容的检测方式为待检测文本内容中各个检测对象进行逐个检测。
8-2、在当前位置距离特征集合与候选位置距离特征集合不匹配时,确定待检测文本内容的检测方式为不进行待检测文本内容的检测。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种文本内容检测方式确定装置700,包括:文本内容获取模块702、检测对象确定模块704、文本内容处理模块706、候选文本内容处理模块708和检测方式确定模块710,其中:
文本内容获取模块702,用于获取待检测文本内容。
检测对象确定模块704,用于从待检测文本内容中确定当前检测对象。
文本内容处理模块706,用于根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合。
候选文本内容处理模块708,用于获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合。
检测方式确定模块710,用于根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
在一个实施例中,文本内容处理模块706还用于获取当前检测对象在待检测文本内容中的第一位置,根据指定顺序遍历待检测文本内容,获取待检测文本内容中的上一个当前检测对象,获取上一个当前检测对象在待检测文本内容中的第二位置,根据第一位置和第二位置计算得到当前检测对象在待检测文本内容的当前位置距离特征,获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征,根据各个当前待检测对象对应的当前位置距离特征生成待检测文本内容对应的当前位置距离特征集合。
在一个实施例中,候选文本内容处理模块708还用于获取当前检测对象在候选文本内容中的第三位置,根据指定顺序遍历候选文本内容,获取候选文本内容中的上一个当前检测对象,获取上一个当前检测对象在候选文本内容中的第四位置,根据第三位置和第四位置计算得到当前检测对象在候选文本内容的当前候选位置距离特征,获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历候选文本内容,直至得到各个当前待检测对象对应的当前候选位置距离特征,根据各个当前待检测对象对应的当前位置距离特征生成与候选文本内容对应的候选位置距离特征集合。
在一个实施例中,检测方式确定模块710还用于在当前位置距离特征集合与候选位置距离特征集合匹配时,确定待检测文本内容的检测方式为待检测文本内容中各个检测对象进行逐个检测,在当前位置距离特征集合与候选位置距离特征集合不匹配时,确定待检测文本内容的检测方式为不进行待检测文本内容的检测。
在一个实施例中,文本内容检测方式确定装置700还用于检测候选文本内容中是否存在与当前检测对象相同的检测对象,在候选文本内容中不存在与当前检测对象相同的检测对象时,返回检测对象确定模块704用于从待检测文本内容中确定当前检测对象重新确定当前检测对象,直至检测出候选文本内容中存在与当前检测对象相同的检测对象,在候选文本内容中存在与当前检测对象相同的检测对象时,进入步骤候选文本内容处理模块708用于根据当前检测对象对候选文本内容进行特征处理。
关于文本内容检测方式确定装置的具体限定可以参见上文中对于文本内容检测方式确定方法的限定,在此不再赘述。上述文本内容检测方式确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储候选文本内容。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本内容检测方式确定方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本内容检测方式确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8或图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待检测文本内容;从待检测文本内容中确定当前检测对象;根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取当前检测对象在待检测文本内容中的第一位置;根据指定顺序遍历待检测文本内容,获取待检测文本内容中的上一个当前检测对象;获取上一个当前检测对象在待检测文本内容中的第二位置;根据第一位置和第二位置计算得到当前检测对象在待检测文本内容的当前位置距离特征;获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征;根据各个当前待检测对象对应的当前位置距离特征生成待检测文本内容对应的当前位置距离特征集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取当前检测对象在候选文本内容中的第三位置;根据指定顺序遍历候选文本内容,获取候选文本内容中的上一个当前检测对象;获取上一个当前检测对象在候选文本内容中的第四位置;根据第三位置和第四位置计算得到当前检测对象在候选文本内容的当前候选位置距离特征;获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历候选文本内容,直至得到各个当前待检测对象对应的当前候选位置距离特征;根据各个当前待检测对象对应的当前位置距离特征生成与候选文本内容对应的候选位置距离特征集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在当前位置距离特征集合与候选位置距离特征集合匹配时,确定待检测文本内容的检测方式为待检测文本内容中各个检测对象进行逐个检测;在当前位置距离特征集合与候选位置距离特征集合不匹配时,确定待检测文本内容的检测方式为不进行待检测文本内容的检测。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:检测候选文本内容中是否存在与当前检测对象相同的检测对象;在候选文本内容中不存在与当前检测对象相同的检测对象时,返回步骤从待检测文本内容中确定当前检测对象重新确定当前检测对象,直至检测出候选文本内容中存在与当前检测对象相同的检测对象;在候选文本内容中存在与当前检测对象相同的检测对象时,进入步骤根据当前检测对象对候选文本内容进行特征处理。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待检测文本内容;从待检测文本内容中确定当前检测对象;根据当前检测对象对待检测文本内容进行特征处理,得到与待检测文本内容对应的当前位置距离特征集合;获取候选文本内容,根据当前检测对象对候选文本内容进行特征处理,得到与候选文本内容对应的候选位置距离特征集合;根据当前位置距离特征集合和候选位置距离特征集合确定待检测文本内容的检测方式。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取当前检测对象在待检测文本内容中的第一位置;根据指定顺序遍历待检测文本内容,获取待检测文本内容中的上一个当前检测对象;获取上一个当前检测对象在待检测文本内容中的第二位置;根据第一位置和第二位置计算得到当前检测对象在待检测文本内容的当前位置距离特征;获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征;根据各个当前待检测对象对应的当前位置距离特征生成待检测文本内容对应的当前位置距离特征集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取当前检测对象在候选文本内容中的第三位置;根据指定顺序遍历候选文本内容,获取候选文本内容中的上一个当前检测对象;获取上一个当前检测对象在候选文本内容中的第四位置;根据第三位置和第四位置计算得到当前检测对象在候选文本内容的当前候选位置距离特征;获取下一个当前检测对象,将下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历候选文本内容,直至得到各个当前待检测对象对应的当前候选位置距离特征;根据各个当前待检测对象对应的当前位置距离特征生成与候选文本内容对应的候选位置距离特征集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在当前位置距离特征集合与候选位置距离特征集合匹配时,确定待检测文本内容的检测方式为待检测文本内容中各个检测对象进行逐个检测;在当前位置距离特征集合与候选位置距离特征集合不匹配时,确定待检测文本内容的检测方式为不进行待检测文本内容的检测。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:检测候选文本内容中是否存在与当前检测对象相同的检测对象;在候选文本内容中不存在与当前检测对象相同的检测对象时,返回步骤从待检测文本内容中确定当前检测对象重新确定当前检测对象,直至检测出候选文本内容中存在与当前检测对象相同的检测对象;在候选文本内容中存在与当前检测对象相同的检测对象时,进入步骤根据当前检测对象对候选文本内容进行特征处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种文本内容检测方式确定方法,所述方法包括:
获取待检测文本内容;
从所述待检测文本内容中确定当前检测对象;
根据所述当前检测对象对所述待检测文本内容进行特征处理,得到与所述待检测文本内容对应的当前位置距离特征集合;
获取候选文本内容,根据所述当前检测对象对所述候选文本内容进行特征处理,得到与所述候选文本内容对应的候选位置距离特征集合;
根据所述当前位置距离特征集合和所述候选位置距离特征集合确定所述待检测文本内容的检测方式。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前检测对象对所述待检测文本内容进行特征处理,得到与所述待检测文本内容对应的当前位置距离特征集合,包括:
获取所述当前检测对象在所述待检测文本内容中的第一位置;
根据指定顺序遍历所述待检测文本内容,获取所述待检测文本内容中的上一个当前检测对象;
获取所述上一个当前检测对象在所述待检测文本内容中的第二位置;
根据所述第一位置和所述第二位置计算得到所述当前检测对象在所述待检测文本内容的当前位置距离特征;
获取下一个当前检测对象,将所述下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历所述待检测文本内容,直至得到各个当前待检测对象对应的当前位置距离特征;
根据所述各个当前待检测对象对应的当前位置距离特征生成所述待检测文本内容对应的当前位置距离特征集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述当前检测对象对所述候选文本内容进行特征处理,得到与所述候选文本内容对应的候选位置距离特征集合,包括:
获取所述当前检测对象在所述候选文本内容中的第三位置;
根据指定顺序遍历所述候选文本内容,获取所述候选文本内容中的上一个当前检测对象;
获取所述上一个当前检测对象在所述候选文本内容中的第四位置;
根据所述第三位置和所述第四位置计算得到所述当前检测对象在所述候选文本内容的当前候选位置距离特征;
获取下一个当前检测对象,将所述下一个当前检测对象确定为当前检测对象,返回步骤根据指定顺序遍历所述候选文本内容,直至得到各个当前待检测对象对应的当前候选位置距离特征;
根据所述各个当前待检测对象对应的当前位置距离特征生成与所述候选文本内容对应的候选位置距离特征集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述当前位置距离特征集合和所述候选位置距离特征集合确定所述待检测文本内容的检测方式,包括:
在所述当前位置距离特征集合与所述候选位置距离特征集合匹配时,确定所述待检测文本内容的检测方式为所述待检测文本内容中各个检测对象进行逐个检测;
在所述当前位置距离特征集合与所述候选位置距离特征集合不匹配时,确定所述待检测文本内容的检测方式为不进行所述待检测文本内容的检测。
5.根据权利要求1所述的方法,其特征在于,所述待检测文本内容为待检测中文文本内容,待检测英文文本内容,待检测字符串中的至少一个。
6.根据权利要求1所述的方法,其特征在于,所述根据所述当前检测对象对所述候选文本内容进行特征处理之前,还包括:
检测所述候选文本内容中是否存在与所述当前检测对象相同的检测对象;
在所述候选文本内容中不存在与所述当前检测对象相同的检测对象时,返回步骤从所述待检测文本内容中确定当前检测对象重新确定当前检测对象,直至检测出候选文本内容中存在与所述当前检测对象相同的检测对象;
在所述候选文本内容中存在与所述当前检测对象相同的检测对象时,进入步骤根据所述当前检测对象对所述候选文本内容进行特征处理。
7.一种文本内容检测方式确定装置,其特征在于,所述装置包括:
文本内容获取模块,用于获取待检测文本内容;
检测对象确定模块,用于从所述待检测文本内容中确定当前检测对象;
文本内容处理模块,用于根据所述当前检测对象对所述待检测文本内容进行特征处理,得到与所述待检测文本内容对应的当前位置距离特征集合;
候选文本内容处理模块,用于获取候选文本内容,根据所述当前检测对象对所述候选文本内容进行特征处理,得到与所述候选文本内容对应的候选位置距离特征集合;
检测方式确定模块,用于根据所述当前位置距离特征集合和所述候选位置距离特征集合确定所述待检测文本内容的检测方式。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202011216570.6A 2020-11-04 2020-11-04 文本内容检测方式确定方法、装置、设备和存储介质 Active CN112395853B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011216570.6A CN112395853B (zh) 2020-11-04 2020-11-04 文本内容检测方式确定方法、装置、设备和存储介质
CA3137640A CA3137640A1 (en) 2020-11-04 2021-11-04 Method of and device for determining text content detection mode, equipment and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011216570.6A CN112395853B (zh) 2020-11-04 2020-11-04 文本内容检测方式确定方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112395853A true CN112395853A (zh) 2021-02-23
CN112395853B CN112395853B (zh) 2024-09-24

Family

ID=74597361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011216570.6A Active CN112395853B (zh) 2020-11-04 2020-11-04 文本内容检测方式确定方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN112395853B (zh)
CA (1) CA3137640A1 (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63187334A (ja) * 1987-01-30 1988-08-02 Nippon Telegr & Teleph Corp <Ntt> 文字列パタ−ンマツチング装置
JP2005215716A (ja) * 2004-01-27 2005-08-11 Hitachi Ltd テキスト検索方法
CN101158948A (zh) * 2006-10-08 2008-04-09 中国科学院软件研究所 文本内容过滤方法和系统
CN102024000A (zh) * 2009-09-10 2011-04-20 华东师范大学 一种模式匹配方法
CN107402940A (zh) * 2016-05-20 2017-11-28 北京京东尚科信息技术有限公司 敏感词检索方法
CN108647299A (zh) * 2018-05-09 2018-10-12 北京启明星辰信息安全技术有限公司 生僻字符匹配方法、字符串模式匹配方法及存储介质
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
US20190286899A1 (en) * 2018-03-15 2019-09-19 Sureprep, Llc System and method for automatic detection and verification of optical character recognition data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63187334A (ja) * 1987-01-30 1988-08-02 Nippon Telegr & Teleph Corp <Ntt> 文字列パタ−ンマツチング装置
JP2005215716A (ja) * 2004-01-27 2005-08-11 Hitachi Ltd テキスト検索方法
CN101158948A (zh) * 2006-10-08 2008-04-09 中国科学院软件研究所 文本内容过滤方法和系统
CN102024000A (zh) * 2009-09-10 2011-04-20 华东师范大学 一种模式匹配方法
CN107402940A (zh) * 2016-05-20 2017-11-28 北京京东尚科信息技术有限公司 敏感词检索方法
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
US20190286899A1 (en) * 2018-03-15 2019-09-19 Sureprep, Llc System and method for automatic detection and verification of optical character recognition data
CN108647299A (zh) * 2018-05-09 2018-10-12 北京启明星辰信息安全技术有限公司 生僻字符匹配方法、字符串模式匹配方法及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丶幻一: "C++语言算法之求任意两个相同字符的最大距离", pages 1 - 42, Retrieved from the Internet <URL:https://blog.csdn.net/qq_25956141/article/details/79654202> *

Also Published As

Publication number Publication date
CN112395853B (zh) 2024-09-24
CA3137640A1 (en) 2022-05-04

Similar Documents

Publication Publication Date Title
CN109766072B (zh) 信息校验输入方法、装置、计算机设备和存储介质
CN109471988B (zh) 页面信息更新方法、装置、计算机设备及存储介质
CN108804159B (zh) javascript模块加载方法及其预处理方法、装置和计算机设备
CN108829477B (zh) 界面跳转方法、装置、计算机设备和存储介质
CN109814854B (zh) 项目框架生成方法、装置、计算机设备和存储介质
US8751535B1 (en) Systems and methods for securely storing, controlling and sharing personal information
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN110162798B (zh) 文档翻译方法、装置、计算机可读存储介质和计算机设备
CN110334144B (zh) 报文展示方法、装置、计算机设备及存储介质
CN112965645B (zh) 页面拖拽方法、装置、计算机设备及存储介质
CN110321284B (zh) 测试数据录入方法、装置、计算机设备和存储介质
CN108595697B (zh) 网页集成方法、装置及系统
CA3137637A1 (en) Character string detecting method and device, computer equipment and storage medium
CN111399833B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN115081440B (zh) 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN110955608B (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN109542962B (zh) 数据处理方法、装置、计算机设备和存储介质
CN110597815A (zh) 业务处理方法、装置、计算机设备和存储介质
US20180129300A1 (en) Input-based candidate word display method and apparatus
CN113434122A (zh) 多角色页面创建方法、装置、服务器及可读存储介质
CN112463783A (zh) 索引数据监控方法、装置、计算机设备和存储介质
CN112084403A (zh) 数据查询方法、装置、计算机设备和存储介质
CN110460685B (zh) 用户唯一标识处理方法、装置、计算机设备和存储介质
CN112395853B (zh) 文本内容检测方式确定方法、装置、设备和存储介质
CN111191235A (zh) 可疑文件分析方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant