CN114579693B - 一种nlp文本安全审核多级检索系统 - Google Patents

一种nlp文本安全审核多级检索系统 Download PDF

Info

Publication number
CN114579693B
CN114579693B CN202111473148.3A CN202111473148A CN114579693B CN 114579693 B CN114579693 B CN 114579693B CN 202111473148 A CN202111473148 A CN 202111473148A CN 114579693 B CN114579693 B CN 114579693B
Authority
CN
China
Prior art keywords
text
module
matching
submodule
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111473148.3A
Other languages
English (en)
Other versions
CN114579693A (zh
Inventor
曾锐鸿
马金龙
熊佳
王伟喆
吴文亮
罗箫
盘子圣
焦南凯
黎子骏
徐志坚
谢睿
陈光尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Quwan Network Technology Co Ltd
Original Assignee
Guangzhou Quwan Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Quwan Network Technology Co Ltd filed Critical Guangzhou Quwan Network Technology Co Ltd
Priority to CN202111473148.3A priority Critical patent/CN114579693B/zh
Publication of CN114579693A publication Critical patent/CN114579693A/zh
Application granted granted Critical
Publication of CN114579693B publication Critical patent/CN114579693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种NLP文本安全审核多级检索系统,利用压缩前缀树的数据结构进行数据的存储和查找,查询速度快,且内存占用比使用字典树数据结构降低了两千多倍,关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块构成三级搜索的层级搜索结构,查询准确率高,既能覆盖到显性敏感词的搜索,同时能从语义上进行文本内容安全审核,在准确率、容错率以及覆盖率上都有保障,又能提高系统的模型泛化能力,解决了现有的NLP文本安全审核系统使用Trie树的数据结构进行存储,占用存储空间大,增加了服务器的内存成本,不便于在同一台服务器上大规模部署,在性能上难以达到最优,以及模型泛化能力受限制,预测准确性不稳定的技术问题的技术问题。

Description

一种NLP文本安全审核多级检索系统
技术领域
本发明涉及文本安全审核技术领域,尤其涉及一种NLP文本安全审核多级检索系统。
背景技术
文本内容安全审核本质上是一个文本分类问题,也就是给定一个文本,然后给出这个文本的安全意图是什么,这里的安全意图就是文本标签。NLP 文本安全审核系统主要用于在用户文本聊天中做安全审核,审核的领域一般有广告、黑名单和违禁等。在现有的NLP文本安全审核系统中,使用Trie树、句子相似度匹配以及深度学习文本分类模型三种组合技术做层级搜索,同时匹配了定制化的文本前预处理技术。Trie树的数据结构优点是查询速度非常快,但问题在于存储空间非常大,意味着服务器的内存成本会非常高,因而不便于在同一台服务器上大规模部署,在性能上难以达到最优,且深度学习文本分类模型容易因样本的多样性和数量不足,在模型泛化能力上会有限制以及在预测准确性上不稳定。因此,本发明中提供了一种NLP文本安全审核多级检索系统,用于解决现有的NLP文本安全审核系统使用Trie树的数据结构进行存储,占用存储空间大,增加了服务器的内存成本,不便于在同一台服务器上大规模部署,在性能上难以达到最优,以及模型泛化能力受限制,预测准确性不稳定的技术问题。
发明内容
本发明提供了一种NLP文本安全审核多级检索系统,用于解决现有的 NLP文本安全审核系统使用Trie树的数据结构进行存储,占用存储空间大,增加了服务器的内存成本,不便于在同一台服务器上大规模部署,在性能上难以达到最优,以及模型泛化能力受限制,预测准确性不稳定的技术问题。
有鉴于此,本发明提供了一种NLP文本安全审核多级检索系统,包括依次连接的环境检查模块、文本预处理模块、文本分类处理模块和结果解析模块;
环境检查模块用于对运行环境和数据库进行预检查和预加载;
文本预处理模块用于对文本数据进行预处理,去除冗余无效信息;
文本分类处理模块包括关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块;
关键词匹配子模块采用压缩前缀树进行数据存储和查找;
句子相似度匹配子模块用于在关键词匹配子模块匹配不成功时启用,句子相似度匹配子模块包括弹性搜索的高性能分布式子模块和分词子模块,弹性搜索的高性能分布式子模块用于结合海量的文本数据库进行匹配搜索,分词子模块用于在高性能分布式子模块匹配搜索过程中进行文本分词;
文本分类深度学习子模块用于在句子相似度匹配子模块匹配不成功时启用,采用预置文本分类深度学习模型进行文本分类;
结果解析模块用于根据文本分类处理模块的文本匹配结果进行解析和输出。
可选地,句子相似度匹配子模块还包括:
句子差异性计算子模块,用于计算查询文本和结果文本集合的最小编辑距离,根据最小编辑距离对高性能分布式子模块的匹配结果进行二次校验。
可选地,预置文本分类深度学习模型为浅层神经网络,浅层神经网络包括输入层、隐藏层和输出层。
可选地,结果解析模块具体用于:
按预置标签优先级对文本分类深度学习子模块的文本分类结果进行排序和输出。
可选地,环境检查模块具体用于:
预检查和预加载Redis数据库、ES数据库、FastText模型、Trie树模型和 Trie树关键词列表。
可选地,文本预处理模块具体用于:
对文本数据进行标点符号清洗、单词纠正、停用词过滤、繁体转简体、分词、数字转文本、URL检测和IP检测。
从以上技术方案可以看出,本发明提供的NLP文本安全审核多级检索系统具有以下优点:
本发明提供的NLP文本安全审核多级检索系统,利用压缩前缀树的数据结构进行数据的存储和查找,查询速度达毫秒级别,且内存占用比使用字典树数据结构降低了两千多倍,关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块构成三级搜索的层级搜索结构,查询准确率高,既能覆盖到显性敏感词的搜索,同时能从语义上进行文本内容安全审核,在准确率、容错率以及覆盖率上都有保障,又能提高系统的模型泛化能力,解决了现有的NLP文本安全审核系统使用Trie树的数据结构进行存储,占用存储空间大,增加了服务器的内存成本,不便于在同一台服务器上大规模部署,在性能上难以达到最优,以及模型泛化能力受限制,预测准确性不稳定的技术问题的技术问题。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的一种NLP文本安全审核多级检索系统的结构示意图;
图2为本发明提供的浅层神经网络的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,请参阅图1,本发明中提供了一种NLP文本安全审核多级检索系统的实施例,包括依次连接的环境检查模块、文本预处理模块、文本分类处理模块和结果解析模块;
环境检查模块用于对运行环境和数据库进行预检查和预加载;
文本预处理模块用于对文本数据进行预处理,去除冗余无效信息;
文本分类处理模块包括关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块;
关键词匹配子模块采用压缩前缀树进行数据存储和查找;
句子相似度匹配子模块用于在关键词匹配子模块匹配不成功时启用,句子相似度匹配子模块包括弹性搜索的高性能分布式子模块和分词子模块,弹性搜索的高性能分布式子模块用于结合海量的文本数据库进行匹配搜索,分词子模块用于在高性能分布式子模块匹配搜索过程中进行文本分词;
文本分类深度学习子模块用于在句子相似度匹配子模块匹配不成功时启用,采用预置文本分类深度学习模型进行文本分类;
结果解析模块用于根据文本分类处理模块的文本匹配结果进行解析和输出。
需要说明的是,环境检查模块主要是对系统所使用到的算法所需要的环境以及数据库做预检查和预加载,确保正常运行系统所需要的前置条件都预备。在环境检查模块中,主要检查Redis数据库、ES(ElasticSearch)数据库、深度学习模型(比如FastText模型)、Trie树模型和Trie树关键词列表。若这些组件没有准备好,则会自动按照不同的系统进行组件配置部署,确保系统能够正常运行。
文本预处理模块主要是对数据进行预处理,以符合文本分类处理模块的算法输入处理的要求,本质上是优化输入特征空间,去除冗余无效信息,提高信息的浓缩度。文本预处理模块的文本处理主要包括对文本数据进行标点符号清洗、单词纠正、停用词过滤、繁体转简体、分词、数字转文本、URL 检测和IP检测。其中:
标点符号清洗:主要是对标点符号进行清洗,如“今天,天气真的,非常不错”,进行标点符号清洗后的结果为“今天天气真的非常不错”。
单词纠正:对错误词进行纠正,例如“公公公交车车车”,纠正结果为“公交车”。
停用词过滤:为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,譬如下列、下去、下来等这些表修饰的词不会影响文本安全审核结果,因此可以选择过滤掉,用以提高推理速度。
繁体转简体:譬如“心裏”,“雨裏”,“夢裏”或“心裡”,“雨裡”,“夢裡”,这些都是表达同一个意思,因此如果都映射到同一个特征空间的话,这样模型所需学习的内容会更加简单,因此都需要统一转成简化输入特征空间。
分词:主要用于专门学习特定字词的语义空间而考虑的。
数字转文本:在这个模块我们主要将数字转成文本,规整输入特征空间,这里的数字有年代、时间、电话号码、百分比、分数、小数以及变种数字。
URL检测和IP检测:主要用于判断非法URL和IP。
文本分类处理模块包括关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块
关键词匹配子模块采用压缩前缀树进行数据存储和查找。在字典树的存储中,会存在大量的空节点和分支,而且每个节点中会存储大量的子节点和父节点信息,而且针对长文本的存储需要开辟非常大的内存进行结构信息的存储,造成一定的空间浪费。即便字典树能够实现快速查找,但是在内存占用方面过于庞大,不便于线上大规模部署,进一步会带来部署成本的大幅上升。因此,需要新的数据结构来弥补字典树的内存占用缺陷。双数组字典树结合了数组查询效率高,列表节省空间的优点,将原来需要多个数组才能表达的字典树,通过两个数组就可以存储下来了。具体是通过基础数组和查询数组来实现,字典树可以等同于一个自动机,状态为树节点的编号,边为字符,那么可以用g(r,c)=s来表示状态r可以按照字符c转移到状态s。基础数组用于记录状态,将所有节点的状态都记录到一个数组中,以避免数组的大量空置。基础数组仅仅会通过数组的位置记录下字符的状态(结点),用以实现在一维数组中实现字典中字符的链路关系。查询数组用于验证转移的有效性,用以标识出基础数组中每个状态的前一状态,以检验状态转移的正确性,也就是检查各个字符是否是从一个状态转移而来的。因而可以实现查询速度不变的情况下,内存占用大幅下降的效果。
但是双数组字典树的内存占用效果还是达不到最优,为进一步降低内存占用空间,本发明中使用压缩前缀树进行数据存储和查找。压缩前缀树是一种更节省空间的字典树,对于数组的每个节点,如果该节点是唯一的孩子,则就和父节点合并,使用压缩前缀树的查询速度达毫秒级别,内存占用情况比使用字典树数据结构降低了两千多倍。
关键词匹配子模块比较依赖于关键词词库,如果有一些敏感词没有在词库中,单靠关键词匹配子模块的话,就没有办法预测这种集外情况。因此,本发明中还设置有句子相似度匹配子模块,在关键词匹配子模块无法预测敏感词时,通过句子相似度匹配子模块进行匹配。在句子相似度匹配子模块中,结合弹性搜索的高性能分布式子模块和分词子模块,用以实现在海量数据中进行毫秒级别的句子匹配。具体而言,弹性搜索的高性能分布式子模块用于在极短的时间内分布式存储、搜索以及分析海量的数据,能够应对复杂搜索场景。分词子模块则是为了更好地适配业务场景,把一些垂直领域的特有名词加到分词模型里面,这样搜索模块在进行文本搜索时能够更加精准地匹配。
同关键词匹配子模块相同的问题,句子相似度匹配子模块的词库有可能不足以覆盖复杂语义空间的文本,因此在审核能力上仍需要考虑补充。出于语义空间预测的需求考虑,在句子相似度匹配子模块之后设置文本分类深度学习子模块,对句子相似度匹配子模块无法预测的句子进行深度学习的文本分类。
经过文本分类处理模块之后,文本应被赋予对应的分类标签,譬如广告、黑名单和违禁。结果解析模块根据文本分类处理模块的文本匹配结果进行解析和输出,解析层面可以是对查询结果进行优先级排序,譬如如果优先关注的是广告内容,则将广告标签前置。结果解析模块设置PASS、REJECT和 REVIEW单元,PASS单元为文本安全审核结果通过时的输出,REJECT单元为文本安全审核结果不通过时的输出,REVIEW单元为文本安全审核结果不确定时的输出。
本发明提供的NLP文本安全审核多级检索系统,利用压缩前缀树的数据结构进行数据的存储和查找,查询速度达毫秒级别,且内存占用比使用字典树数据结构降低了两千多倍,关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块构成三级搜索的层级搜索结构,查询准确率高,既能覆盖到显性敏感词的搜索,同时能从语义上进行文本内容安全审核,在准确率、容错率以及覆盖率上都有保障,又能提高系统的模型泛化能力,解决了现有的NLP文本安全审核系统使用Trie树的数据结构进行存储,占用存储空间大,增加了服务器的内存成本,不便于在同一台服务器上大规模部署,在性能上难以达到最优,以及模型泛化能力受限制,预测准确性不稳定的技术问题的技术问题。
在一个实施例中,文本分类深度学习子模块中的文本分类深度学习模型为浅层神经网络,浅层神经网络包括输入层、隐藏层和输出层,如图2所示。使用一个浅层神经网络,考虑将文本信息映射到一个低维输入特征空间上,用于降低维度信息,同时结合分层归一化指数函数进行快速分类,通过使用树的层级结构替代扁平化的标准归一化指数函数,使得在计算概率时,只需要计算一条路径上的所有节点的概率值。经收集业务数据进行处理,通过关键词匹配子模块、句子相似度匹配子模块和以浅层神经网络作为学习模型的文本分类深度学习模型的结合,文本内容安全审核准确率可达到94%以上。
对于句子相似度匹配子模块中的弹性搜索的高性能分布式子模块,匹配出来的句子不一定是相似的,因此,在一个实施例中,还可以在句子相似度匹配子模块中设置句子差异性计算子模块,用于计算查询文本和结果文本集合的最小编辑距离,根据最小编辑距离对高性能分布式子模块的匹配结果进行二次校验。也就是说,在给定查询文本的时候,弹性搜索的高性能分布式子模块会结合自身海量的文本数据库进行匹配搜索,而在匹配搜索的过程中,会应用到业务特定的分词模块进行文本分词,借以提高匹配的准确率。而在弹性搜索的高性能分布式子模块匹配候选集出来之后,会再经过句子差异性计算子模块的计算模型进行二次校验,来判定查询文本是否真正和匹配候选集相似。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种NLP文本安全审核多级检索系统,其特征在于,包括依次连接的环境检查模块、文本预处理模块、文本分类处理模块和结果解析模块;
环境检查模块用于对运行环境和数据库进行预检查和预加载;
文本预处理模块用于对文本数据进行预处理,去除冗余无效信息;
文本分类处理模块包括关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块;
关键词匹配子模块采用压缩前缀树进行数据存储和查找;
句子相似度匹配子模块用于在关键词匹配子模块匹配不成功时启用,句子相似度匹配子模块包括弹性搜索的高性能分布式子模块和分词子模块,弹性搜索的高性能分布式子模块用于结合海量的文本数据库进行匹配搜索,分词子模块用于在高性能分布式子模块匹配搜索过程中进行文本分词;
文本分类深度学习子模块用于在句子相似度匹配子模块匹配不成功时启用,采用预置文本分类深度学习模型进行文本分类;
结果解析模块用于根据文本分类处理模块的文本匹配结果进行解析和输出。
2.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,句子相似度匹配子模块还包括:
句子差异性计算子模块,用于计算查询文本和结果文本集合的最小编辑距离,根据最小编辑距离对高性能分布式子模块的匹配结果进行二次校验。
3.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,预置文本分类深度学习模型为浅层神经网络,浅层神经网络包括输入层、隐藏层和输出层。
4.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,结果解析模块具体用于:
按预置标签优先级对文本分类深度学习子模块的文本分类结果进行排序和输出。
5.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,环境检查模块具体用于:
预检查和预加载Redis数据库、ES数据库、FastText模型、Trie树模型和Trie树关键词列表。
6.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,文本预处理模块具体用于:
对文本数据进行标点符号清洗、单词纠正、停用词过滤、繁体转简体、分词、数字转文本、URL检测和IP检测。
CN202111473148.3A 2021-12-02 2021-12-02 一种nlp文本安全审核多级检索系统 Active CN114579693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111473148.3A CN114579693B (zh) 2021-12-02 2021-12-02 一种nlp文本安全审核多级检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111473148.3A CN114579693B (zh) 2021-12-02 2021-12-02 一种nlp文本安全审核多级检索系统

Publications (2)

Publication Number Publication Date
CN114579693A CN114579693A (zh) 2022-06-03
CN114579693B true CN114579693B (zh) 2024-05-14

Family

ID=81771126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111473148.3A Active CN114579693B (zh) 2021-12-02 2021-12-02 一种nlp文本安全审核多级检索系统

Country Status (1)

Country Link
CN (1) CN114579693B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587588B (zh) * 2022-12-06 2023-02-28 北京匠数科技有限公司 文本内容审核方法、装置及电子设备
CN116051164B (zh) * 2022-12-29 2023-11-28 北京北咨信息工程咨询有限公司 建设成本测算方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012082859A1 (en) * 2010-12-14 2012-06-21 The Regents Of The University Of California High efficiency prefix search algorithm supporting interactive, fuzzy search on geographical structured data
CN103473337A (zh) * 2013-09-22 2013-12-25 北京航空航天大学 一种分布式存储系统中处理面向海量目录和文件的方法
CN109508361A (zh) * 2018-11-12 2019-03-22 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110275884A (zh) * 2019-05-31 2019-09-24 阿里巴巴集团控股有限公司 数据存储方法及节点
CN111695527A (zh) * 2020-06-15 2020-09-22 内蒙古大学 一种蒙古文在线手写体识别方法
CN113312449A (zh) * 2021-05-17 2021-08-27 华南理工大学 基于关键字和深度学习的文本审核方法、系统及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10009372B2 (en) * 2014-07-23 2018-06-26 Petabi, Inc. Method for compressing matching automata through common prefixes in regular expressions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012082859A1 (en) * 2010-12-14 2012-06-21 The Regents Of The University Of California High efficiency prefix search algorithm supporting interactive, fuzzy search on geographical structured data
CN103473337A (zh) * 2013-09-22 2013-12-25 北京航空航天大学 一种分布式存储系统中处理面向海量目录和文件的方法
CN109508361A (zh) * 2018-11-12 2019-03-22 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110275884A (zh) * 2019-05-31 2019-09-24 阿里巴巴集团控股有限公司 数据存储方法及节点
CN111695527A (zh) * 2020-06-15 2020-09-22 内蒙古大学 一种蒙古文在线手写体识别方法
CN113312449A (zh) * 2021-05-17 2021-08-27 华南理工大学 基于关键字和深度学习的文本审核方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Efficient Word Processing Applications Using Radix Tree;Unnati Koppikar等;《2019 4th International Conference on Recent Trends on Electronics, Information, Communication & Technology (RTEICT)》;20200302;1041-1046 *
基于垂直搜索技术的互联网公开文档搜集系统;董佳;《中国优秀硕士学位论文全文数据库信息科技辑》;20190515(第05期);I138-1766 *

Also Published As

Publication number Publication date
CN114579693A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
Landauer et al. Deep learning for anomaly detection in log data: A survey
CN114579693B (zh) 一种nlp文本安全审核多级检索系统
Linhares Pontes et al. Impact of OCR quality on named entity linking
CA2703569A1 (en) Disambiguation and tagging of entities
CN111143553B (zh) 一种实时文本数据流的特定信息识别方法及系统
CN111538836B (zh) 一种识别文本类广告中金融广告的方法
CN112035688B (zh) 资源搜索方法及装置、搜索设备及存储介质
WO2009017464A1 (en) Relation extraction system
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
US20210103699A1 (en) Data extraction method and data extraction device
CN114817570A (zh) 基于知识图谱的新闻领域多场景文本纠错方法
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
Jasti et al. Relevant‐Based Feature Ranking (RBFR) Method for Text Classification Based on Machine Learning Algorithm
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
Chou et al. Boosted web named entity recognition via tri-training
Shahade et al. Multi-lingual opinion mining for social media discourses: an approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
Xiao et al. Information extraction from the web: System and techniques
CN111259223B (zh) 基于情感分析模型的新闻推荐和文本分类方法
Tahmasebi et al. On the applicability of word sense discrimination on 201 years of modern english
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
KR20240013640A (ko) 유해 url 탐지 방법
CN111782773B (zh) 基于级连模式的文本匹配方法及装置
Yang et al. A flexible template generation and matching method with applications for publication reference metadata extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant