CN117892727B - 一种实时文本数据流去重系统及方法 - Google Patents
一种实时文本数据流去重系统及方法 Download PDFInfo
- Publication number
- CN117892727B CN117892727B CN202410288617.1A CN202410288617A CN117892727B CN 117892727 B CN117892727 B CN 117892727B CN 202410288617 A CN202410288617 A CN 202410288617A CN 117892727 B CN117892727 B CN 117892727B
- Authority
- CN
- China
- Prior art keywords
- text
- data
- real
- text data
- duplication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000003491 array Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000001351 cycling effect Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000003825 pressing Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实时文本数据流去重系统及方法,涉及数据去重领域,其中去重系统包括:数据输入端,所述数据输入端由用于接收与发送文本数据流的消息队列组成;数据处理端,所述数据处理端由流处理引擎组成,能够按不同语种对文本数据进行预处理,并基于改进Ksentence进行文本标识计算,最后形成输出数据流;数据输出端,所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中;并以此提出了一种去重方法;本发明,侧重于对海量性、实时性的文本进行去重,适用于在线实时场景。
Description
技术领域
本发明涉及数据去重领域,具体涉及一种实时文本数据流去重系统及方法。
背景技术
本节中的陈述仅提供与本公开相关的背景信息,并且可能不构成现有技术。
互联网中充斥着海量的文本,并且包含有大量的重复文本内容。对于搜索引擎的网页去重和过滤、社交媒体的文本去重等,均需要文本去重实现,提升文本质量,节约存储资源。
现有的文本去重方法大多是离线计算的模式,将文本转换成可比较的特征向量后,对特征向量两两进行比较或聚类,例如专利“一种面向开源情报的文本去重方法”计算文档的simhash特征向量、文本相似度以及文本信息量,通过与其余文档计算相似度,实现文本去重;专利“一种simhash文本去重方法”使用基于改进PSO-TextRank模型或者基于改进的LDA算法进行文本预处理后,将所有文本的simhash值进行比较,并将相似的文本合并为一条记录,去除重复的记录;专利“一种实时对长文本去重聚类的方法”在中心服务存储建立可以对特征向量进行快速模糊比对的数据结构,通过将文本列表进行定时定量计算,实现文本去重。
但离线计算模式的文本去重方法不能满足实时性要求高的应用,例如在数据源实时且不间断场景下的用户搜索内容推荐,且在海量数据下,将文本两两之间进行比较,需要极高的计算资源代价。目前仍缺少一种针对海量流数据文本的实时去重方法。
发明内容
本发明的目的在于:针对在海量数据场景下现有文本去重方法的实时性低、计算复杂度高的问题,提供了一种实时文本数据流去重系统及方法,侧重于对海量性、实时性的文本进行去重,适用于在线实时场景,解决了上述问题。
本发明的技术方案如下:
一种实时文本数据流去重系统,包括:
数据输入端,所述数据输入端由用于接收与发送文本数据流的消息队列组成;
数据处理端,所述数据处理端由流处理引擎组成,能够按不同语种对文本数据进行预处理,并基于改进Ksentence进行文本标识计算,最后形成输出数据流;
数据输出端,所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中。
进一步地,所述数据输入端是kafka;能够通过kafka对文本数据流进行接收与消费。
进一步地,所述数据处理端使用的是实时计算框架Flink,能够通过在Flink上对Kafka上的文本数据进行消费,按不同语种进行文本数据进行预处理,并基于改进Ksentence对文本标识进行计算,最后形成输出数据流。
进一步地,所述数据输出端由ElasticSearch数据库组成,通过设定ES文档的唯一标识_id,可实现数据的自动更新或者丢弃。
一种实时文本数据流去重方法,包括:
步骤S1:面向多语种的文本预处理;对输入的文本数据按不同语种进行清洗以及预处理;
步骤S2:基于改进Ksentence的文本标识计算;选择分词后长度大于K的词进行拼接,并利用simhash计算哈希值,得到文本唯一标识值key;
步骤S3:基于标识的文本存储策略;通过将key值作为流数据输出数据库的主键的组成部分,利用数据库的按主键更新或主键重复时不更新的策略,实现文本实时去重。
进一步地,所述步骤S1,包括:
步骤S11:从kafka实时消息队列中获取文本数据;
步骤S12:使用正则表达式对文本数据进行正则清洗,特殊符号用空格进行替换,并去除16进制编码与base64编码;
步骤S13:对经步骤S12处理后得到的字符串,按语种进行切割,得到语种字符串数组;
步骤S14:对中英文进行处理;
步骤S15:返回处理后的语种字符串数组。
进一步地,所述步骤S13,包括:
记录每个空格的位置得到数组,循环数组中的空格位置,并判断空格与空格之间字符串的语种类型,将相同语种的字符串用;进行拼接,得到若干语种字符串;不同语种字符串共同组成一个语种字符串数组,且数组长度为语种的个数;
所述步骤S14,包括:
若存在中文,则使用jieba对中文使用空格进行分词,并去除停用词;若存在英文,则还原英文词性,去除停用词;若为其余语种,则不做任何处理。
进一步地,所述步骤S2,包括:
步骤S21:获取语种字符串数组;
步骤S22:按;进行分割,取长度大于K的字符串;
步骤S23:按语种顺序将选择的字符串按空格拼接;
步骤S24:计算拼接后的字符串的唯一标识值。
进一步地,所述步骤S22,包括:
对数组中的每一个元素,若该元素为中文,在用;将字符串分割成列表后,保留列表中长度大于K的字符串;若该元素不为中文,在用;将字符串分割成列表后,保留列表中长度大于M的字符串;
所述步骤S23,包括:
按语种类型的升序进行排序,将步骤S22中保留的字符串用空格进行拼接,形成新的字符串;
步骤S24,包括:
计算新的字符串的simhash值,并将该值作为新的字符串对应文本的唯一标识值key。
进一步地,所述步骤S3,包括:
将处理后的文本数据输出到指定数据库ES时,通过将计算的文本的唯一标识值key添加到文本数据的主键中,并通过设置输出数据库的主键更新策略,实现流数据的自动去重。
与现有的技术相比本发明的有益效果是:
1、现有文本去重的方式大多为将多个待去重文本进行两两比较,基于比较结果将重复的文本去除。然而,目前文本去重方式在由于需要将待重文本两两进行比较,在面对海量待去重文本时,会花费大量时间,导致文本去重效率比较低,且不适用于实时性要求高的场景。
2、本发明面向实时文本去重的场景,提出了一种基于改进Ksentence的实时文本数据流去重方法,基于不同语种对文本进行详细预处理,降低干扰,提高文本表征的精确性;此外本发明按不同语种选择不同长度的文本字符串,再利用simhash计算哈希值,得到文本唯一标识值,优化Ksentence对部分修改的文本识别度较低的问题,提升文本去重的准确性;最后本发明利用流处理引擎对文本数据进行处理与输出,利用数据存储的主键更新策略,在不需要文本两两对比的条件下,实现文本实时去重。
附图说明
图1为一种实时文本数据流去重系统框架图;
图2为面向多语种的分词与预处理示意图;
图3为基于改进Ksentence的文本标识计算示意图。
具体实施方式
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
针对海量数据流的实时文本去重问题,本实施例利用实时计算框架中的流处理引擎对海量文本数据流进行去重。通过对输入的文本数据按语种类型进行预处理与分词,并采用改进Ksentence对分词后的文本数据计算标识值,最后将文本标识值作为输出数据的主键组成部分,从而在存储时实现自动去重,整体框架如图1所示。
在本实施例中,具体的,一种实时文本数据流去重系统,具体包括如下:
数据输入端,所述数据输入端由用于接收与发送文本数据流的消息队列组成;
数据处理端,所述数据处理端由流处理引擎组成,能够按不同语种对文本数据进行预处理,并基于改进Ksentence进行文本标识计算,最后形成输出数据流;
数据输出端,所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中,便于后续检索。
在本实施例中,具体的,所述数据输入端是kafka;能够通过kafka对文本数据流进行接收与消费。
在本实施例中,具体的,所述数据处理端使用的是实时计算框架Flink,能够通过在Flink上对Kafka上的文本数据进行消费,按不同语种进行文本数据进行预处理,并基于改进Ksentence对文本标识进行计算,最后形成输出数据流。
在本实施例中,具体的,所述数据输出端由ElasticSearch数据库组成,通过设定ES文档的唯一标识_id,可实现数据的自动更新或者丢弃。
在本实施例中,在数据处理端还提出了一种实时文本数据流去重方法,具体包括如下步骤:
步骤S1:面向多语种的文本预处理;对输入的文本数据按不同语种进行清洗以及预处理;
步骤S2:基于改进Ksentence的文本标识计算;选择分词后长度大于K的词进行拼接,并利用simhash计算哈希值,得到文本唯一标识值key;
步骤S3:基于标识的文本存储策略;通过将key值作为流数据输出数据库的主键的组成部分,利用数据库的按主键更新或主键重复时不更新的策略,实现文本实时去重。
在本实施例中,具体的,请参阅图2,所述步骤S1,包括:
步骤S11:从kafka实时消息队列中获取文本数据;
步骤S12:使用正则表达式对文本数据进行正则清洗,特殊符号用空格进行替换,并去除16进制编码与base64编码;需要说明的是,特殊符号例如“[0-9’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》♅♛♆?“”‘’![\\]^_`{|}~]+”等;
步骤S13:对经步骤S12处理后得到的字符串,按语种进行切割,得到语种字符串数组;
步骤S14:对中英文进行处理;
步骤S15:返回处理后的语种字符串数组。
在本实施例中,具体的,所述步骤S13,包括:
记录每个空格的位置得到数组,循环数组中的空格位置,并判断空格与空格之间字符串的语种类型,将相同语种的字符串用“;”进行拼接,得到若干语种字符串;不同语种字符串共同组成一个语种字符串数组,且数组长度为语种的个数;
所述步骤S14,包括:
若存在中文,则使用jieba对中文使用空格进行分词,并去除停用词;若存在英文,则还原英文词性,去除停用词;若为其余语种,则不做任何处理。
在本实施例中,具体的,请参阅图3,所述步骤S2,包括:
步骤S21:获取语种字符串数组;
步骤S22:按“;”进行分割,取长度大于K的字符串;
步骤S23:按语种顺序将选择的字符串按空格拼接;
步骤S24:计算拼接后的字符串的唯一标识值。
在本实施例中,具体的,所述步骤S22,包括:
对数组中的每一个元素,若该元素为中文,在用“;”将字符串分割成列表后,保留列表中长度大于K(K默认为5)的字符串;若该元素不为中文,在用;将字符串分割成列表后,保留列表中长度大于M(M默认为10)的字符串;
所述步骤S23,包括:
按语种类型的升序进行排序,将步骤S22中保留的字符串用空格进行拼接,形成新的字符串;
步骤S24,包括:
计算新的字符串的simhash值,并将该值作为新的字符串对应文本的唯一标识值key。
在本实施例中,具体的,所述步骤S3,包括:
将处理后的文本数据输出到指定数据库ES时,通过将计算的文本的唯一标识值key添加到文本数据的主键中,并通过设置输出数据库的主键更新策略,实现流数据的自动去重;需要说明的是,其中更新策略包括当数据主键冲突时,可以丢弃现有数据,或者用新数据更新旧数据;由于通过数据库主键进行更新或不更新的方法属于通用方法,在此不做限定。
需要说明的是,本发明的主要创新之处是提供了一种可用于实时计算框架的基于改进Ksentense的文本实时去重方法及装置,并详细描述了面向多语种的文本预处理与改进Ksentence的文本标识计算过程,有效降低噪音干扰,提升文本去重准确性,且可对海量数据进行实时文本去重。
同时,本发明不限定数据输入端使用的具体的消息队列工具、不限定数据处理端使用的具体的流式计算框架、不限定基于标识的文本去重策略、不限定数据输出端使用的具体数据库。本发明所提出的面向多语种的文本预处理方式、改进Ksentence的文本计算方式、以及将改进Ksentence运用到文本流数据进行实时去重的整体框架,都属于本发明所保护的内容。
本发明对Ksentence算法进行改进,基于两个重复文本中长度大于K的关键词应该是完全一样的假设,利用simhash计算不同语种文本拼接后关键词,将此哈希值作为文本唯一标识,提升Ksentence算法对文本的识别度,提高文本去重准确性。此外,本发明通过流计算引擎处理文本流数据,保证输入、计算、输出的过程的低延迟性,并结合数据库主键更新策略,实现文本数据流的去重,有效降低计算复杂度,提升文本去重的实时性。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
提供本背景技术部分是为了大体上呈现本发明的上下文,当前所署名的发明人的工作、在本背景技术部分中所描述的程度上的工作以及本部分描述在申请时尚不构成现有技术的方面,既非明示地也非暗示地被承认是本发明的现有技术。
Claims (5)
1.一种实时文本数据流去重方法,其特征在于,基于一种实时文本数据流去重系统,包括:
步骤S1:面向多语种的文本预处理;对输入的文本数据按不同语种进行清洗以及预处理;
步骤S2:基于改进Ksentence的文本标识计算;选择分词后长度大于K的词进行拼接,并利用simhash计算哈希值,得到文本唯一标识值key;
步骤S3:基于标识的文本存储策略;通过将key值作为流数据输出数据库的主键的组成部分,利用数据库的主键更新策略,实现文本实时去重;
所述步骤S1,包括:
步骤S11:从kafka实时消息队列中获取文本数据;
步骤S12:使用正则表达式对文本数据进行正则清洗,特殊符号用空格进行替换,并去除16进制编码与base64编码;
步骤S13:对经步骤S12处理后得到的字符串,按语种进行切割,得到语种字符串数组;
步骤S14:对中英文进行处理;
步骤S15:返回处理后的语种字符串数组;
所述步骤S13,包括:
记录每个空格的位置得到数组,循环数组中的空格位置,并判断空格与空格之间字符串的语种类型,将相同语种的字符串用分号进行拼接,得到若干语种字符串;不同语种字符串共同组成一个语种字符串数组,且数组长度为语种的个数;
所述步骤S14,包括:
若存在中文,则使用jieba对中文使用空格进行分词,并去除停用词;若存在英文,则还原英文词性,去除停用词;若为其余语种,则不做任何处理;
所述步骤S2,包括:
步骤S21:获取语种字符串数组;
步骤S22:按;进行分割,取长度大于K的字符串;
步骤S23:按语种顺序将选择的字符串按空格拼接;
步骤S24:计算拼接后的字符串的唯一标识值;
所述步骤S22,包括:
对数组中的每一个元素,若该元素为中文,在用分号将字符串分割成列表后,保留列表中长度大于K的字符串;若该元素不为中文,在用分号将字符串分割成列表后,保留列表中长度大于M的字符串;
所述步骤S23,包括:
按语种类型的升序进行排序,将步骤S22中保留的字符串用空格进行拼接,形成新的字符串;
步骤S24,包括:
计算新的字符串的simhash值,并将该值作为新的字符串对应文本的唯一标识值key;
所述一种实时文本数据流去重系统,包括:
数据输入端,所述数据输入端由用于接收与发送文本数据流的消息队列组成;
数据处理端,所述数据处理端由流处理引擎组成,能够按不同语种对文本数据进行预处理,并基于改进Ksentence进行文本标识计算,最后形成输出数据流;
数据输出端,所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中。
2.根据权利要求1所述的一种实时文本数据流去重方法,其特征在于,所述步骤S3,包括:
将处理后的文本数据输出到指定数据库ES时,通过将计算的文本的唯一标识值key添加到文本数据的主键中,并通过设置输出数据库的主键更新策略,实现流数据的自动去重。
3.根据权利要求1所述的一种实时文本数据流去重方法,其特征在于,所述数据输入端是kafka;能够通过kafka对文本数据流进行接收与消费。
4.根据权利要求3所述的一种实时文本数据流去重方法,其特征在于,所述数据处理端使用的是实时计算框架Flink,能够通过在Flink上对Kafka上的文本数据进行消费,按不同语种进行文本数据进行预处理,并基于改进Ksentence对文本标识进行计算,最后形成输出数据流。
5.根据权利要求4所述的一种实时文本数据流去重方法,其特征在于,所述数据输出端由ElasticSearch数据库组成,通过设定ES文档的唯一标识_id,可实现数据的自动更新或者丢弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410288617.1A CN117892727B (zh) | 2024-03-14 | 2024-03-14 | 一种实时文本数据流去重系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410288617.1A CN117892727B (zh) | 2024-03-14 | 2024-03-14 | 一种实时文本数据流去重系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117892727A CN117892727A (zh) | 2024-04-16 |
CN117892727B true CN117892727B (zh) | 2024-05-17 |
Family
ID=90641455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410288617.1A Active CN117892727B (zh) | 2024-03-14 | 2024-03-14 | 一种实时文本数据流去重系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117892727B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528536A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于词典与文法分析的多语种分词方法 |
CN109254982A (zh) * | 2018-08-31 | 2019-01-22 | 杭州安恒信息技术股份有限公司 | 一种流数据处理方法、系统、装置及计算机可读存储介质 |
CN110442679A (zh) * | 2019-08-01 | 2019-11-12 | 信雅达系统工程股份有限公司 | 一种基于融合模型算法的文本去重方法 |
CN112000636A (zh) * | 2020-08-31 | 2020-11-27 | 民生科技有限责任公司 | 基于Flink流式处理的用户行为统计分析方法 |
CN112131877A (zh) * | 2020-09-21 | 2020-12-25 | 民生科技有限责任公司 | 一种海量数据下的实时中文文本分词方法 |
CN113326406A (zh) * | 2021-05-21 | 2021-08-31 | 翱捷科技股份有限公司 | 一种lvgl上的多语种切换方法及装置 |
CN113468019A (zh) * | 2021-06-28 | 2021-10-01 | 康键信息技术(深圳)有限公司 | 基于Hbase的指标监控方法、装置、设备及存储介质 |
EP3907610A1 (en) * | 2020-05-05 | 2021-11-10 | Palantir Technologies Inc. | Orchestration system for stream storage and processing |
CN113705231A (zh) * | 2021-09-06 | 2021-11-26 | 北京清博智能科技有限公司 | 一种热点新闻发现系统及方法 |
CN114281989A (zh) * | 2021-12-06 | 2022-04-05 | 重庆邮电大学 | 基于文本相似度的数据去重方法、装置及存储介质和服务器 |
CN115801395A (zh) * | 2022-11-15 | 2023-03-14 | 中盈优创资讯科技有限公司 | 一种基于Flink动态模型实现实时DDOS态势分析的方法及装置 |
CN115795036A (zh) * | 2022-12-07 | 2023-03-14 | 北京优捷信达信息科技有限公司 | 一种实时对长文本去重聚类的方法 |
WO2023087769A1 (zh) * | 2021-11-16 | 2023-05-25 | 北京锐安科技有限公司 | 基于分布式流计算引擎Flink的关键字段实时去重方法 |
CN116245107A (zh) * | 2023-05-12 | 2023-06-09 | 国网天津市电力公司培训中心 | 电力审计文本实体识别方法、装置、设备及存储介质 |
CN116719798A (zh) * | 2023-04-26 | 2023-09-08 | 中国工业互联网研究院 | 一种simhash文本去重方法 |
CN116881730A (zh) * | 2023-06-14 | 2023-10-13 | 厦门她趣信息技术有限公司 | 基于语境的聊天场景匹配系统、方法、设备及存储介质 |
CN117493319A (zh) * | 2023-10-31 | 2024-02-02 | 中国联合网络通信集团有限公司 | 数据去重方法、装置、电子设备及存储介质 |
-
2024
- 2024-03-14 CN CN202410288617.1A patent/CN117892727B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528536A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于词典与文法分析的多语种分词方法 |
CN109254982A (zh) * | 2018-08-31 | 2019-01-22 | 杭州安恒信息技术股份有限公司 | 一种流数据处理方法、系统、装置及计算机可读存储介质 |
CN110442679A (zh) * | 2019-08-01 | 2019-11-12 | 信雅达系统工程股份有限公司 | 一种基于融合模型算法的文本去重方法 |
EP3907610A1 (en) * | 2020-05-05 | 2021-11-10 | Palantir Technologies Inc. | Orchestration system for stream storage and processing |
CN112000636A (zh) * | 2020-08-31 | 2020-11-27 | 民生科技有限责任公司 | 基于Flink流式处理的用户行为统计分析方法 |
CN112131877A (zh) * | 2020-09-21 | 2020-12-25 | 民生科技有限责任公司 | 一种海量数据下的实时中文文本分词方法 |
CN113326406A (zh) * | 2021-05-21 | 2021-08-31 | 翱捷科技股份有限公司 | 一种lvgl上的多语种切换方法及装置 |
CN113468019A (zh) * | 2021-06-28 | 2021-10-01 | 康键信息技术(深圳)有限公司 | 基于Hbase的指标监控方法、装置、设备及存储介质 |
CN113705231A (zh) * | 2021-09-06 | 2021-11-26 | 北京清博智能科技有限公司 | 一种热点新闻发现系统及方法 |
WO2023087769A1 (zh) * | 2021-11-16 | 2023-05-25 | 北京锐安科技有限公司 | 基于分布式流计算引擎Flink的关键字段实时去重方法 |
CN114281989A (zh) * | 2021-12-06 | 2022-04-05 | 重庆邮电大学 | 基于文本相似度的数据去重方法、装置及存储介质和服务器 |
CN115801395A (zh) * | 2022-11-15 | 2023-03-14 | 中盈优创资讯科技有限公司 | 一种基于Flink动态模型实现实时DDOS态势分析的方法及装置 |
CN115795036A (zh) * | 2022-12-07 | 2023-03-14 | 北京优捷信达信息科技有限公司 | 一种实时对长文本去重聚类的方法 |
CN116719798A (zh) * | 2023-04-26 | 2023-09-08 | 中国工业互联网研究院 | 一种simhash文本去重方法 |
CN116245107A (zh) * | 2023-05-12 | 2023-06-09 | 国网天津市电力公司培训中心 | 电力审计文本实体识别方法、装置、设备及存储介质 |
CN116881730A (zh) * | 2023-06-14 | 2023-10-13 | 厦门她趣信息技术有限公司 | 基于语境的聊天场景匹配系统、方法、设备及存储介质 |
CN117493319A (zh) * | 2023-10-31 | 2024-02-02 | 中国联合网络通信集团有限公司 | 数据去重方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Studying Duplicate Logging Statements and Their Relationships With Code Clones;Li, Zhenhao et al.;《IEEE TRANSACTIONS ON SOFTWARE ENGINEERING》;20210222;第48卷(第7期);全文 * |
一种基于领域语义关系图的短文本实时分析模型;田钟林 等;《数据分析与知识发现》;20201231(第38期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117892727A (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN109947902B (zh) | 一种数据查询方法、装置和可读介质 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN114896305A (zh) | 一种基于大数据技术的智慧互联网安全平台 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN111814486A (zh) | 一种基于语义分析的企业客户标签生成方法、系统及装置 | |
CN110008313A (zh) | 一种抽取式无监督文本摘要方法 | |
KR102376489B1 (ko) | 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법 | |
CN114579693A (zh) | 一种nlp文本安全审核多级检索系统 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN117787257A (zh) | Ota场景的大语言模型的训练方法、文本推理方法和系统 | |
CN110413770B (zh) | 将群消息归类到群话题的方法及装置 | |
CN108475265B (zh) | 获取未登录词的方法与装置 | |
CN117892727B (zh) | 一种实时文本数据流去重系统及方法 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN110866397A (zh) | 一种基于Ternary Search Trie的电力设备模型特征匹配方法 | |
CN115455975A (zh) | 基于多模型融合决策提取主题关键词的方法及装置 | |
CN115269782A (zh) | 一种强化技术知识图谱的生成方法及其装置 | |
CN112308453B (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 | |
CN114820134A (zh) | 一种商品信息召回方法、装置、设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |