CN114490510A - 文本流归档方法、装置、计算机设备及存储介质 - Google Patents
文本流归档方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114490510A CN114490510A CN202111602696.1A CN202111602696A CN114490510A CN 114490510 A CN114490510 A CN 114490510A CN 202111602696 A CN202111602696 A CN 202111602696A CN 114490510 A CN114490510 A CN 114490510A
- Authority
- CN
- China
- Prior art keywords
- data
- identification number
- segmentation
- text
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000011218 segmentation Effects 0.000 claims abstract description 149
- 238000012545 processing Methods 0.000 claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 description 10
- 238000013507 mapping Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本流归档方法,应用于数据处理领域,用于提高对非结构数据的归档效率。本发明提供的方法包括:从文本流中获取文本数据;基于预设的切分规则,对所述文本数据进行切分处理,得到至少两个切分数据;基于预设的标签生成方式,对所有所述切分数据进行标签提取,得到所述切分数据对应的标签信息;针对每一个所述切分数据进行关键词提取,得到每一个所述切分数据对应的关键词信息;基于预设的标识号生成方式,对每个所述切分数据进行标识号生成处理,得到每个所述切分数据对应的标识号;针对每一个所述切分数据,根据所述标识号、所述标签信息和所述关键词信息进行归档处理,得到归档数据。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种文本流归档方法、装置、计算机设备及存储介质。
背景技术
现有实现文本归档的方式主要分为两种:结构化数据的归档和非结构化数据的归档。其中,结构化数据一般指具有固定格式的数据,通常使用数据库归档。非结构化的数据一般指不具有固定格式的数据,实际应用场景较多,不适用于数据库归档。
现有对非结构化数据进行归档通常是针对具体应用场景,提取非结构数据的一部分信息,使其具有一定规律,并根据规律实现数据的归档。当具体应用场景的变化多样,使得非结构化数据难以用数据库进行归档,同时,对于各种各样的数据源,难以有统一的适配性的归档模型,导致在对非结构化数据进行归档时,往往需要进行接口的二次开发,从而造成了对非结构化数据进行归档的效率低下。
因此,现有方式存在因对非结构化数据的多样化而导致归档效率低的问题。
发明内容
本发明实施例提供一种文本流归档方法、装置、计算机设备及存储介质,以提高对非结构数据的归档效率。
一种文本流归档方法,包括:
从文本流中获取文本数据;
基于预设的切分规则,对所述文本数据进行切分处理,得到至少两个切分数据;
基于预设的标签生成方式,对所有所述切分数据进行标签提取,得到所述切分数据对应的标签信息;
针对每一个所述切分数据进行关键词提取,得到每一个所述切分数据对应的关键词信息;
基于预设的标识号生成方式,对每个所述切分数据进行标识号生成处理,得到每个所述切分数据对应的标识号;
针对每一个所述切分数据,根据所述标识号、所述标签信息和所述关键词信息进行归档处理,得到归档数据。
一种文本流归档装置,包括:
文本数据获取模块,用于从文本流中获取文本数据;
切分模块,用于基于预设的切分规则,对所述文本数据进行切分处理,得到至少两个切分数据;
标签提取模块,用于基于预设的标签生成方式,对所有所述切分数据进行标签提取,得到所述切分数据对应的标签信息;
归档信息获取模块,用于针对每一个所述切分数据进行关键词提取,得到每一个所述切分数据对应的关键词信息;
标识号获取模块,用于基于预设的标识号生成方式,对每个所述切分数据进行标识号生成处理,得到每个所述切分数据对应的标识号;
归档数据获取模块,用于针对每一个所述切分数据,根据所述标识号、所述标签信息和所述关键词信息进行归档处理,得到归档数据。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本流归档方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本流归档方法的步骤。
本发明实施例提供的文本流归档方法、装置、计算机设备及存储介质,通过从文本流中获取文本数据。基于预设的切分规则,对文本数据进行切分处理,得到至少两个切分数据。基于预设的标签生成方式,对所有切分数据进行标签提取,得到切分数据对应的标签信息。针对每一个切分数据进行关键词提取,得到每一个切分数据对应的关键词信息。基于预设的标识号生成方式,对每个切分数据进行标识号生成处理,得到每个切分数据对应的标识号。针对每一个切分数据,根据标识号、标签信息和关键词信息进行归档处理,得到归档数据。通过对文本流中的非结构化数据进行切分,并根据得到的标识号和归档信息对非结构化数据进行归档,可以有效兼容各种非结构化数据的归档方式,避免由于非结构化数据数据源较多而导致需要接口的二次开发,从而提高对非结构数据的归档效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文本流归档方法的一应用环境示意图;
图2是本发明一实施例中文本流归档方法的一流程图;
图3是本发明一实施例中文本流归档装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的文本流归档方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。其中,计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种文本流归档方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤S10至步骤S60:
S10、从文本流中获取文本数据。
在步骤S10中,具体地,通过采集端获取至少两个数据源对应的文本流,并从文本流中获取文本数据。
上述数据源包括但不限于日志数据源、电子表格数据源、音频数据源。上述文本流包括但不限于日志文本流、电子表格文本流、音频文本流。
应理解,数据源与文本流之前存在一对一的关系。该文本数据包括结构化数据和非结构化数据,此处的文本数据以非结构化数据为主。同时,此处的数据源仅为举例说明,不作具体限制。后续为了方便说明,以日志数据源为例进行说明。
此处需要说明的是,在从采集端不断采集数据源的文本流时,需针对文本流的格式进行相应处理,并将处理过后得到的数据作为文本数据。例如,当文本流为音频文本流时,对音频文本流进行音频识别,得到的音频识别结果为该音频文本流对应的文本数据。
应理解,采集端持续不断地采集数据源的文本流,并输出文本流对应的一行行的文本数据。例如,当数据源为日志数据源时,采集端通过调用sdk或者api等方式采集到服务端的日志流,并给采集到的每一行日志添加采集时间、日志类型、服务类型、存储路径等日志信息,将每一行日志与日志信息作为文本数据发送到处理端,以使处理端基于该文本数据进行归档处理。
通过上述步骤,能快速获取到不同数据源的非结构化数据,以便后续对非结构化数据进行统一化处理,使得处理过程兼容各种非结构化数据,减少二次开发的情况,从而提高对非结构数据的归档效率。
S20、基于预设的切分规则,对文本数据进行切分处理,得到至少两个切分数据。
在步骤S20中,预设的切分规则是指对文本数据进行切分处理,得到满足切分规则的切分数据的规则。
预设的切分规则包括但不限于按数据量大小进行切分的规则、按数据行数进行切分的规则。其中,按数据量大小进行切分的规则按照预先设置好的字符大小对文本数据进行切分,得到切分数据的规则,例如,按照20个字符的大小对文本数据进行切分。按数据行数进行切分的规则是指将每一行独立的文本数据进行切分,得到切分数据的规则。例如,按照日志文本流每一行日志为一个切分数据,对日志文本数据进行切分处理。
通过对文本数据进行切分,使得对非结构化数据处理适用于数据量较大的应用场景,提高了对非结构化数据处理的应用范围。
具体地,步骤S20进一步包括如下步骤S201至步骤S203:
S201、基于预设的切分规则,获取归档颗粒度。
S202、按照预设的识别顺序,对文本数据进行与归档颗粒度对应的语句识别,得到识别结果。
S203、基于识别结果,对文本数据进行切分处理,得到至少两个切分数据。
在步骤S201中,上述归档颗粒度包括但不限于行、列、固定字符串大小、浮动字符串大小。
优选地,本发明实施例采用归档颗粒度为行的预设切分规则对日志文本数据进行切分。
在步骤S202中,上述预设的识别顺序包括但不限于顺序识别、逆序识别。
在步骤S203中,上述切分处理包括但不限于串行切分处理、并行切分处理。
优选地,此处采用并行切分处理,通过并行切分处理,提高切分效率。
通过并行切分处理,提高了切分效率,从而提高获取切分数据的效率,以便于后续对切分数据进行处理,从而提高对非结构数据的归档效率。
S30、基于预设的标签生成方式,对所有切分数据进行标签提取,得到切分数据对应的标签信息。
在步骤S30中,上述预设的标签生成方式是指根据预设的标签范围提取切分数据的标签,并生成标签信息的方式。
上述预设的标签范围包括固定标签和非固定标签。其中,固定标签是指不随着数据源变化而变化的标签,如数据源、时间戳、存储路径等。非固定标签是指随着数据源变化而变化的标签,如,当数据源为日志数据源时,标签可包括日志类型、日志标识号。
优选地,本发明实施例以时间戳和存储路径作为标签信息。其中,存储路径的定义方式不作具体限制,例如,通过数据源和数据类型定义不同存储路径。
通过预设的标签生成方式,对所有切分数据进行标签提取,得到切分数据对应的标签信息,有利于对切分数据根据标签信息进行归档处理和后续检索,通过标签化,提高了归档和检索的效率。
S40、针对每一个切分数据进行关键词提取,得到每一个切分数据对应的关键词信息。
在步骤S40中,上述关键词提取的实现方式包括但不限于分词提取。其中,分词提取是指对切分数据进行分词处理,对分词处理得到词语进行关键词匹配,从而得到关键词信息的过程。
通过分词提取,实现了对切分数据的关键词提取,提取切分数据的关键词,有利于后续基于每一个切分数据的关键词信息对该切分数据进行归档,提高了归档的效率和后续检索的准确率。
S50、基于预设的标识号生成方式,对每个切分数据进行标识号生成处理,得到每个切分数据对应的标识号。
在步骤S50中,上述预设的标识号生成方式是指生成切分数据的标识号的方法。应理解,此处预设的标识号生成方式应满足使得切分数据的标识号唯一化。该方法不作具体限制。例如,获取切分数据的相关信息以生成标识号。
下面以一具体实施例进行说明,获取切分数据对应标识号的方法。
例如,当获取切分数据标识号的相关信息为归档文件标识号、位置编号时,步骤S50之前,文本流归档方法还包括步骤S501至步骤502:
S501、基于标签信息,确定每个切分数据对应的归档文件标识号。
S502、基于归档颗粒度和标签信息,确定每个切分数据在归档标识号对应的归档文件中的位置编号。
对于步骤S501,上述归档文件标识号是指用于识别归档文件的唯一标识号。通常以一大数量级的数字进行标识。如0000000000001表示第一个归档文件,0000231000001表示第0000231000001个归档文件。
根据标签信息,确定归档文件标识号可通过标签信息中的存储地址进行确定。应理解,标签信息和归档文件标识号应具有映射关系,此处不作具体限制。
对于步骤S502,当归档颗粒度为行时,上述位置编号是指该切分数据在归档文件中的行号。应理解,位置标号与归档颗粒度存在一一对应关系。
基于上述步骤S501至步骤S502,步骤S50,其具体包括如下步骤S503至步骤S507:
S503、按照预设的选取顺序,选取一个切分数据,作为目标切分数据;
S504、获取目标切分数据所对应的归档文件标识号、位置编号;
S505、基于归档文件标识号,获取归档文件的最大位置数;
S506、基于归档文件标识号、最大位置数和位置标号,对目标切分数据进行标识号生成处理,得到目标切分数据对应的标识号;
S507、返回按照预设的选取顺序,选取一个切分数据,作为目标切分数据的步骤继续执行,直到所有切分数据选取结束。
对于上述步骤S505,最大位置数是指归档文件能容纳的最大数量。
应理解,最大位置数不作具体限制。基于归档文件标识号,获取该归档文件标识号对应的归档文件的相关信息,其中包括该归档文件能容纳文件的最大数量,将该最大数量作为最大位置数,例如,当归档文件标识号为00001111时,则获取标识号为00001111的归档文件的相关信息,若该归档文件中能容纳的最大数量为100000000,则最大位置数为100000000。
对于上述步骤S506,基于归档文件标识号、最大位置数和位置标号生成标识号的方式可为将归档文件标识号与最大位置数进行相乘处理,得到相乘结果;将相乘结果与位置编号相加,并将相加得到的结果作为目标切分数据对应的标识号。
例如,当归档文件标识号为00001234,该归档文件对应的最大位置数为100000000,假设存在某个切分数据的位置编号为11001234,标识号为00001234×100000000+11001234=0000123411001234。
由于,最大位置数的作用为将归档文件标识号进行前移,且因为归档文件标识号具有唯一性,位置编号也就有唯一性,因此,通过步骤S506计算得到的标识号也具有唯一性。
通过上述步骤,获取具有唯一性的切分数据对应的标识号,通过标识号可快速进行归档处理,提高了归档的效率,同时提高了后续检索的效率。
S60、针对每一个切分数据,根据标识号、标签信息和关键词信息进行归档处理,得到归档数据。
在步骤S60中,上述归档处理包括但不限于关联处理、叠加处理。
优选地,本发明采用关联处理,其具体是:针对每一个切分数据,将标识号、标签信息和关键词信息进行关联处理,得到索引,将索引存储到索引文件,其中,索引文件为归档数据。
其中,关联处理包括但不限于映射处理,映射处理是指将标识号、标识信息和关键词信息进行映射,得到一条映射数据,该映射数据即为标识号、标识信息和关键词信息对应的索引。
通过对标识号、标签信息和关键词信息进行关联处理,得到索引,使得索引文件仅需维护标识号、标签信息和关键词信息,大大减少了索引的数据量,从而提高了归档的效率和检索的效率。
在步骤S60之后,文本流归档方法进一步包括如下步骤S601至步骤S603:
S601、基于索引文件,获取待检索文本的索引。
S602、基于索引,获取待检索文本对应的标识号。
S603、基于标识号,确定待检索文本所在位置。
在步骤S601中,其具体是,对待检索文本进行关键词提取和标签信息提取,得到待检索文本的关键词信息和标签信息。基于待检索文本的关键词信息和标签信息,从索引文件中获取与该关键词信息和标签信息相同的索引。
在步骤S603中,根据标识号确定待检索文本所在的归档文件和待检索文本所在的位置编号,根据归档文件和位置编号,确定待检索文本所在的位置。
基于步骤S501至步骤S507,以一具体实施例说明确定待检索文本所在位置的过程。
例如,当标识号为0000123411001234时,由于最大位置数为100000000,可快速确定归档文件标识号为00001234,该待检索文本的位置编号为11001234。因此,该待检索文本所在的位置为第00001234号归档文件的第11001234行。
通过关键词信息和标签信息,在索引文件中进行匹配处理,快速获取索引,基于获取的索引,获取标识号,根据标识号确定待检索文本所在的归档文件和待检索文本所在的位置编号,根据归档文件和位置编号,确定待检索文本所在的位置,提高了检索的效率。
本发明实施例提供的文本流归档方法,通过从文本流中获取文本数据。基于预设的切分规则,对文本数据进行切分处理,得到至少两个切分数据。基于预设的标签生成方式,对所有切分数据进行标签提取,得到切分数据对应的标签信息。针对每一个切分数据进行关键词提取,得到每一个切分数据对应的关键词信息。基于预设的标识号生成方式,对每个切分数据进行标识号生成处理,得到每个切分数据对应的标识号。针对每一个切分数据,根据标识号、标签信息和关键词信息进行归档处理,得到归档数据。通过对文本流中的非结构化数据进行切分,并根据得到的标识号和归档信息对非结构化数据进行归档,可以有效兼容各种非结构化数据的归档方式,避免由于非结构化数据数据源较多而导致需要接口的二次开发,从而提高对非结构数据的归档效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本流归档装置,该文本流归档装置与上述实施例中文本流归档方法一一对应。如图3所示,该文本流归档装置包括文本数据获取模块11、切分模块12、标签提取模块13、归档信息获取模块14、标识号获取模块15和归档数据获取模块16。各功能模块详细说明如下:
文本数据获取模块11,用于从文本流中获取文本数据。
切分模块12,用于基于预设的切分规则,对文本数据进行切分处理,得到至少两个切分数据。
标签提取模块13,用于基于预设的标签生成方式,对所有切分数据进行标签提取,得到切分数据对应的标签信息。
归档信息获取模块14,用于针对每一个切分数据进行关键词提取,得到每一个切分数据对应的关键词信息。
标识号获取模块15,用于基于预设的标识号生成方式,对每个切分数据进行标识号生成处理,得到每个切分数据对应的标识号。
归档数据获取模块16,用于针对每一个切分数据,根据标识号、标签信息和关键词信息进行归档处理,得到归档数据。
在其中一个实施例中,切分模块12进一步包括:
归档颗粒度获取单元,用于基于预设的切分规则,获取归档颗粒度。
识别单元,用于按照预设的识别顺序,对文本数据进行与归档颗粒度对应的语句识别,得到识别结果。
切分单元,用于基于识别结果,对文本数据进行切分处理,得到至少两个切分数据。
在其中一个实施例中,在标识号获取模块15之前,文本流归档装置还包括:
归档文件标识号获取模块,用于基于标签信息,确定每个切分数据对应的归档文件标识号。
位置编号获取模块,用于基于归档颗粒度和标签信息,确定每个切分数据在归档标识号对应的归档文件中的位置编号。
在其中一个实施例中,标识号获取模块15进一步包括:
目标切分数据获取单元,用于按照预设的选取顺序,选取一个切分数据,作为目标切分数据。
数据获取单元,用于获取目标切分数据所对应的归档文件标识号、位置编号。
最大位置数获取单元,用于基于归档文件标识号,获取归档文件的最大位置数。
标识号生成单元,用于基于归档文件标识号、最大位置数和位置标号,对目标切分数据进行标识号生成处理,得到目标切分数据对应的标识号。
循环单元,用于返回按照预设的选取顺序,选取一个切分数据,作为目标切分数据的步骤继续执行,直到所有切分数据选取结束。
在其中一个实施例中,标识号生成单元进一步包括:
相乘结果获取单元,用于将归档文件标识号与最大位置数进行相乘处理,得到相乘结果。
标识号获取单元,用于将相乘结果与位置编号相加,并将相加得到的结果作为目标切分数据对应的标识号。
在其中一个实施例中,归档数据获取模块16进一步包括:
索引获取单元,用于针对每一个切分数据,将标识号、标签信息和关键词信息进行关联处理,得到索引。
归档数据获取单元,用于将索引存储到索引文件,其中,索引文件为归档数据。
在其中一个实施例中,在归档数据获取模块16之后,文本流归档装置还包括:
待检索文本索引获取模块,用于基于索引文件,获取待检索文本的索引。
信息获取模块,用于基于索引,获取待检索文本对应的标识号。
位置确认模块,用于基于标识号,确定待检索文本所在位置。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于文本流归档装置的具体限定可以参见上文中对于文本流归档方法的限定,在此不再赘述。上述文本流归档装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本流归档方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本流归档方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中文本流归档方法的步骤,例如图2所示的步骤S10至步骤S60及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中文本流归档装置的各模块/单元的功能,例如图3所示模块11至模块16的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中文本流归档方法的步骤,例如图2所示的步骤S10至步骤S60及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中文本流归档装置的各模块/单元的功能,例如图3所示模块11至模块16的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本流归档方法,其特征在于,包括:
从文本流中获取文本数据;
基于预设的切分规则,对所述文本数据进行切分处理,得到至少两个切分数据;
基于预设的标签生成方式,对所有所述切分数据进行标签提取,得到所述切分数据对应的标签信息;
针对每一个所述切分数据进行关键词提取,得到每一个所述切分数据对应的关键词信息;
基于预设的标识号生成方式,对每个所述切分数据进行标识号生成处理,得到每个所述切分数据对应的标识号;
针对每一个所述切分数据,根据所述标识号、所述标签信息和所述关键词信息进行归档处理,得到归档数据。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的切分规则,对所述文本数据进行切分处理,得到至少两个切分数据包括:
基于预设的切分规则,获取归档颗粒度;
按照预设的识别顺序,对所述文本数据进行与所述归档颗粒度对应的语句识别,得到识别结果;
基于所述识别结果,对所述文本数据进行切分处理,得到至少两个切分数据。
3.根据权利要求2所述的方法,其特征在于,在所述基于预设的标识号生成方式,对每个所述切分数据进行标识号生成处理,得到每个所述切分数据对应的标识号之前,所述方法还包括:
基于所述标签信息,确定每个所述切分数据对应的归档文件标识号;
基于所述归档颗粒度和标签信息,确定每个所述切分数据在所述归档标识号对应的归档文件中的位置编号。
4.根据权利要求3所述的方法,其特征在于,所述基于预设的标识号生成方式,对每个所述切分数据进行标识号生成处理,得到每个所述切分数据对应的标识号的步骤包括:
按照预设的选取顺序,选取一个切分数据,作为目标切分数据;
获取所述目标切分数据所对应的归档文件标识号、位置编号;
基于所述归档文件标识号,获取所述归档文件的最大位置数;
基于所述归档文件标识号、所述最大位置数和所述位置标号,对所述目标切分数据进行标识号生成处理,得到所述目标切分数据对应的标识号;
返回所述按照预设的选取顺序,选取一个切分数据,作为目标切分数据的步骤继续执行,直到所有所述切分数据选取结束。
5.根据权利要求4所述的方法,其特征在于,所述基于所述归档文件标识号、所述最大位置数和所述位置标号,对所述目标切分数据进行标识号生成处理,得到所述目标切分数据对应的标识号的步骤包括:
将所述归档文件标识号与所述最大位置数进行相乘处理,得到相乘结果;
将所述相乘结果与所述位置编号相加,并将相加得到的结果作为所述目标切分数据对应的标识号。
6.根据权利要求1所述的方法,其特征在于,所述针对每一个所述切分数据,根据所述标识号、所述标签信息和所述关键词信息进行归档处理,得到归档数据包括:
针对每一个所述切分数据,将所述标识号、所述标签信息和所述关键词信息进行关联处理,得到索引;
将所述索引存储到索引文件,其中,所述索引文件为归档数据。
7.根据权利要求6所述的方法,其特征在于,在所述针对每一个所述切分数据,根据所述标识号、所述标签信息和所述关键词信息进行归档处理,得到归档数据之后,所述方法还包括:
基于所述索引文件,获取待检索文本的索引;
基于所述索引,获取所述待检索文本对应的所述标识号;
基于所述标识号,确定所述待检索文本所在位置。
8.一种文本流归档装置,其特征在于,包括:
文本数据获取模块,用于从文本流中获取文本数据;
切分模块,用于基于预设的切分规则,对所述文本数据进行切分处理,得到至少两个切分数据;
标签提取模块,用于基于预设的标签生成方式,对所有所述切分数据进行标签提取,得到所述切分数据对应的标签信息;
归档信息获取模块,用于针对每一个所述切分数据进行关键词提取,得到每一个所述切分数据对应的关键词信息;
标识号获取模块,用于基于预设的标识号生成方式,对每个所述切分数据进行标识号生成处理,得到每个所述切分数据对应的标识号;
归档数据获取模块,用于针对每一个所述切分数据,根据所述标识号、所述标签信息和所述关键词信息进行归档处理,得到归档数据。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述文本流归档方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述文本流归档方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111602696.1A CN114490510A (zh) | 2021-12-24 | 2021-12-24 | 文本流归档方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111602696.1A CN114490510A (zh) | 2021-12-24 | 2021-12-24 | 文本流归档方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114490510A true CN114490510A (zh) | 2022-05-13 |
Family
ID=81495162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111602696.1A Pending CN114490510A (zh) | 2021-12-24 | 2021-12-24 | 文本流归档方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490510A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383346A (zh) * | 2023-06-06 | 2023-07-04 | 荣耀终端有限公司 | 检索理解方法和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676899A (zh) * | 2008-09-18 | 2010-03-24 | 上海宝信软件股份有限公司 | 海量数据库记录的归档和查询方法 |
CN102024047A (zh) * | 2010-12-14 | 2011-04-20 | 青岛普加智能信息有限公司 | 数据检索方法及装置 |
CN107168966A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 一种搜索引擎索引构建方法及装置 |
CN111382184A (zh) * | 2020-05-25 | 2020-07-07 | 浙江明度智控科技有限公司 | 一种对药品文档进行校验的方法和药品文档校验系统 |
-
2021
- 2021-12-24 CN CN202111602696.1A patent/CN114490510A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676899A (zh) * | 2008-09-18 | 2010-03-24 | 上海宝信软件股份有限公司 | 海量数据库记录的归档和查询方法 |
CN102024047A (zh) * | 2010-12-14 | 2011-04-20 | 青岛普加智能信息有限公司 | 数据检索方法及装置 |
CN107168966A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 一种搜索引擎索引构建方法及装置 |
CN111382184A (zh) * | 2020-05-25 | 2020-07-07 | 浙江明度智控科技有限公司 | 一种对药品文档进行校验的方法和药品文档校验系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383346A (zh) * | 2023-06-06 | 2023-07-04 | 荣耀终端有限公司 | 检索理解方法和电子设备 |
CN116383346B (zh) * | 2023-06-06 | 2023-10-20 | 荣耀终端有限公司 | 检索理解方法和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3855324A1 (en) | Associative recommendation method and apparatus, computer device, and storage medium | |
WO2020186786A1 (zh) | 文件处理方法、装置、计算机设备和存储介质 | |
US10796224B2 (en) | Image processing engine component generation method, search method, terminal, and system | |
CN109558479B (zh) | 一种规则匹配方法、装置、设备及存储介质 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
US9299342B2 (en) | User query history expansion for improving language model adaptation | |
CN113220782B (zh) | 多元测试数据源生成方法、装置、设备及介质 | |
US9760551B2 (en) | Generating regular expression | |
WO2021164231A1 (zh) | 公文摘要提取方法、装置、设备及计算机可读存储介质 | |
CN108108342B (zh) | 结构化文本的生成方法、检索方法及装置 | |
CN108536745B (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN111191079B (zh) | 一种文档内容获取方法、装置、设备及存储介质 | |
CN111400361B (zh) | 数据实时存储方法、装置、计算机设备和存储介质 | |
CN111382570B (zh) | 文本实体识别方法、装置、计算机设备及存储介质 | |
CN112446218A (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN108595437B (zh) | 文本查询纠错方法、装置、计算机设备和存储介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN110888756A (zh) | 一种诊断日志生成方法及装置 | |
CN111737981A (zh) | 词汇纠错方法、装置、计算机设备及存储介质 | |
CN107329964B (zh) | 一种文本处理方法及装置 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN114490510A (zh) | 文本流归档方法、装置、计算机设备及存储介质 | |
CN109697234B (zh) | 实体的多属性信息查询方法、装置、服务器和介质 | |
CN114611039B (zh) | 异步加载规则的解析方法、装置、存储介质和电子设备 | |
CN110119442A (zh) | 一种动态搜索方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |