CN114547336A - 一种文本数据处理方法、装置、设备及存储介质 - Google Patents

一种文本数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114547336A
CN114547336A CN202210144727.1A CN202210144727A CN114547336A CN 114547336 A CN114547336 A CN 114547336A CN 202210144727 A CN202210144727 A CN 202210144727A CN 114547336 A CN114547336 A CN 114547336A
Authority
CN
China
Prior art keywords
text
keywords
keyword
matching
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210144727.1A
Other languages
English (en)
Inventor
傅明洲
马景华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianbao Hangzhou Information Technology Co ltd
Original Assignee
Lianbao Hangzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianbao Hangzhou Information Technology Co ltd filed Critical Lianbao Hangzhou Information Technology Co ltd
Priority to CN202210144727.1A priority Critical patent/CN114547336A/zh
Publication of CN114547336A publication Critical patent/CN114547336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本数据处理方法、装置、设备及存储介质,所述方法包括:获取待处理文本和关键词集合,关键词集合包括多个关键词和多个关键词中每一关键词对应的关联文本的文本标识信息;对待处理文本与多个关键词进行匹配分析,得到关键词匹配结果,关键词匹配结果包括多个匹配关键词和多个匹配关键词在待处理文本中的位置信息;根据位置信息,从多个匹配关键词中末位匹配关键词起依次,由后往前在待处理文本中添加多个匹配关键词的预设关联标识信息,得到目标展示文本;其中,预设关联标识信息为基于多个匹配关键词各自对应的关联文本的文本标识信息生成的。利用本申请的技术方案能够提升待处理文本中预设关联标识信息添加位置的准确性。

Description

一种文本数据处理方法、装置、设备及存储介质
技术领域
本申请涉及文本处理技术领域,具体涉及一种文本数据处理方法、装置、设备及存储介质。
背景技术
随着企业信息爆炸式增长,尤其是非结构化文本内容的增长,文本存储及使用方式也发生了转变,文本存储方式由本地存储转变为云端存储,文本协作共享方式由点到点的传输转变为云端的协作共享。在这种转变中,云文本之间关联关系的构建和展示是至关重要的一环。现有技术在后台构建和展示文本之间的关联关系时,在确认待处理文本中多个关键词的位置信息后,在待处理文本中从前往后在关键词位置处添加关键词对应关联文本的链接信息。
然而,待处理文本中前面的关键词添加链接信息后,后面的关键词位置会发生偏移,导致后面关键词的链接信息添加位置错误,甚至出现文本内容错乱。因此,需要提供更加便捷准确的技术方案。
发明内容
本申请提供了一种文本数据处理方法、装置、设备及存储介质,可以解决在待处理文本中从前往后在关键词位置处添加链接信息导致的在后关键词位置偏移问题,提升文本中链接信息添加位置的准确性,本申请技术方案如下:
一方面,提供了一种文本数据处理方法,所述方法包括:
获取待处理文本和关键词集合,所述关键词集合包括多个关键词和所述多个关键词中每一关键词对应的关联文本的文本标识信息;
对所述待处理文本与所述多个关键词进行匹配分析,得到关键词匹配结果,所述关键词匹配结果包括多个匹配关键词和所述多个匹配关键词在所述待处理文本中的位置信息;
根据所述位置信息,从所述多个匹配关键词中末位匹配关键词起依次,由后往前在所述待处理文本中添加所述多个匹配关键词的预设关联标识信息,得到目标展示文本;
其中,所述预设关联标识信息为基于所述多个匹配关键词各自对应的关联文本的文本标识信息生成的。
另一方面,提供了一种文本数据处理装置,所述装置包括:
获取模块,用于获取待处理文本和关键词集合,所述关键词集合包括多个关键词和所述多个关键词中每一关键词对应的关联文本的文本标识信息;
匹配分析模块,用于将所述待处理文本与所述多个关键词进行匹配分析,得到关键词匹配结果,所述关键词匹配结果包括多个匹配关键词和所述多个匹配关键词在所述待处理文本中的位置信息;
添加模块,用于根据所述位置信息,从所述多个匹配关键词中末位匹配关键词起依次,由后往前在所述待处理文本中添加所述多个匹配关键词的预设关联标识信息,得到目标展示文本;
其中,所述预设关联标识信息为基于所述多个匹配关键词各自对应的关联文本的文本标识信息生成的。
另一方面,提供了一种文本数据处理设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的文本数据处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的文本数据处理方法。
本申请提供的文本数据处理方法、装置、设备及存储介质,具有如下技术效果:
利用本申请提供的技术方案,通过获取待处理文本和关键词集合,所述关键词集合包括多个关键词和所述多个关键词中每一关键词对应的关联文本的文本标识信息;然后,对所述待处理文本与所述多个关键词进行匹配分析,得到多个匹配关键词和所述多个匹配关键词在所述待处理文本中的位置信息;并根据所述位置信息,从所述多个匹配关键词中末位匹配关键词起依次,由后往前在所述待处理文本中添加基于所述多个匹配关键词各自对应的关联文本的文本标识信息生成的预设关联标识信息,得到目标展示文本,能够提升待处理文本中预设关联标识信息添加位置的准确性,从而提高文本之间关联关系构建展示的准确性和效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种文本数据处理方法的流程示意图;
图3是本申请实施例提供的一种关键词集合的生成方法的流程示意图;
图4是本申请实施例提供的一种对多个初始文本进行关键词提取,得到多个关键词和多个关键词中每一关键词的至少一个关联文本的流程示意图;
图5是本申请实施例提供的一种对待处理文本与多个关键词进行匹配分析,得到关键词匹配结果的流程示意图;
图6是本申请实施例提供的一种根据位置信息,从多个匹配关键词中末位匹配关键词起依次,由后往前在待处理文本中添加多个匹配关键词的预设关联标识信息,得到目标展示文本的流程示意图;
图7是本申请实施例提供的一种文本数据处理装置示意图;
图8是本申请实施例提供的一种文本数据处理方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图1,请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,该应用环境中可以包括客户端10和服务器端20,客户端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。用户可以通过客户端10向服务器端20发送文本数据处理请求,该文本数据处理请求携带有待处理文本。服务器端20基于文本数据处理请求确定对应的待处理文本,然后获取关键词集合,关键词集合包括多个关键词和多个关键词中每一关键词对应的关联文本的文本标识信息,接着对待处理文本与多个关键词进行匹配分析,得到关键词匹配结果,关键词匹配结果包括多个匹配关键词和多个匹配关键词在待处理文本中的位置信息,再根据位置信息,从多个匹配关键词中末位匹配关键词起依次,由后往前在待处理文本中添加多个匹配关键词的预设关联标识信息,得到目标展示文本,其中,预设关联标识信息为基于多个匹配关键词各自对应的关联文本的文本标识信息生成的,并将目标展示文本返回客户端10。需要说明的是,图1仅仅是一种示例。
客户端可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、数字助理、智能语音交互设备、智能可穿戴设备等类型的实体设备,也可以是运行于实体设备中的软体,比如计算机程序。客户端所对应的操作系统可以是安卓系统(Android系统)、iOS系统(是由苹果公司开发的移动操作系统)、Linux系统(一种操作系统)、Microsoft Windows系统(微软视窗操作系统)等。
服务器端可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。
以下介绍本申请实施例提供的一种文本数据处理方法,图2为本申请实施例提供的一种文本数据处理方法的流程示意图。需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,上述方法可以包括:
S201,获取待处理文本和关键词集合,关键词集合包括多个关键词和多个关键词中每一关键词对应的关联文本的文本标识信息。
在本说明书实施例中,待处理文本的类型可以包括但不限于文档、网页。
在本说明书实施例中,关键词对应的关联文本可以为文本内容中含有对应关键词的源文本,文本标识信息可以用于标识关联文本,具体的,文本标识信息可以包括但限于:文本名称、文本编号。
在本说明书实施例中,如图3所示,关键词集合的生成方法可以包括:
S301,获取多个初始文本。
具体的,上述多个初始文本可以为预先录入服务器端的源文本,上述多个初始文本可以用于关键词的提取,并作为对应关键词的关联文本。
S303,对多个初始文本进行关键词提取,得到多个关键词和多个关键词中每一关键词的至少一个关联文本。
具体的,关键词可以包括但不限于:主标题、副标题、文本内部的各级标题、备注、标签及作者。
在一个具体的实施例中,如图4所示,上述对多个初始文本进行关键词提取,得到多个关键词和多个关键词中每一关键词的至少一个关联文本可以包括:
S401,根据每一初始文本的排版格式和预设关键字正则表达式,分别对每一初始文本的文本数据进行关键词提取,得到每一初始文本的关键词。
在一个可选的实施例中,根据每一初始文本的排版格式,确定与排版格式对应的预设关键字正则表达式,并基于预设关键字正则表达式,对每一初始文本的文本数据进行关键词提取,得到每一初始文本的关键词。
在一个具体的实施例中,在某一初始文本的排版格式中包括“第某章”、“第某节”的情况下,需要提取该初始文本的章标题或者节标题作为关键词,因此,预设关键字正则表达式可以包括:“/*^(第[一二三四五六七八九十零]+章\s+)(.+)\n*/”、“/*^(第[一二三四五六七八九十零]+节\s+)(.+)\n*/”,并利用“/*^(第[一二三四五六七八九十零]+章\s+)(.+)\n*/”,提取该初始文本中的章标题,利用“/*^(第[一二三四五六七八九十零]+节\s+)(.+)\n*/”,提取该初始文本中的节标题,将章标题和节标题作为该初始文本的关键词。
在另一个可选的实施例中,获取初始文本的文本元数据,具体的,文本元数据可以包括但不限于:主标题、副标题、录入时设置的标签、作者姓名,将文本元数据作为初始文本的关键词。
S403,对多个初始文本的关键词进行分析处理,确定每一关键词的至少一个关联文本。
具体的,将包含有某一关键词的初始文本,作为该关键词的关联文本。
由以上实施例可见,根据排版格式和预设关键字正则表达式,对初始文本的文本数据进行关键词提取,能够有效提取初始文本的关键词,以便于后续生成关键词集合。
S305,基于多个关键词和至少一个关联文本的文本标识信息,生成关键词集合。
具体的,将关键词和至少一个关联文本的文本标识信息以倒排索引的形式进行存储,得到关键词集合。
由以上实施例可见,通过倒排索引的存储方式可以根据关键词快速获取包含该关键词的文本标识信息,提高关键词集合的查询效率。
S203,对待处理文本与多个关键词进行匹配分析,得到关键词匹配结果,关键词匹配结果包括多个匹配关键词和多个匹配关键词在待处理文本中的位置信息。
具体的,匹配关键词可以为多个关键词中待处理文本所包含的关键词。
在一个具体的实施例中,如图5所示,上述对待处理文本与多个关键词进行匹配分析,得到关键词匹配结果可以包括:
S501,将多个关键词对应的正则表达式分别与待处理文本进行正则匹配,确定待处理文本的多个匹配关键词以及多个匹配关键词中每一匹配关键词在待处理文本中出现的起始位置信息和结束位置信息。
S503,根据起始位置信息和结束位置信息,得到每一匹配关键词的位置信息。
具体的,正则表达式可以用于检索待处理文本是否含有对应关键词。
在一个具体的实施例中,将正则表达式与待处理文本进行正则匹配,确定待处理文本中是否包含有正则表达式对应的关键词,在待处理文本包含有关键词的情况下,将该关键词作为匹配关键词,并确定匹配关键词在待处理文本中出现的起始位置信息和结束位置信息,将起始位置信息和结束位置信息作为匹配关键词的位置信息。
在一个可选的实施例中,基于起始位置信息、结束位置信息、匹配关键词、和至少一个关联文本的文本标识信息,生成匹配关键词的匹配记录,例如:[103,108,“公司管理条例”,“202001001”]。
由以上实施例可见,将多个关键词对应的正则表达式分别与待处理文本进行正则匹配,能够提升关键词匹配效率和准确性。
S205,根据位置信息,从多个匹配关键词中末位匹配关键词起依次,由后往前在待处理文本中添加多个匹配关键词的预设关联标识信息,得到目标展示文本。其中,预设关联标识信息为基于多个匹配关键词各自对应的关联文本的文本标识信息生成的。
在本说明书实施例中,预设关联标识信息可以用于在待处理文本中标识匹配关键词的关联文本,具体的,预设关联标识信息可以包括:锚点和关联文本的文本标识信息,其中,锚点可以为用于在待处理文本中标记匹配关键词的预设标识符,可选的,锚点可以为超链接标签<a>。例如,匹配关键词为公司管理条例,关联文本的文本标识信息为文本编号202001001,相应的,预设关联标识信息可以为<a href=”#tid:202001001”>公司管理条例</a>。
在本说明书实施例中,如图6所示,上述根据位置信息,从多个匹配关键词中末位匹配关键词起依次,由后往前在待处理文本中添加多个匹配关键词的预设关联标识信息,得到目标展示文本可以包括:
S601,根据位置信息,在待处理文本中对多个匹配关键词由后往前进行排序,得到目标顺序信息。
在一个具体的实施例中,上述根据位置信息,在待处理文本中对多个匹配关键词由后往前进行排序,得到目标顺序信息可以包括:根据起始位置信息,在待处理文本中对多个匹配关键词由后往前进行排序,得到目标顺序信息。
在一个具体的实施例中,待处理文本的匹配关键词的匹配记录包括:[67,70,“项目申报”,“202001009”]和[103,108,“公司管理条例”,“202001001”],根据匹配关键词的起始位置信息,得到的目标顺序信息为{[103,108,“公司管理条例”,“202001001”],[67,70,“项目申报”,“202001009”]}。
S603,根据目标顺序信息,遍历多个匹配关键词。
S605,根据当前遍历到的匹配关键词的位置信息,在待处理文本中添加当前遍历到的匹配关键词对应的预设关联标识信息,得到初始展示文本。
在一个具体的实施例中,在待处理文本中将当前遍历到的匹配关键词替换为当前遍历到的匹配关键词对应的预设关联标识信息,得到初始展示文本。
可选的,可以在遍历多个匹配关键词之前,生成多个匹配关键词对应的预设关联标识信息,还可以在遍历多个匹配关键词的过程中,生成当前遍历到的匹配关键词对应的预设关联标识信息。
S607,对初始展示文本中多个匹配关键词对应的预设关联标识信息进行文本关联处理,得到目标展示文本。
在一个具体的实施例中,上述对初始展示文本中多个匹配关键词对应的预设关联标识信息进行文本关联处理,得到目标展示文本可以包括:将初始展示文本中多个匹配关键词对应的预设关联标识信息分别转化为多个匹配关键词对应的关联文本的链接信息,得到目标展示文本。
具体的,链接信息可以表征待处理文本与对应关联文本间的连接关系。在一个可选的实施例中,响应于基于链接信息触发的关联文本展示指令,可以从目标展示文本跳转到匹配关键词对应的关联文本;在另一个可选的实施例中,响应于基于链接信息触发的关联文本展示指令,可以在第一目标展示区域展示匹配关键词对应的关联文本,具体的,第一目标展示区域可以为新的页面或者新的标签页。
在另一个具体的实施例中,在目标匹配关键词对应的预设关联标识信息包括多个关联文本的文本标识信息的情况下,目标匹配关键词为多个匹配关键词中任一匹配关键词,上述方法还可以包括:将初始展示文本中目标匹配关键词对应的预设关联标识信息转化为多个关联文本的链接地址信息,生成目标展示文本,链接地址信息用于触发多个关联文本的链接信息的展示。
具体的,链接地址信息可以为用于触发多个关联文本的链接信息的展示的操作对象,在一个具体的实施例中,响应于基于链接地址信息触发的链接信息展示指令,在第二目标展示区域展示对应多个关联文本的链接信息。可选的,第二目标展示区域可以为链接信息展示列表。
在实际应用中,可以由服务器端对初始展示文本中多个匹配关键词对应的预设关联标识信息进行文本关联处理,得到目标展示文本,并将目标展示文本发送到客户端,以便于用户浏览使用目标展示文本;还可以由服务器端将初始展示文本发送到客户端,以使客户端对初始展示文本中多个匹配关键词对应的预设关联标识信息进行文本关联处理,得到目标展示文本。
由以上实施例可见,一方面,根据位置信息,在待处理文本中对多个匹配关键词由后往前进行排序,得到目标顺序信息,根据目标顺序信息,在待处理文本中由后往前添加多个匹配关键词的预设关联标识信息,提升文本中多个匹配关键词的预设关联标识信息添加的准确性;另一方面,根据匹配关键词对应关联文本的数量,将预设关联标识信息转化成单一关联文本的链接信息或者多个关联文本的链接地址信息,以便于对关联文本进行展示,提升用户使用体验。
由以上说明书实施例提供的技术方案可见,一方面,根据排版格式和预设关键字正则表达式,对初始文本的文本数据进行关键词提取,能够有效提取初始文本的关键词,从而生成关键词集合;另一方面,将多个关键词对应的正则表达式分别与待处理文本进行正则匹配,得到匹配关键词和位置信息,能够提升关键词匹配效率和准确性;另一方面,根据位置信息,在待处理文本中对多个匹配关键词由后往前进行排序,得到目标顺序信息,根据目标顺序信息,在待处理文本中由后往前添加多个匹配关键词的预设关联标识信息,提升文本中多个匹配关键词的预设关联标识信息添加的准确性;另一方面,根据匹配关键词对应关联文本的数量,将预设关联标识信息转化成单一关联文本的链接信息或者多个关联文本的链接地址信息,提升文本之间关联关系展示的准确性和效率,从而提升用户使用体验。
本申请实施例提供了一种文本数据处理装置,如图7所示,上述装置可以包括:
获取模块710,用于获取待处理文本和关键词集合,关键词集合包括多个关键词和多个关键词中每一关键词对应的关联文本的文本标识信息;
匹配分析模块720,用于将待处理文本与多个关键词进行匹配分析,得到关键词匹配结果,关键词匹配结果包括多个匹配关键词和多个匹配关键词在待处理文本中的位置信息;
添加模块730,用于根据位置信息,从多个匹配关键词中末位匹配关键词起依次,由后往前在待处理文本中添加多个匹配关键词的预设关联标识信息,得到目标展示文本;
其中,预设关联标识信息为基于多个匹配关键词各自对应的关联文本的文本标识信息生成的。
在本说明书实施例中,上述装置还可以包括:
初始文本获取模块,用于获取多个初始文本;
关键词提取模块,用于对多个初始文本进行关键词提取,得到多个关键词和多个关键词中每一关键词的至少一个关联文本;
关键词集合生成模块,用于基于多个关键词和至少一个关联文本的文本标识信息,生成关键词集合。
在一个具体的实施例中,上述关键词提取模块可以包括:
关键词单元,用于根据每一初始文本的排版格式和预设关键字正则表达式,分别对每一初始文本的文本数据进行关键词提取,得到每一初始文本的关键词;
分析处理单元,用于对多个初始文本的关键词进行分析处理,确定每一关键词的至少一个关联文本。
在一个具体的实施例中,上述匹配分析模块720可以包括:
正则匹配单元,用于将多个关键词对应的正则表达式分别与待处理文本进行正则匹配,确定待处理文本的多个匹配关键词以及多个匹配关键词中每一匹配关键词在待处理文本中出现的起始位置信息和结束位置信息;
位置信息单元,用于根据起始位置信息和结束位置信息,得到每一匹配关键词的位置信息。
在本说明书实施例中,上述添加模块730可以包括:
排序单元,用于根据位置信息,在待处理文本中对多个匹配关键词由后往前进行排序,得到目标顺序信息;
遍历单元,用于根据目标顺序信息,遍历多个匹配关键词;
初始展示文本单元,用于根据当前遍历到的匹配关键词的位置信息,在待处理文本中添加当前遍历到的匹配关键词对应的预设关联标识信息,得到初始展示文本;
目标展示文本单元,用于对初始展示文本中多个匹配关键词对应的预设关联标识信息进行文本关联处理,得到目标展示文本。
在一个具体的实施例中,上述目标展示文本单元可以包括:
第一转化单元,用于将初始展示文本中多个匹配关键词对应的预设关联标识信息分别转化为多个匹配关键词对应的关联文本的链接信息,得到目标展示文本。
在另一个具体的实施例中,在目标匹配关键词对应的预设关联标识信息包括多个关联文本的文本标识信息的情况下,目标匹配关键词为多个匹配关键词中任一匹配关键词,上述目标展示文本单元还可以包括:
第二转化单元,用于将初始展示文本中目标匹配关键词对应的预设关联标识信息转化为多个关联文本的链接地址信息,生成目标展示文本,链接地址信息用于触发多个关联文本的链接信息的展示。
需要说明的是,所述装置实施例中的装置与方法实施例基于同样的发明构思。
本申请实施例提供了一种文本数据处理设备,该文本数据处理设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的文本数据处理方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据上述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行,即上述计算机设备可以包括移动终端、计算机终端、服务器或者类似的运算装置。以运行在服务器上为例,图8是本申请实施例提供的一种文本数据处理方法的服务器的硬件结构框图。如图8所示,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)810(处理器810可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器830,一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中,存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器810可以设置为与存储介质820通信,在服务器800上执行存储介质820中的一系列指令操作。服务器800还可以包括一个或一个以上电源860,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口840,和/或,一个或一个以上操作系统821,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器800的通信供应商提供的无线网络。在一个实例中,输入输出接口840包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口840可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本邻域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器800还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
本申请实施例还提供了一种存储介质,上述存储介质可设置于服务器之中以保存用于实现方法实施例中一种的文本数据处理方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的文本数据处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供文本数据处理方法、装置、设备或存储介质的实施例可见,利用本说明书实施例提供的技术方案,一方面,根据排版格式和预设关键字正则表达式,对初始文本的文本数据进行关键词提取,能够有效提取初始文本的关键词,从而生成关键词集合;另一方面,将多个关键词对应的正则表达式分别与待处理文本进行正则匹配,得到匹配关键词和位置信息,能够提升关键词匹配效率和准确性;另一方面,根据位置信息,在待处理文本中对多个匹配关键词由后往前进行排序,得到目标顺序信息,根据目标顺序信息,在待处理文本中由后往前添加多个匹配关键词的预设关联标识信息,提升文本中多个匹配关键词的预设关联标识信息添加的准确性;另一方面,根据匹配关键词对应关联文本的数量,将预设关联标识信息转化成单一关联文本的链接信息或者多个关联文本的链接地址信息,提升文本之间关联关系展示的准确性和效率,从而提升用户使用体验。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本数据处理方法,其特征在于,所述方法包括:
获取待处理文本和关键词集合,所述关键词集合包括多个关键词和所述多个关键词中每一关键词对应的关联文本的文本标识信息;
对所述待处理文本与所述多个关键词进行匹配分析,得到关键词匹配结果,所述关键词匹配结果包括多个匹配关键词和所述多个匹配关键词在所述待处理文本中的位置信息;
根据所述位置信息,从所述多个匹配关键词中末位匹配关键词起依次,由后往前在所述待处理文本中添加所述多个匹配关键词的预设关联标识信息,得到目标展示文本;
其中,所述预设关联标识信息为基于所述多个匹配关键词各自对应的关联文本的文本标识信息生成的。
2.根据权利要求1所述的方法,其特征在于,所述根据所述位置信息,从所述多个匹配关键词中末位匹配关键词起依次,由后往前在所述待处理文本中添加所述多个匹配关键词的预设关联标识信息,得到目标展示文本包括:
根据所述位置信息,在所述待处理文本中对所述多个匹配关键词由后往前进行排序,得到目标顺序信息;
根据所述目标顺序信息,遍历所述多个匹配关键词;
根据当前遍历到的匹配关键词的位置信息,在所述待处理文本中添加所述当前遍历到的匹配关键词对应的预设关联标识信息,得到初始展示文本;
对所述初始展示文本中所述多个匹配关键词对应的预设关联标识信息进行文本关联处理,得到所述目标展示文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述初始展示文本中所述多个匹配关键词对应的预设关联标识信息进行文本关联处理,得到所述目标展示文本包括:
将所述初始展示文本中所述多个匹配关键词对应的预设关联标识信息分别转化为所述多个匹配关键词对应的关联文本的链接信息,得到所述目标展示文本。
4.根据权利要求3所述的方法,其特征在于,在目标匹配关键词对应的预设关联标识信息包括多个关联文本的文本标识信息的情况下,所述目标匹配关键词为所述多个匹配关键词中任一匹配关键词,所述方法还包括:
将所述初始展示文本中所述目标匹配关键词对应的预设关联标识信息转化为所述多个关联文本的链接地址信息,生成所述目标展示文本,所述链接地址信息用于触发所述多个关联文本的链接信息的展示。
5.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本与所述多个关键词进行匹配分析,得到关键词匹配结果包括:
将所述多个关键词对应的正则表达式分别与待处理文本进行正则匹配,确定所述待处理文本的多个匹配关键词以及所述多个匹配关键词中每一匹配关键词在所述待处理文本中出现的起始位置信息和结束位置信息;
根据所述起始位置信息和所述结束位置信息,得到所述每一匹配关键词的位置信息;
所述根据所述位置信息,在所述待处理文本中对所述多个匹配关键词由后往前进行排序,得到目标顺序信息包括:
根据所述起始位置信息,在所述待处理文本中对所述多个匹配关键词由后往前进行排序,得到所述目标顺序信息。
6.根据权利要求1至5任一所述的方法,其特征在于,在所述获取待处理文本和关键词集合之前,所述方法还包括:
获取多个初始文本;
对所述多个初始文本进行关键词提取,得到所述多个关键词和所述多个关键词中每一关键词的至少一个关联文本;
基于所述多个关键词和所述至少一个关联文本的文本标识信息,生成所述关键词集合。
7.根据权利要求6所述的方法,其特征在于,所述对所述多个初始文本进行关键词提取,得到所述多个关键词和所述多个关键词中每一关键词的至少一个关联文本包括:
根据每一初始文本的排版格式和预设关键字正则表达式,分别对所述每一初始文本的文本数据进行关键词提取,得到所述每一初始文本的关键词;
对所述多个初始文本的关键词进行分析处理,确定所述每一关键词的至少一个关联文本。
8.一种文本数据处理装置,特征在于,所述装置包括:
获取模块,用于获取待处理文本和关键词集合,所述关键词集合包括多个关键词和所述多个关键词中每一关键词对应的关联文本的文本标识信息;
匹配分析模块,用于将所述待处理文本与所述多个关键词进行匹配分析,得到关键词匹配结果,所述关键词匹配结果包括多个匹配关键词和所述多个匹配关键词在所述待处理文本中的位置信息;
添加模块,用于根据所述位置信息,从所述多个匹配关键词中末位匹配关键词起依次,由后往前在所述待处理文本中添加所述多个匹配关键词的预设关联标识信息,得到目标展示文本;
其中,所述预设关联标识信息为基于所述多个匹配关键词各自对应的关联文本的文本标识信息生成的。
9.一种文本数据处理设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的文本数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的文本数据处理方法。
CN202210144727.1A 2022-02-16 2022-02-16 一种文本数据处理方法、装置、设备及存储介质 Pending CN114547336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210144727.1A CN114547336A (zh) 2022-02-16 2022-02-16 一种文本数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210144727.1A CN114547336A (zh) 2022-02-16 2022-02-16 一种文本数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114547336A true CN114547336A (zh) 2022-05-27

Family

ID=81675606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210144727.1A Pending CN114547336A (zh) 2022-02-16 2022-02-16 一种文本数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114547336A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257871A (zh) * 2023-03-13 2023-06-13 杭州易签宝网络科技有限公司 数据存储、存证、验证的方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257871A (zh) * 2023-03-13 2023-06-13 杭州易签宝网络科技有限公司 数据存储、存证、验证的方法、装置及存储介质
CN116257871B (zh) * 2023-03-13 2023-11-17 杭州易签宝网络科技有限公司 数据存储、存证、验证的方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN101385017B (zh) 部分项改变跟踪和同步
CN109033360B (zh) 一种数据查询方法、装置、服务器及存储介质
CN107506256B (zh) 一种崩溃数据监控的方法和装置
CN111737443B (zh) 答案文本的处理方法和装置、关键文本的确定方法
US9330075B2 (en) Method and apparatus for identifying garbage template article
CN113906445A (zh) 上下文感知数据挖掘
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN110020272B (zh) 缓存方法、装置以及计算机存储介质
CN110018845B (zh) 元数据版本对比方法及装置
CN114547336A (zh) 一种文本数据处理方法、装置、设备及存储介质
Mun et al. Matching reads to many genomes with the r-index
CN114816578A (zh) 基于配置表的程序配置文件生成方法、装置及设备
CN112364051B (zh) 一种数据查询方法及装置
CN114328632A (zh) 基于位图的用户数据分析方法、装置及计算机设备
CN106599082B (zh) 一种检索方法、相关装置及电子设备
CN113590756A (zh) 信息序列生成方法、装置、终端设备和计算机可读介质
CN109710634B (zh) 用于生成信息的方法及装置
CN107977440B (zh) 一种解析数据文件的方法、装置和系统
CN113468529B (zh) 一种数据搜索方法和装置
CN115454971A (zh) 数据迁移方法、装置、电子设备及存储介质
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
KR102308521B1 (ko) 정보 업데이트 방법 및 장치
CN110472055B (zh) 用于标注数据的方法和装置
CN112650964A (zh) 一种业务处理方法、设备及机器可读存储介质
CN111651531A (zh) 数据导入方法、装置、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination