CN117422061B - 一种文本词项多重分割结果合并标注方法及装置 - Google Patents

一种文本词项多重分割结果合并标注方法及装置 Download PDF

Info

Publication number
CN117422061B
CN117422061B CN202311749148.0A CN202311749148A CN117422061B CN 117422061 B CN117422061 B CN 117422061B CN 202311749148 A CN202311749148 A CN 202311749148A CN 117422061 B CN117422061 B CN 117422061B
Authority
CN
China
Prior art keywords
list
lines
line
text
sequence number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311749148.0A
Other languages
English (en)
Other versions
CN117422061A (zh
Inventor
邓吉秋
郭志勇
邱蓝
刘文毅
吴军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202311749148.0A priority Critical patent/CN117422061B/zh
Publication of CN117422061A publication Critical patent/CN117422061A/zh
Application granted granted Critical
Publication of CN117422061B publication Critical patent/CN117422061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本词项多重分割结果合并标注方法及装置,包括步骤输入说明、参数定义与设置、多重文本分割结果合并。本发明通过分析不同分割等级层次、不同方法的分词文本之间的特征,将多种分割结果进行合并标注,从而能够在一个文档中体现不同层次分割等级特性。

Description

一种文本词项多重分割结果合并标注方法及装置
技术领域
本申请涉及文本词项标注技术领域,具体公开了一种文本词项多重分割结果合并标注方法。
背景技术
在自然语言处理和机器学习领域,文本数据是重要的信息载体。在处理文本的过程中,常常需要对其进行分割,将其划分为不同的词项。
然而,由于不同的分割算法和技术存在差异,对于同一段文本内容,可能会出现多个不同的分割结果。如:岩石名称“黑云母角闪斜长片麻岩”可能被不同算法分割标注成“\黑云母角闪斜长片麻岩\”、“\黑云母\角闪斜长片麻岩\”和“\黑云母\角闪斜长\片麻岩\”,这三种情形在一定程度上都可算是正确的分词标注结果。
但是,在现有的文本分割标注,某些词可能按长词分割、某些词可能按不同长度短词分割,并没有对长词、短词及中间层级分割进行统一标注,这将会导致在同一标注结果中不同文本位置可能存在唯一的不同分割粒度;此外,现有的分割方法通常使用不同算法进行分割,不同方法对不同粒度适用能力不同,在文本分割机器学习及其结果验证时需使用多个标注体系或文档,从而增加了复杂性和困扰。在当前所存在的文本分割标注方法中,尚未出现一种能够将分割结果进行合并标注并体现不同分割粒度的方法。因此,本发明新技术提出了一种文本词项多重分割结果合并标注方法,以解决现有方法的不足之处。
发明内容
为解决上述现有技术的缺点,本发明提出一种文本词项多重分割结果合并标注方法及装置。
本发明提出的技术方案是:
一种文本词项多重分割结果合并标注方法,包括步骤:
步骤S100,输入说明,输入是名为“Line_1,Line_2,Line_3,......”的多个列表,用于表示同一文本经不同算法分割后的结果;
步骤S200,定义、设置参数,定义变量max_seg,用于表示待合并的不同文本分割结果列表的数量,定义out_line作为要添加到输出列表Line_out的写入字符串,初始值为空字符串,定义变量N,用来表示输入列表“Line_1,Line_2,Line_3,......”中每次读取的具体位置序号,将N 的初始值设为0,定义lines为列表,lines初始化为空列表,用于临时储存分别来自不同输入列表中具体位置序号N所对应内容;
步骤S300,多重文本分割结果合并,将多个文本分割结果合并成一个列表数据,该列表数据被命名为“Line_out”,步骤S300包括以下步骤,
步骤S301,分别读取输入列表“Line_1,Line_2,Line_3,......”中第N序号所对应内容,并将其储存入列表lines中,之后进入步骤S302;
步骤S302,将lines中不同位置序号所对应内容均以文本分割位置为分隔符,转化为列表;之后进入步骤S303;
步骤S303,遍历比对不同输入列表中同一序号的元素,并进行处理,同时将处理后的元素存入输出列表,之后进入步骤S304;
步骤S304,将out_line值添加至列表Line_out的末尾;再使N=N+1,进入步骤S301,对输入列表的下一序号位置的内容实现多重分割结果的合并;如果完成输入列表的所有内容的合并,进入步骤S305;
步骤S305,将输入列表数max_seg值转为字符串格式,然后插入至输出列表Line_out的第0序号位置;之后进入步骤S306;
步骤S306,输出列表Line_out,结束。
在可能的一个设计中,步骤S303包括以下步骤:
步骤S3031,定义变量j,用于表示步骤S303中遍历处理过程中的循环变量,指代对应的lines子列表的具体序号,并将其初始化为0;定义lens为列表,初始化为空列表,用于存放列表lines的不同子列表第0序号位置的长度;定义term为字符串,用于记录liens子列表第0序号位置的最短字符串及其对应出现的次数,初始化为空字符串;之后进入步骤S3032;
步骤S3032,计算列表lines不同子列表第0序号位置的长度,即 “lines[0][0],lines[1][0],……,lines[max_seg-1][0]”的长度,并将其依次存入lens列表;之后进入S3033;
步骤S3033,逐一比较lens[0],lens[1],……,lens[max_seg-1]的长度,并将其中最短长度记为min_len;之后进入步骤S3034;
步骤S3034,判断lens[j]的长度是否等于min_len,如果长度不等于min_len,说明lines[j][0]该位置对应的内容不是最短字符串,则进入步骤S30341;如果长度等于min_len,说明lines[j][0]该位置对应的内容为最短字符串,则进入步骤S30343。
在可能的一个设计中,步骤S30341具体为,删除lines[j][0]字符串中前面长度为min_len的部分,从而得到一个新的字符串,即lines[j][0]=lines[j][0][min_len:],然后将j 的值增加1,j=j+1,之后进入步骤S30342。
在可能的一个设计中,步骤S30342具体为,如果j小于或等于(max_seg-1),则进入步骤S3034,执行列表lines 中下个子列表的第0序号位置的内容处理;如果j大于(max_seg-1)且lines[j-1]不为空,则令j=0,lens=[],term=0,进入步骤S3032,对lines的每个子列表新的第0序号位置的内容进行处理;如果j大于(max_seg-1)且lines[j-1]为空,说明lines的内容全部已经处理完,则进入步骤S304,遍历输入列表下一序号位置的内容合并处理。
在可能的一个设计中,步骤S30343具体为统计lines各个子列表中第0序号位置值为min_len的元素出现的次数和对应的字符串,并分别记作x和str,同时令term=“str+/x”,即term表示最短元素字符串+/{相同个数x}”;再将当前最短元素标注term的值赋值给out_line;之后进入步骤S30344;
步骤S30344具体为,删除lines[j]这个子列表中的已经计算完的第0序号位置内容,同时j=j+1;如果j小于或等于(max_seg-1),则进入步骤S3034,执行列表lines 中下个子列表的第0序号位置的内容处理;如果j大于(max_seg-1)且lines[j-1]不为空,则令j=0,lens=[],term=0,进入步骤S3032,对lines的每个子列表新的第0序号位置的内容进行处理;如果j大于(max_seg-1)且lines[j-1]为空,说明lines的内容全部已经处理完,则进入步骤S304,遍历输入列表下一序号位置的内容合并处理。
在可能的一个设计中,步骤S100中的每个列表存储多个文本字符串,每个字符串对应一种分割结果,其内容均采用“斜杠+空格”,表示文本分割位置;列表中的文本字符串均按顺序以0、1、2、3、…n标记位置序号,n为正整数,不同列表的同一位置序号的字符串剔除文本分割位置后完全一致。
本发明还提供一种文本词项多重分割结果合并标注装置,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现前述的文本词项多重分割结果合并标注方法。
本发明还提供一种控制系统,包括前述的文本词项多重分割结果合并标注装置。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行前述的文本词项多重分割结果合并标注方法。
在目前现有的文本词项分割方法中,往往是将文本统一分割为长词、或不同长度短词,并没有在一个文档中,同时体现长词和不同长度短词的分割特征,这限制了对文本中不同分割词项的准确识别和区分能力;现有的方法如果要满足多种分割需求,需要同时制作多个文档,每个文档对应一种分割,这也导致了文档制作过程的低效性,并增加了文档制作的复杂度和难度,同时限制了对文本进一步分析和应用的能力。与现有技术相比,本发明的优点在于:
本发明提供了一种文本词项多重分割结果合并标注方法,旨在将不同层次、不同方法的分割结果合并为统一的标注文件,从而能够清晰地表示出长词和短词之间的多个分割,为后续文本处理和语言相关应用提供了重要的基础;本发明对于不同等级层次、不同分割方法分割的文本,通过算法进行遍历分析合并,实现文本词项多重分割结果的合并标注。本发明通过分析不同分割等级层次、不同方法的分词文本之间的特征,将多种分割结果进行合并标注,从而能够在一个文档中体现不同层次分割等级特性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明一种文本词项多重分割结果合并标注方法的流程图;
附图2为本发明实施例中待合并的文本列表Line_1示意图;
附图3为本发明实施例中待合并的文本列表Line_2示意图;
附图4为本发明实施例中待合并的文本列表Line_3示意图;
附图5为本发明实施例中待合并的文本列表Line_4示意图;
附图6为本发明实施例中待合并的文本列表Line_5示意图;
附图7为本发明实施例中待合并的文本列表Line_6示意图;
附图8为本发明实施例中合并后的文本列表Line_out示意图。
具体实施方式
在本发明的描述中,需要说明的是,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
实施例
一种文本词项多重分割结果合并标注方法,如图1所示,包括输入说明、输出说明、参数定义与设置、多重文本分割结果合并四个步骤,技术方案的详细过程描述如下:
步骤(1)输入说明:
输入是名为“Line_1,Line_2,Line_3,......”的多个列表,用于表示同一文本经不同算法分割后的结果。每个列表存储多个文本字符串,每个字符串对应一种分割结果,其内容均采用“斜杠+空格”,即“/”,表示文本分割位置;列表中的文本字符串均按顺序以0、1、2、3、…标记位置序号,不同列表的同一位置序号的字符串剔除文本分割位置(“/”)后完全一致。一种包含两个文本字符串的列表示例如下:Line_1=[ “计算机/ 俗称/ 电脑/ ,/是/ 现代/ 一种/ 用于/ 高速计算/ 的/ 电子计算机器/ ,/ 可以/ 进行/ 数值计算/ ,/又可以/ 进行/ 逻辑计算/ ,/ 还/ 具有/ 存储记忆功能/ 。/ 是/ 能够/ 按照/ 程序/运行/ ,/ 自动/ 、/ 高速处理/ 海量数据/ 的/ 现代化/ 智能电子设备/ 。/”];其中第1个字符串对应Line_1的第0位置序号,第2个字符串对应Line_1的第1位置序号。
步骤(2)输出说明:
输出为经过本发明专利所提供的技术方法处理后,将多个文本分割结果合并成一个列表数据,该列表数据被命名为“Line_out”。
步骤(3)定义、设置参数:
步骤(3-1),定义变量max_seg,用于表示待合并的不同文本分割结果列表的数量;
步骤(3-2),定义out_line作为要添加到输出列表Line_out的写入字符串,初始值为空字符串,即“”;
步骤(3-3),定义变量N,用来表示输入列表“Line_1,Line_2,Line_3,......”中每次读取的具体位置序号,将N 的初始值设为0;
步骤(3-4),定义lines为列表,lines初始化为空列表,即[],用于临时储存分别来自不同输入列表中具体位置序号N所对应内容。
步骤(4)多重文本分割结果合并:
步骤(4-1),分别读取输入列表“Line_1,Line_2,Line_3,......”中第N序号所对应内容,并将其储存入列表lines中。具体地说,第1个输入列表的第N 序号所对应内容存储在lines[0],第2个输入列表的第N序号所对应内容存储在lines[1],……,第max_seg个输入列表的第N序号所对应内容存储在lines[max_seg-1];之后进入步骤(4-2);
步骤(4-2),将lines中不同位置序号所对应内容均以文本分割位置(“/”)为分隔符,转化为列表。例如,转化前lines[0]内容为“计算机/ 俗称/ 电脑”,则转化后列表lines[0]的内容将变为[“计算机”,“俗称”,“电脑”]。之后进入步骤(4-3);
步骤(4-3),遍历比对不同输入列表中同一序号的元素,并进行处理,同时将处理后的元素存入输出列表,具体实现过程见步骤(4-3-1)~步骤(4-3-4);之后,进入步骤(4-4);
步骤(4-3-1),定义变量j,用于表示步骤(4-3)遍历处理过程中的循环变量,指代对应的lines子列表的具体序号,并将其初始化为0;定义lens为列表,初始化为空列表,即[].用于存放列表lines的不同子列表第0序号位置的长度;定义term为字符串,用于记录liens子列表第0序号位置的最短字符串及其对应出现的次数,初始化为空字符串,即“”;之后进入步骤(4-3-2);
步骤(4-3-2),计算列表lines不同子列表第0序号位置的长度,即 “lines[0][0],lines[1][0],……,lines[max_seg-1][0]”的长度,并将其依次存入lens 列表;之后进入步骤(4-3-3);
步骤(4-3-3),逐一比较lens[0],lens[1],……,lens[max_seg-1]的长度,并将其中最短长度记为min_len;之后进入步骤(4-3-4);
步骤(4-3-4),判断lens[j]的长度是否等于min_len,如果长度不等于min_len,说明lines[j][0]该位置对应的内容不是最短字符串,则进入步骤(4-3-4-1);如果长度等于min_len,说明lines[j][0]该位置对应的内容为最短字符串,则进入步骤(4-3-4-3);
步骤(4-3-4-1),删除lines[j][0]字符串中前面长度为min_len的部分,从而得到一个新的字符串,即lines[j][0]=lines[j][0][min_len:]。然后将j 的值增加1,j=j+1,之后进入步骤(4-3-4-2);
步骤(4-3-4-2),如果j小于或等于(max_seg-1),则进入步骤(4-3-4),执行列表lines 中下个子列表的第0序号位置的内容处理;如果j大于(max_seg-1)且lines[j-1]不为空,则令j=0,lens=[],term=0,进入步骤(4-3-2),对lines的每个子列表新的第0序号位置的内容进行处理;如果j大于(max_seg-1)且lines[j-1]为空,说明lines的内容全部已经处理完,则进入步骤(4-4),遍历输入列表下一序号位置的内容合并处理;
步骤(4-3-4-3),统计lines各个子列表中第0序号位置值为min_len的元素出现的次数和对应的字符串,并分别记作x和str,同时令term=“str+/x”,即term表示最短元素字符串+/{相同个数x}”;再将当前最短元素标注term的值赋值给out_line;之后进入步骤(4-3-4-4);
步骤(4-3-4-4),删除lines[j]这个子列表中的已经计算完的第0序号位置内容,同时j=j+1;如果j小于或等于(max_seg-1),则进入步骤(4-3-4),执行列表lines 中下个子列表的第0序号位置的内容处理;如果j大于(max_seg-1)且lines[j-1]不为空,则令j=0,lens=[],term=0,进入步骤(4-3-2),对lines的每个子列表新的第0序号位置的内容进行处理;如果j大于(max_seg-1)且lines[j-1]为空,说明lines的内容全部已经处理完,则进入步骤(4-4),遍历输入列表下一序号位置的内容合并处理;
步骤(4-4),将out_line值添加至列表Line_out的末尾;再使N=N+1,进入步骤(4-1)对输入列表的下一序号位置的内容实现多重分割结果的合并;如果完成输入列表的所有内容的合并,进入步骤(4-5);
步骤(4-5),将输入列表数max_seg值转为字符串格式,然后插入至输出列表Line_out的第0序号位置;之后进入步骤(4-6),输出列表;
步骤(4-6),输出列表Line_out,结束。
下面简要展示一种文本词项多重分割结果合并标注方法的一个具体实例:
如图2-7所示,待合并的文本列表有:“Line_1,Line_2,Line_3, ,Line_4,Line_5,Line_6.”;如图8所示,合并后的文本为:Line_out。
本发明还提供一种文本词项多重分割结果合并标注装置,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现前述的文本词项多重分割结果合并标注方法。
本发明还提供一种控制系统,包括前述的文本词项多重分割结果合并标注装置。
根据本公开的实施例的调制方法可被编写为计算机程序并被存储在计算机可读存储介质上。当计算机程序被处理器执行时,可实现如上所述的文本词项多重分割结果合并标注方法。
计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行计算机程序。 在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。 结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、电池仓控制板、微电池仓控制板、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。 结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从该存储介质读取信息和能向该存储介质写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。 在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、中控计算机、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (5)

1.一种文本词项多重分割结果合并标注方法,其特征在于,包括步骤:
步骤S100,输入说明,输入是名为“Line_1,Line_2,Line_3,......”的多个列表,用于表示同一文本经不同算法分割后的结果;
步骤S200,定义、设置参数,定义变量max_seg,用于表示待合并的不同文本分割结果列表的数量,定义out_line作为要添加到输出列表Line_out的写入字符串,初始值为空字符串,定义变量N,用来表示输入列表“Line_1,Line_2,Line_3,......”中每次读取的具体位置序号,将 N 的初始值设为 0,定义lines为列表,lines初始化为空列表,用于临时储存分别来自不同输入列表中具体位置序号N所对应内容;
步骤S300,多重文本分割结果合并,将多个文本分割结果合并成一个列表数据,该列表数据被命名为“Line_out”,步骤S300包括以下步骤,
步骤S301,分别读取输入列表“Line_1,Line_2,Line_3,......”中第N序号所对应内容,并将其储存入列表lines中,之后进入步骤S302;
步骤S302,将lines中不同位置序号所对应内容均以文本分割位置为分隔符,转化为列表;之后进入步骤S303;
步骤S303,遍历比对不同输入列表中同一序号的元素,并进行处理,同时将处理后的元素存入输出列表,之后进入步骤S304;
步骤S3031,定义变量j,用于表示步骤S303中遍历处理过程中的循环变量,指代对应的lines子列表的具体序号,并将其初始化为0;定义lens为列表,初始化为空列表,用于存放列表lines的不同子列表第0序号位置的长度;定义term为字符串,用于记录liens子列表第0序号位置的最短字符串及其对应出现的次数,初始化为空字符串;之后进入步骤S3032;
步骤S3032,计算列表lines不同子列表第0序号位置的长度,即 “lines[0][0],lines[1][0],……,lines[max_seg-1][0]”的长度,并将其依次存入lens列表;之后进入S3033;
步骤S3033,逐一比较lens[0],lens[1],……,lens[max_seg-1]的长度,并将其中最短长度记为min_len;之后进入步骤S3034;
步骤S3034,判断lens[j]的长度是否等于min_len,如果长度不等于min_len,说明lines[j][0]该位置对应的内容不是最短字符串,则进入步骤S30341;如果长度等于min_len,说明lines[j][0]该位置对应的内容为最短字符串,则进入步骤S30343;
步骤S30341具体为,删除lines[j][0]字符串中前面长度为min_len的部分,从而得到一个新的字符串,即lines[j][0]=lines[j][0][min_len:],然后将 j 的值增加 1,j=j+1,之后进入步骤S30342;步骤S30342具体为,如果j小于或等于(max_seg-1),则进入步骤S3034,执行列表 lines 中下个子列表的第0序号位置的内容处理;如果j大于(max_seg-1)且lines[j-1]不为空,则令j=0,lens=[],term=0,进入步骤S3032,对lines的每个子列表新的第0序号位置的内容进行处理;如果j大于(max_seg-1)且lines[j-1]为空,说明lines的内容全部已经处理完,则进入步骤S304,遍历输入列表下一序号位置的内容合并处理;
步骤S30343具体为统计lines各个子列表中第0序号位置值为min_len的元素出现的次数和对应的字符串,并分别记作x和str,同时令term=“str+/x”,即term表示最短元素字符串+/{相同个数x}”;再将当前最短元素标注term的值赋值给out_line;之后进入步骤S30344;
步骤S30344具体为,删除lines[j]这个子列表中的已经计算完的第0序号位置内容,同时j=j+1;如果j小于或等于(max_seg-1),则进入步骤S3034,执行列表 lines 中下个子列表的第0序号位置的内容处理;如果j大于(max_seg-1)且lines[j-1]不为空,则令j=0,lens=[],term=0,进入步骤S3032,对lines的每个子列表新的第0序号位置的内容进行处理;如果j大于(max_seg-1)且lines[j-1]为空,说明lines的内容全部已经处理完,则进入步骤S304,遍历输入列表下一序号位置的内容合并处理;
步骤S304,将out_line值添加至列表Line_out的末尾;再使N=N+1,进入步骤S301,对输入列表的下一序号位置的内容实现多重分割结果的合并;如果完成输入列表的所有内容的合并,进入步骤S305;
步骤S305,将输入列表数max_seg值转为字符串格式,然后插入至输出列表Line_out的第0序号位置;之后进入步骤S306;
步骤S306,输出列表Line_out,结束。
2.如权利要求1所述的文本词项多重分割结果合并标注方法,其特征在于,步骤S100中的每个列表存储多个文本字符串,每个字符串对应一种分割结果,其内容均采用“斜杠+空格”,表示文本分割位置;列表中的文本字符串均按顺序以0、1、2、3、…n标记位置序号,n为正整数,不同列表的同一位置序号的字符串剔除文本分割位置后完全一致。
3.一种文本词项多重分割结果合并标注装置,其特征在于,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现如权利要求1或2所述的文本词项多重分割结果合并标注方法。
4.一种控制系统,其特征在于,包括权利要求3所述的文本词项多重分割结果合并标注装置。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求2所述的文本词项多重分割结果合并标注方法。
CN202311749148.0A 2023-12-19 2023-12-19 一种文本词项多重分割结果合并标注方法及装置 Active CN117422061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311749148.0A CN117422061B (zh) 2023-12-19 2023-12-19 一种文本词项多重分割结果合并标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311749148.0A CN117422061B (zh) 2023-12-19 2023-12-19 一种文本词项多重分割结果合并标注方法及装置

Publications (2)

Publication Number Publication Date
CN117422061A CN117422061A (zh) 2024-01-19
CN117422061B true CN117422061B (zh) 2024-03-08

Family

ID=89523410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311749148.0A Active CN117422061B (zh) 2023-12-19 2023-12-19 一种文本词项多重分割结果合并标注方法及装置

Country Status (1)

Country Link
CN (1) CN117422061B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509572B1 (en) * 1999-07-16 2009-03-24 Oracle International Corporation Automatic generation of document summaries through use of structured text
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN104408034A (zh) * 2014-11-28 2015-03-11 武汉数为科技有限公司 一种面向文本大数据的中文分词方法
CN106844329A (zh) * 2016-11-03 2017-06-13 北京大学(天津滨海)新代信息技术研究院 一种基于邮件列表的开源软件问答信息抽取方法
CN111079425A (zh) * 2019-12-20 2020-04-28 中南大学 一种地质文档词项分级方法及装置
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111723575A (zh) * 2020-06-12 2020-09-29 杭州未名信科科技有限公司 识别文本的方法、装置、电子设备及介质
WO2020215456A1 (zh) * 2019-04-26 2020-10-29 网宿科技股份有限公司 一种基于教师监督的文本标注方法和设备
CN112115259A (zh) * 2020-06-17 2020-12-22 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统
CN113836917A (zh) * 2021-09-28 2021-12-24 广州华多网络科技有限公司 文本分词处理方法及其装置、设备与介质
CN113987536A (zh) * 2021-10-27 2022-01-28 建信金融科技有限责任公司 数据表中字段安全等级确定方法、装置、电子设备及介质
CN115587594A (zh) * 2022-09-20 2023-01-10 广东财经大学 网络安全的非结构化文本数据抽取模型训练方法及系统
CN116150361A (zh) * 2022-12-27 2023-05-23 暨南大学 一种财务报表附注的事件抽取方法、系统及存储介质
CN116522922A (zh) * 2023-04-17 2023-08-01 中南大学 一种基于信息熵的领域单文本分词方法与系统
CN117094323A (zh) * 2023-08-22 2023-11-21 上海华讯网络系统有限公司 知识图谱构建的文档关系抽取方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071148A1 (en) * 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation
CN103106195B (zh) * 2013-01-21 2018-12-11 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509572B1 (en) * 1999-07-16 2009-03-24 Oracle International Corporation Automatic generation of document summaries through use of structured text
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN104408034A (zh) * 2014-11-28 2015-03-11 武汉数为科技有限公司 一种面向文本大数据的中文分词方法
CN106844329A (zh) * 2016-11-03 2017-06-13 北京大学(天津滨海)新代信息技术研究院 一种基于邮件列表的开源软件问答信息抽取方法
WO2020215456A1 (zh) * 2019-04-26 2020-10-29 网宿科技股份有限公司 一种基于教师监督的文本标注方法和设备
CN111079425A (zh) * 2019-12-20 2020-04-28 中南大学 一种地质文档词项分级方法及装置
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111723575A (zh) * 2020-06-12 2020-09-29 杭州未名信科科技有限公司 识别文本的方法、装置、电子设备及介质
CN112115259A (zh) * 2020-06-17 2020-12-22 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统
CN113836917A (zh) * 2021-09-28 2021-12-24 广州华多网络科技有限公司 文本分词处理方法及其装置、设备与介质
CN113987536A (zh) * 2021-10-27 2022-01-28 建信金融科技有限责任公司 数据表中字段安全等级确定方法、装置、电子设备及介质
CN115587594A (zh) * 2022-09-20 2023-01-10 广东财经大学 网络安全的非结构化文本数据抽取模型训练方法及系统
CN116150361A (zh) * 2022-12-27 2023-05-23 暨南大学 一种财务报表附注的事件抽取方法、系统及存储介质
CN116522922A (zh) * 2023-04-17 2023-08-01 中南大学 一种基于信息熵的领域单文本分词方法与系统
CN117094323A (zh) * 2023-08-22 2023-11-21 上海华讯网络系统有限公司 知识图谱构建的文档关系抽取方法和系统

Also Published As

Publication number Publication date
CN117422061A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US20200073927A1 (en) Contraction aware parsing system for domain-specific languages
US20210035556A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
CN102713834A (zh) 管理记录格式信息
CN108763368A (zh) 抽取新知识点的方法
CN113553854B (zh) 实体关系的联合抽取方法和联合抽取装置
US10127442B2 (en) Non-sequential comparison of documents
EP3624114A1 (en) Method and apparatus for speech recognition
CN115641092A (zh) 实现数据核查计划导入自动生成逻辑核查的方法和系统
US10902198B2 (en) Generating rules for automated text annotation
CN117422061B (zh) 一种文本词项多重分割结果合并标注方法及装置
CN118192949A (zh) 基于大语言模型的漏洞代码工具生成方法、系统及介质
CN109213971A (zh) 庭审笔录的生成方法及装置
CN117272982A (zh) 基于大型语言模型的协议文本检测方法及装置
US10318937B2 (en) Generating a product model
WO2023169368A1 (zh) 一种程序缺陷数据特征提取方法、电子设备及存储介质
US10303755B2 (en) Enhanced documentation validation
US11775869B1 (en) Validation of account identifier
CN117436442B (zh) 一种文本词项多重分割合并标注拆分方法及装置
CN110008475A (zh) 分词处理方法、装置、设备及存储介质
CN117422071B (zh) 一种文本词项多重分割标注转换方法及装置
US20220100703A1 (en) Integrated universal file converter
Villanova-Aparisi et al. Evaluation of named entity recognition in handwritten documents
Vidra Morphological segmentation of Czech words
US20240311272A1 (en) Test checking of pull request changes using large language model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant