CN117436442B - 一种文本词项多重分割合并标注拆分方法及装置 - Google Patents
一种文本词项多重分割合并标注拆分方法及装置 Download PDFInfo
- Publication number
- CN117436442B CN117436442B CN202311749207.4A CN202311749207A CN117436442B CN 117436442 B CN117436442 B CN 117436442B CN 202311749207 A CN202311749207 A CN 202311749207A CN 117436442 B CN117436442 B CN 117436442B
- Authority
- CN
- China
- Prior art keywords
- list
- line
- text
- content
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000002372 labelling Methods 0.000 title claims abstract description 35
- 230000008569 process Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本词项多重分割合并标注拆分方法及装置,包括输入说明、参数定义与设置、多重分割合并标注拆分。本发明旨在克服现有技术的局限性,实现对多重分割合并标注的准确拆分和比较,从而提高其实际应用的效果和可行性。
Description
技术领域
本申请涉及文本词项标注技术领域,具体公开了一种文本词项多重分割合并标注拆分方法。
背景技术
文本词项多重分割合并标注能够在一个文档中展示多个分割等级,对信息提取和文本处理具有重要价值。然而,现有的多重分割合并标注方法在验证和比较不同分割方法的能力时存在一定的限制,这是因为它们无法满足将多重分割合并标注拆分为多种分割等级进行比较的需求。随着信息技术的迅猛发展,涌现出越来越多的算法和技术,使得在处理文本时需要更加灵活的分割方法。如果仅仅采用多重分割合并标注方法,将导致对不同分割等级的特征和性能无法准确评估,限制了文本处理和分析的深入应用。
发明内容
为解决上述现有技术的缺点,本发明提出一种文本词项多重分割合并标注拆分方法及装置。
本发明提出的技术方案是:
一种文本词项多重分割合并标注拆分方法,包括步骤:
步骤S100,输入说明,输入是一个名为List_merge的列表,用于表示文本正向分割标注的结果;
步骤S200,定义、设置参数,定义变量max_seg,用来表示输入列表List_merge的第0位置序号对应的文本最大分割等级数,定义变量N,用来表示输入列表List_merge中每次读取的具体位置序号,将N 的初始值设为0,定义line为列表,用于临时储存输入列表List_merge中具体位置序号N对应的字符串文本内容,line初始化为空列表;
步骤S300,多重分割合并标注拆分,将文本多重分割合并正向标注的列表List_merge进行拆分,并生成一系列输出列表。
在可能的一个设计中,步骤S300包括以下步骤,
步骤S301,读取输入列表List_merge第N序号所对应的内容,并将其转换为整数型,同时将值赋给变量max_seg;N=N+1,之后进入步骤S302;
步骤S302,创建一个空的列表output_lists,用于临时存储拆分后的各个输出列表;之后进入步骤S303;
步骤S303,根据max_seg的值,新建max_seg个拆分列表,命名规则为List_out_split1,List_out_split2,List_out_split3,......;之后进入步骤S304;
步骤S304,将每个拆分列表List_out_split1,List_out_split2,List_out_split3,......,逐个添加到output_lists列表中;之后进入步骤S305;
步骤S305,读取输入列表List_merge的第N序号位置内容,储存入列表line,之后进入步骤S306;
步骤S306,将line的内容均以分割符号空格(“”)为分界线,转化为列表;之后进入步骤S307;
步骤S307,定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;之后进入步骤S308;
步骤S308,读取line第i个位置的内容,判断是否为空字符,如果是,进入步骤S3081,统计列表line第i位置往后的连续空字符数量;如果不是,进入步骤S3082;步骤S3082,对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入步骤S3084;如果space为0,令i=i+1;进入步骤S308,读取line下一序号位置内容;步骤S3084,令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space=0,i=i+1;后再次进入步骤S308,读取line下一序号位置内容,当全部元素读取完,进入步骤S309;
步骤S309,创建了一个长度为max_seg的列表lines,并将列表中的每个元素都初始化为空字符串;之后进入步骤S310;
步骤S310,定义变量j,用于表示列表line的具体位置序号,初始化为0;定义变量count,用于表示line列表每个位置序号对应的数字部分内容,初始化为0;定义word为字符串变量,用于表示line列表每个位置序号对应的文字部分内容,初始化为空列表,即“”;循环处理line里面的内容;具体实现过程见步骤S3101~步骤S3103;所述步骤S310中,步骤S3101,从line[j]字符串中提取出最后一个斜杠“/”之前的部分,将其赋值给变量word;进入步骤S3102;
步骤S3102,从line[j]字符串中提取出最后一个斜杠“/”之后的部分,将其转换成整数类型,并将其赋值给变量count;进入步骤S3103;
步骤S3103,定义变量k,用于表示每次存入列表lines内容的位置序号,初始化为0;根据count次数的多少,将不同的文本内容存储到lines 列表中,以此将合并标注文本内容拆分,具体实现过程见步骤S31031~步骤S31033;步骤S31031,对k进行判断;如果k小于count,进入步骤S31032;如果k大于或等于count,进入步骤S31033;
步骤S31032,将变量word 加入到lines[k] 字符串的结尾,并在字符串结尾处加上一个空格和“/”符号;令k=k+1,如果k=max_seg,进入步骤S3104;否则回到步骤S31031;
步骤S31033,如果k大于或者等于count,将变量word加入到lines[k]字符串的结尾;令k=k+1,如果k=max_seg,进入步骤S3104,否则回到步骤S31031;
步骤S3104,令j=j+1,进入步骤S3101,处理line下一元素的字符;如果line元素均已处理结束;进入步骤S311;
步骤S311,将lines列表中各个元素分别依次添加入output_lists对应的子列表数据中,如,lines第一个数据,写入output_lists列表的第一个子列表中;lines第二个数据,写入output_lists列表的第二个子列表中;之后进入步骤S312;
步骤S312,令N=N+1,继续执行输入列表List_merge下一序号位置的拆分,即进入步骤S305;直至处理完输入列表所有字符串内容,进入步骤S313;步骤S313,输出output_lists列表中所有的子列表,即输出max_seg个拆分列表,至此结束。
在可能的一个设计中,步骤S100中的List_merge的列表存储多个文本字符串,其中第一个字符串表示文本的最大分割等级,而其余字符串的文本内容均采用“斜杠+数字”,即“/数字”,表示文本分割位置,并且列表中字符串均按顺序以0、1、2、3、…n标记位置序号,n为正整数。
本发明还提供一种文本词项多重分割合并标注拆分装置,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现前述的文本词项多重分割合并标注拆分方法。
本发明还提供一种控制系统,包括前述的文本词项多重分割合并标注拆分装置。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行前述的文本词项多重分割合并标注拆分方法。
与现有技术相比,本发明的优点在于:
本发明提出一种文本词项多重分割合并标注拆分方法,能够实现多重分割合并标注文本到多种单一分割等级文本的转换,提升了多重分割标注的应用规模和效果,解决了多重分割合并标注方法受限于无法拆分为多种分割等级进行比较的问题,使其更具实用性和适应性;本发明的标注体系,通过正向标注实现多重分割结果的合并,将不同层次和方法的分割结果统一为一个标注文件,清晰地展示出长词和短词之间的多个分割等级。
本发明将多重标注分割合并的正向文件拆分为多种分割标注结果,从而有助于对标注方法进行验证和比较,提升多重分割标注的普适应用性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明一种文本词项多重分割合并标注拆分方法的流程图;
附图2为本发明实施例中的List_merge列表的文书数据示意图;
附图3为本发明实施例中拆分后的文本数据List_out_split1示意图;
附图4为本发明实施例中拆分后的文本数据List_out_split2示意图;
附图5为本发明实施例中拆分后的文本数据List_out_split3示意图;
附图6为本发明实施例中拆分后的文本数据List_out_split4示意图;
附图7为本发明实施例中拆分后的文本数据List_out_split5示意图;
附图8为本发明实施例中拆分后的文本数据List_out_split6示意图。
具体实施方式
在本发明的描述中,需要说明的是,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
实施例
一种文本词项多重分割合并标注拆分方法,如图1所示,包括输入说明、输出说明、参数定义与设置、多重分割合并标注拆分,技术方案的详细过程描述如下:
(1)输入说明
输入是一个名为List_merge的列表,用于表示文本正向分割标注的结果。该列表存储多个文本字符串,其中第一个字符串表示文本的最大分割等级,而其余字符串的文本内容均采用“斜杠+数字”,即“/数字”,表示文本分割位置,并且列表中字符串均按顺序以0、1、2、3、…标记位置序号。一种包含三个文本字符串的列表,示例如下:List_merge=[ “6”,“计算机/6 俗/1 称/6 电脑/6 ,/6 是/6 现代/6 一种/6 用/1 于/6 高速/4 计算/6 的/6 电子/5 计算/3 机器/6 ,/6 可以/6 进行/6 数值/4 计算/6 ,/6 又/1 可以/6 进行/6逻辑/4 计算/6 ,/6 还/6 具/1 有/6 存储/4 记忆/5 功能/6 。/6 是/6 能够/6 按照/6程序/6 运行/6 ,/6 自动/6 、/6 高速/4 处理/6 海量/3 数据/6 的/6 现代化/6 智能/3电子/5 设备/6 。/6”],其中第1个字符串对应List_merge的第0位置序号,第2、3个字符串分别对应List_merge的第1、2位置序号。
(2)输出说明
基于本发明的技术方法,将文本多重分割合并正向标注的列表List_merge进行拆分,并生成一系列输出列表:List_out_split1,List_out_split2,List_out_split3,……。
(3)参数的定义与设置
(3-1)定义变量max_seg,用来表示输入列表List_merge的第0位置序号对应的文本最大分割等级数;
(3-2)定义变量N,用来表示输入列表List_merge中每次读取的具体位置序号,将N的初始值设为0;
(3-3)定义line为列表,line初始化为空列表,即[],用于临时储存输入列表List_merge中具体位置序号N对应的字符串文本内容;
(4)多重分割标注拆分
(4-1)读取输入列表List_merge第N序号所对应的内容,并将其转换为整数型,同时将值赋给变量max_seg;N=N+1,之后进入(4-2);
(4-2)创建一个空的列表output_lists,用于临时存储拆分后的各个输出列表;之后进入(4-3);
(4-3)根据max_seg的值,新建max_seg个拆分列表,命名规则为List_out_split1,List_out_split2,List_out_split3,......;之后进入(4-4);
(4-4)将每个拆分列表List_out_split1,List_out_split2,List_out_split3,......,逐个添加到output_lists列表中;之后进入(4-5);
(4-5)读取输入列表List_merge的第N序号位置内容,储存入列表line,之后进入(4-6);
(4-6)将line的内容均以分割符号空格(“”)为分界线,转化为列表;例如,转换前line内容为“计算机/6 是/6 20/2 世纪/6 最/1 先进/6 的/6 科学/3 技术/5 发明/6 之一/6”(原文为:“计算机是20世纪最先进的科学技术发明之一”),转化后列表line的内容为[“计算机/6” , “是/6” , “20/2” , “世纪/6” , “最/1” , “先进/6” , “的/6” , “科学/3” , “技术/5” , “发明/6” , “之一/6”];之后进入(4-7);
(4-7)定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;之后进入(4-8);
(4-8)读取line第i个位置的内容,判断是否为空字符,如果是,进入(4-8-1),统计列表line第i位置往后的连续空字符数量;如果不是,进入(4-8-2);当全部元素读取完,进入(4-9);
(4-8-1)统计连续空字符数量,space=space+1;i=i+1,再次回到(4-8),读取line下一序号位置内容;
(4-8-2)对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入(4-8-4);如果space为0,i=i+1;进入(4-8),读取line下一序号位置内容;
(4-8-4)令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space=0,i=i+1;后再次进入(4-8),读取line下一序号位置内容;
(4-9)创建了一个长度为max_seg的列表 lines,并将列表中的每个元素都初始化为空字符串;例如:max_seg的值为6,那么lines=[ “”, “”, “”, “”, “”, “”];之后进入(4-10);
(4-10)定义变量j,用于表示列表line的具体位置序号,初始化为0;定义变量count,用于表示line列表每个位置序号对应的数字部分内容,初始化为0;定义word为字符串变量,用于表示line列表每个位置序号对应的文字部分内容,初始化为空列表,即“”;循环处理line里面的内容;具体实现过程见(4-10-1)~(4-10-3);
(4-10-1)从line[j]字符串中提取出最后一个斜杠“/”之前的部分,将其赋值给变量word;进入(4-10-2);
(4-10-2)从line[j]字符串中提取出最后一个斜杠“/”之后的部分,将其转换成整数类型,并将其赋值给变量count;进入(4-10-3);
(4-10-3)定义变量k,用于表示每次存入列表lines内容的位置序号,初始化为0;根据count次数的多少,将不同的文本内容存储到lines 列表中,以此将合并标注文本内容拆分。例如,max_seg=6,原line[j]字符串的值为“科学/3”,word和count对应的值分别为“科学”和“3”;经过拆分处理,lines 列表的内容会变为:[“科学/”,“科学/”,“科学/”,“科学”,“科学”,“科学”];具体实现过程见(4-10-3-1)~(4-10-3-3);
(4-10-3-1)对k进行判断;如果k小于count,进入(4-10-3-2);如果k大于或等于count,进入(4-10-3-3);之后进入(4-10-4);
(4-10-3-2)将变量word 加入到lines[k] 字符串的结尾,并在字符串结尾处加上一个空格和“/”符号;k=k+1,如果k=max_seg,进入(4-10-4);否则回到(4-10-3-1);
(4-10-3-3)如果k大于或者等于count,将变量word 加入到lines[k] 字符串的结尾;k=k+1,如果k=max_seg,进入(4-10-4);否则回到(4-10-3-1);
(4-10-4)j=j+1,进入(4-10-1),处理line下一元素的字符;如果line元素均已处理结束;进入(4-11);
(4-11)将lines列表中各个元素分别依次添加入output_lists对应的子列表数据中,如,lines第一个数据,写入output_lists列表的第一个子列表中;lines第二个数据,写入output_lists列表的第二个子列表中;之后进入(4-12);
(4-12)N=N+1,继续执行输入列表List_merge下一序号位置的拆分,即进入(4-5);直至处理完输入列表所有字符串内容,进入(4-13);
(4-13)输出output_lists列表中所有的子列表,即,输出max_seg个拆分列表,结束。
下面简要展示一种文本词项多重分割合并标注拆分方法的一个具体实例:
如图2所示,待拆分的文本数据为List_merge;拆分后的文本数据为List_out_split1,List_out_split2,List_out_split3,List_out_split4,List_out_split5,List_out_split6,分别独对应图3-图8。
本发明还提供一种文本词项多重分割合并标注拆分装置,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现前述的文本词项多重分割合并标注拆分方法。
本发明还提供一种控制系统,包括前述的文本词项多重分割合并标注拆分装置。
根据本公开的实施例的调制方法可被编写为计算机程序并被存储在计算机可读存储介质上。当计算机程序被处理器执行时,可实现如上所述的文本词项多重分割合并标注拆分方法。
计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行计算机程序。 在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。 结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、电池仓控制板、微电池仓控制板、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。 结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从该存储介质读取信息和能向该存储介质写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。 在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、中控计算机、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (5)
1.一种文本词项多重分割合并标注拆分方法,其特征在于,包括步骤:
步骤S100,输入说明,输入是一个名为List_merge的列表,用于表示文本正向分割标注的结果;
步骤S200,定义、设置参数,定义变量max_seg,用来表示输入列表List_merge的第0位置序号对应的文本最大分割等级数,定义变量N,用来表示输入列表List_merge中每次读取的具体位置序号,将 N 的初始值设为 0,定义line为列表,用于临时储存输入列表List_merge中具体位置序号N对应的字符串文本内容,line初始化为空列表;
步骤S300,多重分割合并标注拆分,将文本多重分割合并正向标注的列表List_merge进行拆分,并生成一系列输出列表;
步骤S300包括以下步骤,
步骤S301,读取输入列表List_merge第N序号所对应的内容,并将其转换为整数型,同时将值赋给变量max_seg;N=N+1,之后进入步骤S302;
步骤S302,创建一个空的列表output_lists,用于临时存储拆分后的各个输出列表;之后进入步骤S303;
步骤S303,根据max_seg的值,新建max_seg个拆分列表,命名规则为List_out_split1,List_out_split2,List_out_split3,......;之后进入步骤S304;
步骤S304,将每个拆分列表List_out_split1,List_out_split2,List_out_split3,......,逐个添加到output_lists列表中;之后进入步骤S305;
步骤S305,读取输入列表List_merge的第N序号位置内容,储存入列表line,之后进入步骤S306;
步骤S306,将line的内容均以分割符号空格为分界线,转化为列表;之后进入步骤S307;
步骤S307,定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;之后进入步骤S308;
步骤S308,读取line第i个位置的内容,判断是否为空字符,如果是,进入步骤S3081,统计列表line第i位置往后的连续空字符数量;如果不是,进入步骤S3082;
步骤S3082,对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入步骤S3084;如果space为0,令i=i+1;进入步骤S308,读取line下一序号位置内容;步骤S3084,令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space =0,i=i+1;后再次进入步骤S308,读取line下一序号位置内容,当全部元素读取完,进入步骤S309;
步骤S309,创建了一个长度为max_seg的列表 lines,并将列表中的每个元素都初始化为空字符串;之后进入步骤S310;
步骤S310,定义变量j,用于表示列表line的具体位置序号,初始化为0;定义变量count,用于表示line列表每个位置序号对应的数字部分内容,初始化为0;定义word为字符串变量,用于表示line列表每个位置序号对应的文字部分内容,初始化为空列表,即“”;循环处理line里面的内容;具体实现过程见步骤S3101~步骤S3103;所述步骤S310中,步骤S3101,从line[j]字符串中提取出最后一个斜杠“/”之前的部分,将其赋值给变量 word;进入步骤S3102;
步骤S3102,从line[j]字符串中提取出最后一个斜杠“/”之后的部分,将其转换成整数类型,并将其赋值给变量 count;进入步骤S3103;
步骤S3103,定义变量k,用于表示每次存入列表lines内容的位置序号,初始化为0;根据count次数的多少,将不同的文本内容存储到 lines 列表中,以此将合并标注文本内容拆分,具体实现过程见步骤S31031~步骤S31033;步骤S31031,对k进行判断;如果k小于count,进入步骤S31032;如果k大于或等于count,进入步骤S31033;
步骤S31032,将变量 word 加入到 lines[k] 字符串的结尾,并在字符串结尾处加上一个空格和“/”符号;令k=k+1,如果k=max_seg,进入步骤S3104;否则回到步骤S31031;
步骤S31033,如果k大于或者等于count,将变量word加入到 lines[k]字符串的结尾;令k=k+1,如果k=max_seg,进入步骤S3104,否则回到步骤S31031;
步骤S3104,令j=j+1,进入步骤S3101,处理line下一元素的字符;如果line元素均已处理结束;进入步骤S311;
步骤S311,将lines列表中各个元素分别依次添加入output_lists对应的子列表数据中,之后进入步骤S312;
步骤S312,令N=N+1,继续执行输入列表List_merge下一序号位置的拆分,即进入步骤S305;直至处理完输入列表所有字符串内容,进入步骤S313;步骤S313,输出output_lists列表中所有的子列表,即输出max_seg个拆分列表,至此结束。
2.如权利要求1所述的文本词项多重分割合并标注拆分方法,其特征在于,步骤S100中的List_merge的列表存储多个文本字符串,其中第一个字符串表示文本的最大分割等级,而其余字符串的文本内容均采用“斜杠+数字”,即“/数字”,表示文本分割位置,并且列表中字符串均按顺序以0、1、2、3、…n标记位置序号,n为正整数。
3.一种文本词项多重分割合并标注拆分装置,其特征在于,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现如权利要求1或2所述的文本词项多重分割合并标注拆分方法。
4.一种控制系统,其特征在于,包括权利要求3所述的文本词项多重分割合并标注拆分装置。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求2所述的文本词项多重分割合并标注拆分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311749207.4A CN117436442B (zh) | 2023-12-19 | 2023-12-19 | 一种文本词项多重分割合并标注拆分方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311749207.4A CN117436442B (zh) | 2023-12-19 | 2023-12-19 | 一种文本词项多重分割合并标注拆分方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117436442A CN117436442A (zh) | 2024-01-23 |
CN117436442B true CN117436442B (zh) | 2024-03-12 |
Family
ID=89555630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311749207.4A Active CN117436442B (zh) | 2023-12-19 | 2023-12-19 | 一种文本词项多重分割合并标注拆分方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117436442B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8381095B1 (en) * | 2011-11-07 | 2013-02-19 | International Business Machines Corporation | Automated document revision markup and change control |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
US10839164B1 (en) * | 2018-10-01 | 2020-11-17 | Iqvia Inc. | Automated translation of clinical trial documents |
CN113505596A (zh) * | 2021-07-26 | 2021-10-15 | 深圳市优必选科技股份有限公司 | 话题切换标记方法、装置及计算机设备 |
CN114139522A (zh) * | 2021-11-09 | 2022-03-04 | 北京理工大学 | 一种基于层级注意力和标签引导学习的关键信息识别方法 |
CN114528847A (zh) * | 2022-02-21 | 2022-05-24 | 广东电网有限责任公司 | 一种主网侧运行方式单的识别方法及相关装置 |
CN114973056A (zh) * | 2022-03-28 | 2022-08-30 | 华中农业大学 | 基于信息密度的快速视频图像分割标注方法 |
CN116644740A (zh) * | 2023-04-17 | 2023-08-25 | 中南大学 | 一种基于单文本词项凝固度的字典自动抽取方法与系统 |
-
2023
- 2023-12-19 CN CN202311749207.4A patent/CN117436442B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8381095B1 (en) * | 2011-11-07 | 2013-02-19 | International Business Machines Corporation | Automated document revision markup and change control |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
US10839164B1 (en) * | 2018-10-01 | 2020-11-17 | Iqvia Inc. | Automated translation of clinical trial documents |
CN113505596A (zh) * | 2021-07-26 | 2021-10-15 | 深圳市优必选科技股份有限公司 | 话题切换标记方法、装置及计算机设备 |
CN114139522A (zh) * | 2021-11-09 | 2022-03-04 | 北京理工大学 | 一种基于层级注意力和标签引导学习的关键信息识别方法 |
CN114528847A (zh) * | 2022-02-21 | 2022-05-24 | 广东电网有限责任公司 | 一种主网侧运行方式单的识别方法及相关装置 |
CN114973056A (zh) * | 2022-03-28 | 2022-08-30 | 华中农业大学 | 基于信息密度的快速视频图像分割标注方法 |
CN116644740A (zh) * | 2023-04-17 | 2023-08-25 | 中南大学 | 一种基于单文本词项凝固度的字典自动抽取方法与系统 |
Non-Patent Citations (1)
Title |
---|
基于改进型神经网络的影评文本情感分析算法;李俭兵;刘栗材;;计算机工程与科学;20191215(第12期);171-179 * |
Also Published As
Publication number | Publication date |
---|---|
CN117436442A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102713834B (zh) | 管理记录格式信息 | |
US8422786B2 (en) | Analyzing documents using stored templates | |
US20160117412A1 (en) | Recursive extraction and narration of nested tables | |
WO2020259141A1 (zh) | 一种文件处理方法、装置及计算机设备 | |
CN112529144B (zh) | 一种面向短期时间序列预测的预期性学习方法和系统 | |
CN113553854B (zh) | 实体关系的联合抽取方法和联合抽取装置 | |
CN113010116B (zh) | 一种数据处理方法、装置、终端设备及可读存储介质 | |
US10127442B2 (en) | Non-sequential comparison of documents | |
JP2023539470A (ja) | 自動ナレッジ・グラフ構成 | |
US20180082167A1 (en) | Recurrent neural network processing pooling operation | |
CN111680156A (zh) | 数据多标签分类方法及系统 | |
CN117436442B (zh) | 一种文本词项多重分割合并标注拆分方法及装置 | |
CN110852044B (zh) | 一种基于结构化的文本编辑方法和系统 | |
CN117787153A (zh) | 一种硬件设计验证方法、装置和存储介质 | |
CN112507660A (zh) | 一种用于复合文档的同源判定、差异化显示方法和系统 | |
CN117216279A (zh) | Pdf文件的文本提取方法、装置、设备及存储介质 | |
CN110083823B (zh) | 词典表建立方法及装置、计算机装置、及存储介质 | |
CN117422061B (zh) | 一种文本词项多重分割结果合并标注方法及装置 | |
CN117422071B (zh) | 一种文本词项多重分割标注转换方法及装置 | |
US10824587B2 (en) | Integrated universal file converter | |
CN110008475A (zh) | 分词处理方法、装置、设备及存储介质 | |
US20220100703A1 (en) | Integrated universal file converter | |
WO2022187448A1 (en) | Data labeling for synthetic data generation | |
CN103793486A (zh) | 对印鉴组合数据进行存储、验印的方法和系统 | |
CN111353308A (zh) | 命名实体识别方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |