CN117422071A - 一种文本词项多重分割标注转换方法及装置 - Google Patents

一种文本词项多重分割标注转换方法及装置 Download PDF

Info

Publication number
CN117422071A
CN117422071A CN202311749180.9A CN202311749180A CN117422071A CN 117422071 A CN117422071 A CN 117422071A CN 202311749180 A CN202311749180 A CN 202311749180A CN 117422071 A CN117422071 A CN 117422071A
Authority
CN
China
Prior art keywords
list
line
text
content
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311749180.9A
Other languages
English (en)
Other versions
CN117422071B (zh
Inventor
邓吉秋
郭志勇
邱蓝
刘文毅
吴军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202311749180.9A priority Critical patent/CN117422071B/zh
Publication of CN117422071A publication Critical patent/CN117422071A/zh
Application granted granted Critical
Publication of CN117422071B publication Critical patent/CN117422071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本词项多重分割标注转换方法及装置,包括负向转换步骤和正向转换步骤。本发明提出了一种文本词项多重分割标注转换方法,旨在有效地在正向和负向之间进行文本分割标注的转换,提高数据处理效率。

Description

一种文本词项多重分割标注转换方法及装置
技术领域
本申请涉及文本词项标注技术领域,具体公开了一种文本词项多重分割标注转换方法。
背景技术
在现有技术中,文本分割标注方法是处理文本数据的重要手段之一。目前,常见的文本分割标注方法包括正向标注和负向标注。正向标注方法通过为文本中的每个词项分配正数标签来表示分割位置,而负向标注方法则采用负数的方式。其中,正向标注能够实现对多重分割等级的统一计算和理解,然而在处理大规模待标注文本数据时,存在着储存空间占用较多的问题,并且标注的分割结果对人的理解不直观;负向标注方法可以在储存空间方面较为节省,但其标注的多重分割等级的不易于统一计算和理解,由于负向标注方法采用了反向计算的方式,同一个词项在不同分割等级上的出现次数需要进行推导才能得到,这给后续的数据处理和分析带来了困难,限制了标注结果的实用性。这两种标注方法各有优劣,在现有的方法中,还没有一种方法能够将它们进行互相转换。
发明内容
为解决上述现有技术的缺点,本发明提出一种文本词项多重分割标注转换方法及装置。
本发明提出的技术方案是:
一种文本词项多重分割标注转换方法,包括负向转换步骤和正向转换步骤:
其中负向转换步骤包括,
步骤S100,输入说明,输入是一个名为List_forward的列表,用于表示文本正向分割标注的结果;
步骤S200,定义、设置参数,定义变量N,用来表示输入列表List_forward中每次读取的具体位置序号,将N 的初始值设为0,定义变量max_seg,用来表示输入列表List_forward的第0序号对应的文本最大分割等级数,定义line为列表,line初始化为空列表,即[],用于临时储存输入列表List_forward中具体位置序号N对应的字符串文本内容;
步骤S300,多重分割标注负向转换,输出标注结果进行负向转换的List_inverse_out列表数据;
其中正向转换步骤包括,
步骤T100,输入说明,输入是一个名为List_inverse的列表,用于表示文本负向分割标注的结果;
步骤T200,定义、设置参数,定义变量N,用来表示输入列表List_inverse中每次读取的具体位置序号,将N 的初始值设为0,定义变量max_seg,用来表示输入列表List_inverse的第0序号对应的文本最大分割等级数,定义line为列表,line初始化为空列表,即[],用于临时储存输入列表List_inverse中具体位置序号N对应的字符串文本内容;
步骤T300,多重分割标注正向转换,输出标注结果进行正向转换的List_forward_out列表数据。
在可能得一个设计中,步骤S300包括以下步骤,
步骤S310,读取输入列表List_forward第N序号所对应的内容,当N为0时,即读取文本最大分割数,将值添加至输出列表List_inverse_out的第0序号位置;同时将其转换为整数型,并赋给变量max_seg;令N=N+1,之后进入步骤S320,读取输入列表下一序号的内容;
步骤S320,读取列表List_forward的第N序号位置内容,并将其存入line列表中,之后进入步骤S330;
步骤S330,将line的内容均以分割符号空格为分界线,转化为列表;之后进入步骤S340;
步骤S340,定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;定义变量new_num,用于表示列表line中文本分割数经转换后新的值,初始化为0;之后进入步骤S350;
步骤S350,读取line第i个位置的内容,判断是否为空字符,如果是,进入步骤S351,统计列表line第i位置往后的连续空字符数量;如果不是,进入步骤S352;当全部元素读取完,进入步骤S360;
步骤S360,重新令i=0;逐一转换line中最后一个数字,进行负向转换;具体实现过程见步骤S361~步骤S362;其中步骤S361,读取line[i]最后一个字符数字,赋值给new_num;进入步骤S362;步骤S362,new_num=new_num-max_seg;将新的new_num替换line第i个元素的最后一个数字;i=i+1,进入步骤S361,转换line下一序号位置内容对应的字符数字;当所有line的元素操作完后进入步骤S370;
步骤S370,将line的内容添加至输出列表List_inverse_out,同时令N=N+1,继续执行输入列表List_forward下一序号内容的转换,即进入步骤S320;当完成输入列表所有内容转换,进入步骤S380;
步骤S380,输出负向转换后的文本数据列表List_inverse_out,负向转换至此结束。
在可能得一个设计中,步骤T300包括以下步骤:
步骤T310,读取输入列表List_inverse第N序号所对应的内容,当N为0时,即读取文本最大分割数,将值添加至输出列表List_forward_out的第0序号位置;同时将其转换为整数型,并赋给变量max_seg;令N=N+1,之后进入步骤T320,读取输入列表下一序号的内容;
步骤T320,读取列表List_inverse的第N序号内容,并将其存入line列表中,之后进入步骤T330;
步骤T330,将line的内容均以分割符号空格为分界线,转化为列表;之后进入步骤T340;
步骤T340,定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;定义变量new_str为字符串,用于表示line中字符串位于最后一个“/”之后的字符,并初始化为空字符串,即new_str=“”;定义变量new_num,用于表示列表line中文本分割数经转换后新的值,初始化为0;之后进入步骤T350;
步骤T350,读取line第i个位置的内容,判断是否为空字符,如果是,进入步骤T351,统计列表line第i位置往后的连续空字符数量;如果不是,进入步骤T352;当全部元素读取完,进入步骤T360;
步骤T360,重新令i=0;逐一转换line中最后一个数字,进行正向转换;
步骤T370,将line的内容添加至输出列表List_forward_out,同时令N=N+1,继续执行输入列表List_inverse下一序号内容的转换,即进入步骤T320;当完成输入列表所有内容转换,进入步骤T380;
步骤T380,输出正向转换后的文本标注列表List_forward_out,正向转换至此结束。
在可能得一个设计中,步骤S350中的步骤S351具体为,统计连续空字符数量,令space=space+1;令i=i+1,再次回到步骤S350;读取line下一序号位置内容;
步骤S352具体为,对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入步骤S353;如果space为0,令i=i+1;进入步骤S350;读取line下一序号位置内容;
步骤S353具体为,令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space=0,i=i+1;后再次进入步骤S350;读取line下一序号位置内容。
在可能得一个设计中,步骤T360包括:
步骤T361,读取line[i]字符串中位于最后一个“/”之后的字符,赋值给new_str;如果new_str为空,将new_str转为0;如果new_str不为空,将new_str转为整数型格式;之后进入步骤T362;
步骤T362,new_num=new_str+max_seg;将新的new_num替换line第i个元素的最后一个“/”之后的字符;i=i+1,进入步骤T361,转换line下一序号位置内容对应的字符数字;当所有元素操作完后进入步骤T370。
在可能得一个设计中,步骤T351具体为,统计连续空字符数量,令space=space+1;i=i+1,再次回到步骤T350;读取line下一序号位置内容;
步骤T352具体为,对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入步骤T353;如果space为0,i=i+1;进入步骤T350;读取line下一序号位置内容;
步骤T353具体为,令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space=0,i=i+1;后再次进入步骤T350;读取line下一序号位置内容。
在可能得一个设计中,步骤S100中的List_forward列表存储多个文本字符串,其中第一个字符串表示文本的最大分割等级,而其余字符串的文本内容均采用“斜杠+数字”,即“/数字”,表示文本分割位置,并且列表中字符串均按顺序以0、1、2、3、…标记位置序号。
本发明还提供一种文本词项多重分割标注转换装置,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现前述的文本词项多重分割标注转换方法。
本发明还提供一种控制系统,包括前述的文本词项多重分割标注转换装置。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行前述的文本词项多重分割标注转换方法。
与现有技术相比,本发明的优点在于:
本发明提供了一种文本词项多重分割标注转换方法,能够实现正向标注文本到负向标注文本的转换,可以有效解决正向标注文本储存空间大和标注结果不直观的问题,对于正向标注的分割文本,通过方法的运用,本发明能够准确地识别多重分割结果的位置和等级关系,并将正向标注的分割文本转换为负向分割标注的形式;本发明还能够实现负向标注文本到正向标注文本的转换,不仅可以有效对同一个词出现的等级次数可以直接得到,便于统计和分析;还能支持多重分割,转换方法的应用使得合并后的多重分割标注可以更容易地拆分成多个分割等级,对于负向标注的分割文本,本发明通过有效的转换方法能准确无误的将负向标注转为正向标注,这种转换方法不仅能够提高多重分割等级的计算效率,还使得多重分割等级便于的统一计算和理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明一种文本词项多重分割标注转换方法的流程图;
附图2实施例中待负向转换的文本列表数据List_forward的示意图;
附图3为本发明实施例中负向转换后的文本列表数据List_inverse_out的示意图;
附图4为本发明实施例中待正向转换的文本列表数据List_inverse的示意图;
附图5为本发明实施例中正向转换后的文本列表数据List_forward_out的示意图。
具体实施方式
在本发明的描述中,需要说明的是,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
实施例
在至少一个实施例中,一种文本词项多重分割标注转换方法,如图1所示,包括负向转换步骤和正向转换步骤负向转换,其中负向转换包括输入说明、输出说明、参数的定义与设置、多重分割标注负向转换四个部分,技术方案的详细过程描述如下:
步骤(1)输入说明:
输入是一个名为List_forward的列表,用于表示文本正向分割标注的结果。该列表存储多个文本字符串,其中第一个字符串表示文本的最大分割等级,而其余字符串的文本内容均采用“斜杠+数字”,即“/数字”,表示文本分割位置,并且列表中字符串均按顺序以0、1、2、3、…标记位置序号。一种包含三个文本字符串的列表,示例如下:List_forward=[“6”,“计算机/6 俗/1 称/6 电脑/6 ,/6 是/6 现代/6 一种/6 用/1 于/6 高速/4 计算/6的/6 电子/5 计算/3 机器/6 ,/6 可以/6 进行/6 数值/4 计算/6 ,/6 又/1 可以/6 进行/6 逻辑/4 计算/6 ,/6 还/6 具/1 有/6 存储/4 记忆/5 功能/6 。/6 是/6 能够/6 按照/6 程序/6 运行/6 ,/6 自动/6 、/6 高速/4 处理/6 海量/3 数据/6 的/6 现代化/6智能/3 电子/5 设备/6 。/6”],其中第1个字符串对应List_forward的第0位置序号,第2、3个字符串分别对应List_forward的第1、2位置序号。
步骤(2)输出说明:
输出为基于本发明申请的技术方法,得到标注结果进行负向转换的List_inverse_out列表数据。
步骤(3)参数的定义与设置:
(3-1)定义变量N,用来表示输入列表List_forward中每次读取的具体位置序号,将N 的初始值设为0;
(3-2)定义变量max_seg,用来表示输入列表List_forward的第0序号对应的文本最大分割等级数;
(3-3)定义line为列表,line初始化为空列表,即[],用于临时储存输入列表List_forward中具体位置序号N对应的字符串文本内容;
步骤(4)多重分割标注负向转换:
步骤(4-1),读取输入列表List_forward第N序号所对应的内容,当N为0时,即读取文本最大分割数,将值添加至输出列表List_inverse_out的第0序号位置;同时将其转换为整数型,并赋给变量max_seg;令N=N+1,之后进入步骤(4-2),读取输入列表下一序号的内容;
步骤(4-2),读取列表List_forward的第N序号位置内容,并将其存入line列表中,之后进入步骤(4-3);
步骤(4-3),将line的内容均以分割符号空格(“”)为分界线,转化为列表;例如,转换前line内容为“计算机/6 是/6 20/2 世纪/6 最/1 先进/6 的/6 科学/3 技术/5 发明/6 之一/6”(原文为:“计算机是20世纪最先进的科学技术发明之一”),转换后列表line的内容为[“计算机/6”, “是/6”,“20/2”, “世纪/6”, “最/1”, “先进/6”, “的/6”, “科学/3”,“技术/5” , “发明/6” , “之一/6” ];之后进入步骤(4-4);
步骤(4-4),定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;定义变量new_num,用于表示列表line中文本分割数经转换后新的值,初始化为0;之后进入步骤(4-5);
步骤(4-5),读取line第i个位置的内容,判断是否为空字符,如果是,进入步骤(4-5-1),统计列表line第i位置往后的连续空字符数量;如果不是,进入步骤(4-5-2);当全部元素读取完,进入步骤(4-6);
步骤(4-5-1),统计连续空字符数量,space=space+1;i=i+1,再次回到步骤(4-5);读取line下一序号位置内容;
步骤(4-5-2),对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入步骤(4-5-3);如果space为0,i=i+1;进入步骤(4-5);读取line下一序号位置内容;
步骤(4-5-3),令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space = 0,i=i+1;后再次进入步骤(4-5);读取line下一序号位置内容;
步骤(4-6),重新令i=0;逐一转换line中最后一个数字,进行负向转换;具体实现过程见步骤(4-6-1)~步骤(4-6-2);
步骤(4-6-1),读取line[i]最后一个字符数字,赋值给new_num;进入步骤(4-6-2);
步骤(4-6-2),new_num=new_num- max_seg;将新的new_num替换line第i个元素的最后一个数字;i=i+1,进入步骤(4-6-1),转换line下一序号位置内容对应的字符数字;当所有line的元素操作完后进入步骤(4-7);
步骤(4-7),将line的内容添加至输出列表List_inverse_out,同时令N=N+1,继续执行输入列表List_forward下一序号内容的转换,即进入步骤(4-2);当完成输入列表所有内容转换,进入步骤(4-8);
步骤(4-8),输出负向转换后的文本数据列表List_inverse_out,结束。
对于正向标注的分割文本,通过算法的运用,本发明能够准确地识别多重分割结果的位置和等级关系,并将正向标注的分割文本转换为负向分割标注的形式,本发明提出一种文本词项多重分割标注负向转换方法,能够实现正向标注文本到负向标注文本的转换,可以有效解决正向标注文本储存空间大和标注结果不直观的问题。
下面简要展示一种文本词项多重分割标注负向转换方法的一个具体实例:
如图2所示,待负向转换的文本列表数据为List_forward;如图3所示,负向转换后的文本列表数据为List_inverse_out。
本发明还提供一种文本词项多重分割标注转换装置,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现前述的文本词项多重分割标注转换方法。
本发明还提供一种控制系统,包括前述的文本词项多重分割标注转换装置。
在至少一个实施例中,一种文本词项多重分割标注正向转换方法,包括输入说明、输出说明、参数的定义与设置、多重分割标注正向转换四个部分,技术方案的详细过程描述如下:
步骤(1)输入说明:
输入是一个名为List_inverse的列表,用于表示文本负向分割标注的结果。该列表存储多个文本字符串,其中第一个字符串表示文本的最大分割等级,而其余字符串的文本内容均采用“斜杠+数字”,即“/数字”,表示文本分割位置,并且列表中字符串均按顺序以0、1、2、3、…标记位置序号。一种包含三个文本字符串的列表,示例如下:List_inverse=[“6”,“计算机/ 俗/-5 称/ 电脑/ ,/ 是/ 现代/ 一种/ 用/-5 于/ 高速/-2 计算/ 的/电子/-1 计算/-3 机器/ ,/ 可以/ 进行/ 数值/-2 计算/ ,/ 又/-5 可以/ 进行/ 逻辑/-2 计算/ ,/ 还/ 具/-5 有/ 存储/-2 记忆/-1 功能/ 。/ 是/ 能够/ 按照/ 程序/运行/ ,/ 自动/ 、/ 高速/-2 处理/ 海量/-3 数据/ 的/ 现代化/ 智能/-3 电子/-1 设备/ 。/”],其中第1个字符串对应List_inverse的第0位置序号,第2、3个字符串分别对应List_inverse的第1、2位置序号。
步骤(2)输出说明:
输出为基于本发明申请的技术方法,得到标注结果进行正向转换的List_forward_out列表数据。
步骤(3)参数的定义与设置:
步骤(3-1),定义变量N,用来表示输入列表List_inverse中每次读取的具体位置序号,将 N 的初始值设为 0;
步骤(3-2),定义变量max_seg,用来表示输入列表List_inverse的第0序号对应的文本最大分割等级数;
步骤(3-3),定义line为列表,line初始化为空列表,即[],用于临时储存输入列表List_inverse中具体位置序号N对应的字符串文本内容;
步骤(4)多重分割标注正向转换:
步骤(4-1)读取输入列表List_inverse第N序号所对应的内容,当N为0时,即读取文本最大分割数,将值添加至输出列表List_forward_out的第0序号位置;同时将其转换为整数型,并赋给变量max_seg;令N=N+1,之后进入步骤(4-2),读取输入列表下一序号的内容;
步骤(4-2),读取列表List_inverse的第N序号内容,并将其存入line列表中,之后进入步骤(4-3);
步骤(4-3)将line的内容均以分割符号空格(“”)为分界线,转化为列表;例如,转换前line内容为“计算机/ 是/ 20/-4 世纪/ 最/-5 先进/ 的/ 科学/-3 技术/-1 发明/之一/”(原文为:“计算机是20世纪最先进的科学技术发明之一”),转换后列表line的内容为[“计算机/”, “是/”, “20/-4”, “世纪/” , “最/-5”, “先进/”, “的/”, “科学/-3”,“技术/-1” , “发明/” , “之一/” ];之后进入步骤(4-4);
步骤(4-4),定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;定义变量new_str为字符串,用于表示line中字符串位于最后一个“/”之后的字符,并初始化为空字符串,即new_str=“”;定义变量new_num,用于表示列表line中文本分割数经转换后新的值,初始化为0;之后进入步骤(4-5);
步骤(4-5),读取line第i个位置的内容,判断是否为空字符,如果是,进入步骤(4-5-1),统计列表line第i位置往后的连续空字符数量;如果不是,进入步骤(4-5-2);当全部元素读取完,进入步骤(4-6);
步骤(4-5-1),统计连续空字符数量,space=space+1;i=i+1,再次回到步骤(4-5);读取line下一序号位置内容;
步骤(4-5-2),对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入步骤(4-5-3);如果space为0,i=i+1;进入步骤(4-5);读取line下一序号位置内容;
步骤(4-5-3),令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space = 0,i=i+1;后再次进入步骤(4-5);读取line下一序号位置内容;
步骤(4-6),重新令i=0;逐一转换line中最后一个数字,进行正向转换;具体实现过程见步骤(4-6-1)~步骤(4-6-2);
步骤(4-6-1)具体为,读取line[i]字符串中位于最后一个“/”之后的字符,赋值给new_str;如果new_str为空,将new_str转为0;如果new_str不为空,将new_str转为整数型格式;之后进入步骤(4-6-2);
步骤(4-6-2)为,new_num=new_str+max_seg;将新的new_num替换line第i个元素的最后一个“/”之后的字符;i=i+1,进入步骤(4-6-1),转换line下一序号位置内容对应的字符数字;当所有元素操作完后进入步骤(4-7);
步骤(4-7),将line的内容添加至输出列表List_forward_out,同时令N=N+1,继续执行输入列表List_inverse下一序号内容的转换,即进入步骤(4-2);当完成输入列表所有内容转换,进入步骤(4-8);
步骤(4-8),输出正向转换后的文本标注列表List_forward_out,结束。
对于负向标注的分割文本,本发明通过有效的转换方法能准确无误的将负向标注转为正向标注,这种转换方法不仅能够提高多重分割等级的计算效率,还使得多重分割等级便于的统一计算和理解,本发明提出一种文本词项多重分割标注正向转换方法,能够实现负向标注文本到正向标注文本的转换,不仅可以有效对同一个词出现的等级次数可以直接得到,便于统计和分析;还能支持多重分割,转换方法的应用使得合并后的多重分割标注可以更容易地拆分成多个分割等级。
下面简要展示一种文本词项多重分割标注正向转换方法的一个具体实例:
如图4所示,待正向转换的文本列表数据为List_inverse;如图5所示,正向转换后的文本列表数据为List_forward_out。
根据本公开的实施例的调制方法可被编写为计算机程序并被存储在计算机可读存储介质上。当计算机程序被处理器执行时,可实现如上所述的文本词项多重分割标注转换方法。
计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行计算机程序。 在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。 结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、电池仓控制板、微电池仓控制板、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。 结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从该存储介质读取信息和能向该存储介质写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。 在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、中控计算机、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种文本词项多重分割标注转换方法,其特征在于,包括负向转换步骤和正向转换步骤:
其中负向转换步骤包括,
步骤S100,输入说明,输入是一个名为List_forward的列表,用于表示文本正向分割标注的结果;
步骤S200,定义、设置参数,定义变量N,用来表示输入列表List_forward中每次读取的具体位置序号,将 N 的初始值设为 0,定义变量max_seg,用来表示输入列表List_forward的第0序号对应的文本最大分割等级数,定义line为列表,line初始化为空列表,即[],用于临时储存输入列表List_forward中具体位置序号N对应的字符串文本内容;
步骤S300,多重分割标注负向转换,输出标注结果进行负向转换的List_inverse_out列表数据;
其中正向转换步骤包括,
步骤T100,输入说明,输入是一个名为List_inverse的列表,用于表示文本负向分割标注的结果;
步骤T200,定义、设置参数,定义变量N,用来表示输入列表List_inverse中每次读取的具体位置序号,将 N 的初始值设为 0,定义变量max_seg,用来表示输入列表List_inverse的第0序号对应的文本最大分割等级数,定义line为列表,line初始化为空列表,即[],用于临时储存输入列表List_inverse中具体位置序号N对应的字符串文本内容;
步骤T300,多重分割标注正向转换,输出标注结果进行正向转换的List_forward_out列表数据。
2.如权利要求1所述的文本词项多重分割标注转换方法,其特征在于,步骤S300包括以下步骤,
步骤S310,读取输入列表List_forward第N序号所对应的内容,当N为0时,即读取文本最大分割数,将值添加至输出列表List_inverse_out的第0序号位置;同时将其转换为整数型,并赋给变量 max_seg;令N=N+1,之后进入步骤S320,读取输入列表下一序号的内容;
步骤S320,读取列表List_forward的第N序号位置内容,并将其存入line列表中,之后进入步骤S330;
步骤S330,将line的内容均以分割符号空格为分界线,转化为列表;之后进入步骤S340;
步骤S340,定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;定义变量new_num,用于表示列表line中文本分割数经转换后新的值,初始化为0;之后进入步骤S350;
步骤S350,读取line第i个位置的内容,判断是否为空字符,如果是,进入步骤S351,统计列表line第i位置往后的连续空字符数量;如果不是,进入步骤S352;当全部元素读取完,进入步骤S360;
步骤S360,重新令i=0;逐一转换line中最后一个数字,进行负向转换;具体实现过程见步骤S361~步骤S362;其中步骤S361,读取line[i]最后一个字符数字,赋值给new_num;进入步骤S362;步骤S362,new_num=new_num- max_seg;将新的new_num替换line第i个元素的最后一个数字;i=i+1,进入步骤S361,转换line下一序号位置内容对应的字符数字;当所有line的元素操作完后进入步骤S370;
步骤S370,将line的内容添加至输出列表List_inverse_out,同时令N=N+1,继续执行输入列表List_forward下一序号内容的转换,即进入步骤S320;当完成输入列表所有内容转换,进入步骤S380;
步骤S380,输出负向转换后的文本数据列表List_inverse_out,负向转换至此结束。
3.如权利要求1所述的文本词项多重分割标注转换方法,其特征在于,步骤T300包括以下步骤:
步骤T310,读取输入列表List_inverse第N序号所对应的内容,当N为0时,即读取文本最大分割数,将值添加至输出列表List_forward_out的第0序号位置;同时将其转换为整数型,并赋给变量max_seg;令N=N+1,之后进入步骤T320,读取输入列表下一序号的内容;
步骤T320,读取列表List_inverse的第N序号内容,并将其存入line列表中,之后进入步骤T330;
步骤T330,将line的内容均以分割符号空格为分界线,转化为列表;之后进入步骤T340;
步骤T340,定义变量i,用于表示列表line的具体序号位置,初始化为0;定义变量space,用于统计line中连续空字符的数量,初始化为0;定义变量new_str为字符串,用于表示line中字符串位于最后一个“/”之后的字符,并初始化为空字符串,即new_str=“”;定义变量new_num,用于表示列表line中文本分割数经转换后新的值,初始化为0;之后进入步骤T350;
步骤T350,读取line第i个位置的内容,判断是否为空字符,如果是,进入步骤T351,统计列表line第i位置往后的连续空字符数量;如果不是,进入步骤T352;当全部元素读取完,进入步骤T360;
步骤T360,重新令i=0;逐一转换line中最后一个数字,进行正向转换;
步骤T370,将line的内容添加至输出列表List_forward_out,同时令N=N+1,继续执行输入列表List_inverse下一序号内容的转换,即进入步骤T320;当完成输入列表所有内容转换,进入步骤T380;
步骤T380,输出正向转换后的文本标注列表List_forward_out,正向转换至此结束。
4.如权利要求2所述的文本词项多重分割标注转换方法,其特征在于,步骤S350中的步骤S351具体为,统计连续空字符数量,令space=space+1;令i=i+1,再次回到步骤S350;读取line下一序号位置内容;
步骤S352具体为,对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入步骤S353;如果space为0,令i=i+1;进入步骤S350;读取line下一序号位置内容;
步骤S353具体为,令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space = 0,i=i+1;后再次进入步骤S350;读取line下一序号位置内容。
5.如权利要求3所述的文本词项多重分割标注转换方法,其特征在于,步骤T360包括:
步骤T361,读取line[i]字符串中位于最后一个“/”之后的字符,赋值给new_str;如果new_str为空,将new_str转为0;如果new_str不为空,将new_str转为整数型格式;之后进入步骤T362;
步骤T362,new_num=new_str+max_seg;将新的new_num替换line第i个元素的最后一个“/”之后的字符;i=i+1,进入步骤T361,转换line下一序号位置内容对应的字符数字;当所有元素操作完后进入步骤T370。
6.如权利要求3或5所述的文本词项多重分割标注转换方法,其特征在于,步骤T351具体为,统计连续空字符数量,令space=space+1;i=i+1,再次回到步骤T350;读取line下一序号位置内容;
步骤T352具体为,对space进行判断,如果不为0,则将line[i]之前的连续空字符和当前line[i]进行合并,并且删除line[i]之前的空字符内容,同时对line的内容进行更新,进入步骤T353;如果space为0,i=i+1;进入步骤T350;读取line下一序号位置内容;
步骤T353具体为,令i=i-space,重新调整i的值,使其能够遍历到整个列表line中的所有元素;并且令space = 0,i=i+1;后再次进入步骤T350;读取line下一序号位置内容。
7.如权利要求1-5任一项所述的文本词项多重分割标注转换方法,其特征在于,步骤S100中的List_forward列表存储多个文本字符串,其中第一个字符串表示文本的最大分割等级,而其余字符串的文本内容均采用“斜杠+数字”,即“/数字”,表示文本分割位置,并且列表中字符串均按顺序以0、1、2、3、…标记位置序号。
8.一种文本词项多重分割标注转换装置,其特征在于,包括存储器、控制处理器及存储在所述存储器上并可在所述控制处理器上运行的计算机程序,所述控制处理器执行所述程序,以实现如权利要求1-7任一项所述的文本词项多重分割标注转换方法。
9.一种控制系统,其特征在于,包括权利要求8所述的文本词项多重分割标注转换装置。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求7所述的文本词项多重分割标注转换方法。
CN202311749180.9A 2023-12-19 2023-12-19 一种文本词项多重分割标注转换方法及装置 Active CN117422071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311749180.9A CN117422071B (zh) 2023-12-19 2023-12-19 一种文本词项多重分割标注转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311749180.9A CN117422071B (zh) 2023-12-19 2023-12-19 一种文本词项多重分割标注转换方法及装置

Publications (2)

Publication Number Publication Date
CN117422071A true CN117422071A (zh) 2024-01-19
CN117422071B CN117422071B (zh) 2024-03-15

Family

ID=89531130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311749180.9A Active CN117422071B (zh) 2023-12-19 2023-12-19 一种文本词项多重分割标注转换方法及装置

Country Status (1)

Country Link
CN (1) CN117422071B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661458A (zh) * 2008-08-29 2010-03-03 佳能株式会社 电子文档处理装置及电子文档处理方法
CN107622044A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
WO2019037391A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 客户购买意向的预测方法、装置、电子设备及介质
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN110633577A (zh) * 2019-08-22 2019-12-31 阿里巴巴集团控股有限公司 文本脱敏方法以及装置
WO2021139172A1 (zh) * 2020-01-10 2021-07-15 苏州浪潮智能科技有限公司 一种文件存储为音频实现加密的方法、装置和设备
WO2021139424A1 (zh) * 2020-05-14 2021-07-15 平安科技(深圳)有限公司 文本内涵质量的评估方法、装置、设备及存储介质
CN114492418A (zh) * 2022-02-09 2022-05-13 西安讯飞超脑信息科技有限公司 文本转换方法及相关装置
CN114528844A (zh) * 2022-01-14 2022-05-24 中国平安人寿保险股份有限公司 意图识别方法、装置、计算机设备及存储介质
CN114648027A (zh) * 2022-05-23 2022-06-21 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质
CN114880994A (zh) * 2022-05-25 2022-08-09 重庆邮电大学 一种直白文本到反讽文本的文本风格转换方法及装置
CN114970514A (zh) * 2022-05-30 2022-08-30 平安科技(深圳)有限公司 基于人工智能的中文分词方法、装置、计算机设备及介质
CN115713063A (zh) * 2022-11-14 2023-02-24 中国农业银行股份有限公司 文档转换方法、装置、设备及存储介质
CN116129126A (zh) * 2023-04-04 2023-05-16 整数智能信息技术(杭州)有限责任公司 分割预测模型的构建方法、图片语义分割标注方法及装置
CN116167352A (zh) * 2023-04-03 2023-05-26 联仁健康医疗大数据科技股份有限公司 数据处理方法、装置、电子设备及存储介质
CN116225450A (zh) * 2023-02-22 2023-06-06 车智互联(北京)科技有限公司 文本转换方法和装置,计算设备和可读存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661458A (zh) * 2008-08-29 2010-03-03 佳能株式会社 电子文档处理装置及电子文档处理方法
US20100058175A1 (en) * 2008-08-29 2010-03-04 Canon Kabushiki Kaisha Electronic document processing apparatus and electronic document processing method
CN107622044A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
WO2019037391A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 客户购买意向的预测方法、装置、电子设备及介质
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN110633577A (zh) * 2019-08-22 2019-12-31 阿里巴巴集团控股有限公司 文本脱敏方法以及装置
WO2021139172A1 (zh) * 2020-01-10 2021-07-15 苏州浪潮智能科技有限公司 一种文件存储为音频实现加密的方法、装置和设备
WO2021139424A1 (zh) * 2020-05-14 2021-07-15 平安科技(深圳)有限公司 文本内涵质量的评估方法、装置、设备及存储介质
CN114528844A (zh) * 2022-01-14 2022-05-24 中国平安人寿保险股份有限公司 意图识别方法、装置、计算机设备及存储介质
CN114492418A (zh) * 2022-02-09 2022-05-13 西安讯飞超脑信息科技有限公司 文本转换方法及相关装置
CN114648027A (zh) * 2022-05-23 2022-06-21 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质
CN114880994A (zh) * 2022-05-25 2022-08-09 重庆邮电大学 一种直白文本到反讽文本的文本风格转换方法及装置
CN114970514A (zh) * 2022-05-30 2022-08-30 平安科技(深圳)有限公司 基于人工智能的中文分词方法、装置、计算机设备及介质
CN115713063A (zh) * 2022-11-14 2023-02-24 中国农业银行股份有限公司 文档转换方法、装置、设备及存储介质
CN116225450A (zh) * 2023-02-22 2023-06-06 车智互联(北京)科技有限公司 文本转换方法和装置,计算设备和可读存储介质
CN116167352A (zh) * 2023-04-03 2023-05-26 联仁健康医疗大数据科技股份有限公司 数据处理方法、装置、电子设备及存储介质
CN116129126A (zh) * 2023-04-04 2023-05-16 整数智能信息技术(杭州)有限责任公司 分割预测模型的构建方法、图片语义分割标注方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHEN-XING WANG: "Weakly Supervised Learning for Over-Segmentation Based Handwritten Chinese Text Recognition", 《2020 17TH INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING RECOGNITION (ICFHR)》, 25 November 2020 (2020-11-25), pages 1 - 8 *
方华, 陆汝占, 刘绍明: "一个实现多种切分标注算法的系统", 计算机工程, no. 24, 5 December 2005 (2005-12-05), pages 1 - 6 *
袁健;张劲松;马良;: "二次回溯中文分词方法", 计算机应用研究, no. 09, 15 September 2009 (2009-09-15), pages 1 - 5 *
阳庆玲;郑志伟;邱佳玲;郭山清;贾忠伟;宋超;顾菁;李菁华;郝元涛;郝春;: "基于表情符号的文本情感分析研究", 现代预防医学, no. 09, 10 May 2019 (2019-05-10), pages 1 - 5 *

Also Published As

Publication number Publication date
CN117422071B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
US7426496B2 (en) Assisted form filling
CN110738027B (zh) 生成电子表格公式的计算机实现的方法、设备和存储介质
CN112529144B (zh) 一种面向短期时间序列预测的预期性学习方法和系统
Fogarty et al. Profile trees for Büchi word automata, with application to determinization
CN110209387B (zh) 一种顶层hdl文件生成方法和装置、计算机可读存储介质
CN108763368A (zh) 抽取新知识点的方法
US11182665B2 (en) Recurrent neural network processing pooling operation
CN105446986A (zh) 用于处理web页面的方法和装置
CN108229573B (zh) 基于决策树的分类计算方法和装置
CN111651950A (zh) 一种跨时钟域时序约束文件的生成方法、设备及介质
CN117422071B (zh) 一种文本词项多重分割标注转换方法及装置
US20220237500A1 (en) Test case execution sequences
US11775869B1 (en) Validation of account identifier
CN118192949A (zh) 基于大语言模型的漏洞代码工具生成方法、系统及介质
CN117436442B (zh) 一种文本词项多重分割合并标注拆分方法及装置
US11544582B2 (en) Predictive modelling to score customer leads using data analytics using an end-to-end automated, sampled approach with iterative local and global optimization
CN117422061B (zh) 一种文本词项多重分割结果合并标注方法及装置
CN109213971A (zh) 庭审笔录的生成方法及装置
US10318937B2 (en) Generating a product model
CN110083823B (zh) 词典表建立方法及装置、计算机装置、及存储介质
CN115687356A (zh) 实现自动化测试临床试验中数据核查的方法和系统
CN107766048A (zh) 一种页面编译方法及装置
CN112445784B (zh) 一种文本结构化的方法、设备及系统
CN112148349B (zh) 一种跨平台指令及配置统一接口的系统
CN118692469A (zh) 标注文本的处理方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant