CN114118028A - 空格处理方法、装置及电子设备 - Google Patents
空格处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114118028A CN114118028A CN202111421775.2A CN202111421775A CN114118028A CN 114118028 A CN114118028 A CN 114118028A CN 202111421775 A CN202111421775 A CN 202111421775A CN 114118028 A CN114118028 A CN 114118028A
- Authority
- CN
- China
- Prior art keywords
- space
- text
- target
- clauses
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种空格处理方法、装置及电子设备,属于信息处理技术领域。该方法包括:按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句,P为大于1的整数;获取所述P个候选句子的语义向量;基于所述语义向量获取所述第一空格的空格分值;基于所述空格分值对所述第一空格进行目标操作。
Description
技术领域
本申请属于信息处理技术领域,具体涉及一种空格处理方法、装置及电子设备。
背景技术
如今,很多用户在创作或表达时,通常会在文本中使用空格来代替标点符号,即使在很多正式的场景下,也会存在空格使用错误的情况出现,这样会导致文本中出现很多无效或不规范使用的空格。
目前,针对文本中存在的空格,通常是将空格进行删除,或者统一替换成某一标点如统一替换为逗号,这些处理方式可能会导致文本中的句子分隔出现偏差,处理效果比较差。
发明内容
本申请实施例的目的是提供一种空格处理方法、装置及电子设备,能够解决对文本中空格的处理方式可能会导致文本中的句子分隔出现偏差,而使得空格的处理效果比较差的问题。
第一方面,本申请实施例提供了一种空格处理方法,该方法包括:
按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句,P为大于1的整数;
获取所述P个候选句子的语义向量;
基于所述语义向量获取所述第一空格的空格分值;
基于所述空格分值对所述第一空格进行目标操作。
第二方面,本申请实施例提供了一种空格处理装置,该装置包括:
连接模块,用于按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句,P为大于1的整数;
第一获取模块,用于获取所述P个候选句子的语义向量;
第二获取模块,用于基于所述语义向量获取所述第一空格的空格分值;
目标操作模块,用于基于所述空格分值对所述第一空格进行目标操作。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,通过按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句;获取所述P个候选句子的语义向量;基于所述语义向量获取所述第一空格的空格分值;基于所述空格分值对所述第一空格进行目标操作。如此,可以基于第一文本中每个空格位置处前后相邻的两个分句,确定空格符合的空格分值,并基于空格分值对该空格进行相应处理,从而可以实现对文本中的空格的正确处理,有助于对文本的正确理解,进而可以提高对文本中空格的处理效果。
附图说明
图1是本申请实施例提供的空格处理方法的流程图;
图2是Transformer模型的结构示意图;
图3是两个第二分句的前一分句中词语之间的句法结构关系示意图;
图4是两个第二分句的后一分句中词语之间的句法结构关系示意图;
图5是本申请实施例提供的空格处理装置的结构图;
图6是本申请实施例提供的电子设备的结构图;
图7为实现本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的空格处理进行详细地说明。
图1是本申请实施例提供的空格处理方法的流程图,如图1所示,包括以下步骤:
步骤101,按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句。
其中,P为大于1的整数。
该步骤中,第一文本可以为任一文本,可以为长文本,也可以为短文本,这里不进行具体限定。
第一文本可以包括至少一个空格,至少一个空格可以将第一文本分隔成多个分句。当然,第一文本还可以包括标点符号,这里不进行具体限定。
第一空格可以为第一文本中任一空格,可以针对任一空格,获取该空格的位置处前后相邻的两个分句,得到两个第一分句。
比如,第一文本为“港股异动|公司(1801.)涨近5%与Corporation V合作引进下一代P抑制剂”,该第一文本包括多个空格,每个空格可以对第一文本进行分隔,分隔成不同分句。相应的,每个空号位置处前后相邻的两个分句构成两个第一分句。
可以基于每个空格的位置对第一文本进行分割,得到按照前后顺序排列的分句集合,如第一文本分割成分句集合[“港股异动”“|”“公司(1801.)涨近5%”“与Corporation”“V合作”“引进下一代P抑制剂”],该分句集合中前后相邻的任意两个分句即为两个第一分句。可以按照空格在第一文本中的先后顺序分别对第一文本中的空格进行空格处理,以确定第一文本中的空格是执行删除操作还是执行替换操作。
具体的,可以基于P种预设连接方式,将分句集合中第一空格对应的相邻两个第一分句按照前后顺序进行连接,得到所述P种预设连接方式一一对应的P个候选句子。P种预设连接方式可以包括两种,也可以包括三种,这里不进行具体限定。
在P种预设连接方式包括两种的情况下,可以分别为通过首尾拼接方式连接两个分句以及通过预设标点符号连接两个分句,预设标点符号可以为“,”。
在P种预设连接方式包括三种的情况下,可以分别为第一连接方式,第二连接方式和第三连接方式,第一连接方式通过空格连接两个分句,第二连接方式通过首尾拼接方式连接两个分句,第三连接方式通过预设标点符号连接两个分句。
步骤102,获取所述P个候选句子的语义向量。
可以确定每个候选句子的语义向量,得到P个语义向量,具体可以将每个候选句子分别输入到语言模型中进行向量表征,得到候选句子的语义向量。
步骤103,基于所述语义向量获取所述第一空格的空格分值。
该空格分值可以表征第一空格是否具备分隔作用,即可以表征第一空格是否冗余,也就是说,可以表征对文本分割的有效性。比如,在该空格分值大于预设阈值的情况下,可以确定该第一空格冗余,即该第一空格对文本分割无效,其没有实际意义,在该空格分值小于或等于预设阈值的情况下,可以确定该第一空格不冗余,即该第一空格对文本分割有效,其具备分隔作用。
在P种预设连接方式包括两种的情况下,可以基于该空格分值确定哪个候选句子更符合语义逻辑,从而可以从上述两种连接方式中确定前后两个第一分句合适的连接方式,进而可以基于确定的连接方式确定连接前后两个第一分句的空格是否冗余。
在P种预设连接方式包括三种的情况下,可以分别确定第一连接方式对应的候选句子的语义向量与第二连接方式对应的候选句子的语义向量的相似距离,以及第一连接方式对应的候选句子的语义向量与第三连接方式对应的候选句子的语义向量的相似距离,并基于这两个相似距离,确定第一空格的空格分值,以基于该空格分值确定第一连接方式对应的候选句子与第二连接方式对应的候选句子更相似,还是第一连接方式对应的候选句子与第三连接方式对应的候选句子更相似,从而从第二连接方式和第三连接方式中确定前后两个第一分句合适的连接方式,进而可以基于确定的连接方式确定连接前后两个第一分句的空格是否冗余。
步骤104,基于所述空格分值对所述第一空格进行目标操作。
可以基于该空格分值,从P种预设连接方式中确定目标连接方式,该目标连接方式可以表征该第一空格是否冗余。相应的,可以按照与该目标连接方式相同的连接方式来对第一空格进行目标操作。
其中,在目标连接方式为通过首尾拼接方式连接两个分句的连接方式的情况下,可以确定第一空格冗余,在目标连接方式为通过预设标点符号连接两个分句的连接方式的情况下,可以确定第一空格不冗余,其具备分隔作用。
之后,可以按照与该目标连接方式相同的连接方式来对第一空格进行目标操作。比如,目标连接方式为第二连接方式时,可以确定第一空格冗余,相应执行删除操作,即删除第一文本中的第一空格。目标连接方式为第三连接方式时,可以确定第一空格不冗余,在第一空格不满足预设文本规范的情况下,相应执行替换操作,即替换第一文本中的第一空格。而在第一空格满足预设文本规范的情况下,可以不执行任何操作。
在具体实现时,可以基于每个空格的位置对第一文本进行分割,得到按照前后顺序排列的多个第一分句;基于P种预设连接方式,将所述多个第一分句中第一空格对应的相邻两个第一分句按照前后顺序进行连接,得到所述P种预设连接方式一一对应的P个候选句子,P为大于1的整数;确定每个候选句子的语义向量,得到P个语义向量;基于所述P个语义向量确定第一空格的空格分值,以基于该空格分值从所述P种预设连接方式中选择目标连接方式,所述目标连接方式用于表征所述第一空格对文本分割的有效性;基于所述目标连接方式,确定对第一空格所需要执行的目标操作。
本实施例中,通过按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句;获取所述P个候选句子的语义向量;基于所述语义向量获取所述第一空格的空格分值;基于所述空格分值对所述第一空格进行目标操作。如此,可以基于第一文本中每个空格位置处前后相邻的两个分句,确定空格符合的空格分值,并基于空格分值对该空格进行相应处理,从而可以实现对文本中的空格的正确处理,有助于对文本的正确理解,进而可以提高对文本中空格的处理效果。
可选的,所述P种预设连接方式包括第一连接方式、第二连接方式和第三连接方式,所述第一连接方式通过空格连接两个分句,所述第二连接方式通过首尾拼接方式连接两个分句,所述第三连接方式通过预设标点符号连接两个分句;
所述步骤103具体包括:
基于所述语义向量,确定第一相似距离和第二相似距离,所述第一相似距离为所述第一连接方式对应的候选句子与所述第二连接方式对应的候选句子之间的相似距离,所述第二相似距离为所述第一连接方式对应的候选句子与所述第三连接方式对应的候选句子之间的相似距离;
基于所述第一相似距离和所述第二相似距离,确定所述第一空格的空格分值。
本实施方式中,第一空格的空格分值可以用于表征所述第一连接方式与所述P种预设连接方式中其他连接方式的相似性。
设第一空格对应的相邻两个第一分句中前一分句为A,后一分句为B,第一连接方式对应的候选句子可以用“AB”表示,前后两个分句之间包括一个空格,第二连接方式对应的候选句子可以用“AB”表示,前后两个分句之间不存在空格,第三连接方式对应的候选句子可以用“A,B”表示,前后两个分句用标点符号“,”连接。
这三个候选句子的语义向量分别用eAB、eAB和eA,B表示,可以基于eAB和eAB,采用距离计算公式确定第一相似距离,用cos_sim(eAB,eAB)表示,并基于eAB和eA,B,采用距离计算公式确定第二相似距离,用cos_sim(eAB,eA,B)表示。
可以采用下式(1),基于所述第一相似距离和所述第二相似距离,确定第一空格的空格分值。
其中,V为空格分值,penalty为惩罚系数,其可以大于或等于1。
空格分值越大,表征eAB与eAB更接近,可以选择第二连接方式,否则,表征eAB与eA,B更接近,可以选择第三连接方式。
惩罚系数是针对A的末尾或者B句的开头是标点符号的情况设计的一个参数,指的是A与B中间已经存在一个标点符号,在这种情况下,空格无意义的可能性更大,也就是说,“AB”应该更接近“AB”,例如A为“港股异动”,B为“|”,由于B的开头是标点符号,这种情况下,A与B之间的空格更加倾向于是冗余的空格。
当然,也可以采用其他公式基于所述第一相似距离和所述第二相似距离确定空格分值,这里不进行具体限定。
本实施方式中,通过基于所述语义向量,确定第一相似距离和第二相似距离,所述第一相似距离为所述第一连接方式对应的候选句子与所述第二连接方式对应的候选句子之间的相似距离,所述第二相似距离为所述第一连接方式对应的候选句子与所述第三连接方式对应的候选句子之间的相似距离;基于所述第一相似距离和所述第二相似距离,确定所述第一空格的空格分值。如此,可以通过比对候选句子的相似性,确定第一空格的空格分值,从而可以基于空格分值确定前后两个第一分句合适的连接方式,进而可以确定连接前后两个第一分句的空格是否冗余。
可选的,所述步骤104具体包括:
基于所述空格分值,确定所述第一空格的目标属性信息;
在所述目标属性信息表征所述第一空格对文本分割无效的情况下,对所述第一空格进行删除操作;
在所述目标属性信息表征所述第一空格对文本分割有效且不满足预设文本规范的情况下,对所述第一空格进行替换操作。
本实施方式中,第一文本中可以包括至少一种属性的空格,比如,可以包括对文本分割无效的空格,如,“港股异动|”中“港股异动”与符号“|”之间的空格即为对文本分割无效的空格,其可以称之为冗余的空格,指的是无作用的空格,删除该空格不会造成对文本理解的困难性。
又比如,可以包括对文本分割有效的空格,比如,两个英文单词如“CorporationV”中的空格即为对文本分割有效的空格,又比如,“你明天来我家玩我请你吃饭”中的空格即为对文本分割有效的空格。这种属性的空格可以称之为不冗余的空格,不能删除,删除之后可能会造成文本理解的困难性。
在空格对文本分割有效的情况下,空格的属性还可以分为两种,第一种可以为满足预设文本规范的空格,如“Corporation V”中的空格即为满足预设文本规范的空格,而空格满足预设文本规范指的是该空格能够正确分割文本中的不同元素。
第二种可以为不满足预设文本规范的空格,比如,“你明天来我家玩我请你吃饭”中的空格为不满足预设文本规范的空格,该空格不是正常分割这两个句子的符号,而正常分割这两个句子的标点符号应该是“,”。
相应的,目标属性信息可以表征第一空格对文本分割的有效性和是否满足预设文本规范,第一空格的目标属性信息所表征的属性可以为上述三种属性中的一种。具体为,第一种情况可以表征对文本分割无效,第二种情况可以表征对文本分割有效且满足预设文本规范,第三种情况可以表征对文本分割有效且不满足预设文本规范。
可以基于该空格分值,确定第一空格的目标属性信息。具体的,在基于上式(1)确定空格分值的情况下,上式(1)实际上是通过确定空格之间分句的连接情况来确定空格的作用,从而确定空格的属性,当空格分值大于预设阈值时,可以确定第一空格对文本分割无效,当空格分值小于或等于预设阈值时,可以确定第一空格对文本分割有效,至于第一空格是否满足预设文本规范,还需进一步确定,在以下实施方式中进行详细说明。
相应的,在所述目标属性信息表征所述第一空格对文本分割无效的情况下,可以对所述第一空格进行删除操作;而在所述目标属性信息表征所述第一空格对文本分割有效且不满足预设文本规范的情况下,对所述第一空格进行替换操作。
本实施方式中,通过基于所述空格分值,确定所述第一空格的目标属性信息;在所述目标属性信息表征所述第一空格对文本分割无效的情况下,对所述第一空格进行删除操作;在所述目标属性信息表征所述第一空格对文本分割有效且不满足预设文本规范的情况下,对所述第一空格进行替换操作。如此,可以基于该空格分值实现对第一空格所需要执行的目标操作确定。
可选的,所述基于所述空格分值,确定所述第一空格的目标属性信息,包括:
在所述空格分值大于预设阈值的情况下,确定所述第一空格为对文本分割无效的所述目标属性信息;
在所述空格分值小于或等于所述预设阈值的情况下,确定所述第一空格为对文本分割有效的所述目标属性信息。
本实施方式中,在基于上式(1)确定第一空格的空格分值的情况下,可以设定一阈值即预设阈值,在所述空格分值大于预设阈值的情况下,则判断“AB”与“AB”更相似,将第二连接方式确定为目标连接方式,而第二连接方式表征第一空格没有实际含义,是冗余的,可以进行省略,即确定第一空格为对文本分割无效。其中,预设阈值可以根据实际情况进行设置,这里不进行具体限定。
在所述空格分值小于或等于所述预设阈值的情况下,则判断“AB”与“A,B”更相似,将第三连接方式确定为目标连接方式,而第三连接方式表征第一空格具备分隔作用,不是冗余的,即确定所述第一空格为对文本分割有效。
本实施方式中,通过在所述空格分值大于预设阈值的情况下,确定所述第一空格为对文本分割无效的所述目标属性信息;在所述空格分值小于或等于所述预设阈值的情况下,确定所述第一空格为对文本分割有效的所述目标属性信息。如此,可以非常简单地进行空格是否冗余的判断。
可选的,所述基于所述空格分值,确定所述第一空格的目标属性信息,包括:
在所述空格分值小于或等于预设阈值的情况下,获取所述两个第一分句的前一分句中末个文本单元和所述两个第一分句的后一分句中首个文本单元;
在所述末个文本单元与所述首个文本单元的类型相同,且为预设类型的情况下,确定所述第一空格为对文本分割有效且满足预设文本规范的所述目标属性信息;
在所述末个文本单元与所述首个文本单元的类型不相同,或者所述末个文本单元与所述首个文本单元的类型相同但不为所述预设类型的情况下,确定所述第一空格为对文本分割有效且不满足预设文本规范的所述目标属性信息。
本实施方式中,在确定第一空格对文本分割有效的情况下,还需要进一步确定第一空格是否满足预设文本规范。具体可以根据第一空格符合对应的相邻两个第一分句中前一分句的末个文本单元和后一分句的首个文本单元来判断。其中,文本单元可以指的是分句中的元素,如文字、数字或单词等。
在所述末个文本单元与所述首个文本单元的类型相同,且为预设类型的情况下,确定所述第一空格满足预设文本规范。其中,预设类型可以包括英文单词、数字或其他语言的字等。也就是说,若末个文本单元和首个文本单元同时为英文单词或数字,则判断该第一空格满足预设文本规范,此处无需添加标点符号。
在所述末个文本单元与所述首个文本单元的类型不相同,或者所述末个文本单元与所述首个文本单元的类型相同但不为所述预设类型的情况下,确定所述第一空格不满足预设文本规范,此处需要添加标点符号对相邻两个分句进行分隔。
本实施方式中,通过相邻两个分句中前一分句的末个文本单元和后一分句的首个文本单元的类型,可以实现对第一空格是否满足预设文本规范的判断。
可选的,在基于所述空格分值对所述第一空格进行替换操作的情况下,所述方法还包括:
对所述第一空格位置处的标点符号进行预测,得到目标标点符号;
将所述第一空格替换为所述目标标点符号。
本实施方式中,在基于所述空格分值对所述第一空格进行替换操作的情况下,即确定第一空格的属性为对文本分割有效且不满足预设文本规范,在该种场景下,需要预测该第一空格位置处的标点符号,以进行替换,从而正确分隔第一空格的位置处的相邻两个分句。
可以基于所述两个第一分句,来对第一空格位置处的标点符号进行预测,也可以基于两个第二分句,来对第一空格位置处的标点符号进行预测,这里不进行具体限定。
其中,所述两个第二分句可以为第二文本中所述第一空格的位置处前后相邻的两个分句,第二文本可以基于第一文本和空格分值确定的空格的目标属性信息确定,即可以将第一文本中对文本分割无效的空格删除,得到第二文本。
可以基于深度学习模型对第一空格位置处的标点符号进行预测,如基于注意力机制的Transformer模型对第一空格位置处的标点符号进行预测。
本实施方式中,通过在基于所述空格分值对所述第一空格进行替换操作的情况下,对所述第一空格位置处的标点符号进行预测,得到目标标点符号;将所述第一空格替换为所述目标标点符号。如此,可以实现对文本分割有效且不满足预设文本规范的空格进行正确处理,进一步提高空格的处理效果。
可选的,所述对所述第一空格位置处的标点符号进行预测,得到目标标点符号,包括:
对两个第二分句分别按照词语进行划分,得到所述两个第二分句的前一分句对应的第一词语序列和所述两个第二分句的后一分句对应的第二词语序列,所述两个第二分句为第二文本中所述第一空格的位置处前后相邻的两个分句,所述第二文本为所述第一文本中基于所述空格分值确定的至少部分文本;
针对目标词语序列中每个词语,基于所述词语与所述目标词语序列中其他词语的关系,确定所述词语对应的相关性权重信息;基于所述相关性权重信息将所述目标词语序列中各个词语的第一特征信息进行融合,得到所述词语的目标特征信息,所述目标词语序列为所述第一词语序列或所述第二词语序列;
基于所述第一词语序列中词语的目标特征信息和所述第二词语序列中词语的目标特征信息,对所述第一空格位置处的标点符号进行预测,得到目标标点符号。
具体的,在进行预测之前,可以删除第一文本中对文本分割无效的空格,得到第二文本。比如,第一文本为“港股异动|公司(1801.)涨近5%与Corporation V合作引进下一代P抑制剂”,删除第一文本中对文本分割无效的空格后,得到第二文本“港股异动|公司(1801.)涨近5%与Corporation V合作引进下一代P抑制剂”,即分别删除了“|”前后的空格、以及“合作”与“引进”之间的空格。
另外,在第二文本包括对文本分割有效且满足预设文本规范的空格的情况下,可以保留该空格,且该空格不作为分句的依据,即该空格可以用于连接前后两个元素,使之作为同一分句的不同元素,也就是说,该空格前后的两个元素为同一分句的不同元素。比如,可以合并“与Corporation”和“V合作引进下一代P抑制剂”,最终得到分句“与CorporationV合作引进下一代P抑制剂”。
在第一文本中不包括对文本分割无效的空格的情况下,第二文本即为第一文本。
之后,可以基于第一空格的位置对第二文本进行分割,得到顺序排列的分句集合,该分句集合可以包括多个第二分句。该分句集合可以按照在第二文本的前后顺序进行顺序排列,比如,第二文本“港股异动|公司(1801.)涨近5%与Corporation V合作引进下一代P抑制剂”,基于第一空格的位置对第二文本进行分割后,得到两个第二分句,分别为“港股异动|公司(1801.)涨近5%”和“与Corporation V合作引进下一代P抑制剂”。
之后,可以针对每相邻两个第二分句,基于该相邻两个第二分句的关系对该相邻两个第二分句之间的第一空格位置处的标点符号进行预测,以将该第一空格替换为合适的标点符号,正确分隔第二文本中的句子。
其中,可以基于该相邻两个第二分句之间的语义关系对该相邻两个第二分句之间的第一空格位置处的标点符号进行预测,也可以基于该相邻两个第二分句之间的句法结构关系对该相邻两个第二分句之间的第一空格位置处的标点符号进行预测,还可以基于该相邻两个第二分句之间的语义关系和句法结构关系对该相邻两个第二分句之间的第一空格位置处的标点符号进行预测,这里不进行具体限定。
以Transformer模型对相邻两个第二分句之间的第一空格位置处的标点符号进行预测为例,在预测之前,需要对Transformer模型进行训练,可以收集大量带有满足预设文本规范的标点符号的文本,按标点符号的位置处拆分为前后两个分句,构建一个训练数据集,其中,相邻两个分句作为输入,标点符号则作为预测目标。
通常,标点符号的省略,多出现在语法结构不完整的语句之间,因此,可以确定空格替换的标点符号,即预测目标可以设置为待替换的标点符号集{“,”“、”“:”“——”}中任一个,将所有文本语料分句,之后待替换的标点符号集中的标点符号将文本分割为粒度更细的子句,构建三元组,用(Ta,Tb,Y)表示,Ta表示标点符号处的前一分句,Tb表示标点符号处的后一分句,Y∈{“,”“、”“:”“——”},表示前后两个分句之间的连接符。
可以采用双塔模型分别训练训练数据集中的前后两个分句,之后连接两个分句的特征,并预测两个分句之间的标点符号,将预测出来的标点符号与训练数据集中的标签进行比对,以更新Transformer模型的参数,最终实现Transformer模型的参数。其训练过程为深度学习模型的有监督学习的训练过程类似,这里不进行具体阐述。
标点符号的选择,通常可以由前后两个分句的语义逻辑关系决定,比如“,”通常表示前后两个分句的并列关系,而“:”表示前后两个分句之间的补充或解释关系。利用前后两个分句之间的语义逻辑关系,可以区分用法差异明显的标点符号,而对于同样可用于并列关系的“,”和“、”,难以区分。
因此,可以进一步考虑前后两个分句的语法结构,即句法结构,比如“,”表示长停顿,“、”用于短停顿,主要区别在于“、”用于短短语之间,而“,”所处的前后两个分句结构更复杂。为此,可以在识别前后两个分句的语义逻辑关系基础上,融合前后两个分句的语法结构特征,预测前后两个分句之间的标点符号,即基于前后两个分句的语义关系和句法结构关系,预测前后两个分句之间的标点符号。
训练完成之后,可以基于该Transformer模型对每相邻两个第二分句之间的第一空格位置处的标点符号进行预测。具体可以分别将相邻两个第二分句中的每个第二分句进行分词以及标注之后,将词语序列和标注信息输入至Transformer模型,基于该Transformer模型的一系列预测处理,可以得到该第一空格位置处的标点符号,其具体的预测处理过程如下描述。
可以基于Transformer模型,采用双塔结构分别对相邻两个第二分句进行特征表征。
Transformer模型的结构图如图2所示,左边结构可以用于对所述两个第二分句中前一分句进行特征表征,右边结构可以用于对所述两个第二分句中后一分句进行特征表征。
具体的,可以分别对所述两个第二分句的前一分句和所述两个第二分句的后一分句按照词语进行划分,得到所述两个第二分句的前一分句对应的第一词语序列和所述两个第二分句的后一分句对应的第二词语序列。
比如,所述两个第二分句的前一分句为“港股异动|公司(1801.)涨近5%”,所述两个第二分句的后一分句为“与Corporation V合作引进下一代P抑制剂”。进行词语划分之后,第一词语序列如下表1所示,第二词语序列为如下表2所示。
表1第一词语序列及词性标注结果表
港股 | 异动 | | | 公司 | ( | 1801. | ) | 涨 | 近 | 5% |
名词 | 动词 | 标点 | 名词 | 标点 | 数词 | 标点 | 动词 | 形容词 | 数词 |
表2第二词语序列及词性标注结果表
与 | Corporation | V | 合作 | 引进 | 下一代 | P | 抑制剂 |
介词 | 名词 | 名词 | 动词 | 动词 | 形容词 | 名词 | 名词 |
之后,针对目标词语序列中每个词语,可以基于所述词语与所述目标词语序列中其他词语的语义关系和/或句法结构关系,确定所述词语对应的相关性权重信息;基于所述相关性权重信息将所述目标词语序列中各个词语的第一特征信息进行融合,得到所述词语的目标特征信息。
在一可选实施方式中,可以基于所述词语与所述目标词语序列中其他词语的语义关系,确定所述词语对应的相关性权重信息,Transformer模型具体可以通过学习词语与词语之间的语义关系,表征文本语义,通过计算词语之间的语义关联权重,对上下文特征进行融合。
在另一可选实施方式中,可以基于所述词语与所述目标词语序列中其他词语的语义关系和句法结构关系,确定所述词语对应的相关性权重信息,其中句法结构关系可以表征分句中词语之间的依赖关系,具体步骤如下:
所述基于所述词语与所述目标词语序列中其他词语的关系,确定所述词语对应的相关性权重信息,包括:
获取所述词语与所述目标词语序列中其他词语的句法结构关系;
对所述句法结构关系进行特征映射,得到表征所述句法结构关系的第二特征信息;
基于所述第二特征信息、所述词语的第三特征信息和所述目标词语序列中其他词语的第四特征信息,确定所述词语对应的相关性权重信息;
其中,所述第一特征信息、第三特征信息和第四特征信息分别对词语的初始特征信息进行不同的变换得到。
在该实施方式中,可以对目标词语序列中词语的语义和词语之间的语法特征进行表征,语法特征可以包括表征句法结构关系的特征,还可以同时包括表征句法结构关系的特征即句法特征和表征词性的特征即词法特征,之后将语义特征和语法特征进行融合,得到词语的目标特征信息。
具体的,可以将第一词语序列输入左边结构的模型,将第二词语序列输入右边结构的模型,由于两边的处理方式相同,这里将以对第一词语序列进行特征表征为例进行说明。
如图2所示,Transformer模型的输入可以包括第一词语序列中的文本词Token、词语位置的特征和词语的词性标注结果,如表1所示,表中第二行即为各词语的词性标注结果。
可以通过嵌入Embedding的方式将各输入映射到特征空间中,得到各输入的特征,如图2所示,Bw1开头的那一行特征即对应各词语的词性标注结果的特征,Pw1开头的那一行特征即对应各词语的位置特征,Tw1开头的那一行特征即对应各词语的语义特征。
针对第一词语序列中每个词语,可以以相加或拼接的方式将上述三种特征进行融合,得到该词语的初始特征信息。
之后,将初始特征信息分别进行三种不同的线性变换,得到词语的第一特征信息、第三特征信息和第四特征信息。
另外,Transformer模型的输入还可以包括第一词语序列中词语之间的句法结构关系,可以通过句法解析得到第一词语序列中词语之间的句法结构关系。所述两个第二分句的前一分句中词语之间的句法结构关系如图3所示,所述两个第二分句的后一分句中词语之间的句法结构关系如图4所示。
也可以通过向量表征的方式将第一词语序列中词语之间的句法结构关系映射到特征空间中,之后融合到Transformer的计算结构中,具体计算公式如下式(2)、(3)、(4)和(5)所示。
rij=E(Rij) (2)
其中,上式(2)至(5)中,Rij可以为第一词语序列中词语之间的句法结构关系,rij可以为表征句法结构关系的特征向量,上式(3)中,αij可以为针对第i个词语,其与第j个词语之间的相关性权重,为针对第i个词语,其与第j个词语之间归一化的相关性权重,qi为第i个词语的第三特征信息,kj为第j个词语的第四特征信息,vj为第j个词语的第一特征信息,d为大于0的常数,第一特征信息、第三特征信息和第四特征信息均表示的是词语的语义特征。
上式(3)表示在表征第i个词语的特征时,需要同时考虑该词语与其他所有词之间的语义以及句法结构关系,来量化相关性权重。
上式(5)表示,若同时考虑词语之间的语义关系和句法结构关系,需要基于所述相关性权重信息将所述目标词语序列中各个词语的第一特征信息和表征句法结构关系的特征信息进行融合,得到所述词语的目标特征信息。即通过相加的方式将第j个词语的第一特征信息和表征第i个词语与第j个词语之间的句法结构关系的特征信息进行融合,之后基于相关性权重信息进行上下文特征的加权融合,得到第i个词语的目标特征信息。
可以采用相加或拼接的方式将第一词语序列中各个词语的目标特征信息进行融合,得到所述两个第二分句的前一分句的特征信息,并采用右边结构的Transformer模型将第二词语序列中各个词语的目标特征信息进行融合,得到所述两个第二分句的后一分句的特征信息。
之后,将所述两个第二分句的前一分句的特征信息和所述两个第二分句的后一分句的特征信息进行拼接,并利用分类层输出预测结果,该预测结果可以包括目标标点符号和预测置信度,若预测置信度高(如达到阈值),则可以将第一空格替换为目标标点符号。
本实施方式中,通过利用相邻两个第二分句以及相邻两个第二分句中每个分句中词语之间的关系来进行第一空格位置处标点符号的预测,从而可以提高标点符号的预测准确性。
并且,通过获取所述词语与所述目标词语序列中其他词语的句法结构关系;对所述句法结构关系进行特征映射,得到表征所述句法结构关系的第二特征信息;基于所述第二特征信息、所述词语的第三特征信息和所述目标词语序列中其他词语的第四特征信息,确定所述词语对应的相关性权重信息;其中,所述第一特征信息、第三特征信息和第四特征信息分别对词语的初始特征信息进行不同的变换得到。如此,在进行第一空格位置处标点符号的预测时,不仅考虑到分句中词语之间的语义关系,还考虑了分句中词语之间的句法结构关系,从而可以进一步提高标点符号的预测准确性。
可选的,所述词语的第一特征信息通过以下步骤得到:
获取所述词语的目标信息,所述目标信息包括所述词语的词性标注结果;
对所述目标信息进行特征映射,得到所述词语的初始特征信息;
对所述初始特征信息进行变换,得到所述词语的第一特征信息。
本实施方式中,目标信息可以包括第一词语序列中的文本词Token、词语位置的特征和词语的词性标注结果,可以通过嵌入Embedding的方式将各输入映射到特征空间中,得到各输入的特征,如图2所示,Bw1开头的那一行特征即对应各词语的词性标注结果的特征,Pw1开头的那一行特征即对应各词语的位置特征,Tw1开头的那一行特征即对应各词语的语义特征。
针对第一词语序列中每个词语,可以以相加或拼接的方式将上述三种特征进行融合,得到该词语的初始特征信息。
之后,将初始特征信息分别进行三种不同的线性变换,得到词语的第一特征信息、第三特征信息和第四特征信息。
本实施方式中,在进行标点符号的预测时,同时考虑了分句中各词语的词法特征,从而可以进一步提高标点符号的预测准确性。
需要说明的是,本申请实施例提供的空格处理方法,执行主体可以为空格处理装置,或者该空格处理装置中的用于执行空格处理方法的控制模块。本申请实施例中以空格处理装置执行空格处理方法为例,说明本申请实施例提供的空格处理装置。
参见图5,图5是本申请实施例提供的空格处理装置的结构图,如图5所示,空格处理装置500包括:
连接模块501,用于按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句,P为大于1的整数;
第一获取模块502,用于获取所述P个候选句子的语义向量;
第二获取模块503,用于基于所述语义向量获取所述第一空格的空格分值;
目标操作模块504,用于基于所述空格分值对所述第一空格进行目标操作。
可选的,所述P种预设连接方式包括第一连接方式、第二连接方式和第三连接方式,所述第一连接方式通过空格连接两个分句,所述第二连接方式通过首尾拼接方式连接两个分句,所述第三连接方式通过预设标点符号连接两个分句;所述第二获取模块503,具体用于:
基于所述语义向量,确定第一相似距离和第二相似距离,所述第一相似距离为所述第一连接方式对应的候选句子与所述第二连接方式对应的候选句子之间的相似距离,所述第二相似距离为所述第一连接方式对应的候选句子与所述第三连接方式对应的候选句子之间的相似距离;
基于所述第一相似距离和所述第二相似距离,确定所述第一空格的空格分值。
可选的,所述目标操作模块504包括
第一确定单元,用于基于所述空格分值,确定所述第一空格的目标属性信息;
删除操作单元,用于在所述目标属性信息表征所述第一空格对文本分割无效的情况下,对所述第一空格进行删除操作;
替换操作单元,用于在所述目标属性信息表征所述第一空格对文本分割有效且不满足预设文本规范的情况下,对所述第一空格进行替换操作。
可选的,所述第一确定单元,具体用于:
在所述空格分值大于预设阈值的情况下,确定所述第一空格为对文本分割无效的所述目标属性信息;
在所述空格分值小于或等于所述预设阈值的情况下,确定所述第一空格为对文本分割有效的所述目标属性信息。
可选的,所述第一确定单元,具体用于:
在所述空格分值小于或等于预设阈值的情况下,获取所述两个第一分句的前一分句中末个文本单元和所述两个第一分句的后一分句中首个文本单元;
在所述末个文本单元与所述首个文本单元的类型相同,且为预设类型的情况下,确定所述第一空格为对文本分割有效且满足预设文本规范的所述目标属性信息;
在所述末个文本单元与所述首个文本单元的类型不相同,或者所述末个文本单元与所述首个文本单元的类型相同但不为所述预设类型的情况下,确定所述第一空格为对文本分割有效且不满足预设文本规范的所述目标属性信息。
可选的,所述装置还包括:
预测模块,用于对所述第一空格位置处的标点符号进行预测,得到目标标点符号;
符号替换模块,用于将所述第一空格替换为所述目标标点符号。
可选的,所述预测模块包括:
划分单元,用于对两个第二分句分别按照词语进行划分,得到所述两个第二分句的前一分句对应的第一词语序列和所述两个第二分句的后一分句对应的第二词语序列,所述两个第二分句为第二文本中所述第一空格的位置处前后相邻的两个分句,所述第二文本为所述第一文本中基于所述空格分值确定的至少部分文本;
第二确定单元,用于针对目标词语序列中每个词语,基于所述词语与所述目标词语序列中其他词语的关系,确定所述词语对应的相关性权重信息;基于所述相关性权重信息将所述目标词语序列中各个词语的第一特征信息进行融合,得到所述词语的目标特征信息,所述目标词语序列为所述第一词语序列或所述第二词语序列;
预测单元,用于基于所述第一词语序列中词语的目标特征信息和所述第二词语序列中词语的目标特征信息,对所述第一空格位置处的标点符号进行预测,得到目标标点符号。
可选的,所述第二确定单元,具体用于:
获取所述词语与所述目标词语序列中其他词语的句法结构关系;
对所述句法结构关系进行特征映射,得到表征所述句法结构关系的第二特征信息;
基于所述第二特征信息、所述词语的第三特征信息和所述目标词语序列中其他词语的第四特征信息,确定所述词语对应的相关性权重信息;
其中,所述第一特征信息、第三特征信息和第四特征信息分别对词语的初始特征信息进行不同的变换得到。
可选的,所述词语的第一特征信息通过以下步骤得到:
获取所述词语的目标信息,所述目标信息包括所述词语的词性标注结果;
对所述目标信息进行特征映射,得到所述词语的初始特征信息;
对所述初始特征信息进行变换,得到所述词语的第一特征信息。
本实施例中,通过连接模块501按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句;通过第一获取模块502获取所述P个候选句子的语义向量;通过第二获取模块503基于所述语义向量获取所述第一空格的空格分值;通过目标操作模块504基于所述空格分值对所述第一空格进行目标操作。如此,可以基于第一文本中每个空格位置处前后相邻的两个分句,确定空格符合的空格分值,并基于空格分值对该空格进行相应处理,从而可以实现对文本中的空格的正确处理,有助于对文本的正确理解,进而可以提高对文本中空格的处理效果。
本申请实施例中的空格处理装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的空格处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的空格处理装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图6所示,本申请实施例还提供一种电子设备600,包括处理器601,存储器602,存储在存储器602上并可在所述处理器601上运行的程序或指令,该程序或指令被处理器601执行时实现上述空格处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图7为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备700包括但不限于:射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。
本领域技术人员可以理解,电子设备700还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器710逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器710,用于:
按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句,P为大于1的整数;
获取所述P个候选句子的语义向量;
基于所述语义向量获取所述第一空格的空格分值;
基于所述空格分值对所述第一空格进行目标操作。
本实施例中,通过处理器710按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句;获取所述P个候选句子的语义向量;基于所述语义向量获取所述第一空格的空格分值;基于所述空格分值对所述第一空格进行目标操作。如此,可以基于第一文本中每个空格位置处前后相邻的两个分句,确定空格符合的空格分值,并基于空格分值对该空格进行相应处理,从而可以实现对文本中的空格的正确处理,有助于对文本的正确理解,进而可以提高对文本中空格的处理效果。
可选的,所述P种预设连接方式包括第一连接方式、第二连接方式和第三连接方式,所述第一连接方式通过空格连接两个分句,所述第二连接方式通过首尾拼接方式连接两个分句,所述第三连接方式通过预设标点符号连接两个分句;处理器710,还用于:
基于所述语义向量,确定第一相似距离和第二相似距离,所述第一相似距离为所述第一连接方式对应的候选句子与所述第二连接方式对应的候选句子之间的相似距离,所述第二相似距离为所述第一连接方式对应的候选句子与所述第三连接方式对应的候选句子之间的相似距离;
基于所述第一相似距离和所述第二相似距离,确定所述第一空格的空格分值。
可选的,处理器710,还用于:
基于所述空格分值,确定所述第一空格的目标属性信息;
在所述目标属性信息表征所述第一空格对文本分割无效的情况下,对所述第一空格进行删除操作;
在所述目标属性信息表征所述第一空格对文本分割有效且不满足预设文本规范的情况下,对所述第一空格进行替换操作。
可选的,处理器710,还用于:
在所述空格分值大于预设阈值的情况下,确定所述第一空格为对文本分割无效的所述目标属性信息;
在所述空格分值小于或等于所述预设阈值的情况下,确定所述第一空格为对文本分割有效的所述目标属性信息。
可选的,处理器710,还用于:
在所述空格分值小于或等于预设阈值的情况下,获取所述两个第一分句的前一分句中末个文本单元和所述两个第一分句的后一分句中首个文本单元;
在所述末个文本单元与所述首个文本单元的类型相同,且为预设类型的情况下,确定所述第一空格为对文本分割有效且满足预设文本规范的所述目标属性信息;
在所述末个文本单元与所述首个文本单元的类型不相同,或者所述末个文本单元与所述首个文本单元的类型相同但不为所述预设类型的情况下,确定所述第一空格为对文本分割有效且不满足预设文本规范的所述目标属性信息。
可选的,在基于所述空格分值对所述第一空格进行替换操作的情况下,处理器710,还用于:
对所述第一空格位置处的标点符号进行预测,得到目标标点符号;
将所述第一空格替换为所述目标标点符号。
可选的,处理器710,还用于:
对两个第二分句分别按照词语进行划分,得到所述两个第二分句的前一分句对应的第一词语序列和所述两个第二分句的后一分句对应的第二词语序列,所述两个第二分句为第二文本中所述第一空格的位置处前后相邻的两个分句,所述第二文本为所述第一文本中基于所述空格分值确定的至少部分文本;
针对目标词语序列中每个词语,基于所述词语与所述目标词语序列中其他词语的关系,确定所述词语对应的相关性权重信息;基于所述相关性权重信息将所述目标词语序列中各个词语的第一特征信息进行融合,得到所述词语的目标特征信息,所述目标词语序列为所述第一词语序列或所述第二词语序列;
基于所述第一词语序列中词语的目标特征信息和所述第二词语序列中词语的目标特征信息,对所述第一空格位置处的标点符号进行预测,得到目标标点符号。
可选的,处理器710,还用于:
获取所述词语与所述目标词语序列中其他词语的句法结构关系;
对所述句法结构关系进行特征映射,得到表征所述句法结构关系的第二特征信息;
基于所述第二特征信息、所述词语的第三特征信息和所述目标词语序列中其他词语的第四特征信息,确定所述词语对应的相关性权重信息;
其中,所述第一特征信息、第三特征信息和第四特征信息分别对词语的初始特征信息进行不同的变换得到。
可选的,处理器710,还用于:
获取所述词语的目标信息,所述目标信息包括所述词语的词性标注结果;
对所述目标信息进行特征映射,得到所述词语的初始特征信息;
对所述初始特征信息进行变换,得到所述词语的第一特征信息。
应理解的是,本申请实施例中,输入单元704可以包括图形处理器(GraphicsProcessing Unit,GPU)7041和麦克风7042,图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板7061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071,也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器709可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器710可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述空格处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述空格处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (18)
1.一种空格处理方法,其特征在于,包括:
按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句,P为大于1的整数;
获取所述P个候选句子的语义向量;
基于所述语义向量获取所述第一空格的空格分值;
基于所述空格分值对所述第一空格进行目标操作。
2.根据权利要求1所述的方法,其特征在于,所述P种预设连接方式包括第一连接方式、第二连接方式和第三连接方式,所述第一连接方式通过空格连接两个分句,所述第二连接方式通过首尾拼接方式连接两个分句,所述第三连接方式通过预设标点符号连接两个分句;
所述基于所述语义向量获取所述第一空格的空格分值,包括:
基于所述语义向量,确定第一相似距离和第二相似距离,所述第一相似距离为所述第一连接方式对应的候选句子与所述第二连接方式对应的候选句子之间的相似距离,所述第二相似距离为所述第一连接方式对应的候选句子与所述第三连接方式对应的候选句子之间的相似距离;
基于所述第一相似距离和所述第二相似距离,确定所述第一空格的空格分值。
3.根据权利要求1所述的方法,其特征在于,所述基于所述空格分值对所述第一空格进行目标操作,包括:
基于所述空格分值,确定所述第一空格的目标属性信息;
在所述目标属性信息表征所述第一空格对文本分割无效的情况下,对所述第一空格进行删除操作;
在所述目标属性信息表征所述第一空格对文本分割有效且不满足预设文本规范的情况下,对所述第一空格进行替换操作。
4.根据权利要求3所述的方法,其特征在于,所述基于所述空格分值,确定所述第一空格的目标属性信息,包括:
在所述空格分值大于预设阈值的情况下,确定所述第一空格为对文本分割无效的所述目标属性信息;
在所述空格分值小于或等于所述预设阈值的情况下,确定所述第一空格为对文本分割有效的所述目标属性信息。
5.根据权利要求3所述的方法,其特征在于,所述基于所述空格分值,确定所述第一空格的目标属性信息,包括:
在所述空格分值小于或等于预设阈值的情况下,获取所述两个第一分句的前一分句中末个文本单元和所述两个第一分句的后一分句中首个文本单元;
在所述末个文本单元与所述首个文本单元的类型相同,且为预设类型的情况下,确定所述第一空格为对文本分割有效且满足预设文本规范的所述目标属性信息;
在所述末个文本单元与所述首个文本单元的类型不相同,或者所述末个文本单元与所述首个文本单元的类型相同但不为所述预设类型的情况下,确定所述第一空格为对文本分割有效且不满足预设文本规范的所述目标属性信息。
6.根据权利要求1所述的方法,其特征在于,在基于所述空格分值对所述第一空格进行替换操作的情况下,所述方法还包括:
对所述第一空格位置处的标点符号进行预测,得到目标标点符号;
将所述第一空格替换为所述目标标点符号。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一空格位置处的标点符号进行预测,得到目标标点符号,包括:
对两个第二分句分别按照词语进行划分,得到所述两个第二分句的前一分句对应的第一词语序列和所述两个第二分句的后一分句对应的第二词语序列,所述两个第二分句为第二文本中所述第一空格的位置处前后相邻的两个分句,所述第二文本为所述第一文本中基于所述空格分值确定的至少部分文本;
针对目标词语序列中每个词语,基于所述词语与所述目标词语序列中其他词语的关系,确定所述词语对应的相关性权重信息;基于所述相关性权重信息将所述目标词语序列中各个词语的第一特征信息进行融合,得到所述词语的目标特征信息,所述目标词语序列为所述第一词语序列或所述第二词语序列;
基于所述第一词语序列中词语的目标特征信息和所述第二词语序列中词语的目标特征信息,对所述第一空格位置处的标点符号进行预测,得到目标标点符号。
8.根据权利要求7所述的方法,其特征在于,所述基于所述词语与所述目标词语序列中其他词语的关系,确定所述词语对应的相关性权重信息,包括:
获取所述词语与所述目标词语序列中其他词语的句法结构关系;
对所述句法结构关系进行特征映射,得到表征所述句法结构关系的第二特征信息;
基于所述第二特征信息、所述词语的第三特征信息和所述目标词语序列中其他词语的第四特征信息,确定所述词语对应的相关性权重信息;
其中,所述第一特征信息、第三特征信息和第四特征信息分别对词语的初始特征信息进行不同的变换得到。
9.根据权利要求7所述的方法,其特征在于,所述词语的第一特征信息通过以下步骤得到:
获取所述词语的目标信息,所述目标信息包括所述词语的词性标注结果;
对所述目标信息进行特征映射,得到所述词语的初始特征信息;
对所述初始特征信息进行变换,得到所述词语的第一特征信息。
10.一种空格处理装置,其特征在于,包括:
连接模块,用于按照P种预设连接方式将两个第一分句进行连接,得到所述P种预设连接方式一一对应的P个候选句子,所述两个第一分句为第一文本中第一空格的位置处前后相邻的两个分句,P为大于1的整数;
第一获取模块,用于获取所述P个候选句子的语义向量;
第二获取模块,用于基于所述语义向量获取所述第一空格的空格分值;
目标操作模块,用于基于所述空格分值对所述第一空格进行目标操作。
11.根据权利要求10所述的装置,其特征在于,所述P种预设连接方式包括第一连接方式、第二连接方式和第三连接方式,所述第一连接方式通过空格连接两个分句,所述第二连接方式通过首尾拼接方式连接两个分句,所述第三连接方式通过预设标点符号连接两个分句;所述第二获取模块,具体用于:
基于所述语义向量,确定第一相似距离和第二相似距离,所述第一相似距离为所述第一连接方式对应的候选句子与所述第二连接方式对应的候选句子之间的相似距离,所述第二相似距离为所述第一连接方式对应的候选句子与所述第三连接方式对应的候选句子之间的相似距离;
基于所述第一相似距离和所述第二相似距离,确定所述第一空格的空格分值。
12.根据权利要求10所述的装置,其特征在于,所述目标操作模块包括
第一确定单元,用于基于所述空格分值,确定所述第一空格的目标属性信息;
删除操作单元,用于在所述目标属性信息表征所述第一空格对文本分割无效的情况下,对所述第一空格进行删除操作;
替换操作单元,用于在所述目标属性信息表征所述第一空格对文本分割有效且不满足预设文本规范的情况下,对所述第一空格进行替换操作。
13.根据权利要求12所述的装置,其特征在于,所述第一确定单元,具体用于:
在所述空格分值大于预设阈值的情况下,确定所述第一空格为对文本分割无效的所述目标属性信息;
在所述空格分值小于或等于所述预设阈值的情况下,确定所述第一空格为对文本分割有效的所述目标属性信息。
14.根据权利要求12所述的装置,其特征在于,所述第一确定单元,具体用于:
在所述空格分值小于或等于预设阈值的情况下,获取所述两个第一分句的前一分句中末个文本单元和所述两个第一分句的后一分句中首个文本单元;
在所述末个文本单元与所述首个文本单元的类型相同,且为预设类型的情况下,确定所述第一空格为对文本分割有效且满足预设文本规范的所述目标属性信息;
在所述末个文本单元与所述首个文本单元的类型不相同,或者所述末个文本单元与所述首个文本单元的类型相同但不为所述预设类型的情况下,确定所述第一空格为对文本分割有效且不满足预设文本规范的所述目标属性信息。
15.根据权利要求10所述的装置,其特征在于,所述装置还包括:
预测模块,用于对所述第一空格位置处的标点符号进行预测,得到目标标点符号;
符号替换模块,用于将所述第一空格替换为所述目标标点符号。
16.根据权利要求15所述的装置,其特征在于,所述预测模块包括:
划分单元,用于对两个第二分句分别按照词语进行划分,得到所述两个第二分句的前一分句对应的第一词语序列和所述两个第二分句的后一分句对应的第二词语序列,所述两个第二分句为第二文本中所述第一空格的位置处前后相邻的两个分句,所述第二文本为所述第一文本中基于所述空格分值确定的至少部分文本;
第二确定单元,用于针对目标词语序列中每个词语,基于所述词语与所述目标词语序列中其他词语的关系,确定所述词语对应的相关性权重信息;基于所述相关性权重信息将所述目标词语序列中各个词语的第一特征信息进行融合,得到所述词语的目标特征信息,所述目标词语序列为所述第一词语序列或所述第二词语序列;
预测单元,用于基于所述第一词语序列中词语的目标特征信息和所述第二词语序列中词语的目标特征信息,对所述第一空格位置处的标点符号进行预测,得到目标标点符号。
17.根据权利要求16所述的装置,其特征在于,所述第二确定单元,具体用于:
获取所述词语与所述目标词语序列中其他词语的句法结构关系;
对所述句法结构关系进行特征映射,得到表征所述句法结构关系的第二特征信息;
基于所述第二特征信息、所述词语的第三特征信息和所述目标词语序列中其他词语的第四特征信息,确定所述词语对应的相关性权重信息;
其中,所述第一特征信息、第三特征信息和第四特征信息分别对词语的初始特征信息进行不同的变换得到。
18.根据权利要求16所述的装置,其特征在于,所述词语的第一特征信息通过以下步骤得到:
获取所述词语的目标信息,所述目标信息包括所述词语的词性标注结果;
对所述目标信息进行特征映射,得到所述词语的初始特征信息;
对所述初始特征信息进行变换,得到所述词语的第一特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111421775.2A CN114118028A (zh) | 2021-11-26 | 2021-11-26 | 空格处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111421775.2A CN114118028A (zh) | 2021-11-26 | 2021-11-26 | 空格处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114118028A true CN114118028A (zh) | 2022-03-01 |
Family
ID=80370194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111421775.2A Pending CN114118028A (zh) | 2021-11-26 | 2021-11-26 | 空格处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118028A (zh) |
-
2021
- 2021-11-26 CN CN202111421775.2A patent/CN114118028A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | Abstractive summarization: An overview of the state of the art | |
Qi et al. | Openhownet: An open sememe-based lexical knowledge base | |
Liu et al. | Co-extracting opinion targets and opinion words from online reviews based on the word alignment model | |
US11308278B2 (en) | Predicting style breaches within textual content | |
Hajar | Using YouTube comments for text-based emotion recognition | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
US20160162473A1 (en) | Localization complexity of arbitrary language assets and resources | |
JP2022013586A (ja) | 議事録の生成方法、装置、電子機器、及びコンピュータ可読記憶媒体 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
US9734238B2 (en) | Context based passage retreival and scoring in a question answering system | |
CN112560479A (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
US11954097B2 (en) | Intelligent knowledge-learning and question-answering | |
US20180211265A1 (en) | Predicting brand personality using textual content | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
Bach et al. | Exploiting discourse information to identify paraphrases | |
Golpar-Rabooki et al. | Feature extraction in opinion mining through Persian reviews | |
Aliabadi et al. | Towards building kurdnet, the kurdish wordnet | |
Veisi et al. | Multi-level text document similarity estimation and its application for plagiarism detection | |
Subha et al. | Quality factor assessment and text summarization of unambiguous natural language requirements | |
WO2023103943A1 (zh) | 图片处理方法、装置及电子设备 | |
WO2022227166A1 (zh) | 词语替换方法、装置、电子设备和存储介质 | |
CN114118028A (zh) | 空格处理方法、装置及电子设备 | |
CN112269877A (zh) | 数据标注方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |