CN116362208A - 文本处理方法、装置、设备和计算机可读存储介质 - Google Patents
文本处理方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN116362208A CN116362208A CN202111582118.6A CN202111582118A CN116362208A CN 116362208 A CN116362208 A CN 116362208A CN 202111582118 A CN202111582118 A CN 202111582118A CN 116362208 A CN116362208 A CN 116362208A
- Authority
- CN
- China
- Prior art keywords
- sentences
- input
- similarity
- continuity
- input sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 44
- 230000006835 compression Effects 0.000 claims abstract description 133
- 238000007906 compression Methods 0.000 claims abstract description 133
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 17
- 230000036961 partial effect Effects 0.000 claims description 11
- 238000000638 solvent extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 241001147416 Ursus maritimus Species 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 241000272517 Anseriformes Species 0.000 description 4
- 210000003423 ankle Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000006629 Prosopis spicigera Nutrition 0.000 description 1
- 240000000037 Prosopis spicigera Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种文本处理装置、方法、设备和计算机可读存储介质。该文本处理方法包括:接收多个输入语句;基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;基于第一连续性模型获得多个输入语句之间的第一连续性;以及基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果,从而避免压缩结果的文本流畅性、冗余等问题。
Description
技术领域
本公开涉及文本处理领域,并且具体涉及一种文本处理装置、方法、设备和计算机可读存储介质。
背景技术
近年来,随着计算机处理技术的高速发展,使得更精炼快速地捕获文本中的重要信息成为可能。句子压缩是一种将冗长句子转换成精炼简洁的句子的方法。该技术广泛用于主题的自动获取、摘要生成、问答系统等技术中。
现有的句子压缩方法有:构建关于句子的语法树,通过删减语法树的整个分支来生成压缩句子,或者通过训练基于神经网络的压缩模型来进行句子压缩。对于相对较长的文本,在进行压缩时,如果直接进行压缩,可能会出现流畅性不好、文本冗余等问题。因此,对于相对较长的文本,可以先对其进行初始压缩以提取出故事线,然后再对该故事线进行压缩,从而避免流畅性、冗余等问题。
发明内容
鉴于以上问题,本公开提供了一种文本处理装置、方法、设备和计算机可读存储介质。
根据本公开的一个方面,提供了一种文本处理方法,包括:接收多个输入语句;基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;基于第一连续性模型获得多个输入语句之间的第一连续性;以及基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
在一个示例中,基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果还包括:基于第一顺序,计算各个输入语句之间的相对距离,其中第一顺序是多个输入语句的排列顺序;以及基于相对距离和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
在一个示例中,基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果还包括:基于预先指定的第一特定词或第一特定句和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
在一个示例中,基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果还包括:基于第一预定压缩长度和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
在一个示例中,在基于第一相似度模型获得所述多个输入语句之间的第一相似度或基于第一连续性模型获得所述多个输入语句之间的第一连续性之前,该方法还包括:将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,基于第一相似度模型获得多个输入语句之间的第一相似度包括:基于第一相似度模型,获得多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一相似度,基于第一连续性模型获得所述多个输入语句之间的第一连续性包括:基于所述第一连续性模型,获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一连续性。
在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,包括:判断多个输入语句中的每个输入语句的长度是否大于第一预定长度,在输入语句的长度小于第一预定长度的情况下,不对输入语句进行分割,并将未分割的输入语句同时作为未分割的输入语句自身的上半子句和下半子句,以获得多个待选择语句,或者在输入语句的长度大于或等于第一预定长度的情况下,将输入语句分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于训练完成的第一分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,其中,第一分割模型是通过计算多个输入语句中的一个或多个输入语句的每一个的多个顿号或逗号或分号中的第一顿号或逗号或分号之前包含的所有词之间的组合概率、和第一顿号或逗号或分号之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分,其中,在输入语句不包含多个顿号或逗号或分号的情况下,第一分割模型可以是通过计算输入语句包含的所有词之间的组合概率来将每个输入语句分割为不同的两部分。
在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于训练完成的第二分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,第二分割模型是通过计算多个输入语句中的一个或多个输入语句的每一个的第一预定分割位置之前包含的所有词之间的组合概率、和第一预定分割位置之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分。
在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于训练完成的第三分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,其中,第三分割模型是通过利用拼接为完整的新的语句的正样本数据和负样本数据进行训练得到的,正样本数据和负样本数据分别包括一个或多个完整的语句。
在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于多个输入语句中的一个或多个输入语句的每一个的总字数、名词所占中位、标点符号、随机分割中的一个,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分。
根据本公开的一个方面,提供了一种文本处理装置,包括:接收单元,用于接收多个输入语句;第一相似度获取单元,用于基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;第一连续性获取单元,用于基于第一连续性模型获得多个输入语句之间的第一连续性;以及选择单元,用于基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
在一个示例中,选择单元用于:基于第一顺序,计算各个输入语句之间的相对距离,其中第一顺序是多个输入语句的排列顺序;以及基于相对距离和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
在一个示例中,选择单元用于:基于预先指定的第一特定词或第一特定句和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
在一个示例中,选择单元用于:基于第一预定压缩长度和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
在一个示例中,装置还包括分割单元,分割单元用于:将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,所述第一相似度获取单元还用于:基于第一相似度模型,获得多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一相似度,所述第一连续性获取单元还用于基于所述第一连续性模型,获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一连续性。
在一个示例中,分割单元还用于:判断多个输入语句中的每个输入语句的长度是否大于第一预定长度,在输入语句的长度小于第一预定长度的情况下,不对输入语句进行分割,并将未分割的输入语句同时作为未分割的输入语句自身的上半子句和下半子句,以获得多个待选择语句,或者在输入语句的长度大于或等于第一预定长度的情况下,将输入语句分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
在一个示例中,分割单元还用于:基于训练完成的第一分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,其中,第一分割模型是通过计算多个输入语句中的一个或多个输入语句的每一个的多个顿号或逗号或分号中的第一顿号或逗号或分号之前包含的所有词之间的组合概率、和第一顿号或逗号或分号之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分,其中,在输入语句不包含多个顿号或逗号或分号的情况下,第一分割模型可以是通过计算输入语句包含的所有词之间的组合概率来将每个输入语句分割为不同的两部分。
在一个示例中,分割单元还用于:基于训练完成的第二分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,第二分割模型是通过计算多个输入语句中的一个或多个输入语句的每一个的第一预定分割位置之前包含的所有词之间的组合概率、和第一预定分割位置之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分。
在一个示例中,分割单元还用于:基于训练完成的第三分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,其中,第三分割模型是通过利用拼接为完整的新的语句的正样本数据和负样本数据进行训练得到的,正样本数据和负样本数据分别包括一个或多个完整的语句。
根据本公开的一个方面,提供了一种文本处理设备,包括:处理器;以及存储器,其中存储计算机可读指令,其中,在计算机可读指令被处理器运行时执行文本处理方法,方法包括:接收多个输入语句;基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;基于第一连续性模型获得多个输入语句之间的第一连续性;以及基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
根据本公开的一个方面,提供了一种用于存储计算机可读程序的计算机可读存储介质,程序使得计算机执行文本处理方法,方法包括:接收多个输入语句;基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;基于第一连续性模型获得多个输入语句之间的第一连续性;以及基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
通过本公开提供的文本处理方法,可以先基于输入语句之间的相似性/连续性对文本中的长句提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果,从而避免最终压缩结果的文本流畅性、冗余等问题。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出了根据本公开实施例的文本处理方法的流程图;
图2示出了根据本公开实施例的语句分割的方法的流程图;
图3示出了根据本公开实施例的获得压缩结果的方法的流程图;
图4示出了根据本公开实施例的文本处理方法的流程图;
图5(a)-(b)示出了根据本公开实施例的训练第一相似度模型的示意图;
图6示出了根据本公开实施例的获得压缩结果的方法的流程图;
图7示出了根据本公开实施例的文本处理方法的流程图;
图8示出了根据本公开实施例的文本处理装置的示意图;
图9示出了根据本公开实施例的文本处理装置的示意图;
图10示出了根据本公开实施例的文本处理装置的示意图;
图11示出了根据本公开实施例的文本处理设备的示意图;
图12是本公开实施例所涉及的电子设备的硬件结构的一例的图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获取的所有其他实施例,都属于本公开保护的范围。
本申请中使用了流程图用来说明根据本申请的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步。
本公开提供了一种文本处理方法,针对相对较长的文本,可以先对其进行压缩以提取出压缩结果(即故事线),然后再对该压缩结果进行压缩以获得最终的压缩结果,从而避免直接将较长文本压缩为最终的压缩结果而导致的流畅性、冗余等问题。
图1示出了根据本公开实施例的文本处理方法100的流程图。
例如,针对相对较长的文本,可以先对文本中的长句进行分割,然后基于分割后的句子之间的相关性提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果。
例如,对于摘要提取,可以对相对较长的文本进行压缩以提取故事线作为压缩结果,然后可以继续对该压缩结果进行摘要提取以获得期望的摘要,或者可以直接将该压缩结果作为期望的摘要。通过本公开的文本处理方法,可以避免文本流畅性、冗余等问题。
图1所示的文本处理方法100可以由计算机等自动完成。例如,该方法可以用于对文本进行压缩。例如,该方法可以以软件、硬件、固件或其任意组合的方式实现,由例如手机、平板电脑、笔记本电脑、桌面电脑、网络服务器等设备中的处理器加载并执行。
如图1所示,该文本处理方法100包括以下步骤S101-S103。通过文本处理方法100可以提取文本包含的故事线作为压缩结果。
在步骤S101中,接收多个输入语句。
在步骤S102中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
在步骤S103中,基于多个待选择语句之间的第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
例如,对于步骤S101,多个输入语句可以是一篇文本中包含的全部输入语句或者可以是选择用来进行摘要提取的部分输入语句。
接下来,参照图2描述步骤S102。图2示出了根据本公开实施例的语句分割的方法200的流程图。
如图2所示,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,可以包括:判断多个输入语句中的每个输入语句的长度是否大于第一预定长度(S201);在输入语句的长度小于或等于第一预定长度的情况下,不对输入语句进行分割,并将未分割的输入语句同时作为未分割的输入语句自身的上半子句和下半子句,以获得多个待选择语句(S202);或者在输入语句的长度大于第一预定长度的情况下,将输入语句分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句(S203)。应当认识到,第一预定长度可以根据需要预先设定,这里不做限制。
应当认识到,步骤S202和S203可以并行处理(例如同时处理S202和S203),也可以串行处理(例如可以先处理S202再处理S203,或者先处理S203再处理S202),这里不做限制。
以下通过六个实现方式说明将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分。
在第一实现方式中,可以基于每个输入语句的总字数将输入语句分割为不同的两部分,分别作为上半子句和下半子句。
作为一个示例,在输入语句为“一只失去父母的北极熊宝宝正在美国阿拉斯加州安克雷奇的一个动物园里受到保护”的情况下,可以在总字数的中间位置(36/2=18)将该输入语句分割为两部分:“①一只失去父母的北极熊宝宝正在美国阿拉”和“②斯加州安克雷奇的一个动物园里受到保护”,该两部分分别作为该输入语句的上半子句和下半子句。
在第二实现方式中,可以基于每个输入语句中的名词所占中位将输入语句分割为不同的两部分,分别作为上半子句和下半子句。
作为一个示例,在输入语句为“一只失去父母的北极熊宝宝正在美国阿拉斯加州安克雷奇的一个动物园里受到保护”的情况下,该输入语句的名词按顺序排列为“父母、北极熊宝宝、美国、阿拉斯加州、安克雷奇、动物园”。那么可以在输入语句中的名词所占中位(中间位置的名词“美国”所在的位置处)处将该输入语句分割为两部分:“①一只失去父母的北极熊宝宝正在美国”和“②阿拉斯加州安克雷奇的一个动物园里受到保护”,该两部分分别作为该输入语句的上半子句和下半子句。
在第三实现方式中,可以基于标点符号将输入语句分割为不同的两部分,分别作为上半子句和下半子句。例如,可以基于输入语句中包含的顿号或逗号或分号将输入语句分割为不同的两部分。
作为一个示例,在输入语句只包含一个顿号或逗号或分号的情况下,可以将顿号或逗号或分号前的语句作为该输入语句的上半子句,并将顿号或逗号或分号后的语句作为该输入语句的下半子句。作为另一个示例,在输入语句包含多个顿号或逗号或分号的情况下,可以以处于中位的顿号或逗号或分号作为分割线,将处于中位的顿号或逗号或分号前的语句作为该输入语句的上半子句,并将处于中位的顿号或逗号或分号后的语句作为该输入语句的下半子句。
在第四实现方式中,可以基于训练完成的第一分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句。第一分割模型可以是通过计算多个输入语句中的一个或多个输入语句的每一个的多个顿号或逗号或分号中的第一顿号或逗号或分号之前包含的所有词之间的组合概率、和第一顿号或逗号或分号之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分。此外,在输入语句不包含多个顿号或逗号或分号的情况下,第一分割模型可以是通过计算输入语句包含的所有词之间的组合概率来将每个输入语句分割为不同的两部分。
作为一个示例,在输入语句为“据澳媒此前报道从当地时间18日开始,所有澳大利亚用户无论本人是否处于境内,将无法访问新闻网站以及部分政府卫生紧急部门的“脸书”页面或使用相关服务。”的情况下,可以利用第一分割模型计算第二个逗号(等同于上述第一逗号)之前包含的所有词之间的组合概率(例如,将“据、澳媒、此前、报道、从、当地时间、18日、开始、所有、澳大利亚、用户、无论、本人、是否、处于、境内”进行随机组合,然后根据语义、语法等对各个组合进行打分,获得各个组合的概率),取概率最高的组合(如“据澳媒此前报道,从当地时间18日开始,所有澳大利亚用户,无论本人是否处于境内”)作为该输入语句的上半子句。然后,可以利用第一分割模型计算第二个逗号(等同于上述第一逗号)之后包含的所有词之间的组合概率(例如,将“将、无法、访问、新闻、网站、以及、部分、政府、卫生、紧急、部门、脸书、页面、或、使用、相关、服务”进行随机组合,然后根据语义、语法等对各个组合进行打分,获得各个组合的概率),然后取概率最高的组合(如“将无法访问新闻网站以及部分政府卫生紧急部门的“脸书”页面、或使用相关服务”)作为该输入语句的下半子句。
在第五实现方式中,可以基于训练完成的第二分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句。第二分割模型可以是通过计算多个输入语句中的一个或多个输入语句的每一个的第一预定分割位置之前包含的所有词之间的组合概率、和第一预定分割位置之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分。
作为一个示例,在输入语句为“据澳媒此前报道从当地时间18日开始,所有澳大利亚用户无论本人是否处于境内,将无法访问新闻网站以及部分政府卫生紧急部门的“脸书”页面或使用相关服务。”的情况下,可以将“新闻网站”作为第一预定分割位置,然后可以利用第二分割模型计算第一预定分割位置之前包含的所有词之间的组合概率(该组合概率的计算方法可以与上述第一分割模型的计算方法类似),取概率最高的组合(如“据澳媒此前报道,从当地时间18日开始,所有澳大利亚用户,无论本人是否处于境内,将无法访问新闻网站”)作为该输入语句的上半子句。然后,可以利用第二分割模型计算第一预定分割位置之后包含的所有词之间的组合概率,然后取概率最高的组合(如,“以及部分政府卫生紧急部门的“脸书”页面、或使用相关服务”)作为该输入语句的下半子句。应当认识到,该第一预定分割位置可以根据需要预先设定,这里不做限制。
在第六实现方式中,可以基于训练完成的第三分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分。该第三分割模型可以是通过利用拼接为一个完整的新的语句的正样本数据和负样本数据进行训练得到的,正样本数据和负样本数据分别包括一个或多个完整的语句。
作为一个示例,可以通过以下步骤训练该第三分割模型:可以将多个输入语句中包含的输入语句“据澳媒此前报道,从当地时间18日开始,所有澳大利亚用户,无论本人是否处于境内,将无法访问新闻网站以及部分政府卫生紧急部门的“脸书”页面或使用相关服务。”作为正样本数据,并随机选择不属于该多个输入语句的完整语句(例如,“一只失去父母的北极熊宝宝正在美国阿拉斯加州安克雷奇的一个动物园里受到保护”)作为负样本数据。接下来,将正样本数据的句号删除,并与所选的负样本数据拼接在一起作为该第三分割模型的输入(例如,据澳媒此前报道,从当地时间18日开始,所有澳大利亚用户,无论本人是否处于境内,将无法访问新闻网站以及部分政府卫生紧急部门的“脸书”页面或使用相关服务、一只失去父母的北极熊宝宝正在美国阿拉斯加州安克雷奇的一个动物园里受到保护),并将该正样本数据作为该第三分割模型的输出来训练该第三分割模型。
以上通过六种实现方式说明了如何将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分。应当认识到,本公开可以利用上述六种实现方式中的一个或其组合来对输入语句进行分割。上述六种实现方式仅仅作为示例进行说明,本公开还可以采用现有(例如,随机分割)或未来的其他分割方式来分割输入语句,这里不做限制。
返回图1,对于步骤S103,在获得作为上半子句和下半子句的多个待选择语句之后,可以基于多个待选择语句之间的第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
例如,多个待选择语句之间的第一相关性可以通过利用上述第一分割模型计算各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间组合概率来体现,其组合概率越高,第一相关性越大。
以下通过四种实现方式说明选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
在第一实现方式中,可以直接选择各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间的组合概率中概率较高的组合对应的待选择语句组成压缩结果。
在本公开中,各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间第一相关性越大,则认为这两个输入语句为链接句的概率越大,即组成故事线的概率越大。
表1示出了各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间的组合概率(第一相关性)。表2示出了由一个或多个待选择语句组成的备选路径的路径概率。
表1
如表1所示,垂直的第一列表示各个输入语句的下半子句,水平的第一行表示各个输入语句的上半子句。从表1可以看出,在输入语句为按照第一顺序排列①②③④⑤排列的五句话的情况下,第①个输入语句的下半子句与在其后排列的第②个输入语句的上半子句之间的组合概率为0.08;第①个输入语句的下半子句与在其后排列的第③个输入语句的上半子句之间的组合概率为0.2;第②个输入语句的下半子句与在其后排列的第③个输入语句的上半子句之间的组合概率为0.4,以此类推。由于本公开只需要获得各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间的组合概率,所以各个输入语句的下半子句与在其前排列的其他输入语句的上半子句以及其本身之间的组合概率在表格中用灰度填充。
表2
如表2所示,可以遍历各个备选路径,以获取各个备选路径的路径概率。从表1可以看出,选择备选路径①③⑤的路径概率为0.004(即,第①个输入语句的下半子句与第③个输入语句的上半子句的组合概率×第③个输入语句的下半子句与第⑤个输入语句的上半子句的组合概率=0.004),其对应的多个待选择语句为①③⑤=(第①个输入语句的下半子句,第③个输入语句的上半子句)+(第③个输入语句的下半子句,第⑤个输入语句的上半子句);选择备选路径①②④⑤的路径概率为0.0224(即,第①个输入语句的下半子句与第②个输入语句的上半子句的组合概率×第②个输入语句的下半子句与第④个输入语句的上半子句的组合概率×第④个输入语句的下半子句与第⑤个输入语句的上半子句的组合概率=0.0224),其对应的多个待选择语句为①②④⑤=(第①个输入语句的下半子句,第②个输入语句的上半子句)+(第②个输入语句的下半子句,第④个输入语句的上半子句)+(第④个输入语句的下半子句,第⑤个输入语句的上半子句),以此类推。
例如,可以从表2中选择路径概率最高的备选路径对应的多个待选择语句作为压缩结果。
此外,对于图1的步骤S202中不对输入语句进行分割的情况下,由于将未分割的输入语句同时作为未分割的输入语句自身的上半子句和下半子句,可以在选择出多个待选择语句后对所选择的待选择语句进行冗余检查,以去除重复的语句。例如,当输入语句③没有被分割时,备选路径①③⑤对应的多个待选择语句为①③⑤=(第①个输入语句的下半子句,第③个输入语句)+(第③个输入语句,第⑤个输入语句的上半子句),此时存在两个“第③个输入语句”,可以对该备选路径①③⑤对应的多个待选择语句进行冗余检查,以去除重复的语句,从而获得多个待选择语句(如(第①个输入语句的下半子句,第③个输入语句)+(第⑤个输入语句的上半子句))作为压缩结果。
在第二实现方式中,可以基于图3描述的方法来获得压缩结果。图3示出了根据本公开实施例的获得压缩结果的方法300的流程图。
如图3所示,基于多个待选择语句之间的第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果可以包括:基于第一顺序,获得各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间的相对距离,其中第一顺序是多个输入语句的排列顺序(S301);以及基于相对距离和第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果(S302)。
例如,假设第i个输入语句的下半子句与在其后排列的第j个输入语句的上半子句之间的相对距离为Hi,j,利用上述第一分割模型获得的第i个输入语句的下半子句与在其后排列的第j个输入语句的上半子句之间的第一相关性为Ci,j,则基于相对距离Hi,j和第一相关性Ci,j的第一加权相关性Wi,j可以表示为:
接下来,可以利用该第一加权相关性Wi,j获得备选路径的路径概率,并选择路径概率较高的备选路径对应的一个或多个待选择语句组成压缩结果。
在第三实现方式中,可以基于预先指定的第一特定词或第一特定句和第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
例如,假设在第i个输入语句的下半子句或在其后排列的第j个输入语句的上半子句包含第一特定词或第一特定句时,其被赋予权重Ti,j(Ti,j>1),则基于预先指定的第一特定词或第一特定句和第一相关性Ci,j的第二加权相关性Ei,j可以表示为:
Ei,j=Ci,j×Ti,j (2)
表3示出了基于第一特定词或第一特定句的各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间的组合概率。
表3
如表3所示,在第③个输入语句的上半子句包含第一特定词或第一特定句的情况下,其被赋予权重2,则第①个输入语句的下半子句与在其后排列的第③个输入语句的上半子句之间的组合概率为0.2×2;第②个输入语句的下半子句与在其后排列的第③个输入语句的上半子句之间的组合概率为0.03×2。
接下来,可以利用该第二加权相关性Ei,j获得备选路径的路径概率,并选择路径概率较高的备选路径对应的一个或多个待选择语句组成压缩结果。
在第四实现方式中,可以基于第一预定压缩长度和第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
例如,假设期望获得的表示最终压缩结果的第一预定压缩长度为x1,当前备选路径的文本长度为x2,则第三加权相关性F(也可称为压缩长度惩罚)可以表示为:
表4示出了基于第一预定压缩长度的备选路径的路径概率。
表4
如表4所示,在第一预定压缩长度为120的情况下,如果路径长度大于等于第一预定压缩长度,则压缩长度惩罚加大惩罚力度,如果路径长度小于第一预定压缩长度,则压缩长度惩罚根据路径长度与第一预定压缩长度的差值缓慢增加惩罚力度。
接下来,可以利用该第三加权相关性或压缩长度惩罚F获得备选路径的路径概率,并选择路径概率较高的备选路径对应的一个或多个待选择语句组成压缩结果。
此外,在一个示例中,可以直接从输入语句的第一句开始,每次选择当前输入语句的下半子句与在其后排列的其他输入语句的上半子句的组合概率最高的一个组合概率对应的输入语句,以组成压缩路径,然后将所选择的输入语句作为压缩结果,而不用遍历所有的备选路径。
在另一个示例中,可以直接从输入语句的第一句开始,每次选择当前输入语句的下半子句与在其后排列的其他输入语句的上半子句的组合概率最高的两个组合概率对应的输入语句,以组成备选路径,然后选择路径概率最高的备选路径对应的一个或多个待选择语句组成压缩结果,而不用遍历所有的备选路径。
应当认识到,上述利用第一加权相关性、第二加权相关性和第三加权相关性获得备选路径的路径概率仅仅是一个示例,还可以采用其他方式基于第一加权相关性、第二加权相关性和第三加权相关性获得备选路径的路径概率,这里不再赘述。
通过本公开实施例的文本处理方法,可以先对文本中的长句进行分割,然后基于分割后的句子之间的相关性提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果,从而避免最终压缩结果的文本流畅性、冗余等问题。
图4进一步示出了根据本公开实施例的文本处理方法400的流程图。
例如,针对相对较长的文本,可以先基于输入语句之间的相似性/连续性提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果。
例如,对于摘要提取,可以对相对较长的文本进行压缩以提取故事线作为压缩结果,然后可以继续对该压缩结果进行摘要提取以获得期望的摘要,或者可以直接将该压缩结果作为期望的摘要。通过本公开的文本处理方法,可以避免文本流畅性、冗余等问题。
图4所示的文本处理方法400可以由计算机等自动完成。例如,该方法可以用于对文本进行压缩。例如,该方法可以以软件、硬件、固件或其任意组合的方式实现,由例如手机、平板电脑、笔记本电脑、桌面电脑、网络服务器等设备中的处理器加载并执行。
如图4所示,该文本处理方法400包括以下步骤S401-S404。
在步骤S401中,接收多个输入语句。
在步骤S402中,基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个。
在步骤S403中,基于第一连续性模型获得多个输入语句之间的第一连续性。
在步骤S404中,基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
应当认识到,步骤S402和S403可以并行处理(例如同时处理S402和S403),也可以串行处理(例如可以先处理S402再处理S403,或者先处理S403再处理S402),这里不做限制。
在本公开中,两个输入语句之间的第一相似度和/或第一连续性越高,则认为这两个输入语句为链接句的概率越大,即组成故事线的概率越大。
在一个示例中,第一相似度模型可以通过直接判断各个输入语句之间的词(例如,名词、动词等)的重复度,来获得多个输入语句之间的第一相似度。
在另一个示例中,第一相似度模型还可以获取每个输入语句对应的词向量(或语义空间表示),然后通过判断各个输入语句之间的词(例如,名词、动词等)向量的重复度,来获得多个输入语句之间的第一相似度。
此外,第一相似度模型还可以基于语义相关性、蕴含关系等,从输入语句中获得语义意思一致但表述不一致的名词和/或代词组成候选词集合。然后基于该候选词集合判断各个输入语句之间的词(例如,名词、动词等)向量的重复度,来获得多个输入语句之间的第一相似度。
在又一个示例中,第一相似度模型还可以是训练完成的神经网络模型。例如,第一相似度模型可以输出语句相似度比例。
例如,可以通过以下方法来训练该第一相似度模型:删掉一个输入语句的不同词以形成包含不同语句a1,a2,a3…,an的训练数据A={a1,a2,a3…,an},利用该训练数据A={a1,a2,a3…,an}训练第一相似度模型,使其输出为“语句a1,a2,a3…,an相似以及各个语句之间相应的语句相似度比例”的结果。通过训练完成的第一相似度模型可以获得多个输入语句之间的语句相似度。
此外,第一相似度模型还可以输出主题相似度比例。
例如,还可以通过以下方法来训练该第一相似度模型:删掉一个输入语句的不同词以形成包含不同语句a1,a2,a3…,an的训练数据A={a1,a2,a3…,an},掉一个输入语句的不同词以形成包含不同语句b1,b2,b3…,bm的训练数据B={b1,b2,b3…,bm},利用该训练数据A={a1,a2,a3…,an}以及来自与输入语句不同的主题下的训练数据B={b1,b2,b3…,bm}训练第一相似度模型,除了如上使其输出语句相似度结果外,还可以使其输出为“语句a1,a2,a3…,an与语句b1,b2,b3…,bm属于不同的主题以及各个语句之间相应的主题相似度比例”的结果。通过训练完成的第一相似度模型可以获得多个输入语句之间的主题相似度。在训练第一相似度模型的过程中引入主题信息,可以使得语句在特征维度上拉近和远离的时候,同时考虑相同主题和不同主题。
如图5(a)-(b)所示为根据本公开实施例的训练第一相似度模型的示意图。
如图5(a)所示,语句①和语句②都包含在同一全文①中,但是属于不同的输入语句,可以利用来自同一全文的语句①和语句②来训练第一相似度模型,使其输出为“语句①和语句②的语句不相似,但是语句①和语句②的主题相似”。
如图5(b)所示,语句①包含在全文①中,语句②包含在不同于全文①的全文②中,可以利用来自不同全文的语句①和语句②来训练第一相似度模型,使其输出为“语句①和语句②的语句不相似,且语句①和语句②的主题不相似”。
对于步骤S403,在一个示例中,第一连续性模型可以是训练完成的神经网络模型。例如,第一连续性模型可以输出语句连续性比例。
例如,可以通过以下方法来训练该第一连续性模型:将同一文本中连续的两个输入语句C和D作为正样本数据,并将不连续的多个输入语句E、F、G作为负样本数据对该第一连续性模型进行训练,使其输出为“语句C和D连续,且其连续性比例为100%;输入语句E与输入语句C不连续,且其连续性比例为10%;输入语句E与输入语句D不连续,且其连续性比例为13%;输入语句F与输入语句C不连续,且其连续性比例为12%;输入语句F与输入语句D不连续,且其连续性比例为13%;输入语句G与输入语句C不连续,且其连续性比例为17%;输入语句G与输入语句D不连续,且其连续性比例为23%;”的结果。通过训练完成的第一连续性模型可以获得多个输入语句之间的第一连续性。
应当认识到,上述第一连续性模型仅仅是一个示例,还可以采用其他模型生成语句的连续性比例,这里不再赘述。
接下来,返回图4,对于步骤S404,在获得多个输入语句之间的第一相似度和第一连续性之后,可以选择多个输入语句中的部分输入语句组成压缩结果。
以下通过五种实现方式说明选择选择多个输入语句中的部分输入语句组成压缩结果。
在本公开中,各个输入语句的第一相似度和/或第一连续性越大,则认为这两个输入语句为链接句的概率越大,即组成故事线的概率越大。
在第一实现方式中,可以直接选择第一相似度或第一连续性较高的部分输入语句组成压缩结果。
例如,可以遍历各个备选路径,并从备选路径中选择第一相似度或第一连续性较高的部分输入语句组成压缩结果。
表5所示为由部分输入语句组成的备选路径的路径概率。
表5
备选路径 | 路径概率 |
①③⑤ | 0.004 |
①②④⑤ | 0.0224 |
①⑤ | 0.0001 |
… | … |
在第二实现方式中,可以基于第一相似度和第一连续性的组合选择多个输入语句中的部分输入语句组成压缩结果。
作为一个示例,可以对所有的输入语句之间设定相同的第一相似度权重和第一连续性权重,例如对于所有的输入语句,其第一相似度权重和第一连续性权重分别为M和N,则输入语句A与输入语句B之间的得分为:
A-B=M*(A与B之间的第一相似度)+N*(A与B之间的第一连续性) (4)
输入语句A与输入语句B之间的得分越高,则输入语句A与输入语句B为链接句的概率越大,即组成故事线的概率越大。
作为另一个示例,可以对所有的输入语句之间设定不同的第一相似度权重和第一连续性权重,则输入语句A与输入语句B之间的得分为:
其中,M表示如上获得的相似度比例,N表示如上获得的连续性比例。
接下来,可以利用各个输入语句之间的得分获得备选路径的路径概率,并选择路径概率最高的备选路径对应的部分输入语句组成压缩结果。
在第三实现方式中,可以基于图6描述的方法来获得压缩结果。图6示出了根据本公开实施例的获得压缩结果的方法600的流程图。
如图6所示,基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果可以包括:基于第一顺序,计算各个输入语句之间的相对距离,其中第一顺序是多个输入语句的排列顺序(S601);以及基于相对距离和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果(S602)。
例如,假设第i个输入语句与第j个输入语句之间的相对距离为Hi,j,利用上述第一相似度模型和第一连续性模型获得的第i个输入语句的下半子句与在其后排列的第j个输入语句的上半子句之间的第一相似度和/或第一连续性为Ci,j,则基于相对距离Hi,j和第一相似度和/或第一连续性Ci,j的第一加权相关性Wi,j可以表示为:
接下来,可以利用该第一加权相关性Wi,j获得备选路径的路径概率,并选择路径概率较高的备选路径对应的部分输入语句组成压缩结果。
在第四实现方式中,可以基于预先指定的第一特定词或第一特定句和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
例如,假设在第i个输入语句或第j个输入语句包含第一特定词或第一特定句时,其被赋予权重Ti,j(Ti,j>1),则基于预先指定的第一特定词或第一特定句和第一相似度和/或第一连续性Ci,j的第二加权相关性Ei,j可以表示为:
Ei,j=Ci,j×Ti,j (7)
接下来,可以利用该第二加权相关性Ei,j获得备选路径的路径概率,并选择路径概率较高的备选路径对应的部分输入语句组成压缩结果。
在第五实现方式中,可以基于第一预定压缩长度和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
例如,假设期望获得的表示最终压缩结果的第一预定压缩长度为x1,当前备选路径的文本长度为x2,则第三加权相关性F(也可称为压缩长度惩罚)可以表示为:
如果路径长度大于等于第一预定压缩长度,则压缩长度惩罚加大惩罚力度,如果路径长度小于第一预定压缩长度,则压缩长度惩罚根据路径长度与第一预定压缩长度的差值缓慢增加惩罚力度。
接下来,可以利用该第三加权相关性或压缩长度惩罚F获得备选路径的路径概率,并选择路径概率较高的备选路径对应的部分输入语句组成压缩结果。
此外,在一个示例中,可以直接从输入语句的第一句开始,每次选择当前输入语句与在其后排列的其他输入语句组合概率最高的一个组合概率对应的输入语句,以组成压缩路径,然后将所选择的输入语句作为压缩结果,而不用遍历所有的备选路径。
在另一个示例中,可以直接从输入语句的第一句开始,每次选择当前输入语句与在其后排列的其他输入语句的组合概率最高的两个组合概率对应的输入语句,以组成备选路径,然后选择路径概率最高的备选路径对应的一个或多个输入选择语句组成压缩结果,而不用遍历所有的备选路径。
应当认识到,上述利用第一加权相关性、第二加权相关性和第三加权相关性获得备选路径的路径概率仅仅是一个示例,还可以采用其他方式基于第一加权相关性、第二加权相关性和第三加权相关性获得备选路径的路径概率,这里不再赘述。
通过本公开实施例的文本处理方法,可以先基于输入语句之间的相似性/连续性对文本中的长句提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果,从而避免最终压缩结果的文本流畅性、冗余等问题。
图7进一步示出了根据本公开实施例的文本处理方法700的流程图。
例如,针对相对较长的文本,可以先对文本中的长句进行分割,然后基于分割后的句子之间的相关性/相似性/连续性提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果。
例如,对于摘要提取,可以对相对较长的文本进行压缩以提取故事线作为压缩结果,然后可以继续对该压缩结果进行摘要提取以获得期望的摘要,或者可以直接将该压缩结果作为期望的摘要。通过本公开的文本处理方法,可以避免文本流畅性、冗余等问题。
图7示出的文本处理方法700可以由计算机等自动完成。例如,该方法可以用于对文本进行压缩。例如,该方法可以以软件、硬件、固件或其任意组合的方式实现,由例如手机、平板电脑、笔记本电脑、桌面电脑、网络服务器等设备中的处理器加载并执行。
如图7所示,该文本处理方法700包括以下步骤S701-S703。
在步骤S701中,接收多个输入语句。
在步骤S702中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
在步骤S703中,基于多个待选择语句之间的第一相关性和/或第一相似度和/或第一连续性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
对于步骤S702,可以采用与上述实施例类似的方式将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,这里不再赘述。
对于步骤S703,可以采用与上述实施例和实施例类似的方式选择多个待选择语句中的一个或多个待选择语句组成压缩结果,这里不再赘述。
通过本公开实施例的文本处理方法,可以先对文本中的长句进行分割,然后基于分割后的句子之间的相关性/相似性/连续性提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果,从而避免最终压缩结果的文本流畅性、冗余等问题。
如下表6所示为根据本公开实施例(图7所示的方法700)的效果示例。将本公开实施例的算法与TextRank算法和聚类算法进行比较。这里,TextRank是对输入语句的重要度进行排序的算法,然后提取排序后的输入语句的前N个语句作为输出结果。聚类算法是对输入语句进行相似语句聚类,然后挑选语句数目最多的类别作为输出结果。
表6
Rouge-1表示算法生成的结果与正解结果共同包含的相同的单个字的数目与算法生成的结果包含单个字的总数目之间的比例、以及算法生成的结果与正解结果共同包含的相同的单个字的数目与正解结果包含单个字的总数目之间的比例之间的加权平均。例如,假设算法生成的结果为“我去天安门”,正解结果为“我去香山”,由于算法生成的结果与正解结果共同包含的相同的单个字的数目为2(即,算法生成的结果与正解结果共同包含的相同的单个字为“我”和“去”),那么算法生成的结果与正解结果共同包含的相同的单个字的数目与算法生成的结果包含单个字的总数目之间的比例为2/5,算法生成的结果与正解结果共同包含的相同的单个字的数目与正解结果包含单个字的总数目之间的比例为2/4。
Rouge-2表示算法生成的结果与正解结果共同包含的相同的两个字的数目与算法生成的结果包含单个字的总数目之间的比例、以及算法生成的结果与正解结果共同包含的相同的两个字的数目与正解结果包含单个字的总数目之间的比例之间的加权平均。
Rouge-L表示算法生成的结果与正解结果共同包含的相同的最长子序列的数目与算法生成的结果包含的单个字的总数目之间的比例、以及算法生成的结果与正解结果共同包含的相同的最长子序列的数目与正解结果包含的单个字的总数目之间的比例之间的加权平均。例如假设算法生成的结果为“我去天安门附近吃烤鸭”,正解结果为“我去香山附近吃烤鸭”,由于算法生成的结果与正解结果共同包含的相同的最长子序列的数目为5(即,算法生成的结果与正解结果共同包含的相同的子序列为“我去”和“附近吃烤鸭”,但是算法生成的结果与正解结果共同包含的相同的最长子序列为“附近吃烤鸭”),那么算法生成的结果与正解结果共同包含的相同的最长子序列的数目与算法生成的结果包含单个字的总数目之间的比例为5/10,算法生成的结果与正解结果共同包含的相同的最长子序列的数目与正解结果包含单个字的总数目之间的比例为5/9。
本公开通过包含Rouge-1、Rouge-2和Rouge-L的F值来体现本公开实施例的效果。从表6可以看出,本公开实施例的算法相比于TextRank算法和聚类算法,其输出结果与正解的相似度更高。
本公开以一个输入语句的下半子句与在其后排列的另一输入语句的上半子句之间的相关性/相似性/连续性来定义该两个输入语句之间关系,即如果一个输入语句的下半子句与在其后排列的另一输入语句的上半子句之间的相关性/相似性/连续性越高,则认为该两个输入语句为链接句的概率(或组成故事线的概率)越大。应当认识到,本公开还可以以一个输入语句的上半子句与在其后排列的另一输入语句的上半子句之间的相关性/相似性/连续性来定义该两个输入语句之间关系,即如果一个输入语句的上半子句与在其后排列的另一输入语句的上半子句之间的相关性/相似性/连续性越高,则认为该两个输入语句为并列句的概率越大。例如,可以同时通过判断链接句的概率和并列句的概率,通过加权组合获得最终的故事线,这里不再赘述。
应当认识到,本公开的第一分割模型、第二分割模型、第三分割模型、第一相似度模型和第一连续性模型可以是神经网络模型,其可以包括各种神经网络模型,例如但不限于:卷积神经网络(CNN)(包括GoogLeNet、AlexNet、VGG网络等)、具有卷积神经网络的区域(R-CNN)、区域提议网络(RPN)、循环神经网络(RNN)、基于堆栈的深度神经网络(S-DNN)、深度信念网络(DBN)、受限玻尔兹曼机(RBM)、完全卷积网络、长短期记忆(LSTM)网络和分类网络。另外,执行一项任务的神经网络模型可以包括子神经网络,并且该子神经网络可以包括异构神经网络,并且可以用异构神经网络模型来实现。
下面,参照图8描述根据本公开实施例的文本处理装置。图8是根据本公开实施例的文本处理装置的示意图。由于本实施例的文本处理装置的功能与在上文中参照图1描述的方法的细节相同,因此在这里为了简单起见,省略对相同内容的详细描述。
如图8所示,文本处理装置1000包括接收单元1001、分割单元1002和选择单元1003。需要注意的是,尽管在图8中文本处理装置1000被示出为只包括3个单元,但这只是示意性的,文本处理装置1000也可以包括一个或多个其他单元,这些单元与发明构思无关,因此在这里被省略。
接收单元1001可以用于接收多个输入语句。
分割单元1002可以用于将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
例如,分割单元1002可以通过以下步骤将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分:判断多个输入语句中的每个输入语句的长度是否大于第一预定长度;在输入语句的长度小于或等于第一预定长度的情况下,不对输入语句进行分割,并将未分割的输入语句同时作为未分割的输入语句自身的上半子句和下半子句,以获得多个待选择语句;或者在输入语句的长度大于第一预定长度的情况下,将输入语句分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
例如,分割单元1002可以基于每个输入语句的总字数将输入语句分割为不同的两部分,分别作为上半子句和下半子句。
例如,分割单元1002可以基于每个输入语句中的名词所占中位将输入语句分割为不同的两部分,分别作为上半子句和下半子句。
例如,分割单元1002可以基于标点符号将输入语句分割为不同的两部分,分别作为上半子句和下半子句。例如,可以基于输入语句中包含的顿号或逗号或分号将输入语句分割为不同的两部分。
例如,分割单元1002可以基于训练完成的第一分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句。第一分割模型可以是通过计算多个输入语句中的一个或多个输入语句的每一个的多个顿号或逗号或分号中的第一顿号或逗号或分号之前包含的所有词之间的组合概率、和第一顿号或逗号或分号之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分。此外,在输入语句不包含多个顿号或逗号或分号的情况下,第一分割模型可以是通过计算输入语句包含的所有词之间的组合概率来将每个输入语句分割为不同的两部分。
例如,分割单元1002可以基于训练完成的第二分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句。第二分割模型可以是通过计算多个输入语句中的一个或多个输入语句的每一个的第一预定分割位置之前包含的所有词之间的组合概率、和第一预定分割位置之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分。
例如,分割单元1002可以基于训练完成的第三分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分。该第三分割模型可以是通过利用拼接为一个完整的新的语句的正样本数据和负样本数据进行训练得到的,正样本数据和负样本数据分别包括一个或多个完整的语句。
选择单元1003可以用于基于多个待选择语句之间的第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
例如,选择单元1003可以直接选择各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间的组合概率中概率较高的组合对应的待选择语句组成压缩结果。
在本公开中,各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间第一相关性越大,则认为这两个输入语句为链接句的概率越大,即组成故事线的概率越大。
例如,选择单元1003可以基于第一顺序,获得各个输入语句的下半子句与在其后排列的其他输入语句的上半子句之间的相对距离,其中第一顺序是多个输入语句的排列顺序,然后基于相对距离和第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
例如,选择单元1003可以基于预先指定的第一特定词或第一特定句和第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
例如,选择单元1003可以基于第一预定压缩长度和第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
通过本公开实施例的文本处理装置,可以先对文本中的长句进行分割,然后基于分割后的句子之间的相关性提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果,从而避免最终压缩结果的文本流畅性、冗余等问题。
下面,参照图9描述根据本公开实施例的另一文本处理装置。图9是根据本公开实施例的文本处理装置的示意图。由于本实施例的文本处理装置的功能与在上文中参照图4描述的方法的细节相同,因此在这里为了简单起见,省略对相同内容的详细描述。
如图9所示,文本处理装置1100包括接收单元1004、第一相似度获取单元1005、第一连续性获取单元1006和选择单元1007。需要注意的是,尽管在图9中文本处理装置1100被示出为只包括4个单元,但这只是示意性的,文本处理装置1100也可以包括一个或多个其他单元,这些单元与发明构思无关,因此在这里被省略。
接收单元1004可以用于接收多个输入语句。
第一相似度获取单元1005可以用于基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个。
在一个示例中,第一相似度模型可以通过直接判断各个输入语句之间的词(例如,名词、动词等)的重复度,来获得多个输入语句之间的第一相似度。
在另一个示例中,第一相似度模型还可以获取每个输入语句对应的词向量(或语义空间表示),然后通过判断各个输入语句之间的词(例如,名词、动词等)向量的重复度,来获得多个输入语句之间的第一相似度。
此外,第一相似度模型还可以基于语义相关性、蕴含关系等,从输入语句中获得语义意思一致但表述不一致的名词和/或代词组成候选词集合。然后基于该候选词集合判断各个输入语句之间的词(例如,名词、动词等)向量的重复度,来获得多个输入语句之间的第一相似度。
在又一个示例中,第一相似度模型还可以是训练完成的神经网络模型。例如,第一相似度模型可以输出语句相似度比例和主题相似度比例。
第一连续性获取单元1006可以用于基于第一连续性模型获得多个输入语句之间的第一连续性。
第一连续性模型可以是训练完成的神经网络模型。例如,第一连续性模型可以输出语句连续性比例。应当认识到,上述第一连续性模型仅仅是一个示例,还可以采用其他模型生成语句的连续性比例,这里不再赘述。
选择单元1007可以用于基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
例如,选择单元1007可以直接选择第一相似度或第一连续性较高的部分输入语句组成压缩结果。
例如,选择单元1007可以遍历各个备选路径,并从备选路径中选择第一相似度或第一连续性较高的部分输入语句组成压缩结果。
例如,选择单元1007可以基于第一相似度和第一连续性的组合选择多个输入语句中的部分输入语句组成压缩结果。
例如,选择单元1007可以通过以下步骤选择多个输入语句中的部分输入语句组成压缩结果:基于第一顺序,计算各个输入语句之间的相对距离,其中第一顺序是多个输入语句的排列顺序;以及基于相对距离和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
例如,选择单元1007可以基于预先指定的第一特定词或第一特定句和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
例如,选择单元1007可以基于第一预定压缩长度和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
通过本公开实施例的文本处理装置,可以先基于输入语句之间的相似性/连续性对文本中的长句提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果,从而避免最终压缩结果的文本流畅性、冗余等问题。
下面,参照图10描述根据本公开实施例的又一文本处理装置。图10是根据本公开实施例的文本处理装置的示意图。由于本实施例的文本处理装置的功能与在上文中参照图7描述的方法的细节相同,因此在这里为了简单起见,省略对相同内容的详细描述。
如图10所示,文本处理装置1200包括接收单元1008、分割单元1009和选择单元1010。需要注意的是,尽管在图10中文本处理装置1200被示出为只包括3个单元,但这只是示意性的,文本处理装置1200也可以包括一个或多个其他单元,这些单元与发明构思无关,因此在这里被省略。
接收单元1008可以用于接收多个输入语句。
分割单元1009可以用于将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
选择单元1010可以用于基于多个待选择语句之间的第一相关性和/或第一相似度和/或第一连续性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
分割单元1009的功能与在上文中参照图8描述的分割单元1002的功能相同,因此在这里为了简单起见,省略对相同内容的详细描述。
选择单元1010的功能与在上文中参照图8和图9描述的选择单元1003和选择单元1007的功能相同,因此在这里为了简单起见,省略对相同内容的详细描述。
通过本公开实施例的文本处理装置,可以先对文本中的长句进行分割,然后基于分割后的句子之间的相关性/相似性/连续性提取故事线作为压缩结果。接下来,可以直接将该压缩结果作为期望的最终压缩结果,也可以对该压缩结果进行进一步的压缩,以获得最终压缩结果,从而避免最终压缩结果的文本流畅性、冗余等问题。
下面将参照图11描述根据本公开实施例的文本处理设备。图11是根据本公开实施例的文本处理设备2000的示意图。
如图11所示,文本处理设备2000包括处理器2001和存储器2002。需要注意的是,尽管在图11中文本处理设备2000被示出为只包括2个设备,但这只是示意性的,文本处理设备2000也可以包括一个或多个其他设备,这些设备与发明构思无关,因此在这里被省略。
本公开的文本处理设备2000可以包括:处理器2001;以及存储器2002,其中存储计算机可读指令,其中,在计算机可读指令被处理器2001运行时执行文本处理方法,方法可以包括:接收多个输入语句;将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句;以及基于多个待选择语句之间的第一相关性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
本公开的文本处理设备2000可以包括:处理器2001;以及存储器2002,其中存储计算机可读指令,其中,在计算机可读指令被处理器2001运行时执行文本处理方法,方法还可以包括:接收多个输入语句;基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;基于第一连续性模型获得多个输入语句之间的第一连续性,以及基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
本公开的文本处理设备2000可以包括:处理器2001;以及存储器2002,其中存储计算机可读指令,其中,在计算机可读指令被处理器2001运行时执行文本处理方法,方法还可以包括:接收多个输入语句;将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句;以及基于多个待选择语句之间的第一相关性和/或第一相似度和/或第一连续性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
关于不同实施例中的文本处理装置1000、1100、1200和文本处理设备2000的技术效果可以参考本公开的实施例中提供的文本处理方法的技术效果,这里不再赘述。
文本处理装置1000、1100、1200和文本处理设备2000可以用于各种适当的电子设备。
本公开还包括一种计算机可读存储介质,其上存储计算机可读指令,当该计算机可读指令由计算机执行时,计算机执行文本处理方法,包括:接收多个输入语句;将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句;以及基于多个待选择语句之间的第一相关性和/或第一相似度和/或第一连续性,选择多个待选择语句中的一个或多个待选择语句组成压缩结果。
<硬件结构>
另外,上述实施方式的说明中使用的框图示出了以功能为单位的块。这些功能块(结构单元)通过硬件和/或软件的任意组合来实现。此外,各功能块的实现手段并不特别限定。即,各功能块可以通过在物理上和/或逻辑上相结合的一个装置来实现,也可以将在物理上和/或逻辑上相分离的两个以上装置直接地和/或间接地(例如通过有线和/或无线)连接从而通过上述多个装置来实现。
例如,本发明的一实施方式中的电子设备可以作为执行本发明的属性识别方法的处理的计算机来发挥功能。图12是示出本发明的一实施方式所涉及的电子设备的硬件结构的一例的图。上述的电子设备10可以作为在物理上包括处理器3001、内存3002、存储器3003、通信装置3004、输入装置3005、输出装置3006、总线3007等的计算机装置来构成。
另外,在以下的说明中,“装置”这样的文字也可替换为电路、设备、单元等。电子设备10的硬件结构可以包括一个或多个图中所示的各装置,也可以不包括部分装置。
例如,处理器3001仅图示出一个,但也可以为多个处理器。此外,可以通过一个处理器来执行处理,也可以通过一个以上的处理器同时、依次、或采用其它方法来执行处理。另外,处理器3001可以通过一个以上的芯片来安装。
电子设备10中的各功能例如通过如下方式实现:通过将规定的软件(程序)读入到处理器3001、内存3002等硬件上,从而使处理器3001进行运算,对由通信装置3004进行的通信进行控制,并对内存3002和存储器3003中的数据的读出和/或写入进行控制。
处理器3001例如使操作系统进行工作从而对计算机整体进行控制。处理器3001可以由包括与周边装置的接口、控制装置、运算装置、寄存器等的中央处理器(CPU,CentralProcessing Unit)构成。
此外,处理器3001将程序(程序代码)、软件模块、数据等从存储器3003和/或通信装置3004读出到内存3002,并根据它们执行各种处理。作为程序,可以采用使计算机执行在上述实施方式中说明的动作中的至少一部分的程序。例如,电子设备10的控制单元可以通过保存在内存3002中并通过处理器3001来工作的控制程序来实现,对于其它功能块,也可以同样地来实现。
内存3002是计算机可读取记录介质,例如可以由只读存储器(ROM,Read OnlyMemory)、可编程只读存储器(EPROM,Erasable Programmable ROM)、电可编程只读存储器(EEPROM,Electrically EPROM)、随机存取存储器(RAM,Random Access Memory)、其它适当的存储介质中的至少一个来构成。内存3002也可以称为寄存器、高速缓存、主存储器(主存储装置)等。内存3002可以保存用于实施本发明的一实施方式所涉及的无线通信方法的可执行程序(程序代码)、软件模块等。
存储器3003是计算机可读取记录介质,例如可以由软磁盘(flexible disk)、软(注册商标)盘(floppy disk)、磁光盘(例如,只读光盘(CD-ROM(Compact Disc ROM)等)、数字通用光盘、蓝光(Blu-ray,注册商标)光盘)、可移动磁盘、硬盘驱动器、智能卡、闪存设备(例如,卡、棒(stick)、密钥驱动器(key driver))、磁条、数据库、服务器、其它适当的存储介质中的至少一个来构成。存储器3003也可以称为辅助存储装置。
通信装置3004是用于通过有线和/或无线网络进行计算机间的通信的硬件(发送接收设备),例如也称为网络设备、网络控制器、网卡、通信模块等。
输入装置3005是接受来自外部的输入的输入设备(例如,键盘、鼠标、麦克风、开关、按钮、传感器等)。输出装置3006是实施向外部的输出的输出设备(例如,显示器、扬声器、发光二极管(LED,Light Emitting Diode)灯等)。另外,输入装置3005和输出装置3006也可以为一体的结构(例如触控面板)。
此外,处理器3001、内存3002等各装置通过用于对信息进行通信的总线3007连接。总线3007可以由单一的总线构成,也可以由装置间不同的总线构成。
此外,电子设备10可以包括微处理器、数字信号处理器(DSP,Digital SignalProcessor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、可编程逻辑器件(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)等硬件,可以通过该硬件来实现各功能块的部分或全部。例如,处理器3001可以通过这些硬件中的至少一个来安装。
软件无论被称为软件、固件、中间件、微代码、硬件描述语言,还是以其它名称来称呼,都应宽泛地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。
此外,软件、命令、信息等可以经由传输介质被发送或接收。例如,当使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(DSL,Digital Subscriber Line)等)和/或无线技术(红外线、微波等)从网站、服务器、或其它远程资源发送软件时,这些有线技术和/或无线技术包括在传输介质的定义内。
本说明书中说明的各方式/实施方式可以单独使用,也可以组合使用,还可以在执行过程中进行切换来使用。此外,本说明书中说明的各方式/实施方式的处理步骤、序列、流程图等只要没有矛盾,就可以更换顺序。例如,关于本说明书中说明的方法,以示例性的顺序给出了各种各样的步骤单元,而并不限定于给出的特定顺序。
本说明书中使用的“根据”这样的记载,只要未在其它段落中明确记载,则并不意味着“仅根据”。换言之,“根据”这样的记载是指“仅根据”和“至少根据”这两者。
本说明书中使用的对使用“第一”、“第二”等名称的单元的任何参照,均非全面限定这些单元的数量或顺序。这些名称可以作为区别两个以上单元的便利方法而在本说明书中使用。因此,第一单元和第二单元的参照并不意味着仅可采用两个单元或者第一单元必须以若干形式占先于第二单元。
在本说明书或权利要求书中使用“包括(including)”、“包含(comprising)”、以及它们的变形时,这些用语与用语“具备”同样是开放式的。进一步地,在本说明书或权利要求书中使用的用语“或(or)”并非是异或。
本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本发明进行了详细说明,但对于本领域技术人员而言,显然,本发明并非限定于本说明书中说明的实施方式。本发明在不脱离由权利要求书的记载所确定的本发明的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本发明而言并非具有任何限制性的意义。
Claims (15)
1.一种文本处理方法,包括:
接收多个输入语句;
基于第一相似度模型获得所述多个输入语句之间的第一相似度,所述第一相似度包括语句相似度和主题相似度中的至少一个;
基于第一连续性模型获得所述多个输入语句之间的第一连续性;以及
基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
2.根据权利要求1所述的文本处理方法,其中,基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果还包括:
基于第一顺序,计算各个输入语句之间的相对距离,其中所述第一顺序是所述多个输入语句的排列顺序;以及
基于所述相对距离和所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
3.根据权利要求1所述的文本处理方法,其中,基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果还包括:
基于预先指定的第一特定词或第一特定句和所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
4.根据权利要求1所述的文本处理方法,其中,基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果还包括:
基于第一预定压缩长度和所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
5.根据权利要求1-4任一项所述的文本处理方法,其中,在基于第一相似度模型获得所述多个输入语句之间的第一相似度或基于第一连续性模型获得所述多个输入语句之间的第一连续性之前,所述方法还包括:
将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,
所述基于第一相似度模型获得所述多个输入语句之间的第一相似度包括:
基于所述第一相似度模型,获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一相似度,
基于第一连续性模型获得所述多个输入语句之间的第一连续性包括:
基于所述第一连续性模型,获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一连续性。
6.根据权利要求5所述的文本处理方法,其中,将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,包括:
判断所述多个输入语句中的每个输入语句的长度是否大于第一预定长度,
在所述输入语句的长度小于第一预定长度的情况下,不对所述输入语句进行分割,并将未分割的输入语句同时作为所述未分割的输入语句自身的上半子句和下半子句,以获得多个待选择语句,或者
在所述输入语句的长度大于或等于所述第一预定长度的情况下,将所述输入语句分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
7.根据权利要求5所述的文本处理方法,其中,将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:
基于训练完成的第一分割模型将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,
其中,所述第一分割模型是通过计算所述多个输入语句中的一个或多个输入语句的每一个的多个顿号或逗号或分号中的第一顿号或逗号或分号之前包含的所有词之间的组合概率、和所述第一顿号或逗号或分号之后包含的所有词之间的组合概率,来将所述每个输入语句分割为不同的两部分,
其中,在所述输入语句不包含多个顿号或逗号或分号的情况下,所述第一分割模型可以是通过计算输入语句包含的所有词之间的组合概率来将所述每个输入语句分割为不同的两部分。
8.根据权利要求5所述的文本处理方法,其中,将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:
基于训练完成的第二分割模型将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,
所述第二分割模型是通过计算所述多个输入语句中的一个或多个输入语句的每一个的第一预定分割位置之前包含的所有词之间的组合概率、和所述第一预定分割位置之后包含的所有词之间的组合概率,来将所述每个输入语句分割为不同的两部分。
9.根据权利要求5所述的文本处理方法,其中,将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:
基于训练完成的第三分割模型将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,
其中,所述第三分割模型是通过利用拼接为完整的新的语句的正样本数据和负样本数据进行训练得到的,所述正样本数据和所述负样本数据分别包括一个或多个完整的语句。
10.根据权利要求5所述的文本处理方法,其中,将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:
基于所述多个输入语句中的一个或多个输入语句的每一个的总字数、名词所占中位、标点符号、随机分割中的一个,将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分。
11.一种文本处理装置,包括:
接收单元,用于接收多个输入语句;
第一相似度获取单元,用于基于第一相似度模型获得所述多个输入语句之间的第一相似度,所述第一相似度包括语句相似度和主题相似度中的至少一个;
第一连续性获取单元,用于基于第一连续性模型获得所述多个输入语句之间的第一连续性;以及
选择单元,用于基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
12.根据权利要求11所述的文本处理装置,其中,所述选择单元用于:
基于第一顺序,计算各个输入语句之间的相对距离,其中所述第一顺序是所述多个输入语句的排列顺序;以及
基于所述相对距离和所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
13.根据权利要求11所述的文本处理装置,其中,所述选择单元用于:基于预先指定的第一特定词或第一特定句和所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
14.一种文本处理设备,包括:
处理器;以及
存储器,其中存储计算机可读指令,
其中,在所述计算机可读指令被所述处理器运行时执行文本处理方法,所述方法包括:
接收多个输入语句;
基于第一相似度模型获得所述多个输入语句之间的第一相似度,所述第一相似度包括语句相似度和主题相似度中的至少一个;
基于第一连续性模型获得所述多个输入语句之间的第一连续性;以及
基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
15.一种用于存储计算机可读程序的计算机可读存储介质,所述程序使得计算机执行文本处理方法,所述方法包括:
接收多个输入语句;
基于第一相似度模型获得所述多个输入语句之间的第一相似度,所述第一相似度包括语句相似度和主题相似度中的至少一个;
基于第一连续性模型获得所述多个输入语句之间的第一连续性;以及
基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111582118.6A CN116362208A (zh) | 2021-12-22 | 2021-12-22 | 文本处理方法、装置、设备和计算机可读存储介质 |
JP2022191686A JP2023093345A (ja) | 2021-12-22 | 2022-11-30 | テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111582118.6A CN116362208A (zh) | 2021-12-22 | 2021-12-22 | 文本处理方法、装置、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116362208A true CN116362208A (zh) | 2023-06-30 |
Family
ID=86928801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111582118.6A Pending CN116362208A (zh) | 2021-12-22 | 2021-12-22 | 文本处理方法、装置、设备和计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023093345A (zh) |
CN (1) | CN116362208A (zh) |
-
2021
- 2021-12-22 CN CN202111582118.6A patent/CN116362208A/zh active Pending
-
2022
- 2022-11-30 JP JP2022191686A patent/JP2023093345A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023093345A (ja) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018383346B2 (en) | Domain-specific natural language understanding of customer intent in self-help | |
CN110647614B (zh) | 智能问答方法、装置、介质及电子设备 | |
EP3648099B1 (en) | Voice recognition method, device, apparatus, and storage medium | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
US9436918B2 (en) | Smart selection of text spans | |
Juola | Assessing linguistic complexity | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
KR20220002068A (ko) | 회의 요록 생성 방법, 장치, 전자 장치 및 판독 가능 저장 매체 | |
US10198508B1 (en) | Systems and methods for searching quotes of entities using a database | |
CN109359290B (zh) | 试题文本的知识点确定方法、电子设备及存储介质 | |
WO2009026850A1 (en) | Domain dictionary creation | |
US20160224663A1 (en) | Context based passage retreival and scoring in a question answering system | |
Wang et al. | Named entity disambiguation for questions in community question answering | |
CN111382260A (zh) | 一种检索文本纠错方法、装置和存储介质 | |
CN109271641A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
CN114008623A (zh) | 用于医学数据自动采集分割和分析平台的方法和装置 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
WO2022134824A1 (en) | Tuning query generation patterns | |
CN113139043A (zh) | 问答样本生成方法、装置、电子设备和存储介质 | |
CN113571196A (zh) | 构建医疗训练样本的方法及装置、医疗文本的检索方法 | |
US11822893B2 (en) | Machine learning models for detecting topic divergent digital videos | |
CN116362208A (zh) | 文本处理方法、装置、设备和计算机可读存储介质 | |
CN116362207A (zh) | 文本处理方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |