CN113204637A - 一种文本处理的方法、装置、存储介质及电子设备 - Google Patents
一种文本处理的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113204637A CN113204637A CN202110392521.6A CN202110392521A CN113204637A CN 113204637 A CN113204637 A CN 113204637A CN 202110392521 A CN202110392521 A CN 202110392521A CN 113204637 A CN113204637 A CN 113204637A
- Authority
- CN
- China
- Prior art keywords
- clause
- clauses
- merged
- sentence
- merging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本说明书公开了一种文本处理的方法、装置、存储介质及电子设备,根据预设的分句规则对原始文本进行处理,得到多个子句,并通过预测模型确定任意两个子句之间的句间关系紧密程度表征值。根据各子句之间的句间关系紧密程度表征值,对各个子句进行合并,根据合并结果,得到至少一个备选摘要。本方法在生成备选摘要时,考虑了原始文本中的每个子句与其他子句的句间关系紧密程度,根据子句之间的句间关系紧密程度对各子句进行合并,并根据合并结果确定了备选摘要,保证了备选摘要包含的子句之间的语义相同,从而保证生成的备选摘要的准确性。
Description
技术领域
本说明书涉及互联网技术领域,尤其涉及一种文本处理的方法、装置、存储介质及电子设备。
背景技术
随着互联网技术的发展,越来越多的用户会将自己创作的用户生产内容(User-Generated Content,UGC)发布在各类客户端中,例如,用户在一家餐厅消费后,将自己的感受以UGC的形式发布出来。为了方便其他用户迅速了解到短文的内容,客户端会从字数较多的UGC中截取出符合字数限制的短句作为摘要展示在推荐页面中。
在现有技术中,生成摘要的方式主要是根据标点符号将原始UGC拆成多个子句后,再根据标点符号前后相邻的两个词,预测出描述同一主题的整句的开头和结尾,根据预测结果将多个子句合并,作为备选摘要。后续地,可根据不同业务需求,在多个备选摘要中选择出一个合适的备选摘要作为原始UGC的摘要展示出来。
但是,上述方法在确定备选摘要时,只是依赖了与标点符号相邻的前后两个词,并未考虑到每个子句对应的上下句的实际语义,从而容易导致根据各个子句生成的备选摘要的语义与上下句的语义不相符,最终生成的摘要的语义也会跟原始UGC的语义大相径庭。
由此可见,备选摘要决定着最终展示出来的摘要的准确性,因此,如何生成准确的备选摘要是个亟待解决的问题。
发明内容
本说明书提供一种文本处理方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种文本处理方法,包括:
根据预设的分句规则,对原始文本进行处理,得到所述原始文本中包含的子句;
针对任意两个子句,将该两个子句输入预测模型,得到所述预测模型的输出的该两个子句之间的句间关系紧密程度表征值;
根据各子句之间的句间关系紧密程度表征值,对各子句进行合并;
根据合并结果,得到至少一个备选摘要。
可选地,将该两个子句输入预测模型,具体包括:
将该两个子句以及该两个子句在所述原始文本中的顺序输入预测模型。
可选地,根据各子句之间的句间关系紧密程度表征值,对各子句进行合并之前,所述方法还包括:
针对任意两个子句,确定该两个子句之间的句法特征;
将具有指定句法特征的两个子句进行合并,并重新作为一个子句。
可选地,根据各子句之间的句间关系紧密程度表征值,对各子句进行合并,具体包括:
根据各个子句之间的句间关系紧密程度表征值,对所述原始文本中相邻的各子句进行合并。
可选地,根据各个子句之间的句间关系紧密程度表征值,对所述原始文本中相邻的各子句进行合并,具体包括:
根据各个子句在所述原始文本中的先后顺序,确定第一个子句为指定子句;
确定所述指定子句的下一个子句作为待合并子句;
判断所述指定子句与所述待合并子句之间的句间关系紧密程度表征值是否大于第一阈值;
若是,则当所述指定子句与所述待合并子句的字数不大于第二阈值时,对所述指定子句与所述待合并子句进行合并,并将合并结果重新作为指定子句;
若否,则将所述指定子句作为一个合并结果,并将所述待合并子句作为指定子句。
可选地,当所述指定子句与所述待合并子句之间的句间关系紧密程度表征值大于第一阈值,且所述指定子句与所述待合并子句的字数大于第二阈值时,所述方法还包括:
根据所述待合并子句的字数,以及所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值,判断是否合并所述指定子句和所述待合并子句。
可选地,判断是否合并所述指定子句和所述待合并子句,具体包括:
若所述待合并子句的字数不大于第三阈值,且所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值小于所述第一阈值,则对所述指定子句与所述待合并子句进行合并,并将合并结果重新作为指定子句;
若所述待合并子句的字数大于所述第三阈值,或,所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值大于所述第一阈值,则将所述指定子句作为一个合并结果,并将所述待合并子句作为指定子句。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本处理方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本处理方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的文本处理方法中,根据预设的分句规则对原始文本进行处理,得到多个子句,并通过预测模型确定任意两个子句之间的句间关系紧密程度表征值。根据各子句之间的句间关系紧密程度表征值,对各个子句进行合并,根据合并结果,得到至少一个备选摘要。
从上述方法中可以看出,本方法在生成备选摘要时,考虑了原始文本中的每个子句与其他子句的句间关系紧密程度,根据子句之间的句间关系紧密程度对各子句进行合并,并根据合并结果确定了备选摘要,保证了备选摘要包含的子句之间的语义相同,从而保证生成的备选摘要的准确性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种文本处理方法的流程示意图;
图2为本说明书提供的客户端推荐页面的示意图;
图3为本说明书提供的压缩模型的示意图;
图4为本说明书提供的一种合并子句的流程示意图;
图5为本说明书提供的一种文本处理装置的示意图;
图6为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中一种文本处理方法的流程示意图,具体包括以下步骤:
S100:根据预设的分句规则,对原始文本进行处理,得到所述原始文本中包含的子句。
在实际应用中,用户会将自己创作的内容发布在客户端,其中,客户端可以是外卖类应用,也可以是消费点评类应用,在本说明书中不作限制。在本说明书实施例中,执行本方法的执行主体可以是客户端,也可以是其他系统端为执行主体,在本说明书中不作限制。
在多数情况下,原始内容的字数较多,如果客户端将原始内容全部展示在推荐页面中,会导致推荐页面中展示出来的创作内容数量很少,并且其他用户阅读完全部内容会浪费过多时间,所以,如图2所示,客户端可将原始内容截取出符合字数限制的短句作为摘要展示出来。具体的,客户端可先将原始内容拆分并生成多个备选摘要,后续地,根据实际需求,从备选摘要中选择一个或几个满足该实际需求的备选摘要作为摘要展示出来。
为了得到语义准确的备选摘要,需要对原始文本进行处理,具体的,可先根据预设的分句规则,将原始文本进行拆分处理,得到多个子句。其中,原始文本可以是UGC,也可以是专业生成内容(Professionally-Generated Content,PGC)等文本,在本说明书中不作限制。分句规则可以是以标点符号对原始文本进行拆分,也可以是以诸如空格或者换行等指定字符对原始文本进行拆分,在本说明书中不作限制。
例如,原始文本内容为:“我更偏好稍重的口味,所以加了店家的辣椒酱,特别美味,鸡汤加上少许白胡椒做结尾,清盘超满足,店里的大姐点餐时也和蔼可亲”,以标点符号对原始文本进行拆分,得到的子句包括:“我更偏好稍重的口味”、“所以加了店家的辣椒酱”、“特别美味”、“鸡汤加上少许白胡椒做结尾”、“清盘超满足”、“店里的大姐点餐时也和蔼可亲”。
在得到了多个子句后,后续地,可通过文本处理步骤对子句进行处理,最终得到至少一个备选摘要。
S102:针对任意两个子句,将该两个子句输入预测模型,得到所述预测模型的输出的该两个子句之间的句间关系紧密程度表征值。
为了保证得到的备选摘要的准确性,需要考虑各个子句之间的语义关系,以及各个子句之间的句法特征。其中,各个子句之间的语义关系可通过各个子句之间的句间关系紧密程度来表示,可通过预先训练好的预测模型来确定各个子句之间的句间关系紧密程度,句法特征在下面的步骤S104中详细说明。
具体的,在确定各个子句之间的语义关系时,可对各个子句先进行编码处理,将每个子句转化为其对应的编码向量,再输入预测模型中。其中,每个子句的编码向量是由是三个特征向量组成,分别是:一个子句中的每个字对应的字向量、每个子句对应的句向量以及每个子句中包含的每个字以及标点符号对应的位置向量。任选两个子句,将该两个子句对应的编码向量输入预测模型中,得到该两个子句对应编码向量之间的句间关系紧密程度表征值,即该两个子句之间的句间关系紧密程度表征值。其中,句间关系紧密程度表征值越高,表示该两个子句之间的连贯性越高,也可以认为该两个子句描述的内容是同一个主题,该两个子句之间的语义关系越紧密。
由于两个子句在原始文本中的顺序,会影响到这两个子句之间的句间关系紧密程度表征值,因此,可将这两个子句对应的编码向量以及两个子句在原始文本中的顺序均输入预测模型,具体的,在将两个子句转换为编码向量时,可按照该两个子句在原始文本中的顺序,确定该两个子句中每个字的位置向量,使预测模型根据该两个子句中每个字的位置向量,可以获知两个子句在原始文本中的顺序。
在确定该两个子句中每个字的位置向量时,先根据前一个子句中每个字的位置依次确定每个字的编码,再根据前一个子句中最后一个字的编码以及后一个子句中每个字的位置,依次确定后一个子句中的每个字的编码,此时两个子句中每个字的编码即可构成每个字的位置向量。通过每个字的位置向量,既能够确定每个子句中每个字的位置,也能够确定两个子句在原始文本中的先后顺序,从而保证了得到该两个子句之间的句间关系紧密程度表征值的准确度。
重复上述操作,可确定原始文本中各个子句之间的句间关系紧密程度表征值。
S104:根据各子句之间的句间关系紧密程度表征值,对各子句进行合并。
在步骤S102中确定了的各个子句之间的句间关系紧密程度表征值,由此就可以根据各个子句之间的句间关系紧密程度表征值对各个子句进行合并。为了让确定出的备选摘要更加准确,还可确定各个子句之间的句法特征。
具体的,针对任意两个子句,确定该两个子句之间的句法特征,其中,可以采用依存句法分析的方法来确定各个子句之间的句法特征,具体的,针对任意两个子句,根据依存句法分析,得到该两个子句之间的句法树,根据句法树中包含的边,确定该两个子句之间的句法特征,也可以采用其他方法,在本说明书中不作限制。
确定了各个子句之间的句法特征之后,将具有指定句法特征的两个子句合并在一起成为一个子句,其中,指定句法特征可以是以两个子句之间具有主谓关系作为指定句法特征,也可以是以两个子句之间具有动宾等关系作为指定句法特征,具体的指定句法特征可以根据需要进行设置,在本说明书中不作限制。
沿用上例,以两个子句之间具有主谓关系作为指定句法特征,针对任意两个子句确定该两个子句之间的句法特征,其中,在子句“我更偏好稍重的口味”和子句“所以加了店家的辣椒酱”中,“我”和“加了”分别对应的是一句话的主语和谓语,所以这两个子句之间具有主谓关系的句法特征,所以将这两个子句进行合并成一个子句,即“我更偏好稍重的口味,所以加了店家的辣椒酱”。
在确定了各个子句之间的句间关系紧密程度表征值以及句法特征之后,可对各个子句进行合并,以达到得到备选摘要的目的。
具体的,确定任意一个子句作为指定子句,任意确定一个子句作为待合并子句,判断该两个子句之间的句间关系紧密程度表征值是否大于第一阈值;若否,则重新确定待合并子句,当指定子句与其他任何待合并子句之间的句间关系紧密程度表征都不大于第一阈值,则将指定子句作为合并结果;若是,则对指定子句与待合并子句进行合并,并将合并结果重新作为指定子句。
根据上述合并方法,对各个子句进行合并,得到多个合并结果。
S106:根据合并结果,得到至少一个备选摘要。
在步骤S104中,得到了多个合并结果,一个合并结果作为一个备选摘要,最终得到了至少一个备选摘要。
沿用上例,假设步骤S104获得的合并结果分别为:“我更偏好稍重的口味,所以加了店家的辣椒酱,特别美味”,“鸡汤加上少许白胡椒做结尾,清盘超满足”、“店里的大姐点餐时也和蔼可亲”,则备选摘要1为“我更偏好稍重的口味,所以加了店家的辣椒酱,特别美味”,备选摘要2为“鸡汤加上少许白胡椒做结尾,清盘超满足”,备选摘要3为“店里的大姐点餐时也和蔼可亲”。
后续地,客户端可根据不同业务需要,在多个备选摘要中选择出一个合适的备选摘要作为展示出来的摘要。因为,对各个子句进行合并时,考虑了各个子句之间的句间关系紧密程度,即语义关系,又考虑了各个子句之间的句法特征,所以保证了合并结果以及合并结果对应的备选摘要的内容的准确性,从而保证了摘要的准确性。
进一步地,由于原始文本字数较多,在步骤S102中使用预测模型确定各个子句之间的句间关系紧密程度表征值时速度会较为缓慢,为了提高预测模型的运行效率,可对预测模型进行压缩处理,压缩处理可以采用模块替代的方法,具体的,压缩前的预测模型为原始预测模型,原始预测模型中包含的模块为原始模块,压缩后的预测模型中包含的每个模块为压缩后的模块,根据映射关系,针对每个压缩后的模块,确定与该压缩后的模块对应的原始模块,对原始模块进行压缩处理,得到该压缩后的模块;得到了各个压缩后的模块后,可将各个压缩后的模块合并,得到压缩后的预测模型。
其中,对原始模块进行压缩处理,具体包括:针对每个原始模块,确定该原始模块中任意一层包含的参数,使用所述参数初始化与该原始模块对应的压缩后的模块,并将压缩后的模块替换该原始模块,对包含替换模块的预测模型进行训练,得到一个训练好的压缩后的模块。重复上述对原始模块进行压缩处理的操作,得到训练好的各个压缩后的模块,将各个压缩后的模块合并,得到完整的压缩后的预测模型。为了保证压缩后的预测模型的准确率,可对压缩后的预测模型再进行多轮训练,保证压缩后的预测模型与原始预测模型的准确率相同,在后续步骤中,可直接使用压缩后的预测模型确定各个子句之间的句间关系紧密程度表征值。
如图3所示,对原始预测模型P进行压缩处理,其中,原始预测模型P为6层,预设压缩后的预测模型S为3层。将原始预测模型P和压缩后的预测模型S都划分为3个模块,分别得到原始预测模型的3个模块P1~P3与压缩后的预测模型的3个模块S1~S3。原始预测模型P中的每个模块P1~P3包含的层数均为2,预测模型的每个模块S1~S3包含的层数均为1,将模块P1与模块S1、模块P2与模块S2、模块P3与模块S3,分别建立一对一的映射关系。对于原始预测模型P中的模块P1,任意选择该模块其中一层的参数复制到与其对应的模块S1中,并将已经复制到模块P1参数的模块S1替换掉模块P1,对包含模块S1的预测模型P进行训练,得到训练好的模块S1,以此类推,分别得到训练好的模块S2和模块S3,将模块S1~S3合并,得到压缩后的预测模型S。为了保证压缩后的预测模型S的准确率,将压缩后的预测模型S继续进行训练,得到与原始预测模型P准确率相同的压缩后的预测模型S。
也可以采用其他方法对预测模块进行压缩处理,在本说明书中不作限制。
值得注意的是,为了更好的还原各个子句在原始文本中的位置,还可在对各个子句进行合并时,按照原始文本的顺序,对相邻的各个子句进行合并。
具体的,按照上述步骤S104中合并子句的方法,如图4所示,可包括以下步骤S1040-S1046:
S1040:根据各个子句在所述原始文本中的先后顺序,确定第一个子句为指定子句;确定所述指定子句的下一个子句作为待合并子句。
具体的,根据各个子句在原始文本中的先后顺序,以原始文本开头的第一个子句作为指定子句,将指定子句的下一个子句作为待合并子句。
S1042:判断指定子句与待合并子句之间的句间关系紧密程度表征值是否大于第一阈值。若是,执行步骤S1044;若否,执行步骤S1046。
S1044:当所述指定子句与所述待合并子句的字数之和不大于第二阈值时,对所述指定子句与所述待合并子句进行合并,并将合并结果重新作为指定子句,返回步骤S1040。
S1046:将所述指定子句作为一个合并结果,并将所述待合并子句作为指定子句,返回步骤S1040。
当上述两个子句之间的句间关系紧密程度表征值不大于第一阈值,可认为指定子句与待合并子句之间的连贯性低或两个子句描述的内容不是同一个主题,则将指定子句作为一个合并结果,将待合并子句作为指定子句;当上述两个子句之间的句间关系紧密程度表征值大于第一阈值,可认为指定子句和待合并子句之间的连贯性高或描述的内容是同一个主题。
值得注意的是,在实际应用中,客户端会限制展示出来的摘要的字数,由于摘要是在备选摘要中选择出来的,在本说明书实施例中,一个合并结果对应一个备选摘要,因此,在对各个子句进行合并时就要考虑到字数的限制。
所以,在指定子句和待合并子句之间的句间紧密程度大于第一阈值后,还需要判断指定子句和待合并子句的字数是否超过第二阈值,当指定子句和待合并子句的字数不大于第二阈值时,将指定子句和待合并子句合并在一起,并将合并后的结果重新作为指定子句。由于字数很少的子句不能够单独成为一个合并结果,因此,当指定子句和待合并子句的子句大于第二阈值时,就需要考虑待合并子句的字数,以及待合并子句与待合并子句的下一个子句之间的句间关系紧密程度表征值。
具体的,当待合并子句的字数不大于第三阈值,并且待合并子句与待合并子句的下一个子句之间的句间关系紧密程度表征值小于第一阈值,即待合并子句的字数较少,并且待合并子句与待合并子句的下一个子句的连贯性低,描述的内容不是同一个主题,在这种情况下,将指定子句与待合并子句合并在一起,并将合并结果作为指定子句。
当待合并子句的字数大于第三阈值,或者,待合并子句与待合并子句的下一个子句之间的句间关系紧密程度表征值大于第一阈值,则将指定子句作为一个合并结果,并将待合并子句作为指定子句。
对于上述待合并子句与待合并子句的下一句之间的句间关系紧密程度表征值大于第一阈值的情况,可以理解为,指定子句、待合并子句与待合并子句的下一个子句,这三个子句描述的内容都是同一个主题,由于字数的限制,待合并子句不能与指定子句合并,因此将指定子句作为一个合并结果,待合并子句作为指定子句。
例如,原始文本为:“点了干拌馄饨加鸡汤。麻酱的口味真不错。我更偏好稍重的口味,所以加了点店家的辣椒酱,特别美味,鸡汤加上少许白胡椒做结尾,清盘超满足,店里的大姐点餐时也和蔼可亲。完美的下午小食”,根据标点符号对原始文本进行拆分,得到子句包括:“点了干拌馄饨加鸡汤”、“麻酱的口味真不错”、“我更偏好稍重的口味”、“所以加了点店家的辣椒酱”、“特别美味”、“鸡汤加上少许白胡椒做结尾”、“清盘超满足”、“店里的大姐点餐时也和蔼可亲”、“完美的下午小食”。由步骤S104可知,“我更偏好稍重的口味”和“所以加了点店家的辣椒酱”之间具有主谓关系的指定句法特征,则合并成一个子句为“我更偏好稍重的口味,所以加了点店家的辣椒酱”。之后,将各个子句按照原始文本中的顺序,将相邻的两个子句输入预测模型中,得的各个子句与其相邻子句的句间关系紧密程度表征值。
预先设定第一阈值为0.9,第二阈值为20,第三阈值为5,按照原始文本的顺序,开头第一个子句为“点了干拌馄饨加鸡汤”,即指定子句,则待合并子句为“麻酱的口味真不错”,确定这两个子句之间的句间关系紧密程度表征值为0.95,大于第一阈值0.9,再确定两个子句的字数之和为18个字,不大于第二阈值20,则将这两个子句合并为“点了干拌馄饨加鸡汤。麻酱的口味真不错”,并重新作为指定子句,此时的待合并子句为“我更偏好稍重的口味,所以加了点店家的辣椒酱”,确定这两个子句之间的句间关系紧密程度表征值为0.96,大于第一阈值0.9,但这两个子句的字数之和为38个字,大于了第二阈值,且待合并子句的字数为20个字,大于第三阈值,所以,将指定子句“点了干拌馄饨加鸡汤。麻酱的口味真不错”作为一个合并结果,将“我更偏好稍重的口味,所以加了点店家的辣椒酱”作为指定子句,此时待合并子句为“特别美味”。
判断指定子句与待合并子句之间的句间关系紧密程度表征值是否大于第一阈值,确定这两个子句之间的句间关系紧密程度表征值为0.99,大于第一阈值,这两个子句的字数之和为24个字,大于第二阈值,但是子句“特别美味”的字数为4个字小于第三阈值,且与下一个子句“鸡汤加上少许白胡椒做结尾”之间的句间关系紧密程度表征值为0.3,小于第一阈值,则将指定子句与待合并子句进行合并,得到子句“我更偏好稍重的口味,所以加了点店家的辣椒酱,特别美味”为指定子句,以此类推。
通过上述合并方法,得到合并结果为:“点了干拌馄饨加鸡汤。麻酱的口味真不错”、“我更偏好稍重的口味,所以加了点店家的辣椒酱,特别美味”、“鸡汤加上少许白胡椒粉做结尾,清盘超满足”、“店里的大姐点餐时也和蔼可亲”、“完美的下午小食”。则得到的备选摘要分别为:备选摘要1“点了干拌馄饨加鸡汤。麻酱的口味真不错”,备选摘要2“我更偏好稍重的口味,所以加了点店家的辣椒酱,特别美味”,备选摘要3“鸡汤加上少许白胡椒粉做结尾,清盘超满足”,备选摘要4“店里的大姐点餐时也和蔼可亲”,备选摘要5“完美的下午小食”。
以上为本说明书的一个或多个实施例提供的文本处理方法,基于同样的思路,本说明书还提供了相应的文本处理装置,如图5所示。
图5为本说明书提供的一种文本处理装置示意图,具体包括:
分句模块501,预测模块502,合并模块503,备选摘要生成模块504,其中:
分句模块501,用于根据预设的分句规则,对原始文本进行处理,得到所述原始文本中包含的子句;
预测模块502,用于针对任意两个子句,将该两个子句输入预测模型,得到所述预测模型的输出的该两个子句之间的句间关系紧密程度表征值;
合并模块503,用于根据各子句之间的句间关系紧密程度表征值,对各子句进行合并;
备选摘要生成模块504,用于根据合并结果,得到至少一个备选摘要。
可选地,所述预测模块502具体用于,将该两个子句以及该两个子句在所述原始文本中的顺序输入预测模型。
可选地,所述合并模块503还用于,针对任意两个子句,确定该两个子句之间的句法特征;将具有指定句法特征的两个子句进行合并,并重新作为一个子句。
可选地,所述合并模块503具体用于,根据各个子句之间的句间关系紧密程度表征值,对所述原始文本中相邻的各子句进行合并。
可选地,所述合并模块503具体用于,根据各个子句在所述原始文本中的先后顺序,确定第一个子句为指定子句;确定所述指定子句的下一个子句作为待合并子句;判断所述指定子句与所述待合并子句之间的句间关系紧密程度表征值是否大于第一阈值;若是,则当所述指定子句与所述待合并子句的字数之和不大于第二阈值时,对所述指定子句与所述待合并子句进行合并,并将合并结果重新作为指定子句;若否,则将所述指定子句作为一个合并结果,并将所述待合并子句作为指定子句。
可选地,所述合并模块503还用于,根据所述待合并子句的字数,以及所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值,判断是否合并所述指定子句和所述待合并子句。
可选地,所述合并模块503具体用于,若所述待合并子句的字数不大于第三阈值,且所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值小于所述第一阈值,则对所述指定子句与所述待合并子句进行合并,并将合并结果重新作为指定子句;若所述待合并子句的字数大于所述第三阈值,或,所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值大于所述第一阈值,则将所述指定子句作为一个合并结果,并将所述待合并子句作为指定子句。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的文本处理方法。
本说明书还提供了图6所示的电子设备的示意结构图。如图6所述,在硬件层面,该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的文本处理方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种文本处理方法,其特征在于,所述方法包括:
根据预设的分句规则,对原始文本进行处理,得到所述原始文本中包含的子句;
针对任意两个子句,将该两个子句输入预测模型,得到所述预测模型的输出的该两个子句之间的句间关系紧密程度表征值;
根据各子句之间的句间关系紧密程度表征值,对各子句进行合并;
根据合并结果,得到至少一个备选摘要。
2.如权利要求1所述的方法,其特征在于,将该两个子句输入预测模型,具体包括:
将该两个子句以及该两个子句在所述原始文本中的顺序输入预测模型。
3.如权利要求1所述的方法,其特征在于,根据各子句之间的句间关系紧密程度表征值,对各子句进行合并之前,所述方法还包括:
针对任意两个子句,确定该两个子句之间的句法特征;
将具有指定句法特征的两个子句进行合并,并重新作为一个子句。
4.如权利要求1所述的方法,其特征在于,根据各子句之间的句间关系紧密程度表征值,对各子句进行合并,具体包括:
根据各个子句之间的句间关系紧密程度表征值,对所述原始文本中相邻的各子句进行合并。
5.如权利要求4所述的方法,其特征在于,根据各个子句之间的句间关系紧密程度表征值,对所述原始文本中相邻的各子句进行合并,具体包括:
根据各个子句在所述原始文本中的先后顺序,确定第一个子句为指定子句;
确定所述指定子句的下一个子句作为待合并子句;
判断所述指定子句与所述待合并子句之间的句间关系紧密程度表征值是否大于第一阈值;
若是,则当所述指定子句与所述待合并子句的字数之和不大于第二阈值时,对所述指定子句与所述待合并子句进行合并,并将合并结果重新作为指定子句;
若否,则将所述指定子句作为一个合并结果,并将所述待合并子句作为指定子句。
6.如权利要求5所述的方法,其特征在于,当所述指定子句与所述待合并子句之间的句间关系紧密程度表征值大于第一阈值,且所述指定子句与所述待合并子句的字数之和大于第二阈值时,所述方法还包括:
根据所述待合并子句的字数,以及所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值,判断是否合并所述指定子句和所述待合并子句。
7.如权利要求6所述的方法,其特征在于,判断是否合并所述指定子句和所述待合并子句,具体包括:
若所述待合并子句的字数不大于第三阈值,且所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值小于所述第一阈值,则对所述指定子句与所述待合并子句进行合并,并将合并结果重新作为指定子句;
若所述待合并子句的字数大于所述第三阈值,或,所述待合并子句与所述待合并子句的下一个子句之间的句间关系紧密程度表征值大于所述第一阈值,则将所述指定子句作为一个合并结果,并将所述待合并子句作为指定子句。
8.一种文本处理装置,其特征在于,包括:
分句模块,用于根据预设的分句规则,对原始文本进行处理,得到所述原始文本中包含的子句;
预测模块,用于针对任意两个子句,将该两个子句输入预测模型,得到所述预测模型的输出的该两个子句之间的句间关系紧密程度表征值;
合并模块,用于根据各子句之间的句间关系紧密程度表征值,对各子句进行合并;
备选摘要生成模块,用于根据合并结果,得到至少一个备选摘要。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种无人驾驶设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110392521.6A CN113204637B (zh) | 2021-04-13 | 2021-04-13 | 一种文本处理的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110392521.6A CN113204637B (zh) | 2021-04-13 | 2021-04-13 | 一种文本处理的方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204637A true CN113204637A (zh) | 2021-08-03 |
CN113204637B CN113204637B (zh) | 2022-09-27 |
Family
ID=77026608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110392521.6A Active CN113204637B (zh) | 2021-04-13 | 2021-04-13 | 一种文本处理的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204637B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434642A (zh) * | 2021-08-27 | 2021-09-24 | 广州云趣信息科技有限公司 | 文本摘要生成方法、装置及电子设备 |
CN114239587A (zh) * | 2021-11-24 | 2022-03-25 | 北京三快在线科技有限公司 | 一种摘要生成方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014106339A1 (en) * | 2013-01-06 | 2014-07-10 | Empire Technology Development Llc | Text billing based on semantic data reasoning |
US20180137110A1 (en) * | 2016-11-17 | 2018-05-17 | Goldman Sachs & Co. LLC | System and method for coupled detection of syntax and semantics for natural language understanding and generation |
CN108153734A (zh) * | 2017-12-26 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种文本处理方法及装置 |
CN109101489A (zh) * | 2018-07-18 | 2018-12-28 | 武汉数博科技有限责任公司 | 一种文本自动摘要方法、装置及一种电子设备 |
CN111428470A (zh) * | 2020-03-23 | 2020-07-17 | 北京世纪好未来教育科技有限公司 | 文本连贯性判定及其模型训练方法、电子设备及可读介质 |
CN111639177A (zh) * | 2020-06-04 | 2020-09-08 | 虎博网络技术(上海)有限公司 | 文本提取方法和装置 |
CN112560449A (zh) * | 2021-02-23 | 2021-03-26 | 北京远鉴信息技术有限公司 | 一种文本质量的检测方法、装置、电子设备及存储介质 |
-
2021
- 2021-04-13 CN CN202110392521.6A patent/CN113204637B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014106339A1 (en) * | 2013-01-06 | 2014-07-10 | Empire Technology Development Llc | Text billing based on semantic data reasoning |
US20180137110A1 (en) * | 2016-11-17 | 2018-05-17 | Goldman Sachs & Co. LLC | System and method for coupled detection of syntax and semantics for natural language understanding and generation |
CN108153734A (zh) * | 2017-12-26 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种文本处理方法及装置 |
CN109101489A (zh) * | 2018-07-18 | 2018-12-28 | 武汉数博科技有限责任公司 | 一种文本自动摘要方法、装置及一种电子设备 |
CN111428470A (zh) * | 2020-03-23 | 2020-07-17 | 北京世纪好未来教育科技有限公司 | 文本连贯性判定及其模型训练方法、电子设备及可读介质 |
CN111639177A (zh) * | 2020-06-04 | 2020-09-08 | 虎博网络技术(上海)有限公司 | 文本提取方法和装置 |
CN112560449A (zh) * | 2021-02-23 | 2021-03-26 | 北京远鉴信息技术有限公司 | 一种文本质量的检测方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434642A (zh) * | 2021-08-27 | 2021-09-24 | 广州云趣信息科技有限公司 | 文本摘要生成方法、装置及电子设备 |
CN114239587A (zh) * | 2021-11-24 | 2022-03-25 | 北京三快在线科技有限公司 | 一种摘要生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113204637B (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032633B (zh) | 多轮对话处理方法、装置和设备 | |
CN108537568B (zh) | 一种信息推荐方法和装置 | |
CN109992771B (zh) | 一种文本生成的方法及装置 | |
CN108334585A (zh) | 一种网页爬虫方法、装置以及电子设备 | |
US20170228459A1 (en) | Method and device for mobile searching based on artificial intelligence | |
CN113204637B (zh) | 一种文本处理的方法、装置、存储介质及电子设备 | |
CN113688313A (zh) | 一种预测模型的训练方法、信息推送的方法及装置 | |
CN107622080B (zh) | 一种数据处理方法及设备 | |
CN115952272B (zh) | 一种生成对话信息的方法、装置、设备及可读存储介质 | |
CN111144974B (zh) | 一种信息展示方法及装置 | |
CN111144126A (zh) | 一种语义分析模型的训练方法、语义分析方法及装置 | |
CN113010780A (zh) | 一种模型训练以及点击率预估方法及装置 | |
CN112948449A (zh) | 一种信息推荐的方法及装置 | |
CN115455166A (zh) | 一种智能对话系统异常检测的方法、装置、介质及设备 | |
CN113887206B (zh) | 一种模型训练及关键词提取方法及装置 | |
CN113343085B (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
CN113641894A (zh) | 一种信息推荐的方法及装置 | |
CN114861665A (zh) | 一种强化学习模型训练以及确定数据关系的方法及装置 | |
CN118364192A (zh) | 网页数据处理方法、设备、存储介质和程序产品 | |
CN113887234B (zh) | 一种模型训练以及推荐方法及装置 | |
CN115017915B (zh) | 一种模型训练、任务执行的方法及装置 | |
CN111209389A (zh) | 一种电影故事生成方法 | |
CN116308620A (zh) | 一种模型训练和信息推荐的方法、装置、存储介质及设备 | |
CN113343132B (zh) | 一种模型训练的方法、信息展示的方法及装置 | |
CN114116813A (zh) | 一种信息推荐的方法及推荐装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |