CN112711662A - 文本获取方法和装置、可读存储介质、电子设备 - Google Patents

文本获取方法和装置、可读存储介质、电子设备 Download PDF

Info

Publication number
CN112711662A
CN112711662A CN202110330045.5A CN202110330045A CN112711662A CN 112711662 A CN112711662 A CN 112711662A CN 202110330045 A CN202110330045 A CN 202110330045A CN 112711662 A CN112711662 A CN 112711662A
Authority
CN
China
Prior art keywords
sentence
determining
sentences
effective short
current document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110330045.5A
Other languages
English (en)
Inventor
孙毓钊
傅发佐
宋鑫
蔡白银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Seashell Housing Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seashell Housing Beijing Technology Co Ltd filed Critical Seashell Housing Beijing Technology Co Ltd
Priority to CN202110330045.5A priority Critical patent/CN112711662A/zh
Publication of CN112711662A publication Critical patent/CN112711662A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种文本获取方法和装置、可读存储介质、电子设备,其中,方法包括:确定当前文档中包括的k个有效短句中每个有效短句的句向量;基于每个有效短句的句向量,确定每两个有效短句之间的相似度值,得到包括所有相似度值的相似度矩阵;基于相似度矩阵确定概率转移矩阵,基于概率转移矩阵确定k个有效短句中每个有效短句的分数值;基于分数值从所述k个有效短句中确定当前文档的摘要文本;本实施例实现了无监督的摘要文本生成,利用了有效短句的句向量,体现了每个有效短句的重要性,提高了摘要文本的可信度,并且通过概率转移矩阵确定每个有效短句的分数值,加快了分数值确定的速度,提高了摘要文本的确定速度。

Description

文本获取方法和装置、可读存储介质、电子设备
技术领域
本公开涉及数据处理技术,尤其是一种文本获取方法和装置、可读存储介质、电子设备。
背景技术
文档摘要通常会总结出文档中的重要内容,给用户一个简短且直观的信息总结,用户可根据文档摘要来决定给是否查看文档的详细信息,能节省用户的时间、提高用户体验。但是,当前平台上的文档摘要通常由人工手动填写,人力成本比较高。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种文本获取方法和装置、可读存储介质、电子设备。
根据本公开实施例的一个方面,提供了一种文本获取方法,包括:
确定当前文档中包括的k个有效短句中每个有效短句的句向量;其中,所述k为大于1的整数;
基于每个所述有效短句的句向量,确定每两个所述有效短句之间的相似度值,得到包括所有所述相似度值的相似度矩阵;其中,所述相似度矩阵的维度为k*k维;
基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值;
基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本。
可选地,所述确定当前文档中包括的k个有效短句中每个有效短句的句向量,包括:
基于第一预设文本长度阈值对所述当前文档进行过滤处理;
对通过所述过滤处理后的当前文档进行符号规范化处理;
对所述规范化处理后的当前文档中的编号类型数字进行替换处理,生成所述处理文档;
基于所述处理文档确定所述k个有效短句;
确定所述k个有效短句中每个有效短句的句向量。
可选地,所述基于所述处理文档确定所述k个有效短句,包括:
基于预设的第一标点符号分割规则对所述当前文档进行分割处理,得到多个独立句子;
基于预设的第二标点符号分割规则对所述多个独立句子中的每个所述独立句子进行分割处理,得到多个短句;
对所述多个短句执行拼接处理,得到k个所述有效短句。
可选地,所述对所述多个短句执行拼接处理,得到k个所述有效短句,包括:
按照所述多个短句在所述当前文档中的排列顺序,将每两个排列顺序相邻的短句执行拼接处理,得到多个拼接句子;
通过分类模型确定所述多个拼接句子中每个拼接句子是否具备拼接条件,获得具备拼接条件的多个拼接句子;其中,所述分类模型经过训练,用于确定拼接句子中包括的两个短句是否可拼接;
基于预设的连接词过滤规则对所述多个拼接句子进行过滤处理,得到k个所述有效短句。
可选地,所述确定所述k个有效短句中每个有效短句的句向量,包括:
对所述当前文档执行去停用词操作,并将去停用词后的所述当前文档执行分词,得到多个词语;
基于预设词向量模型确定所述多个词语中每个词语的词向量,得到多个词向量;其中,所述预设词向量模型经过训练;
确定每个所述词语的逆文档频率值,将所述逆文档频率值作为所述词语的权重值;
按照所述有效短句中包括的多个词语分别对应的权重值对所述多个词语的词向量执行加权求平均,得到所述有效短句的句向量。
可选地,所述基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值,包括:
对所述相似度矩阵按列执行归一化处理,得到所述概率转移矩阵;
为所述k个有效短句中每个有效短句分配初始值为1/k的初始分值,得到所述当前文档对应的维度为k的分值向量;
基于所述概率转移矩阵迭代更新所述分值向量,直到达到预设停止条件,停止更新,得到每个所述有效短句的分数值。
可选地,所述基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本,包括:
按照所述分数值从大到小对所述k个有效短句进行排序,得到排序在前的设定比例的第一短句集;
根据设定敏感词对所述第一短句集中包括的每个有效短句进行筛选,得到不包括所述设定敏感词的第二短句集;其中,所述第二短句集包括至少一个所述有效短句或不包括所述有效短句;
基于第二预设文本长度阈值对所述第二短句集进行过滤处理,得到第三短句集;其中,所述第三短句集包括至少一个所述有效短句或不包括所述有效短句;
基于所述第三短句集确定一个有效短句作为所述当前文档的摘要文本,或基于所述第三短句集不为所述当前文档生成摘要文本。
根据本公开实施例的另一方面,提供了一种文本获取装置,包括:
向量化模块,用于确定当前文档中包括的k个有效短句中每个有效短句的句向量;其中,所述k为大于1的整数;
相似度确定模块,用于基于每个所述有效短句的句向量,确定每两个所述有效短句之间的相似度值,得到包括所有所述相似度值的相似度矩阵;其中,所述相似度矩阵的维度为k*k维;
分值确定模块,用于基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值;
摘要确定模块,用于基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本。
可选地,所述向量化模块,包括:
预处理单元,用于基于第一预设文本长度阈值对所述当前文档进行过滤处理;对通过所述过滤处理后的当前文档进行符号规范化处理;对所述规范化处理后的当前文档中的编号类型数字进行替换处理,生成所述处理文档;
短句确定单元,用于基于所述处理文档确定所述k个有效短句;
句向量单元,用于确定所述k个有效短句中每个有效短句的句向量。
可选地,所述短句确定单元,具体用于基于预设的第一标点符号分割规则对所述文档进行分割处理,得到多个独立句子;基于预设的第二标点符号分割规则对所述多个独立句子中的每个所述独立句子进行分割处理,得到多个短句;对所述多个短句执行拼接处理,得到k个所述有效短句。
可选地,所述短句确定单元在对所述多个短句执行拼接处理,得到k个所述有效短句时,用于按照所述多个短句在所述当前文档中的排列顺序,将每两个排列顺序相邻的短句执行拼接处理,得到多个拼接句子;通过分类模型确定所述多个拼接句子中每个拼接句子是否具备拼接条件,获得具备拼接条件的多个拼接句子;其中,所述分类模型经过训练,用于确定拼接句子中包括的两个短句是否可拼接;基于预设的连接词过滤规则对所述多个拼接句子进行过滤处理,得到k个所述有效短句。
可选地,所述句向量单元,具体用于对所述当前文档执行去停用词操作,并将去停用词后的所述当前文档执行分词,得到多个词语;基于预设词向量模型确定所述多个词语中每个词语的词向量,得到多个词向量;其中,所述预设词向量模型经过训练;确定每个所述词语的逆文档频率值,将所述逆文档频率值作为所述词语的权重值;按照所述有效短句中包括的多个词语分别对应的权重值对所述多个词语的词向量执行加权求平均,得到所述有效短句的句向量。
可选地,所述分值确定模块,具体用于对所述相似度矩阵按列执行归一化处理,得到所述概率转移矩阵;为所述k个有效短句中每个有效短句分配初始值为1/k的初始分值,得到所述当前文档对应的维度为k的分值向量;基于所述概率转移矩阵迭代更新所述分值向量,直到达到预设停止条件,停止更新,得到每个所述有效短句的分数值。
可选地,所述摘要确定模块,具体用于按照所述分数值从大到小对所述k个有效短句进行排序,得到排序在前的设定比例的第一短句集;根据设定敏感词对所述第一短句集中包括的每个有效短句进行筛选,得到不包括所述设定敏感词的第二短句集;其中,所述第二短句集包括至少一个所述有效短句或不包括所述有效短句;基于第二预设文本长度阈值对所述第二短句集进行过滤处理,得到第三短句集;其中,所述第三短句集包括至少一个所述有效短句或不包括所述有效短句;基于所述第三短句集确定一个有效短句作为所述当前文档的摘要文本,或基于所述第三短句集不为所述当前文档生成摘要文本。
根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的文本获取方法。
根据本公开实施例的还一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的文本获取方法。
基于本公开上述实施例提供的一种文本获取方法和装置、可读存储介质、电子设备,包括:确定当前文档中包括的k个有效短句中每个有效短句的句向量;其中,所述k为大于1的整数;基于每个所述有效短句的句向量,确定每两个所述有效短句之间的相似度值,得到包括所有所述相似度值的相似度矩阵;其中,所述相似度矩阵的维度为k*k维;基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值;基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本;本实施例实现了无监督的摘要文本生成,利用了有效短句的句向量,体现了每个有效短句的重要性,提高了摘要文本的可信度,并且通过概率转移矩阵确定每个有效短句的分数值,加快了分数值确定的速度,提高了摘要文本的确定速度。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的文本获取方法的流程示意图。
图2是本公开图1所示的实施例中步骤102的一个流程示意图。
图3是本公开图2所示的实施例中步骤1022的一个流程示意图。
图4为本公开一示例性实施例提供的文本获取方法的一个示例中进行有效短句划分的示意图。
图5是本公开图2所示的实施例中步骤1023的一个流程示意图。
图6是本公开图1所示的实施例中步骤106的一个流程示意图。
图7是本公开图1所示的实施例中步骤108的一个流程示意图。
图8是本公开一示例性实施例提供的文本获取装置的结构示意图。
图9是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有技术中获取文档摘要的方式都是通过结构化的标签数据组合构成;现有技术至少存在以下问题:且存在大量的重复性,缺乏吸引力。
示例性方法
图1是本公开一示例性实施例提供的文本获取方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
步骤102,确定当前文档中包括的k个有效短句中每个有效短句的句向量。
其中,k为大于1的整数。本实施例中的文档可以是对任意事物进行描述的完整的描述性文本,例如,一条对房源的完整的描述性文本可作为一个文档;句子指据句号、感叹号等标点切割文档后得到的具有完整语义的单元;短句指对句子按照逗号、空格切割,不具有完整语义的单元。本实施例中所指有效短句是基于两个或两个以上的短句组合得到的具有相对完整语义的单元。
步骤104,基于每个有效短句的句向量,确定每两个有效短句之间的相似度值,得到包括所有相似度值的相似度矩阵。
其中,相似度矩阵的维度为k*k维。
在一实施例中,对当前文档中包括的所有有效短句两两计算句向量的余弦距离,得到每两个有效短句之间的相似度值,构建相似度矩阵
Figure 775128DEST_PATH_IMAGE001
,相似度矩阵的维度为k*k,k表示当前文档中有效短句的数量,
Figure 659645DEST_PATH_IMAGE002
表示短句
Figure 908223DEST_PATH_IMAGE003
和短句
Figure 772274DEST_PATH_IMAGE004
之间的相似度值,取值范围为
Figure 55488DEST_PATH_IMAGE005
步骤106,基于相似度矩阵确定概率转移矩阵,基于概率转移矩阵确定k个有效短句中每个有效短句的分数值。
可选地,可通过归一化等处理将相似度矩阵处理为概率转移矩阵,基于概率转移矩阵对k个有效短句的分数值进行迭代更新,可实现更快的收敛,有效避免了基于相似度矩阵迭代更新时,不易收敛的问题。
步骤108,基于分数值从k个有效短句中确定当前文档的摘要文本。
本实施例中在确定分数值的基础上,可从分数值较高的多个有效短句中确定一个符合预设筛选条件的有效短句作为当前文档的摘要文本;或者,分数值较高的多个有效短句中所有有效短句都不符合预设筛选条件时,不生成摘要文本。
本公开上述实施例提供的一种文本获取方法,确定当前文档中包括的k个有效短句中每个有效短句的句向量;其中,所述k为大于1的整数;基于每个所述有效短句的句向量,确定每两个所述有效短句之间的相似度值,得到包括所有所述相似度值的相似度矩阵;其中,所述相似度矩阵的维度为k*k维;基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值;基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本;本实施例实现了无监督的摘要文本生成,利用了有效短句的句向量,体现了每个有效短句的重要性,提高了摘要文本的可信度,并且通过概率转移矩阵确定每个有效短句的分数值,加快了分数值确定的速度,提高了摘要文本的确定速度。
如图2所示,在上述图1所示实施例的基础上,步骤102可包括如下步骤:
步骤1021,对当前文档进行预处理,得到处理文档。
可选地,基于第一预设文本长度阈值对当前文档进行过滤处理;
对通过过滤处理后的当前文档进行符号规范化处理;
对规范化处理后的当前文档中的编号类型数字进行替换处理,生成处理文档。
本实施例中,预处理包括数据清洗处理等。在进行数据清洗处理时,基于第一预设文本长度阈值对房源描述信息进行过滤处理,例如,文本长度阈值为50字符数,如果当前文档的字数小于50字符数,则将此当前文档过滤掉;对通过过滤处理后的当前文档进行符号规范化处理,并对此当前文档中的编号类型数字进行替换处理,生成处理文档。符号规范化处理可以为多种规范化处理,可以是将多个连续相同或不同标点符号处理为一个,例如,将连续多个逗号、句号或问号等统一合并成一个逗号、句号或问号;编号类型数字可以为如1,[1],1)等列举型文本,将1,[1],1)等统一替换成空白字符。
步骤1022,基于处理文档确定k个有效短句。
当前文档中包括多个句子,可通过标点符号将当前文档分割为多个句子,再将每个句子分割为多个短句,再基于短句融合得到有效短句。
步骤1023,确定k个有效短句中每个有效短句的句向量。
本实施例中,先确定每个有效短句中包括的所有词语的词向量,具体可通过经过训练的Word2Vec模型确定词向量;再通过加权求平均的方式获得该有效短句的句向量,通过加权求平均的方式突出了有效短句中重点词语(该重点词语是相对文档而言)所占比例,使获得的句向量能更加突出该句子中的重点词语,增大了包括重点词语的有效短句被确定为摘要文本的概率。
如图3所示,在上述图1所示实施例的基础上,步骤1022可包括如下步骤:
步骤301,基于预设的第一标点符号分割规则对当前文档进行分割处理,得到多个独立句子。
可选地,第一标点符号分割规则可以包括:按照句号、感叹号、问号等将原始语料分割为多个独立句子。
步骤302,基于预设的第二标点符号分割规则对多个独立句子中的每个独立句子进行分割处理,得到多个短句。
可选地,第二标点符号分割规则可以包括:按照逗号等将独立句子分割为多个短句。
步骤303,对多个短句执行拼接处理,得到k个有效短句。
本实施例中,可通过遍历每个短句,按顺序将每条短句与其后面的短句拼接起来,实现将每两个相邻的短句的两两拼接,组成短句粒度的2-gram(克)形式的拼接句子,在经过条件筛选,从拼接句子中获得有效短句。可选地,步骤303可以包括:
按照多个短句在当前文档中的排列顺序,将每两个排列顺序相邻的短句执行拼接处理,得到多个拼接句子;
通过分类模型确定多个拼接句子中每个拼接句子是否具备拼接条件,获得具备拼接条件的多个拼接句子;其中,分类模型经过训练,用于确定拼接句子中包括的两个短句是否可拼接;
基于预设的连接词过滤规则对多个拼接句子进行过滤处理,得到个有效短句。
其中,分类模型可以是通过人工标注部分短句训练的二分类模型,以该分类模型来判断两个短句是否语义相似,具备融合的条件。使用2-gram形式融合句子,一方面不会让短句过长或者过短,可以适用于多种业务场景;另一方面可以解决因单条短句长度过短,导致单条短句间相似度计算过高的问题,同时引入了额外的上下文信息辅助计算。另外,有些短句中会带有连接词,连接词会导致拼接后的拼接句子语义不通顺,本实施例通过列举常用的连接词库,将连接词分为两类:前缀连接词和后缀连接词,例如,“如果”往往出现在句子的前半部分,本方法将其归类为前缀连接词,当前缀连接词出现在拼接句子的后半部分时,整条拼接句子会被判定为无效短句过滤掉;对于后缀连接词,当后缀连接词出现在拼接句子的前半部分时,整条拼接句子会被判定为无效短句过滤掉;通过上述分类和过滤,得到k个有效短句;例如,如图4所示,在一个可选示例中,对文档“房子装修不到2年,可拎包入住。一楼开窗见花园视线好,接受换房客户,这个房子已是商品房”进行分割处理,获取对应的多个短句;对多个短句中的短句进行融合处理,获取相对应的拼接句子“房子装修不到2年,可拎包入住”、“一楼开窗见花园视线好,接受换房客户”和“接受换房客户,这个房子已是商品房”,并基于连接词过滤规则对拼接句子进行过滤处理。
如图5所示,在上述图1所示实施例的基础上,步骤1023可包括如下步骤:
步骤501,对当前文档执行去停用词操作,并将去停用词后的当前文档执行分词,得到多个词语。
本实施例中,将不具有实际含义的一些词语或符合等设定为停用词,例如,那里、那么、部分、鄙人、采取、里面、重大、重新、重要、鉴于、问题、防止、啊、阿、附近、限制、除、除了、除此之外、除非、随、随着、随著、集中、需要、非但、非常、非徒、靠、顺、顺着、首先、高效、是不是、说说、*、房子、~等;本实施例中,为了适应不同业务场景,可根据不同业务场景事先设置停用词表,通过基于停用词表中的所有词语对当前文档中包括的停用词进行去停用词操作;对去停用词后的当前文档执行分词,得到多个词语,其中,分词操作可以基于现有技术中的分词方式,本实施例不限制具体的分词方式。
步骤502,基于预设词向量模型确定多个词语中每个词语的词向量,得到多个词向量。
其中,预设词向量模型经过训练;可选地,预设词向量模型可以是Word2Vec模型,Word2Vec模型可根据训练数据的业务场景适应不同的业务场景,针对一个业务场景下的数据,只需训练一个对应的Word2Vec模型即可实现对该业务场景下的所有文档中的词语的向量化;得到的词向量的维度为设定值,例如,300维。
步骤503,基于每个有效短句对应的多个词语的词向量,确定有效短句的句向量。
通常在确定词向量的基础上,可基于求平均的方式获得包括词语的短句的句向量,本申请通过加权求平均,突出在文档中出现频率较少的词语在句向量中的比重,增大了出现频率较少的词语在摘要文本中出现的概率,提高了摘要文本的有效性。为了实现加权求平均的获得句向量,可选地,上述实施例中步骤503可以包括:
确定每个词语的逆文档频率值,将逆文档频率值作为词语的权重值。
其中,逆文档频率(IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文档数量除以包含该词语的文档的数量,再将得到的商取以10为底的对数得到。可选地,IDF计算公式可以为以下公式(1)所示:
Figure 346792DEST_PATH_IMAGE006
公式(1)
其中,
Figure 82667DEST_PATH_IMAGE007
表示语料库中总文档数量,语料库为由大量当前业务场景下的文档组成的非结构化数据集;
Figure 750409DEST_PATH_IMAGE008
表示包含词语
Figure 684867DEST_PATH_IMAGE009
的文档
Figure 147072DEST_PATH_IMAGE010
的数量,
Figure 868778DEST_PATH_IMAGE011
表示词语
Figure 74631DEST_PATH_IMAGE009
的逆文档频率值;在语料库中出现次数越多的词语,逆文档频率值越小。
按照有效短句中包括的多个词语分别对应的权重值对多个词语的词向量执行加权求平均,得到有效短句的句向量。
可选地,句向量计算公式可以如下公式(2)所示:
Figure 66858DEST_PATH_IMAGE012
公式(2)
其中, STE(Sentence Embedding)表示有效短句的句向量,维度与词向量相同,例如:为1*300;n表示有效短句中包括的词语的数量,
Figure 965544DEST_PATH_IMAGE011
表示词语
Figure 676011DEST_PATH_IMAGE009
的逆文档频率值,
Figure 154397DEST_PATH_IMAGE013
表示词语的词向量,
Figure 266710DEST_PATH_IMAGE014
表示
Figure 70717DEST_PATH_IMAGE013
是维度为1*300的向量,其中R是数学中一种数据集合的定义,表示实数集。上述公式(2)的含义表示:有效短句的句向量是对有效短句中包括的每个词语的词向量基于IDF做加权求平均,本实施例计算得到的句向量既能保留文档中短句的上下文语义信息,又能对有语料库中出现概率较小的词语组成的有效短句进行加权,对各个语料库中经常出现的词语组成的有效短句进行降权,避免了所有文档提取出的摘要文本都是相同词语的重复性描述,增加了不同摘要文本之间的区别,提高了文档之间的识别率。
如图6所示,在上述图1所示实施例的基础上,步骤106可包括如下步骤:
步骤1061,对相似度矩阵按列执行归一化处理,得到概率转移矩阵。
在一可选实施例中,由于概率转移矩阵具有容易收敛、召回率高等优点,对于文档
Figure 767016DEST_PATH_IMAGE010
,为了后续迭代抽取摘要文本,需要根据文档中各有效短句相似度构建概率转移矩阵 M,概率转移矩阵中的元素需满足以下性质,即:
Figure 314672DEST_PATH_IMAGE015
,且
Figure 281491DEST_PATH_IMAGE016
;即,概率转移矩阵中每个元素非负,且每列元素之和为1。因此本实施例设计了一种根据相似度矩阵构建概率转移矩阵的方法,公式如下公式(3)所示:
Figure 318717DEST_PATH_IMAGE017
公式(3)
其中,k表示文档中有效短句的数量;
Figure 738197DEST_PATH_IMAGE018
表示概率转移矩阵的第
Figure 89544DEST_PATH_IMAGE019
行第
Figure 645290DEST_PATH_IMAGE020
列的元素,表示归一化后的短句
Figure 56680DEST_PATH_IMAGE003
和短句
Figure 963456DEST_PATH_IMAGE004
的相似度;
Figure 351450DEST_PATH_IMAGE021
的维度为k*k,
Figure 292861DEST_PATH_IMAGE002
表示短句
Figure 671890DEST_PATH_IMAGE003
和短句
Figure 65962DEST_PATH_IMAGE004
的相似度,可以基于上述实施例中的相似度矩阵
Figure 759111DEST_PATH_IMAGE001
中的元素获得。概率转移矩阵中每个元素根据有效短句间的相似度值按列做了
Figure 23871DEST_PATH_IMAGE022
归一化处理,这样概率转移矩阵中元素的取值范围都被限定在(0,1),概率转移矩阵中每列元素之和为1。
步骤1062,基于概率转移矩阵确定k个有效短句中每个有效短句的分数值。
本实施例中基于相似度矩阵得到的概率转移矩阵满足概率转移矩阵性质,同时也保留了有效短句间的相似度信息,基于该概率转移矩阵对每个有效短句的分数值进行迭代更新,实现了加快收敛的效果。
可选地,步骤1062可包括:
为k个有效短句中每个有效短句分配初始值为1/k的初始分值,得到当前文档对应的维度为k的分值向量;
基于概率转移矩阵迭代更新分值向量,直到达到预设停止条件,停止更新,得到每个有效短句的分数值。
本实施例中,初始化当前文档中包括的各个有效短句的分数,构成k*1维的分值向量,每个元素的值均为1/k,k表示当前文档中有效短句的数量,这样当前文档中每个有效短句的初始分值都是一致的,且累和为1。根据概率转移矩阵迭代更新当前文档的分值向量,也就是更新每个有效短句的得分,迭代公式如下公式(4)所示:
Figure 777063DEST_PATH_IMAGE023
公式(4)
其中,
Figure 658431DEST_PATH_IMAGE024
表示迭代轮次,
Figure 155272DEST_PATH_IMAGE025
为一个(0,1)之间的常数(取值可根据业务场景进行设置调解),例如,设置为0.85;当
Figure 602434DEST_PATH_IMAGE025
接近于0时,各有效短句的分数在迭代过程中趋近于相等;当
Figure 962746DEST_PATH_IMAGE025
越接近于1时,将会更依赖于概率转移矩阵来迭代更新。k表示文档
Figure 128148DEST_PATH_IMAGE010
中的有效短句的数量,
Figure 163100DEST_PATH_IMAGE026
表示上述实施例中生成的概率转移矩阵,
Figure 933610DEST_PATH_IMAGE027
表示
Figure 763025DEST_PATH_IMAGE028
是维度为k*k的向量;
Figure 353407DEST_PATH_IMAGE029
表示第次迭代过程中的文档分数向量,
Figure 192050DEST_PATH_IMAGE030
表示
Figure 551487DEST_PATH_IMAGE031
是维度为k*1的向量,其中,每个元素表示文档中各个短句的分数,其中R是数学中一种数据集合的定义,表示实数集;
Figure 315918DEST_PATH_IMAGE032
表示第
Figure 393596DEST_PATH_IMAGE033
次迭代过程中的文档分数向量,维度为k*1,其中,每个元素表示文档中各个短句的分数。分值向量的迭代更新都依赖于上一次的分值向量,由于矩阵
Figure 35930DEST_PATH_IMAGE021
满足概率转移矩阵的性质,最终迭代过程会收敛到一个平稳分布(两次迭代更新之间的分值向量之间的欧式距离小于设定值),因此,预设停止条件可以包括:两次迭代更新之间的分值向量之间的欧式距离小于设定值,或,迭代次数达到设定迭代次数;通过本实施例停止迭代时得到的分值向量中的每个元素表示对应的每个有效短句的分数值;本实施例通过概率转移矩阵提高了迭代收敛的效率。
如图7所示,在上述图1所示实施例的基础上,步骤108可包括如下步骤:
步骤1081,按照分数值从大到小对k个有效短句进行排序,得到排序在前的设定比例的第一短句集。
本实施例为了提高获得的摘要文本对该文档的概括性,通设定比例进行分值过滤,例如,将过滤掉分数值排序在排序后30%的有效短句,即,只取文档中分数值在前70%的有效短句构成第一短句集。
步骤1082,根据设定敏感词对第一短句集中包括的每个有效短句进行筛选,得到不包括设定敏感词的第二短句集。
其中,第二短句集包括至少一个有效短句或不包括有效短句。
可选地,对于不同业务场景可获得不同的敏感词,对于所有包括敏感词的有效短句进行过滤掉,避免敏感词出现在摘要文本中。
步骤1083,基于第二预设文本长度阈值对第二短句集进行过滤处理,得到符合条件的第三短句集。
其中,第三短句集包括至少一个有效短句或不包括有效短句。
对于长度过短的有效短句,由于表达内容有限,不能作为当前文档的摘要文本,本实施例通过文本长度阈值将长度过短的有效短句过滤掉,例如,将第二预设文本长度阈值设置为10个字符,有效短句长度少于10个字符则过滤掉,得到所有长度大于第二预设文本长度阈值的有效短句构成第三短句集。
步骤1084,基于第三短句集确定一个有效短句作为当前文档的摘要文本,或基于第三短句集不为当前文档生成摘要文本。
本实施例中,可选地,当第三短句集中包括至少一个有效短句时,确定其中分数值最高的有效短句作为当前文档的摘要文本;而当第三短句集中不包括有效短句(可能是由于第二短句集中不包括有效短句,或者在文本长度过滤时导致第三短句集为空)时,不对该当前文档生成摘要文本。
本公开实施例提供的任一种文本获取方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种文本获取方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种文本获取方法。下文不再赘述。
示例性装置
图8是本公开一示例性实施例提供的文本获取装置的结构示意图。如图8所示,该实施例提供的装置包括:
向量化模块81,用于确定当前文档中包括的k个有效短句中每个有效短句的句向量。
其中,k为大于1的整数。
相似度确定模块82,用于基于每个有效短句的句向量,确定每两个有效短句之间的相似度值,得到包括所有相似度值的相似度矩阵。
其中,相似度矩阵的维度为k*k维。
分值确定模块83,用于基于相似度矩阵确定概率转移矩阵,基于概率转移矩阵确定k个有效短句中每个有效短句的分数值。
摘要确定模块84,用于基于分数值从所述k个有效短句中确定当前文档的摘要文本。
本公开上述实施例提供的一种文本获取装置,确定当前文档中包括的k个有效短句中每个有效短句的句向量;其中,所述k为大于1的整数;基于每个所述有效短句的句向量,确定每两个所述有效短句之间的相似度值,得到包括所有所述相似度值的相似度矩阵;其中,所述相似度矩阵的维度为k*k维;基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值;基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本;本实施例实现了无监督的摘要文本生成,利用了有效短句的句向量,体现了每个有效短句的重要性,提高了摘要文本的可信度,并且通过概率转移矩阵确定每个有效短句的分数值,加快了分数值确定的速度,提高了摘要文本的确定速度。
在一些可选的实施例中,向量化模块82,包括:
预处理单元,用于对当前文档进行预处理,得到处理文档;
短句确定单元,用于基于处理文档确定k个有效短句;
句向量单元,用于确定k个有效短句中每个有效短句的句向量。
可选地,预处理单元,具体用于基于第一预设文本长度阈值对当前文档进行过滤处理;对通过过滤处理后的当前文档进行符号规范化处理;对规范化处理后的当前文档中的编号类型数字进行替换处理,生成处理文档。
可选地,短句确定单元,具体用于基于预设的第一标点符号分割规则对当前文档进行分割处理,得到多个独立句子;基于预设的第二标点符号分割规则对多个独立句子中的每个独立句子进行分割处理,得到多个短句;对多个短句执行拼接处理,得到k个有效短句。
可选地,短句确定单元在对多个短句执行拼接处理,得到k个有效短句时,用于按照多个短句在当前文档中的排列顺序,将每两个排列顺序相邻的短句执行拼接处理,得到多个拼接句子;通过分类模型确定多个拼接句子中每个拼接句子是否具备拼接条件,获得具备拼接条件的多个拼接句子;其中,分类模型经过训练,用于确定拼接句子中包括的两个短句是否可拼接;基于预设的连接词过滤规则对多个拼接句子进行过滤处理,得到k个有效短句。
可选地,句向量单元,具体用于对当前文档执行去停用词操作,并将去停用词后的当前文档执行分词,得到多个词语;基于预设词向量模型确定多个词语中每个词语的词向量,得到多个词向量;其中,预设词向量模型经过训练;基于每个有效短句对应的多个词语的词向量,确定有效短句的句向量。
可选地,句向量单元在基于每个有效短句对应的多个词语的词向量,确定有效短句的句向量时,用于确定每个词语的逆文档频率值,将逆文档频率值作为词语的权重值;按照有效短句中包括的多个词语分别对应的权重值对多个词语的词向量执行加权求平均,得到有效短句的句向量。
在一些可选的实施例中,分值确定模块83,具体用于对相似度矩阵按列执行归一化处理,得到概率转移矩阵;基于概率转移矩阵确定k个有效短句中每个有效短句的分数值。
可选地,分值确定模块83在基于概率转移矩阵确定k个有效短句中每个有效短句的分数值时,用于为k个有效短句中每个有效短句分配初始值为1/k的初始分值,得到当前文档对应的维度为k的分值向量;基于概率转移矩阵迭代更新分值向量,直到达到预设停止条件,停止更新,得到每个有效短句的分数值。
在一些可选的实施例中,摘要确定模块84,具体用于按照分数值从大到小对k个有效短句进行排序,得到排序在前的设定比例的第一短句集;根据设定敏感词对第一短句集中包括的每个有效短句进行筛选,得到不包括设定敏感词的第二短句集;其中,第二短句集包括至少一个有效短句或不包括有效短句;基于第二预设文本长度阈值对第二短句集进行过滤处理,得到符合条件的第三短句集;其中,第三短句集包括至少一个有效短句或不包括有效短句;基于第三短句集确定一个有效短句作为当前文档的摘要文本,或基于第三短句集不为当前文档生成摘要文本。
示例性电子设备
下面,参考图9来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图9图示了根据本公开实施例的电子设备的框图。
如图9所示,电子设备90包括一个或多个处理器91和存储器92。
处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备90中的其他组件以执行期望的功能。
存储器92可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器91可以运行所述程序指令,以实现上文所述的本公开的各个实施例的文本获取方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备90还可以包括:输入装置93和输出装置94,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置93可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置93可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入装置93还可以包括例如键盘、鼠标等等。
该输出装置94可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备90中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本获取方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本获取方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种文本获取方法,其特征在于,包括:
确定当前文档中包括的k个有效短句中每个有效短句的句向量;其中,所述k为大于1的整数;
基于每个所述有效短句的句向量,确定每两个所述有效短句之间的相似度值,得到包括所有所述相似度值的相似度矩阵;其中,所述相似度矩阵的维度为k*k维;
基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值;
基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本。
2.根据权利要求1所述的方法,其特征在于,所述确定当前文档中包括的k个有效短句中每个有效短句的句向量,包括:
基于第一预设文本长度阈值对所述当前文档进行过滤处理;
对通过所述过滤处理后的当前文档进行符号规范化处理;
对所述规范化处理后的当前文档中的编号类型数字进行替换处理,生成所述处理文档;
基于所述处理文档确定所述k个有效短句;
确定所述k个有效短句中每个有效短句的句向量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述处理文档确定所述k个有效短句,包括:
基于预设的第一标点符号分割规则对所述当前文档进行分割处理,得到多个独立句子;
基于预设的第二标点符号分割规则对所述多个独立句子中的每个所述独立句子进行分割处理,得到多个短句;
对所述多个短句执行拼接处理,得到k个所述有效短句。
4.根据权利要求3所述的方法,其特征在于,所述对所述多个短句执行拼接处理,得到k个所述有效短句,包括:
按照所述多个短句在所述当前文档中的排列顺序,将每两个排列顺序相邻的短句执行拼接处理,得到多个拼接句子;
通过分类模型确定所述多个拼接句子中每个拼接句子是否具备拼接条件,获得具备拼接条件的多个拼接句子;其中,所述分类模型经过训练,用于确定拼接句子中包括的两个短句是否可拼接;
基于预设的连接词过滤规则对所述多个拼接句子进行过滤处理,得到k个所述有效短句。
5.根据权利要求2所述的方法,其特征在于,所述确定所述k个有效短句中每个有效短句的句向量,包括:
对所述当前文档执行去停用词操作,并将去停用词后的所述当前文档执行分词,得到多个词语;
基于预设词向量模型确定所述多个词语中每个词语的词向量,得到多个词向量;其中,所述预设词向量模型经过训练;
确定每个所述词语的逆文档频率值,将所述逆文档频率值作为所述词语的权重值;
按照所述有效短句中包括的多个词语分别对应的权重值对所述多个词语的词向量执行加权求平均,得到所述有效短句的句向量。
6.根据权利要求1-5任一所述的方法,其特征在于,所述基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值,包括:
对所述相似度矩阵按列执行归一化处理,得到所述概率转移矩阵;
为所述k个有效短句中每个有效短句分配初始值为1/k的初始分值,得到所述当前文档对应的维度为k的分值向量;
基于所述概率转移矩阵迭代更新所述分值向量,直到达到预设停止条件,停止更新,得到每个所述有效短句的分数值。
7.根据权利要求1-5任一所述的方法,其特征在于,所述基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本,包括:
按照所述分数值从大到小对所述k个有效短句进行排序,得到排序在前的设定比例的第一短句集;
根据设定敏感词对所述第一短句集中包括的每个有效短句进行筛选,得到不包括所述设定敏感词的第二短句集;其中,所述第二短句集包括至少一个所述有效短句或不包括所述有效短句;
基于第二预设文本长度阈值对所述第二短句集进行过滤处理,得到第三短句集;其中,所述第三短句集包括至少一个所述有效短句或不包括所述有效短句;
基于所述第三短句集确定一个有效短句作为所述当前文档的摘要文本,或基于所述第三短句集不为所述当前文档生成摘要文本。
8.一种文本获取装置,其特征在于,包括:
向量化模块,用于确定当前文档中包括的k个有效短句中每个有效短句的句向量;其中,所述k为大于1的整数;
相似度确定模块,用于基于每个所述有效短句的句向量,确定每两个所述有效短句之间的相似度值,得到包括所有所述相似度值的相似度矩阵;其中,所述相似度矩阵的维度为k*k维;
分值确定模块,用于基于所述相似度矩阵确定概率转移矩阵,基于所述概率转移矩阵确定所述k个有效短句中每个有效短句的分数值;
摘要确定模块,用于基于所述分数值从所述k个有效短句中确定所述当前文档的摘要文本。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的文本获取方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的文本获取方法。
CN202110330045.5A 2021-03-29 2021-03-29 文本获取方法和装置、可读存储介质、电子设备 Pending CN112711662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110330045.5A CN112711662A (zh) 2021-03-29 2021-03-29 文本获取方法和装置、可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110330045.5A CN112711662A (zh) 2021-03-29 2021-03-29 文本获取方法和装置、可读存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN112711662A true CN112711662A (zh) 2021-04-27

Family

ID=75550384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110330045.5A Pending CN112711662A (zh) 2021-03-29 2021-03-29 文本获取方法和装置、可读存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN112711662A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434642A (zh) * 2021-08-27 2021-09-24 广州云趣信息科技有限公司 文本摘要生成方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN108304445A (zh) * 2017-12-07 2018-07-20 新华网股份有限公司 一种文本摘要生成方法和装置
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109284503A (zh) * 2018-10-22 2019-01-29 传神语联网网络科技股份有限公司 翻译语句结束判断方法与系统
CN109739973A (zh) * 2018-12-20 2019-05-10 北京奇安信科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
US20200081909A1 (en) * 2017-05-23 2020-03-12 Huawei Technologies Co., Ltd. Multi-Document Summary Generation Method and Apparatus, and Terminal
CN112417854A (zh) * 2020-12-15 2021-02-26 北京信息科技大学 中文文档抽取式摘要方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
US20200081909A1 (en) * 2017-05-23 2020-03-12 Huawei Technologies Co., Ltd. Multi-Document Summary Generation Method and Apparatus, and Terminal
CN108304445A (zh) * 2017-12-07 2018-07-20 新华网股份有限公司 一种文本摘要生成方法和装置
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109284503A (zh) * 2018-10-22 2019-01-29 传神语联网网络科技股份有限公司 翻译语句结束判断方法与系统
CN109739973A (zh) * 2018-12-20 2019-05-10 北京奇安信科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN112417854A (zh) * 2020-12-15 2021-02-26 北京信息科技大学 中文文档抽取式摘要方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
吴庆耀: "高维数据的若干分类问题及算法研究", 《中国博士学位论文全文数据库 信息科技辑》 *
熊娇等: "基于词项―句子―文档三层图模型的多文档自动摘要", 《中文信息学报》 *
王一斌 等: "基于扩展起始节点和加权融合策略预测肺癌风险致病基因", 《生物化学与生物物理进展》 *
王超: "基于多源数据的异常检测关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
王长虎: "互联网环境下大规模图像的内容分析、检索和自动标注的研究", 《中国博士学位论文全文数据库 信息科技辑》 *
王黎 等: "图像重排序中与查询相关的图像相似性度量", 《计算机系统应用》 *
瞿佳: "基于数据融合的复杂疾病关联网络预测算法研究", 《中国博士学位论文全文数据库 基础科学辑》 *
董益华: "基于随机游走和卷积神经网络的miRNA_疾病关联预测研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434642A (zh) * 2021-08-27 2021-09-24 广州云趣信息科技有限公司 文本摘要生成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US20200265076A1 (en) System and method for text categorization and sentiment analysis
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
US10769133B2 (en) Method and apparatus for recognizing a low-quality news resource, computer device and readable medium
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
US11030406B2 (en) Ontology expansion using entity-association rules and abstract relations
CN104778158B (zh) 一种文本表示方法及装置
US11144723B2 (en) Method, device, and program for text classification
KR20180011254A (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
US20150356091A1 (en) Method and system for identifying microblog user identity
US20230385549A1 (en) Systems and methods for colearning custom syntactic expression types for suggesting next best corresponence in a communication environment
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
US9348901B2 (en) System and method for rule based classification of a text fragment
CN111126060A (zh) 一种主题词的提取方法、装置、设备及存储介质
WO2020172649A1 (en) System and method for text categorization and sentiment analysis
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN112711662A (zh) 文本获取方法和装置、可读存储介质、电子设备
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
CN114743012B (zh) 一种文本识别方法及装置
Mostafa Enhanced Sentiment Analysis Algorithms for Multi-Weight Polarity Selection on Twitter Dataset.
CN113792546A (zh) 语料库的构建方法、装置、设备以及存储介质
CN114328885A (zh) 一种信息处理方法、装置及计算机可读存储介质
JP7131130B2 (ja) 分類方法、装置、及びプログラム
Khan et al. Bipolar Sentiment Analysis of Japanese Social Media Posts: A Semantic Similarity Based Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210427