CN110188350A - 文本一致性计算方法及装置 - Google Patents

文本一致性计算方法及装置 Download PDF

Info

Publication number
CN110188350A
CN110188350A CN201910429971.0A CN201910429971A CN110188350A CN 110188350 A CN110188350 A CN 110188350A CN 201910429971 A CN201910429971 A CN 201910429971A CN 110188350 A CN110188350 A CN 110188350A
Authority
CN
China
Prior art keywords
sentence
vector
article
text
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910429971.0A
Other languages
English (en)
Other versions
CN110188350B (zh
Inventor
赖佳伟
付志宏
何径舟
杨宇鸿
张小彬
徐梦笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910429971.0A priority Critical patent/CN110188350B/zh
Publication of CN110188350A publication Critical patent/CN110188350A/zh
Application granted granted Critical
Publication of CN110188350B publication Critical patent/CN110188350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本申请提出一种文本一致性计算方法及装置,其中方法包括:获取待处理的文章;从正文中抽取与标题相关的多个句子;针对多个句子中的每个句子,将句子以及标题输入预设的语义一致性模型,获取句子对应的语义向量;根据每个句子对应的语义向量,确定文章对应的语义向量;针对多个句子中的每个句子组合,将句子组合输入预设的逻辑一致性模型,获取句子组合对应的逻辑标签,根据每个句子组合对应的逻辑标签,确定文章对应的逻辑向量;根据文章对应的语义向量和逻辑向量,确定文章的文本一致性数值,该方法基于文本的语义一致性和逻辑一致性,可以准确地评估文本的质量,同时可以帮助用户评估和辅助写作的质量,提升了用户的使用体验。

Description

文本一致性计算方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本一致性计算方法及装置。
背景技术
目前,针对互联网中创作的文章,一般只是根据文章的语义一致性来评估文章的质量,并不涉及文章的逻辑一致性,未考虑文章中各个句子的重要性,且语义一致性是通过计算文章标题与文章正文的相似度来确定语义一致性的,未考虑文章词语的真实含义,从而难以准确评估文章的质量。
发明内容
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种文本一致性计算方法,该方法基于文本的语义一致性和逻辑一致性,可以准确地评估文本的质量,同时可以帮助用户评估和辅助写作的质量,提升了用户的使用体验。
本申请的第二个目的在于提出一种文本一致性计算装置。
本申请的第三个目的在于提出另一种文本一致性计算装置。
本申请的第四个目的在于提出一种计算机可读存储介质。
本申请的第五个目的在于提出一种计算机程序产品。
为达上述目的,本申请第一方面实施例提出了一种文本一致性计算方法,包括:获取待处理的文章,所述文章包括:标题以及正文;从所述正文中抽取与所述标题相关的多个句子;针对所述多个句子中的每个句子,将所述句子以及所述标题输入预设的语义一致性模型,获取所述句子对应的语义向量;根据所述多个句子中每个句子对应的语义向量,确定所述文章对应的语义向量;针对所述多个句子中的每个句子组合,将所述句子组合输入预设的逻辑一致性模型,获取所述句子组合对应的逻辑标签,根据所述多个句子中每个句子组合对应的逻辑标签,确定所述文章对应的逻辑向量;所述句子组合包括:所述多个句子中的任意三个句子;根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值。
本申请实施例的文本一致性计算方法,获取待处理的文章,所述文章包括:标题以及正文;从所述正文中抽取与所述标题相关的多个句子;针对所述多个句子中的每个句子,将所述句子以及所述标题输入预设的语义一致性模型,获取所述句子对应的语义向量;根据所述多个句子中每个句子对应的语义向量,确定所述文章对应的语义向量;针对所述多个句子中的每个句子组合,将所述句子组合输入预设的逻辑一致性模型,获取所述句子组合对应的逻辑标签,根据所述多个句子中每个句子组合对应的逻辑标签,确定所述文章对应的逻辑向量;所述句子组合包括:所述多个句子中的任意三个句子;根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值。该方法基于文本的语义一致性和逻辑一致性,可以准确地评估文本的质量,同时可以帮助用户评估和辅助写作的质量,提升了用户的使用体验。
为达上述目的,本申请第二方面实施例提出了一种文本一致性计算装置,包括:获取模块,用于获取待处理的文章,所述文章包括:标题以及正文;抽取模块,用于从所述正文中抽取与所述标题相关的多个句子;输入模块,用于针对所述多个句子中的每个句子,将所述句子以及所述标题输入预设的语义一致性模型,获取所述句子对应的语义向量;根据所述多个句子中每个句子对应的语义向量,确定所述文章对应的语义向量;输入模块,用于针对所述多个句子中的每个句子组合,将所述句子组合输入预设的逻辑一致性模型,获取所述句子组合对应的逻辑标签,根据所述多个句子中每个句子组合对应的逻辑标签,确定所述文章对应的逻辑向量;所述句子组合包括:所述多个句子中的任意三个句子;确定模块,用于根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值。
本申请实施例的文本一致性计算装置,获取待处理的文章,所述文章包括:标题以及正文;从所述正文中抽取与所述标题相关的多个句子;针对所述多个句子中的每个句子,将所述句子以及所述标题输入预设的语义一致性模型,获取所述句子对应的语义向量;根据所述多个句子中每个句子对应的语义向量,确定所述文章对应的语义向量;针对所述多个句子中的每个句子组合,将所述句子组合输入预设的逻辑一致性模型,获取所述句子组合对应的逻辑标签,根据所述多个句子中每个句子组合对应的逻辑标签,确定所述文章对应的逻辑向量;所述句子组合包括:所述多个句子中的任意三个句子;根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值。该方法基于文本的语义一致性和逻辑一致性,可以准确地评估文本的质量,同时可以帮助用户评估和辅助写作的质量,提升了用户的使用体验。
为达上述目的,本申请第三方面实施例提出了另一种文本一致性计算装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的文本一致性计算方法。
为了实现上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本一致性计算方法。
为了实现上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文本一致性计算方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请第一个实施例的一种文本一致性计算方法的流程示意图;
图2是根据本申请第二个实施例的一种文本一致性计算方法的流程示意图;
图3是根据本申请第三个实施例的一种文本一致性计算方法的流程示意图;
图4是根据本申请一个实施例的一种文本一致性计算装置的结构示意图;
图5是根据本申请一个实施例的语义一致性模型的结构示意图;
图6是根据本申请一个实施例的逻辑一致性模型的结构示意图;
图7是根据本申请另一个实施例的一种文本一致性计算装置的结构示意图;
图8是根据本申请一个实施例的另一种文本一致性计算装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的文本一致性计算方法及装置。
图1为本申请实施例提供的一种文本一致性计算方法的流程示意图。如图1所示,该文本一致性计算方法包括以下步骤:
步骤101,获取待处理的文章,文章包括:标题以及正文。
在本申请实施例中,待处理的文章是指具有标题和正文的文章,另外,待处理的文章可以从社交平台上下载,也可以是用户创作的文章。
步骤102,从正文中抽取与标题相关的多个句子。
可选地,针对正文中的每个句子,获取句子对应的词语向量,以及标题对应的词语向量;根据句子对应的词语向量以及标题对应的词语向量,确定句子与标题的相关度;按照相关度对正文中的各个句子进行排序,将排序在前的预设数量的句子确定为与标题相关的多个句子。
具体地,针对正文中的每个句子,可以对句子进行分词,得到句子所包含的词语,然后获取每个词语对应的向量,根据各个句子中各个词语对应的向量,即可确定句子对应的词语向量。其中,若每个词语对应的向量为n维向量,则句子对应的向量可以为{n维向量,n维向量,n维向量,……}。
另外,标题对应的词语向量的获取过程可以为,对标题进行分词,得到标题所含的词语,获取各个词语对应的向量,根据标题中各个词语对应的向量,即可确定标题对应的词语向量。其中,若每个词语对应的向量为n维向量,则标题对应的向量可以为{n维向量,n维向量,n维向量,……}。
接着,由于相关的词语之间的词语向量相近,因此根据句子对应的词语向量以及标题对应的词语向量,可确定句子与标题的相关度。
确定句子与标题的相关度之后,按照相关度对正文中的各个句子进行排序,将排序在前的多个句子确定为与标题相关的多个句子。其中,多个句子的数量可预先进行设置。
步骤103,针对多个句子中的每个句子,将句子以及标题输入预设的语义一致性模型,获取句子对应的语义向量;根据多个句子中每个句子对应的语义向量,确定文章对应的语义向量。
在本申请实施例中,由于相同的词语在不同的语言环境中语义不同,因此,获得句子对应的词语向量之后,还需获得句子对应的语义向量。可将多个句子中的每个句子以及标题输入预设的语义一致性模型,获取句子对应的语义向量,其中,语义一致性模型的结构可为,第一匹配矩阵模块+第一神经网络模型+第一池化层,第一神经网络模型可为卷积神经网络(Convolutional Neural Networks,简称CNN)模型。可选地,如图2所示,语义一致性模型对句子的处理过程如下:
步骤201,获取句子对应的词语向量。
步骤202,获取标题对应的词语向量。
步骤203,将句子对应的词语向量以及标题对应的词语向量输入依次排列的第一匹配矩阵模块、第一神经网络模型和第一池化层,得到句子对应的语义向量。
需要说明的是,针对多个句子中的每个句子,该语义一致性模型对该句子以及文章标题进行分词、向量处理,获取每个词语的向量;然后对该句子以及文章标题的词语做最大匹配处理,得到立体向量结构,然后将立体向量结构输入依次排列的CNN模型和第一池化层,得到每个句子对应的语义向量,将多个句子对应的语义向量进行拼接,得到文章对应的语义向量。
举例而言,从正文中抽取与标题相关的5个句子,第一个句子对应的语义向量为{0,1,1},第二个句子对应的语义向量为{0,1,0},第三个句子对应的语义向量为{0,0,1},第四个句子的语义向量为{1,1,1},第五个句子的语义向量为{1,1,0},则文章对应的语义向量为{0,1,1,0,1,0,0,0,1,1,1,1,1,1,0}。
步骤104,针对多个句子中的每个句子组合,将句子组合输入预设的逻辑一致性模型,获取句子组合对应的逻辑标签,根据多个句子中每个句子组合对应的逻辑标签,确定文章对应的逻辑向量;句子组合包括:多个句子中的任意三个句子。
在本申请实施例中,在确定文章对应的语义向量之后,为了准确评估文章的质量,还需考虑句子间的逻辑。因此,可将多个句子中的任意三个句子进行组合,然后将句子组合输入预设的逻辑一致性模型,获取句子组合对应的逻辑标签,根据多个句子中每个句子组合对应的逻辑标签,确定文章对应的逻辑向量。其中,需要说明的是,逻辑一致性模型的结构可为第二匹配矩阵模块+第三匹配矩阵模块+第二神经网络模型+第二池化层+第二全连接层+第二归一化层。第二神经网络模型可为CNN模型。可选地,如图3所示,逻辑一致性模型对句子组合的处理过程如下:
步骤301,获取句子组合中第一句子对应的词语向量、第二句子对应的词语向量,第三句子对应的词语向量。
具体地,将多个句子中的任意三个句子输入逻辑一致性模型,该逻辑一致性模型对第一句子、第二句子和第三句子进行分词处理,可得到句子组合中第一句子对应的词语向量、第二句子对应的词语向量,第三句子对应的词语向量。
步骤302,将第一句子对应的词语向量以及第二句子对应的词语向量输入第二匹配矩阵模块;将第二句子对应的词语向量以及第三句子对应的词语向量输入第三匹配矩阵模块。
进一步地,将第一句子对应的词语向量以及第二句子对应的词语向量输入第二匹配矩阵模块,第二匹配矩阵模块对第一句子对应的词语向量以及第二句子对应的词语向量做最大匹配处理,得到第一句子对应的词语向量以及第二句子对应的词语向量对应的立体向量结构。将第二句子对应的词语向量以及第三句子对应的词语向量输入第三匹配矩阵模块,得到第二句子对应的词语向量以及第三句子对应的词语向量对应的立体向量结构。
步骤303,对第二匹配矩阵模块和第三匹配矩阵模块的输出向量进行拼接,并输入依次排列的第二神经网络模型、第二池化层、第二全连接层、以及第二归一化层,得到句子组合对应的逻辑标签。
具体地,按照一定的拼接规则,对第二匹配矩阵模块输出的立体向量结构和第三匹配矩阵模块输出的立体向量结构进行拼接,得到句子组合对应的逻辑向量,将句子组合对应的逻辑向量输入依次排列的第二神经网络模型、第二池化层、第二全连接层、以及第二归一化层,得到句子组合对应的逻辑标签。需要说明的是,句子组合对应的逻辑标签可为具体数值,例如,逻辑标签为0时,表示句子组合中各个句子之间的逻辑不一致,为1时,表示句子组合中各个句子之间的逻辑一致。另外,拼接规则可以是但不限于相加规则。
进而,将多个句子中每个句子组合对应的逻辑向量进行拼接,可得到文章对应的逻辑向量。
步骤105,根据文章对应的语义向量和逻辑向量,确定文章的文本一致性数值。
可选地,对文章对应的语义向量和逻辑向量进行拼接,得到拼接后的向量;将拼接后的向量输入依次排列的第三全连接层和第三归一化层,得到文章的文本一致性数值。
在本申请实施例中,文章的文本一致性数值可以是一个具体的数值,数值越高表示文本一致性越高。
另外,还需要说明的是,文章对应的语义向量可根据多个句子中每个句子对应的语义向量进行拼接来确定,文章对应的逻辑向量可根据多个句子中每个句子组合对应的逻辑标签进行拼接来确定。多个句子中每个句子对应的语义向量可通过语义一致性模型获取,多个句子中每个句子组合对应的逻辑标签可通过逻辑一致性模型获取。在本申请的实施例中,该语义一致性模型和逻辑一致性模型可以是预先根据样本数据对语义一致性模型和逻辑一致性模型进行训练而得到的模型。
可选地,针对多个句子中的每个句子,将句子以及标题输入预设的语义一致性模型,获取句子对应的语义向量之前,还包括:获取第一训练数据,第一训练数据包括:大于预设数量的句子组合,以及句子组合对应的逻辑标签;采用第一训练数据,对逻辑一致性模型进行训练,得到训练后的逻辑一致性模型;获取第二训练数据,第二训练数据包括:大于预设数量的文章,以及对应的文本一致性数值;固定逻辑一致性模型的系数,采用第二训练数据对语义一致性模型、第三全连接层和第三归一化层进行训练,得到训练后的语义一致性模型、第三全连接层和第三归一化层。
在本申请实施例中,先通过第一训练数据对逻辑一致性模型进行训练调整,训练好后,固定逻辑一致性模型的系数,对语义一致性模型、第三全连接层和第三归一化层的系数进行训练调整,得到语义一致性模型、第三全连接层和第三归一化层的最优参数。
为了更加准确评估文章的质量,根据文章对应的语义向量和逻辑向量,确定文章的文本一致性数值,还可包括:根据文章对应的语义向量、逻辑向量以及重要性向量以及特征向量,确定文章的文本一致性数值。可选地,文章对应的重要性向量的获得过程可如下:获取正文中每个句子的重要性数值;根据正文中每个句子的重要性数值,确定文章对应的重要性向量。文章对应的特征向量的获的过程可如下:获取文章对应的特征向量,特征向量中的每个维度对应一种特征,每个维度的数值为相应特征的数值。
在本申请实施例中,可通过关键词提取算法(对应英文简称:textrank)算法,获取文章正文中每个句子的重要性,拼接得到文章对应的重要性向量。另外,文章中的特征向量可由多个n维向量组成,特征向量中的每个维度向量对应一种特征,每个维度向量的数值为相应特征的数值。例如,特征可以为,文章正文中是否包含标题。若包含,则特征的数值为1,若不包含,则特征的数值为0。
本申请实施例的文本一致性计算方法,通过获取待处理的文章,文章包括:标题以及正文;从正文中抽取与标题相关的多个句子;针对多个句子中的每个句子,将句子以及标题输入预设的语义一致性模型,获取句子对应的语义向量;根据多个句子中每个句子对应的语义向量,确定文章对应的语义向量;针对多个句子中的每个句子组合,将句子组合输入预设的逻辑一致性模型,获取句子组合对应的逻辑标签,根据多个句子中每个句子组合对应的逻辑标签,确定文章对应的逻辑向量;句子组合包括:多个句子中的任意三个句子;根据文章对应的语义向量和逻辑向量,确定文章的文本一致性数值。该方法基于文本的语义一致性和逻辑一致性,可以准确地评估文本的质量,同时可以帮助用户评估和辅助写作的质量,提升了用户的使用体验。
与上述实施例提供的文本一致性计算方法相对应,本申请的一种实施例还提供一种文本一致性计算装置,由于本申请实施例提供的文本一致性计算装置与上述实施例提供的文本一致性计算方法相对应,因此在前述文本一致性计算方法的实施方式也适用于本实施例提供的文本一致性计算方法装置,在本实施例中不再详细描述。图4为本申请实施例提供的一种文本一致性计算装置的结构示意图。如图4所示,该文本一致性计算装置400包括:获取模块410、抽取模块420、输入模块430,确定模块440。
具体地,获取模块410,用于获取待处理的文章,文章包括:标题以及正文;抽取模块420,用于从正文中抽取与标题相关的多个句子;输入模块430,用于针对多个句子中的每个句子,将句子以及标题输入预设的语义一致性模型,获取句子对应的语义向量;根据多个句子中每个句子对应的语义向量,确定文章对应的语义向量;输入模块430还用于针对多个句子中的每个句子组合,将句子组合输入预设的逻辑一致性模型,获取句子组合对应的逻辑标签,根据多个句子中每个句子组合对应的逻辑标签,确定文章对应的逻辑向量;句子组合包括:多个句子中的任意三个句子;确定模块440,用于根据文章对应的语义向量和逻辑向量,确定文章的文本一致性数值。
作为本申请实施例的一种可能的实现方式,获取模块410,还用于获取正文中每个句子的重要性数值;确定模块440,还用于根据正文中每个句子的重要性数值,确定文章对应的重要性向量;确定模块440,具体用于根据文章对应的语义向量、逻辑向量以及重要性向量,确定文章的文本一致性数值。
作为本申请实施例的一种可能的实现方式,获取模块410,还用于获取文章对应的特征向量,特征向量中的每个维度对应一种特征,每个维度的数值为相应特征的数值;确定模块440,具体用于根据文章对应的语义向量、逻辑向量、重要性向量以及特征向量,确定文章的文本一致性数值。
作为本申请实施例的一种可能的实现方式,抽取模块420具体用于,针对正文中的每个句子,获取句子对应的词语向量,以及标题对应的词语向量;根据句子对应的词语向量以及标题对应的词语向量,确定句子与标题的相关度;按照相关度对正文中的各个句子进行排序,将排序在前的预设数量的句子确定为与标题相关的多个句子。
作为本申请实施例的一种可能的实现方式,如图5所示,语义一致性模型500的结构为,第一匹配矩阵模块510+第一神经网络模型520+第一池化层530;语义一致性模型500对句子以及标题的处理过程为,获取句子对应的词语向量;获取标题对应的词语向量;将句子对应的词语向量以及标题对应的词语向量输入依次排列的第一匹配矩阵模块、第一神经网络模型和第一池化层,得到句子对应的语义向量。
作为本申请实施例的一种可能的实现方式,如图6所示,逻辑一致性模型600的结构为,第二匹配矩阵模块610+第三匹配矩阵模块620+第二神经网络模型630+第二池化层640+第二全连接层650+第二归一化层660;逻辑一致性模型600对句子组合的处理过程为,获取句子组合中第一句子对应的词语向量、第二句子对应的词语向量,第三句子对应的词语向量;将第一句子对应的词语向量以及第二句子对应的词语向量输入第二匹配矩阵模块;将第二句子对应的词语向量以及第三句子对应的词语向量输入第三匹配矩阵模块;对第二匹配矩阵模块和第三匹配矩阵模块的输出向量进行拼接,并输入依次排列的第二神经网络模型、第二池化层、第二全连接层、以及第二归一化层,得到句子组合对应的逻辑标签。
作为本申请实施例的一种可能的实现方式,确定模块440具体用于,对文章对应的语义向量和逻辑向量进行拼接,得到拼接后的向量;将拼接后的向量输入依次排列的第三全连接层和第三归一化层,得到文章的文本一致性数值。
需要说明的是,在本申请的实施例中,该语义一致性模型和该逻辑一致性模型可以是预先根据样本数据对语义一致性模型和逻辑一致性模型进行训练而得到的模型。具体地,如图7所示,在图4的基础上,该文本一致性计算装置400还包括:训练模块450。获取模块410,还用于获取第一训练数据,第一训练数据包括:大于预设数量的句子组合,以及句子组合对应的逻辑标签;
训练模块450,用于采用第一训练数据,对逻辑一致性模型进行训练,得到训练后的逻辑一致性模型;获取模块410,还用于获取第二训练数据,第二训练数据包括:大于预设数量的文章,以及对应的文本一致性数值;训练模块450,还用于固定逻辑一致性模型的系数,采用第二训练数据对语义一致性模型、第三全连接层和第三归一化层进行训练,得到训练后的语义一致性模型、第三全连接层和第三归一化层。
本申请实施例的文本一致性计算装置,通过获取待处理的文章,文章包括:标题以及正文;从正文中抽取与标题相关的多个句子;针对多个句子中的每个句子,将句子以及标题输入预设的语义一致性模型,获取句子对应的语义向量;根据多个句子中每个句子对应的语义向量,确定文章对应的语义向量;针对多个句子中的每个句子组合,将句子组合输入预设的逻辑一致性模型,获取句子组合对应的逻辑标签,根据多个句子中每个句子组合对应的逻辑标签,确定文章对应的逻辑向量;句子组合包括:多个句子中的任意三个句子;根据文章对应的语义向量和逻辑向量,确定文章的文本一致性数值。该方法基于文本的语义一致性和逻辑一致性,可以准确地评估文本的质量,同时可以帮助用户评估和辅助写作的质量,提升了用户的使用体验。
为了实现上述实施例,本申请还提出另一种文本一致性计算装置,如图8所示,包括存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。处理器1002执行所述程序时实现上述实施例中提供的文本一致性计算方法。
进一步地,该文本一致性计算装置还包括:通信接口1003,用于存储器1001和处理器1002之间的通信。存储器1001,用于存放可在处理器1002上运行的计算机程序。存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。处理器1002,用于执行所述程序时实现上述实施例所述的文本一致性计算方法。如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本一致性计算方法。
本申请还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文本一致性计算方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (19)

1.一种文本一致性计算方法,其特征在于,包括:
获取待处理的文章,所述文章包括:标题以及正文;
从所述正文中抽取与所述标题相关的多个句子;
针对所述多个句子中的每个句子,将所述句子以及所述标题输入预设的语义一致性模型,获取所述句子对应的语义向量;根据所述多个句子中每个句子对应的语义向量,确定所述文章对应的语义向量;
针对所述多个句子中的每个句子组合,将所述句子组合输入预设的逻辑一致性模型,获取所述句子组合对应的逻辑标签,根据所述多个句子中每个句子组合对应的逻辑标签,确定所述文章对应的逻辑向量;所述句子组合包括:所述多个句子中的任意三个句子;
根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述正文中每个句子的重要性数值;
根据所述正文中每个句子的重要性数值,确定所述文章对应的重要性向量;
所述根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值,包括:
根据所述文章对应的语义向量、逻辑向量以及重要性向量,确定所述文章的文本一致性数值。
3.根据权利要求2所述的方法,其特征在于,还包括:
获取所述文章对应的特征向量,所述特征向量中的每个维度对应一种特征,每个维度的数值为相应特征的数值;
所述根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值,包括:
根据所述文章对应的语义向量、逻辑向量、重要性向量以及所述特征向量,确定所述文章的文本一致性数值。
4.根据权利要求1所述的方法,其特征在于,所述从所述正文中抽取与所述标题相关的多个句子,包括:
针对所述正文中的每个句子,获取所述句子对应的词语向量,以及所述标题对应的词语向量;
根据所述句子对应的词语向量以及所述标题对应的词语向量,确定所述句子与所述标题的相关度;
按照相关度对所述正文中的各个句子进行排序,将排序在前的预设数量的句子确定为与所述标题相关的多个句子。
5.根据权利要求1所述的方法,其特征在于,所述语义一致性模型的结构为,第一匹配矩阵模块+第一神经网络模型+第一池化层;
所述语义一致性模型对所述句子以及所述标题的处理过程为,
获取所述句子对应的词语向量;
获取所述标题对应的词语向量;
将所述句子对应的词语向量以及所述标题对应的词语向量输入依次排列的第一匹配矩阵模块、第一神经网络模型和第一池化层,得到所述句子对应的语义向量。
6.根据权利要求1所述的方法,其特征在于,所述逻辑一致性模型的结构为,第二匹配矩阵模块+第三匹配矩阵模块+第二神经网络模型+第二池化层+第二全连接层+第二归一化层;
所述逻辑一致性模型对所述句子组合的处理过程为,
获取所述句子组合中第一句子对应的词语向量、第二句子对应的词语向量,第三句子对应的词语向量;
将所述第一句子对应的词语向量以及所述第二句子对应的词语向量输入第二匹配矩阵模块;将所述第二句子对应的词语向量以及第三句子对应的词语向量输入第三匹配矩阵模块;
对第二匹配矩阵模块和第三匹配矩阵模块的输出向量进行拼接,并输入依次排列的第二神经网络模型、第二池化层、第二全连接层、以及第二归一化层,得到所述句子组合对应的逻辑标签。
7.根据权利要求1所述的方法,其特征在于,所述根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值,包括:
对所述文章对应的语义向量和逻辑向量进行拼接,得到拼接后的向量;
将拼接后的向量输入依次排列的第三全连接层和第三归一化层,得到所述文章的文本一致性数值。
8.根据权利要求7所述的方法,其特征在于,所述针对所述多个句子中的每个句子,将所述句子以及所述标题输入预设的语义一致性模型,获取所述句子对应的语义向量之前,还包括:
获取第一训练数据,所述第一训练数据包括:大于预设数量的句子组合,以及所述句子组合对应的逻辑标签;
采用所述第一训练数据,对所述逻辑一致性模型进行训练,得到训练后的逻辑一致性模型;
获取第二训练数据,所述第二训练数据包括:大于预设数量的文章,以及对应的文本一致性数值;
固定所述逻辑一致性模型的系数,采用所述第二训练数据对语义一致性模型、第三全连接层和第三归一化层进行训练,得到训练后的语义一致性模型、第三全连接层和第三归一化层。
9.一种文本一致性计算装置,其特征在于,包括:
获取模块,用于获取待处理的文章,所述文章包括:标题以及正文;
抽取模块,用于从所述正文中抽取与所述标题相关的多个句子;
输入模块,用于针对所述多个句子中的每个句子,将所述句子以及所述标题输入预设的语义一致性模型,获取所述句子对应的语义向量;根据所述多个句子中每个句子对应的语义向量,确定所述文章对应的语义向量;
输入模块,还用于针对所述多个句子中的每个句子组合,将所述句子组合输入预设的逻辑一致性模型,获取所述句子组合对应的逻辑标签,根据所述多个句子中每个句子组合对应的逻辑标签,确定所述文章对应的逻辑向量;所述句子组合包括:所述多个句子中的任意三个句子;
确定模块,用于根据所述文章对应的语义向量和逻辑向量,确定所述文章的文本一致性数值。
10.根据权利要求9所述的装置,其特征在于,
所述获取模块,还用于获取所述正文中每个句子的重要性数值;
所述确定模块,还用于根据所述正文中每个句子的重要性数值,确定所述文章对应的重要性向量;
所述确定模块,具体用于根据所述文章对应的语义向量、逻辑向量以及重要性向量,确定所述文章的文本一致性数值。
11.根据权利要求10所述的装置,其特征在于,
所述获取模块,还用于获取所述文章对应的特征向量,所述特征向量中的每个维度对应一种特征,每个维度的数值为相应特征的数值;
所述确定模块,具体用于根据所述文章对应的语义向量、逻辑向量、重要性向量以及所述特征向量,确定所述文章的文本一致性数值。
12.根据权利要求9所述的装置,其特征在于,所述抽取模块具体用于,
针对所述正文中的每个句子,获取所述句子对应的词语向量,以及所述标题对应的词语向量;
根据所述句子对应的词语向量以及所述标题对应的词语向量,确定所述句子与所述标题的相关度;
按照相关度对所述正文中的各个句子进行排序,将排序在前的预设数量的句子确定为与所述标题相关的多个句子。
13.根据权利要求9所述的装置,其特征在于,所述语义一致性模型的结构为,第一匹配矩阵模块+第一神经网络模型+第一池化层;
所述语义一致性模型对所述句子以及所述标题的处理过程为,
获取所述句子对应的词语向量;
获取所述标题对应的词语向量;
将所述句子对应的词语向量以及所述标题对应的词语向量输入依次排列的第一匹配矩阵模块、第一神经网络模型和第一池化层,得到所述句子对应的语义向量。
14.根据权利要求9所述的装置,其特征在于,所述逻辑一致性模型的结构为,第二匹配矩阵模块+第三匹配矩阵模块+第二神经网络模型+第二池化层+第二全连接层+第二归一化层;
所述逻辑一致性模型对所述句子组合的处理过程为,
获取所述句子组合中第一句子对应的词语向量、第二句子对应的词语向量,第三句子对应的词语向量;
将所述第一句子对应的词语向量以及所述第二句子对应的词语向量输入第二匹配矩阵模块;将所述第二句子对应的词语向量以及第三句子对应的词语向量输入第三匹配矩阵模块;
对第二匹配矩阵模块和第三匹配矩阵模块的输出向量进行拼接,并输入依次排列的第二神经网络模型、第二池化层、第二全连接层、以及第二归一化层,得到所述句子组合对应的逻辑标签。
15.根据权利要求9所述的装置,其特征在于,所述确定模块具体用于,
对所述文章对应的语义向量和逻辑向量进行拼接,得到拼接后的向量;
将拼接后的向量输入依次排列的第三全连接层和第三归一化层,得到所述文章的文本一致性数值。
16.根据权利要求15所述的装置,其特征在于,还包括:训练模块;
所述获取模块,还用于获取第一训练数据,所述第一训练数据包括:大于预设数量的句子组合,以及所述句子组合对应的逻辑标签;
所述训练模块,用于采用所述第一训练数据,对所述逻辑一致性模型进行训练,得到训练后的逻辑一致性模型;
所述获取模块,还用于获取第二训练数据,所述第二训练数据包括:大于预设数量的文章,以及对应的文本一致性数值;
所述训练模块,还用于固定所述逻辑一致性模型的系数,采用所述第二训练数据对语义一致性模型、第三全连接层和第三归一化层进行训练,得到训练后的语义一致性模型、第三全连接层和第三归一化层。
17.一种文本一致性计算装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8任一所述的文本一致性计算方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一所述的文本一致性计算方法。
19.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如权利要求1-8任一所述的文本一致性计算方法。
CN201910429971.0A 2019-05-22 2019-05-22 文本一致性计算方法及装置 Active CN110188350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910429971.0A CN110188350B (zh) 2019-05-22 2019-05-22 文本一致性计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910429971.0A CN110188350B (zh) 2019-05-22 2019-05-22 文本一致性计算方法及装置

Publications (2)

Publication Number Publication Date
CN110188350A true CN110188350A (zh) 2019-08-30
CN110188350B CN110188350B (zh) 2021-06-01

Family

ID=67717362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910429971.0A Active CN110188350B (zh) 2019-05-22 2019-05-22 文本一致性计算方法及装置

Country Status (1)

Country Link
CN (1) CN110188350B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688857A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110705310A (zh) * 2019-09-20 2020-01-17 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110750979A (zh) * 2019-10-17 2020-02-04 科大讯飞股份有限公司 一种篇章连贯性的确定方法以及检测装置
CN111061870A (zh) * 2019-11-25 2020-04-24 三角兽(北京)科技有限公司 文章的质量评价方法及装置
CN111124350A (zh) * 2019-12-20 2020-05-08 科大讯飞股份有限公司 技能确定方法及相关设备
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN111339765A (zh) * 2020-02-18 2020-06-26 腾讯科技(深圳)有限公司 文本质量评估方法、文本推荐方法及装置、介质及设备
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN112131345A (zh) * 2020-09-22 2020-12-25 腾讯科技(深圳)有限公司 文本质量的识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766324A (zh) * 2017-09-25 2018-03-06 浙江大学 一种基于深度神经网络的文本一致性分析方法
US20180349327A1 (en) * 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing)Co., Ltd. Text error correction method and apparatus based on recurrent neural network of artificial intelligence
CN109582950A (zh) * 2018-09-25 2019-04-05 南京大学 一种裁判文书说理评估方法
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180349327A1 (en) * 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing)Co., Ltd. Text error correction method and apparatus based on recurrent neural network of artificial intelligence
CN107766324A (zh) * 2017-09-25 2018-03-06 浙江大学 一种基于深度神经网络的文本一致性分析方法
CN109582950A (zh) * 2018-09-25 2019-04-05 南京大学 一种裁判文书说理评估方法
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705310A (zh) * 2019-09-20 2020-01-17 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110705310B (zh) * 2019-09-20 2023-07-18 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110688857B (zh) * 2019-10-08 2023-04-21 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110688857A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110750979A (zh) * 2019-10-17 2020-02-04 科大讯飞股份有限公司 一种篇章连贯性的确定方法以及检测装置
CN110750979B (zh) * 2019-10-17 2023-07-25 科大讯飞股份有限公司 一种篇章连贯性的确定方法以及检测装置
CN111061870A (zh) * 2019-11-25 2020-04-24 三角兽(北京)科技有限公司 文章的质量评价方法及装置
CN111124350A (zh) * 2019-12-20 2020-05-08 科大讯飞股份有限公司 技能确定方法及相关设备
CN111124350B (zh) * 2019-12-20 2023-10-27 科大讯飞股份有限公司 技能确定方法及相关设备
CN111241234B (zh) * 2019-12-27 2023-07-18 北京百度网讯科技有限公司 文本分类方法及装置
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN111339765A (zh) * 2020-02-18 2020-06-26 腾讯科技(深圳)有限公司 文本质量评估方法、文本推荐方法及装置、介质及设备
CN111339765B (zh) * 2020-02-18 2023-11-03 腾讯科技(深圳)有限公司 文本质量评估方法、文本推荐方法及装置、介质及设备
CN111414765A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN111488931B (zh) * 2020-04-10 2023-04-07 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN112131345A (zh) * 2020-09-22 2020-12-25 腾讯科技(深圳)有限公司 文本质量的识别方法、装置、设备及存储介质
CN112131345B (zh) * 2020-09-22 2024-02-06 腾讯科技(深圳)有限公司 文本质量的识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110188350B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN110188350A (zh) 文本一致性计算方法及装置
CN107315772B (zh) 基于深度学习的问题匹配方法以及装置
CN110210021A (zh) 阅读理解方法及装置
CN106339756B (zh) 训练数据的生成方法、搜索方法以及装置
CN106557554B (zh) 基于人工智能的搜索结果的显示方法和装置
CN109740143A (zh) 基于机器学习的句子距离映射方法、装置和计算机设备
CN108491529A (zh) 信息推荐方法及装置
CN108228704A (zh) 识别风险内容的方法及装置、设备
CN110334357A (zh) 一种命名实体识别的方法、装置、存储介质及电子设备
CN106210545A (zh) 一种视频拍摄方法、装置及电子设备
CN109543022A (zh) 文本纠错方法和装置
CN109710087A (zh) 输入法模型生成方法及装置
CN107977363A (zh) 标题生成方法、装置和电子设备
CN110210022A (zh) 标题识别方法及装置
CN110187760A (zh) 智能交互方法和装置
CN110263167B (zh) 医疗实体分类模型生成方法、装置、设备和可读存储介质
CN113254593B (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN109033074A (zh) 新闻摘要生成方法、装置、设备及计算机可读介质
Huang Deep paper gestalt
CN109992788A (zh) 基于未登录词处理的深度文本匹配方法及装置
CN107748802A (zh) 文章聚合方法及装置
CN110110332A (zh) 文本摘要生成方法及设备
CN109743589A (zh) 文章生成方法及装置
CN110110083A (zh) 一种文本的情感分类方法、装置、设备及存储介质
CN107894979B (zh) 用于语义挖掘的复合词处理方法、装置及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant