CN113361260A - 一种文本处理方法、装置、设备以及存储介质 - Google Patents

一种文本处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN113361260A
CN113361260A CN202110650283.4A CN202110650283A CN113361260A CN 113361260 A CN113361260 A CN 113361260A CN 202110650283 A CN202110650283 A CN 202110650283A CN 113361260 A CN113361260 A CN 113361260A
Authority
CN
China
Prior art keywords
sentence
merging
sample
statement
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110650283.4A
Other languages
English (en)
Inventor
李近朱
陈维识
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202110650283.4A priority Critical patent/CN113361260A/zh
Publication of CN113361260A publication Critical patent/CN113361260A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种文本处理方法、装置、设备以及存储介质,通过从待处理文本中选取的被段落分割符分割的语句中划分出的多个目标词和多个目标词的数量进行编码处理得到语句向量,以及根据与所述语句向量的对应的语句合并识别结果,判断两个语句是否能够合并为同一语句,可以学习两个语句之间的关系,从而学习被段落分割符分割的两个段落之间的联系,以此判定两个段落是否可以合并,可以提高语句合并识别结果的准确性,从而提高段落合并的效率和准确度,可以减小因大量段落分割符产生的过多段落对文本分析产生的影响,有利于提高文本分析的运行速度。

Description

一种文本处理方法、装置、设备以及存储介质
技术领域
本公开涉及自然语言处理领域,具体而言,涉及一种文本处理方法、装置、设备以及存储介质。
背景技术
在自然语言处理领域,在获取文本进行分析时,经常会遇到因系统差异,文章转码后的格式差异,以及书写者为使文章内容更加具有层次性和美观性,在文章中添加大量段落分割符作为段落划分的依据等原因使得文本中段落过多的问题。
文本分析模型经常会根据文本中的段落分割符作为段落分割的依据来对文本数据进行分析,因此,过多的段落分割符会导致产生过多的段落,同时也会增加文本分析模型的计算量,并降低文本分析模型的运行速度和处理文本的效率。
发明内容
本公开实施例至少提供一种文本处理方法及装置、设备以及存储介质,可以解决以上问题中的至少一种。
本公开实施例提供了一种文本处理方法,所述方法包括:
确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于待处理文本的不同段落;
确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量;
将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果;
若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
一种可选的实施方式中,所述确定待处理文本中的至少一组待合并语句,包括:
获取待处理文本的文本数据;
根据从所述文本数据中识别出的段落分割符,确定所述待处理文本中与所述段落分割符相邻,并且位于所述段落分割符之前的第一段落和位于所述段落分割符之后的第二段落;
按照预设语句认定规则,确定所述第一段落中位于最后语句位置的第一语句,和所述第二段落中位于第一语句位置的第二语句,其中,所述第一语句和所述第二语句分别包括至少一个自然语句;
将所述第一语句和所述第二语句确定为至少一组待合并语句中的一组待合并语句。
一种可选的实施方式中,所述确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量,包括:
获取针对所述待处理文本的分词方式;
按照所述分词方式,对所述第一语句和所述第二语句分别进行分词处理,得到所述第一语句对应的多个第一目标词和所述多个第一目标词的数量,以及所述第二语句对应的多个第二目标词和所述多个第二目标词的数量;
根据所述多个第一目标词和所述多个第一目标词的数量,对所述第一语句进行编码处理,得到所述第一语句对应的的第一语句向量;
根据所述多个第二目标词和所述多个第二目标词的数量,对所述第二语句进行编码处理,得到所述第二语句对应的第二语句向量。
一种可选的实施方式中,所述将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果,包括:
将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中的语义识别层,得到所述第一语句向量和所述第二语句向量之间的语义距离向量;
将所述语义距离向量输入至所述段落合并识别模型中的合并识别层中,得到针对所述第一语句和所述第二语句的语句合并识别结果,其中,所述语句合并识别结果包括语句合并概率。
一种可选的实施方式中,所述若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并,包括:
若所述语句合并概率大于预设概率阈值,确定所述第一语句和所述第二语句满足合并条件;
在所述第一语句和所述第二语句满足合并条件的情况下,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
一种可选的实施方式中,通过以下步骤获取训练好的段落合并识别模型:
获取从样本文本中识别出的多个样本语句组和每个样本语句组的真实样本合并标签,其中,所述样本语句组包括第一样本语句和第二样本语句;
确定所述第一样本语句对应的第一样本向量和所述第二样本语句对应的第二样本向量;
使用所述第一样本向量、所述第二样本向量和所述真实样本合并标签,对构建好的神经网络进行训练,直至所述神经网络满足预设训练条件,得到训练好的段落合并识别模型。
一种可选的实施方式中,通过以下步骤确定所述神经网络满足所述预设训练条件:
在对所述神经网络训练的过程中,基于所述神经网络针对测试样本的预估合并结果以及所述测试样本的真实合并标签,确定所述神经网络的模型训练指标,其中,所述模型训练指标包括模型准确率、模型精确率和模型召回率中的至少一个;
直至所述模型训练指标大于预设指标阈值时,确定所述神经网络满足所述预设训练条件,将训练完毕的所述神经网络作为训练好的所述段落合并识别模型。
一种可选的实施方式中,在所述获取从样本文本中识别出的多个样本语句组和每个样本语句组的真实样本合并标签之前,所述方法包括:
确定所述样本文本中的多段文本内容;
从所述多段文本内容中识别出多组正样本语句组,其中,所述正样本语句组包括位于同一段落中的、相邻的两个语句;
从所述多段文本内容中识别出多组负样本语句组,其中,所述负样本语句组包括位于不同段落中的两句语句;
将识别出的多组正样本语句组和各正样本语句组的真实样本合并标签,以及识别出的多组负样本语句组和各负样本语句组的真实样本合并标签,作为用于训练所述段落合并识别模型的多个样本语句组和各样本语句组的真实样本合并标签。
本公开实施例还提供一种文本处理装置,所述装置包括:
语句获取模块,用于确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于待处理文本的不同段落;
向量确定模块,用于确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量;
结果识别模块,用于将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果;
段落合并模块,用于若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
一种可选的实施方式中,所述语句获取模块具体用于:
获取待处理文本的文本数据;
根据从所述文本数据中识别出的段落分割符,确定所述待处理文本中与所述段落分割符相邻,并且位于所述段落分割符之前的第一段落和位于所述段落分割符之后的第二段落;
按照预设语句认定规则,确定所述第一段落中位于最后语句位置的第一语句,和所述第二段落中位于第一语句位置的第二语句,其中,所述第一语句和所述第二语句分别包括至少一个自然语句;
将所述第一语句和所述第二语句确定为至少一组待合并语句中的一组待合并语句。
一种可选的实施方式中,所述向量确定模块具体用于:
获取针对所述待处理文本的分词方式;
按照所述分词方式,对所述第一语句和所述第二语句分别进行分词处理,得到所述第一语句对应的多个第一目标词和所述多个第一目标词的数量,以及所述第二语句对应的多个第二目标词和所述多个第二目标词的数量;
根据所述多个第一目标词和所述多个第一目标词的数量,对所述第一语句进行编码处理,得到所述第一语句对应的第一语句向量;
根据所述多个第二目标词和所述多个第二目标词的数量,对所述第二语句进行编码处理,得到所述第二语句对应的第二语句向量。
一种可选的实施方式中,所述结果识别模块具体用于:
将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中的语义识别层,得到所述第一语句向量和所述第二语句向量之间的语义距离向量;
将所述语义距离向量输入至所述段落合并识别模型中的合并识别层中,得到针对所述第一语句和所述第二语句的语句合并识别结果,其中,所述语句合并识别结果包括语句合并概率。
一种可选的实施方式中,所述段落合并模块具体用于:
若所述语句合并概率大于预设概率阈值,确定所述第一语句和所述第二语句满足合并条件;
在所述第一语句和所述第二语句满足合并条件的情况下,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
一种可选的实施方式中,所述装置还包括模型训练模块,所述模型训练模块用于通过以下步骤获取训练好的段落合并识别模型:
获取从样本文本中识别出的多个样本语句组和每个样本语句组的真实样本合并标签,其中,所述样本语句组包括第一样本语句和第二样本语句;
确定所述第一样本语句对应的第一样本向量和所述第二样本语句对应的第二样本向量;
使用所述第一样本向量、所述第二样本向量和所述真实样本合并标签,对构建好的神经网络进行训练,直至所述神经网络满足预设训练条件,得到训练好的段落合并识别模型。
一种可选的实施方式中,所述模型训练模块通过以下步骤确定所述神经网络满足所述预设训练条件:
在对所述神经网络训练的过程中,基于所述神经网络针对测试样本的预估合并结果以及所述测试样本的真实合并标签,确定所述神经网络的模型训练指标,其中,所述模型训练指标包括模型准确率、模型精确率和模型召回率中的至少一个;
直至所述模型训练指标大于预设指标阈值时,确定所述神经网络满足所述预设训练条件,将训练完毕的所述神经网络作为训练好的所述段落合并识别模型。
一种可选的实施方式中,所述装置还包括样本获取模块,所述样本获取模块具体用于:
确定所述样本文本中的多段文本内容;
从所述多段文本内容中识别出多组正样本语句组,其中,所述正样本语句组包括位于同一段落中的、相邻的两个语句;
从所述多段文本内容中识别出多组负样本语句组,其中,所述负样本语句组包括位于不同段落中的两句语句;
将识别出的多组正样本语句组和各正样本语句组的真实样本合并标签,以及识别出的多组负样本语句组和各负样本语句组的真实样本合并标签,作为用于训练所述段落合并识别模型的多个样本语句组和各样本语句组的真实样本合并标签。
本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述文本处理方法中的步骤。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述文本处理方法中的步骤。
本公开实施例提供的文本处理的方法、装置、设备及存储介质,通过确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句在所述待处理文本中被段落分割符分割;根据从所述第一语句中划分出的多个第一目标词和所述多个第一目标词的数量,以及从所述第二语句中划分出的多个第二目标词和所述多个第二目标词的数量,分别确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量;将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果;若所述语句合并识别结果指示所述第一语句和所述第二语句为同一语句中的内容,确定所述第一语句所在的段落与所述第二语句所在的段落能够合并为一个段落。
这样,通过从待处理文本中选取的被段落分割符分割的语句中划分出的多个目标词和目标词的数量进行编码处理得到语句向量,以及根据与所述语句向量的对应的语句合并识别结果,判断两个语句是否能够合并为同一语句,可以学习两个语句之间的关系,从而学习被段落分割符分割的两个段落之间的联系,以此判定两个段落是否可以合并,可以提高语句合并识别结果的准确性,从而提高段落合并的效率和准确度,可以减小因大量段落分割符产生的过多段落对文本分析产生的影响,有利于提高文本分析的运行速度。
进一步,在本公开实施例中,通过从样本文本中选取用于训练段落合并识别模型的正样本语句组和负样本语句组,可以精确的学习样本文本中语句之间的关系和段落之间的联系,有助于提高模型对待处理文本中语句识别的准确性,提高段落合并识别模型的有效性。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本公开实施例所提供的一种文本处理方法的流程图;
图2为本公开实施例所提供的另一种文本处理方法的流程图;
图3为本公开实施例所提供的另一种文本处理方法的数据处理示意图;
图4为本公开实施例所提供的获取的待处理文本内容示意图;
图5为本公开实施例所提供的一种文本处理装置的结构图之一;
图6为本公开实施例所提供的一种文本处理装置的结构图之二;
图7为本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
经研究发现,在获取文本进行分析时,经常会遇到因系统差异,文章转码后的格式差异,以及书写者为使文章内容更加具有层次性和美观性,在文章中添加大量段落分割符作为段落划分的依据等原因使得文本中的段落过多。在对文本进行分析时,文本分析模型经常会根据段落分割符作为段落分割的依据,因此,过多的段落分割符会增加文本分析模型的计算量,并降低文本分析模型的运行速度和处理文本的效率。
基于上述研究,本公开实施例提供了一种文本处理方法,通过从待处理文本中选取的被段落分割符分割的语句中划分出的多个目标词和多个目标词的数量进行编码处理得到语句向量,以及根据与所述语句向量的对应的语句合并识别结果,判断两个语句是否能够合并为同一语句,可以学习两个语句之间的关系,从而学习被段落分割符分割的两个段落之间的联系,以此判定两个段落是否可以合并,可以提高语句合并识别结果的准确性,从而提高段落合并的效率和准确度,可以减小因大量段落分割符产生的过多段落对文本分析产生的影响,有利于提高文本分析的运行速度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
下面将结合本公开中附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种文本处理方法进行详细介绍,本公开实施例所提供的文本处理方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该网页一致性检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为终端设备为例对本公开实施例提供的文本处理方法加以说明。
请参阅图1,图1为本公开实施例提供的一种文本处理方法的流程图。如图1中所示,本公开实施例提供的文本处理方法包括:
S101:确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于待处理文本的不同段落。
该步骤中,在确定待处理文本的不同两个段落能否合并时,可以从所述待处理文本选取至少一组位于待处理文本的不同段落的相邻的两个语句,并将所述两个语句作为待合并语句,用以判断所述待合并语句所属的两个段落是否能够合并。
其中,所述待处理文本可以是任意格式的具有多个段落的文本数据,例如,任意格式可以是以下格式:便携式文档(Portable Document Format,PDF)格式或文本文件格式(Text File,TXT)。
其中,当在所述待处理文本中识别到不同段落时,可以从所述待处理文本选取至少一组属于不同段落的相邻的两个语句作为待合并语句。
S102:确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量。
该步骤中,当获取到所述第一语句和所述第二语句之后,为了满足段落合并识别模型的输入条件,确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量。
S103:将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果。
该步骤中,当获取到所述第一向量和所述第二向量后,将所述第一向量和所述第二向量作为待合并语句向量输入至训练好的段落合并识别模型中,则相应的会得到与待合并语句向量对应的语句合并识别结果。
其中,所述段落合并识别模型为具有语义识别层和合并识别层的模型。
S104:若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
该步骤中,在得到所述语句合并识别结果后,可以根据所述语句合并识别结果确定所述第一语句与所述第二语句是否满足合并条件,若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,则可以确定所述第一语句所在的段落与所述第二语句所在的段落进行合并。
本公开实施例提供的文本处理方法,通过从待处理文本中选取的被段落分割符分割的语句中划分出的多个目标词和多个目标词的数量进行编码处理得到语句向量,以及根据与所述语句向量的对应的语句合并识别结果,判断两个语句是否能够合并为同一语句,可以学习两个语句之间的关系,从而学习被段落分割符分割的两个段落之间的联系,以此判定两个段落是否可以合并,可以提高语句合并识别结果的准确性,从而提高段落合并的效率和准确度,可以减小因大量段落分割符产生的过多段落对文本分析产生的影响,有利于提高文本分析的运行速度。
请参阅图2,图2为本公开实施例提供的另一种文本处理方法的流程图。如图2中所示,本公开实施例提供的另一种文本处理方法,包括:
S201:确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于待处理文本的不同段落。
S202:确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量。
S203:获取从样本文本中识别出的多个样本语句组和每个样本语句组的真实样本合并标签,其中,所述样本语句组包括第一样本语句和第二样本语句。
该步骤中,在使用所述训练好的段落合并识别模型之前,需要对所述段落合并识别模型进行训练,相应的需要获取样本语句组以及针对每个样本语句组的真实样本合并标签来完成模型的训练,其中,所述样本语句组包括第一样本语句和第二样本语句。
S204:确定所述第一样本语句对应的第一样本向量和所述第二样本语句对应的第二样本向量。
该步骤中,在获取所述第一样本语句和所述第二样本语句后,进一步确定所述第一样本语句对应的第一样本向量和所述第二样本语句对应的第二样本向量。
其中,获取所述第一样本语句对应的第一样本向量和所述第二样本语句对应的第二样本向量的方法可以参阅获取所述待处理合并语句的所述第一语句向量和所述第二语句向量的方法,并且可以达到相同的技术效果和解决相同的技术问题,在此不做赘述。
S205:使用所述第一样本向量、所述第二样本向量和所述真实样本合并标签,对构建好的神经网络进行训练,直至所述神经网络满足预设训练条件,得到训练好的段落合并识别模型。
该步骤中,在得到使用所述第一样本向量、所述第二样本向量和所述真实样本合并标签后,将其输入至构建好的神经网络进行训练,对于每一组所述第一样本向量和每一组所述第二样本向量,都可以得到与其对应的第一样本输出结果和第二样本输出结果,根据所述第一样本输出结果和第二样本输出结果,以及所述真实样本合并标签,对所述构建好的神经网络的权重进行调节,直至所述神经网络满足预设训练条件,得到训练好的段落合并识别模型。
其中,所述预设训练条件可以根据所述神经网络的识别精度或者输出结果与真实样本合并标签之间的误差值进行设置。
S206:将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果。
S207:若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
其中步骤S201,S202,S206,S207,可以参照步骤S101至步骤S104的描述,并且可以达到相同的技术效果和解决相同的技术问题,在此不做赘述。
接下来,结合具体实施方式进一步对本实施例进行说明。
一种可选的实施方式,步骤S201包括:
获取待处理文本的文本数据。
该步骤中,获取待处理文本可以从一篇或多篇不同格式的文章中获取。
根据从所述文本数据中识别出的段落分割符,确定所述待处理文本中与所述段落分割符相邻,并且位于所述段落分割符之前的第一段落和位于所述段落分割符之后的第二段落。
该步骤中,可以根据从所述待处理文本的文本数据中识别出的段落分割符,确定与段落分割符相邻的位于所述段落分割符之前的第一段落和与段落分割符相邻的位于所述段落分割符之后的第二段落。
按照预设语句认定规则,确定所述第一段落中位于最后语句位置的第一语句,和所述第二段落中位于首句语句位置的第二语句,其中,所述第一语句和所述第二语句分别包括至少一个自然语句。
该步骤中,按照预设的语句认定规则,确认所述第一段落中与段落分割符相邻的最后一句语句为第一语句,以及确认所述第二段落中与段落分割符相邻的首句语句为第二语句,其中,所述第一语句和所述第二语句分别包括至少一个自然语句。
其中,所述语句认定规则可以包括以下方面:可以根据段落中的句号、感叹号等划分所述第一语句和所述第二语句,其次,在没有句号、感叹号等的情况下,可以将所述第一段落和所述第二段落分别作为一句语句。另外,由于在实际的书写过程中,会因为作者笔误或者行文风格等,会出现一个语气词单独成句,或者单个语句信息量非常少的的情况,而这类语句不能被认为是独立的自然语句,所以可以根据实际情况,将此类语句与前后相关性较大的语句划分为一个语句,进而将此类语句整理成独立的自然语句。
示例性的,按照所述语句认定规则,当从待处理文本的所述文本数据中识别到“\n”字符时,则按照“\n”的位置,分别确定与“\n”前后相邻的第一段文本和第二段文本,若第一段文本以句号作为结尾,确定与“\n”距离最近的两个句号,则两个句号之间的语句即为第一语句,若第二段文本没有句号时,则将第二段文本作为第二语句。
将所述第一语句和所述第二语句确定为至少一组待合并语句中的一组待合并语句。
该步骤中,在确定所述第一语句和所述第二语句之后,将所述第一语句和所述第二语句组合,生成至少一组待合并语句中的一组待合并语句。
一种可选的实施方式,步骤S202包括:
获取针对所述待处理文本的分词方式。
该步骤中,在获取到所述待处理文本中的至少一组待合并语句后,可以根据所述待处理文本的不同属性确定所述待合并语句的不同的分词方式。
其中,分词方式可以是根据待处理文本的属性进行分词。
示例性的,可以根据所选待处理文本的内容,文本大小以及文本所属领域等属性进行分词。
其中,分词方法可以为以下方法:基于词典分词算法,基于统计的机器学习算法,其中,所述基于词典分词算法按照一定的策略将待匹配的字符串和一个足够大的词典中的词进行匹配,所述基于统计的机器学习算法是对汉字进行标注训练。
按照所述分词方式,对所述第一语句和所述第二语句分别进行分词处理,得到所述第一语句对应的多个第一目标词和所述多个第一目标词的数量,以及所述第二语句对应的多个第二目标词和所述第二目标词的数量。
该步骤中,根据所述分词方式,分别对所述第一语句和所述第二语句进行分词处理,可以得到所述第一语句对应的多个第一目标词和所述多个第一目标词的数量,以及所述第二语句对应的多个第二目标词和所述第二目标词的数量。
示例性的,将语句“文章内容涉及到环境改善”进行分词处理,得到:[‘文章’,‘内容’,‘涉及’,‘到’,‘环境’,‘改善’]。
根据所述多个第一目标词和所述多个第一目标词的数量,对所述第一语句进行编码处理,得到所述第一语句对应的第一语句向量;
根据所述多个第二目标词和所述多个第二目标词的数量,对所述第二语句进行编码处理,得到所述第二语句对应的第二语句向量。
该步骤中,基于从所述第一语句中划分出的多个第一目标词和所述多个第一目标词的数量,以及基于从所述第二语句中划分出的多个第二目标词和所述多个第二目标词的数量,对所述第一语句和所述第二语句进行编码处理,可以得到所述第一语句对应的第一语句向量。
其中,所述编码过程可以通过词袋模型或词向量模型实现。
一种可选的实施方式,步骤S206包括:
将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中的语义识别层,得到所述第一语句向量和所述第二语句向量之间的语义距离向量。
该步骤中,在得到所述第一语句向量和所述第二语句向量后,将其输入至训练好的段落合并识别模型中的语义识别层,可以得到所述第一语句向量和所述第二语句向量之间的语义距离向量。
其中,所述语义识别层可以为一个全连接神经网络。
其中,所述语义距离向量用于计算两个语句之间的相似度。
示例性的,若所述第一语句向量表示为h1,所述第二语句向量表示为h2,所述语义距离向量表示为H,则三者之间的关系为:H=||h1-h2||1
将所述语义距离向量输入至所述段落合并识别模型中的合并识别层中,得到针对所述第一语句和所述第二语句的语句合并识别结果,其中,所述语句合并识别结果包括语句合并概率。
该步骤中,在得到所述语义距离向量后,将所述语义距离向量输入至所述段落合并识别模型中的合并识别层中,对语义距离向量进行处理,得到针对所述第一语句和所述第二语句的语句合并识别结果,其中,所述语句合并识别结果包括语句合并概率。
其中,所述合并识别层用来完成所述语义距离向量的归一化处理。
示例性的,所述合并识别层的归一化处理函数可以为指数函数,例如,将语义距离向量表示为H,将语句合并概率表示为Y,则所述语义距离向量的归一化处理过程可以表示为以下公式:Y=exp(-H)。
请参阅图3,图3为本公开实施例所提供的另一种文本处理方法的数据处理示意图。如图3中所示,将获取到的所述第一语句和所述第二语句分别进行分词处理,再根据进行分词处理后得到的所述第一语句的第一目标词和所述第一目标词的数量,以及所述第二语句的第二目标词和所述第二目标词的数量进行编码,并将编码得到的第一语句向量和第二语句向量输入至语义识别层,最后将语义距离向量输入至合并识别层,得到针对所述第一语句和所述第二语句的语句合并识别结果。
一种可选的实施方式,步骤S207包括:
若所述语句合并概率大于预设概率阈值,确定所述第一语句和所述第二语句满足合并条件;
在所述第一语句和所述第二语句满足合并条件的情况下,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
其中,所述预设概率阈值可以根据需要设置,例如可以根据语句合并结果的准确度而设置不同的阈值。
示例性的,若所述语句合并概率大于0.5,则可以确定所述第一语句和所述第二语句为同一语句中的内容;若所述语句合并概率小于0.5,则可以确定所述第一语句和所述第二语句不是同一语句中的内容。
若所述第一语句和所述第二语句为同一语句中的内容,确定所述第一语句所在的段落与所述第二语句所在的段落能够合并为一个段落。
该步骤中,确定所述第一语句和所述第二语句为同一语句中的内容,即所述第一语句与所述第二语句可以合并时,则可以确定所述第一语句所在的段落与所述第二语句所在的段落能够合并为一个段落。
一种可选的实施方式中,通过以下步骤确定所述神经网络满足所述预设训练条件:
在对所述神经网络训练的过程中,基于所述神经网络针对测试样本的预估合并结果以及所述测试样本的真实合并标签,确定所述神经网络的模型训练指标,其中,所述模型训练指标包括模型准确率、模型精确率和模型召回率中的至少一个。
该步骤中,在对所述神经网络训练的过程中,为了确定所述神经网络是否满足预设训练条件,可以对模型的训练效果进行评价。
首先,获取测试样本的预估合并结果以及所述测试样本的真实合并标签的对比结果,其中,所述测试样本的预估合并结果的获取方法可以参考所述第一样本语句和所述第二样本语句的对应的输出结果的获取方法的描述,并且可以达到相同的技术效果和解决相同的技术问题,在此不做赘述。
其次,在得到所述神经网络针对测试样本的预估合并结果后,可以设置一个阈值,根据所述预估合并结果与所述阈值的比较结果,确定预估合并标签,在确定所述预估合并标签与所述测试样本的真实合并标签的对比结果后,对所述结果进行统计,确定所述神经网络的模型训练指标,其中,所述模型训练指标包括模型准确率、模型精确率和模型召回率中的至少一个,其中,所述阈值可以根据实际情况进行人为设置,例如,所述阈值设置为0.85,若所述预设预估合并结果大于0.85,则确定预估合并标签为真实合并标签中的真实可合并标签,若所述预设预估合并结果小于0.85,则确定预估合并标签为真实合并标签中的真实不可合并标签。
其中,对于每一个测试样本,其标签属性为可合并和不可合并中的一种,在基于测试样本确定所述神经网络的模型训练指标时,针对所述测试样本的预估合并标签和真实合并标签会出现不一致的情况,例如,若选取一个测试样本的预估合并标签为可合并标签,而此测试样本的真实合并标签为不可合并标签,这样就会影响模型的准确度,所以通过模型训练指标进一步确保模型的准确度。
其中,模型准确率为针对测试样本的预估合并标签与所述测试样本的真实合并标签一致的样本数占所有样本数的比例;模型精确率为预估合并标签与真实合并标签一致的正样本的数量,与预估合并标签与真实合并标签一致的正样本的数量和预估合并标签与真实合并标签不一致的负样本的数量总和之间的比值;模型召回率为预估合并标签与真实合并标签一致的正样本的数量,与所有正样本的数量之间的比值。
直至所述模型训练指标大于预设指标阈值时,确定所述神经网络满足所述预设训练条件,将训练完毕的所述神经网络作为训练好的所述段落合并识别模型。
该步骤中,当所述模型训练指标大于预设指标阈值时,可以确定所述神经网络满足所述预设训练条件,则可以将训练完毕的所述神经网络作为训练好的所述段落合并识别模型。
示例性的,若所述模型准确率大于80%时,即确定所述神经网络满足所述预设训练条件,则可以将训练完毕的所述神经网络作为训练好的所述段落合并识别模型;若所述模型准确率小于80%时,即确定所述神经网络不满足所述预设训练条件,则不可以将训练完毕的所述神经网络作为训练好的所述段落合并识别模型。
一种可选的实施方式中,在所述获取从样本文本中识别出的多个样本语句组和每个样本语句组的真实样本合并标签之前,所述方法包括:
确定所述样本文本中的多段文本内容。
该步骤中,在训练所述段落合并识别模型时,需要确定训练所述段落合并识别模型所需要的训练文本,可以将所述样本文本确定为用于训练模型的训练样本,并从所述样本文本中确定多段文本内容。
从所述多段文本内容中识别出多组正样本语句组,其中,所述正样本语句组包括位于同一段落中的、相邻的两个语句。
该步骤中,根据从所述样本文本中确定的多段文本内容,在所述多段文本内容中识别出多组位于同一段落中的、相邻的两个语句,并将每一组位于同一段落中的、相邻的两个语句确定为所述多组正样本语句组之一。
示例性的,请参阅图4,图4为样本文本内容示意图。
如图4中所示,所述样本文本中的正样本语句组可以为以下两组样本语句组:“所谓风景(Scenery),实质上是在一定的条件之中,以山水景物,以及某些自然和人文现象所构成的足以引起人们审美与欣赏的景象。”和“景物、景感和条件则是构成风景的三类基本要素。”;“景感是风景构成的活跃因素、主观反映,是人对景物的体察、鉴别和感受能力,例如视觉、听觉、嗅觉、味觉、触觉、联想、心理等等。”和“条件是风景构成的制约因素、原因手段,是赏景主体与风景客体所构成的特殊关系。”。
从所述多段文本内容中识别出多组负样本语句组,其中,所述负样本语句组包括位于不同段落中的两句语句;
该步骤中,根据从所述样本文本中确定的多段文本内容,在所述多段文本内容中识别出多组位于不同段落中的两句语句,并将每一组位于不同段落中的两句语句确定为所述多组负样本语句组之一。
示例性的,如图4中所示,所述样本文本中的负样本语句组可以为以下两组样本语句组:“在中国古书上,尤其纯文艺作品的诗文方面,更是延用已久,甚至写景多于言情,几乎和旅游打成了一片。”和“景感是风景构成的活跃因素、主观反应,是人对景物的体察、鉴别和感受能力”。
将识别出的多组正样本语句组和各正样本语句组的真实样本合并标签,以及识别出的多组负样本语句组和各负样本语句组的真实样本合并标签,作为用于训练所述段落合并识别模型的多个样本语句组和各样本语句组的真实样本合并标签。
该步骤中,为了提高模型识别结果的正确性,在识别出的多组正样本语句组和各正样本语句组的真实样本合并标签,以及识别出的多组负样本语句组和各负样本语句组的真实样本合并标签后,将其作为用于训练所述段落合并识别模型的多个样本语句组和各样本语句组的真实样本合并标签,进而输入到所述段落合并识别模型中进行训练。
在具体实施例中,为了可以提高模型训练的效果,在样本抽取时,所选用的样本文本,可以是与所述待处理文本属于相同类型的文本。
进一步的,为了更好的让模型学习到文本的关联,对于训练模型的部分正样本,可以是直接从所述待处理文本中抽取的。
具体的,可以是先从所述待处理文本中确定多段文本内容,然后从所述多段文本内容中识别出多组正样本语句,其中,所述正样本语句组包括位于同一段落中的、相邻的两个语句,然后,可以将从所述待处理文本中抽取的多组正样本语句组,作为用于模型训练的多组正样本语句组中的一部分,从而可以进一步提高所述段落合并识别模型的识别准确性。
本公开实施例提供的文本处理方法,通过从待处理文本中选取的被段落分割符分割的语句中划分出的多个目标词和目标词的数量进行编码处理得到语句向量,以及根据与所述语句向量的对应的语句合并识别结果,判断两个语句是否能够合并为同一语句,可以学习两个语句之间的关系,从而学习被段落分割符分割的两个段落之间的联系,以此判定两个段落是否可以合并,可以提高语句合并识别结果的准确性,从而提高段落合并的效率和准确度,可以减小因大量段落分割符产生的过多段落对文本分析产生的影响,有利于提高文本分析的运行速度。并且通过从待处理文本中选取用于训练段落合并识别模型的样本数据,可以精确的学习待处理文本中语句之间的关系和段落之间的联系,有助提高模型对待处理文本中语句识别的准确性,提高待处理文本中段落合并识别的有效性。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与文本处理方法对应的文本处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述文本处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图5至图6,图5为本公开实施例提供的一种文本处理装置的结构图之一,图6为本公开实施例提供的一种文本处理装置的结构图之二。
如图5中所示,本公开实施例提供的文本处理装置500,包括:
语句获取模块510,用于确定待处理文本中的至少一组待合并语句;
向量确定模块520,用于根据从所述第一语句中划分出的多个第一目标词和所述第一目标词的数量,以及从所述第二语句中划分出的多个第二目标词和所述第二目标词的数量,分别确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量;
结果识别模块530,用于将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果;
段落合并模块540,用于若所述语句合并识别结果指示所述第一语句和所述第二语句为同一语句中的内容,确定所述第一语句所在的段落与所述第二语句所在的段落能够合并为一个段落。
一种可选的实施方式中,所述语句获取模块510具体用于:
获取待处理文本的文本数据;
根据从所述文本数据中识别出的段落分割符,确定所述待处理文本中与所述段落分割符相邻,并且位于所述段落分割符之前的第一段落和位于所述段落分割符之后的第二段落;
按照预设语句认定规则,确定所述第一段落中位于最后语句位置的第一语句,和所述第二段落中位于首句语句位置的第二语句,其中,所述第一语句和所述第二语句分别包括至少一个自然语句;
将所述第一语句和所述第二语句确定为至少一组待合并语句中的一组待合并语句。
一种可选的实施方式中,所述向量确定模块520具体用于:
获取针对所述待处理文本的分词方式;
按照所述分词方式,对所述第一语句和所述第二语句分别进行分词处理,得到所述第一语句对应的多个第一目标词和所述多个第一目标词的数量,以及所述第二语句对应的多个第二目标词和所述多个第二目标词的数量;
根据所述多个第一目标词和所述多个第一目标词的数量,对所述第一语句进行编码处理,得到所述第一语句对应的第一语句向量;
根据所述多个第二目标词和所述多个第二目标词的数量,对所述第二语句进行编码处理,得到所述第二语句对应的第二语句向量。
一种可选的实施方式中,所述结果识别模块530具体用于:
将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中的语义识别层,得到所述第一语句向量和所述第二语句向量之间的语义距离向量;
将所述语义距离向量输入至所述段落合并识别模型中的合并识别层中,得到针对所述第一语句和所述第二语句的语句合并识别结果,其中,所述语句合并识别结果包括语句合并概率。
一种可选的实施方式中,所述段落合并模块540具体用于:
若所述语句合并概率大于预设概率阈值,确定所述第一语句和所述第二语句满足合并条件;
在所述第一语句和所述第二语句满足合并条件的情况下,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
一种可选的实施方式中,如图6中所示,所述文本处理装置500还包括模型训练模块550,所述模型训练模块550具体用于:
获取从样本文本中识别出的多个样本语句组和每个样本语句组的真实样本合并标签,其中,所述样本语句组包括第一样本语句和第二样本语句;
确定所述第一样本语句对应的第一样本向量和所述第二样本语句对应的第二样本向量;
使用所述第一样本向量、所述第二样本向量和所述真实样本合并标签,对构建好的神经网络进行训练,直至所述神经网络满足预设训练条件,得到训练好的段落合并识别模型。
一种可选的实施方式中,模型训练模块550在通过以下步骤确定所述神经网络满足所述预设训练条件时,具体用于:
在对所述神经网络训练的过程中,基于所述神经网络针对测试样本的预估合并结果以及所述测试样本的真实合并标签,确定所述神经网络的模型训练指标,其中,所述模型训练指标包括模型准确率、模型精确率和模型召回率中的至少一个;
直至所述模型训练指标大于预设指标阈值时,确定所述神经网络满足所述预设训练条件,将训练完毕的所述神经网络作为训练好的所述段落合并识别模型。
一种可选的实施方式中,如图6中所示,所述文本处理装置500还包括样本获取模块560,所述样本获取模块560具体用于:
确定所述样本文本中的多段文本内容;
从所述多段文本内容中识别出多组正样本语句组,其中,所述正样本语句组包括位于同一段落中的、相邻的两个语句;
从所述多段文本内容中识别出多组负样本语句组,其中,所述负样本语句组包括位于不同段落中的两句语句;
将识别出的多组正样本语句组和各正样本语句组的真实样本合并标签,以及识别出的多组负样本语句组和各负样本语句组的真实样本合并标签,作为用于训练所述段落合并识别模型的多个样本语句组和各样本语句组的真实样本合并标签。
本公开实施例提供的文本处理装置,可以通过从待处理文本中选取的被段落分割符分割的语句中划分出的多个目标词和多个目标词的数量进行编码处理得到语句向量,以及根据与所述语句向量的对应的语句合并识别结果,判断两个语句是否能够合并为同一语句,可以学习两个语句之间的关系,从而学习被段落分割符分割的两个段落之间的联系,以此判定两个段落是否可以合并,可以提高语句合并识别结果的准确性,从而提高段落合并的效率和准确度,可以减小因大量段落分割符产生的过多段落对文本分析产生的影响,有利于提高文本分析的运行速度。并且通过从待处理文本中选取用于训练段落合并识别模型的样本数据,可以精确的学习待处理文本中语句之间的关系和段落之间的联系,有助于提高模型对待处理文本中语句识别的准确性,提高待处理文本中段落合并识别的有效性。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本公开实施例还提供了一种电子设备。参照图7所示,为本申请实施例提供的电子设备700的结构示意图,包括处理器710、存储器720、和总线730。其中,存储器720用于存储执行指令,包括内存721和外部存储器722;这里的内存721也称内存储器,用于暂时存放处理器710中的运算数据,以及与硬盘等外部存储器722交换的数据,处理器710通过内存721与外部存储器722进行数据交换,当电子设备700运行时,处理器710与存储器720之间通过总线730通信,使得处理器710能够执行上述方法实施例中所述的文本处理方法的步骤。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的一种文本处理方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的文本处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种文本处理方法,其特征在于,所述方法包括:
确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于所述待处理文本的不同段落;
确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量;
将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果;
若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
2.根据权利要求1所述的方法,其特征在于,所述确定待处理文本中的至少一组待合并语句,包括:
获取待处理文本的文本数据;
根据从所述文本数据中识别出的段落分割符,确定所述待处理文本中与所述段落分割符相邻,并且位于所述段落分割符之前的第一段落和位于所述段落分割符之后的第二段落;
按照预设语句认定规则,确定所述第一段落中位于最后语句位置的第一语句,和所述第二段落中位于首句语句位置的第二语句,其中,所述第一语句和所述第二语句分别包括至少一个自然语句;
将所述第一语句和所述第二语句确定为至少一组待合并语句中的一组待合并语句。
3.根据权利要求1所述的方法,其特征在于,所述确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量,包括:
获取针对所述待处理文本的分词方式;
按照所述分词方式,对所述第一语句和所述第二语句分别进行分词处理,得到所述第一语句对应的多个第一目标词和所述多个第一目标词的数量,以及所述第二语句对应的多个第二目标词和所述多个第二目标词的数量;
根据所述多个第一目标词和所述多个第一目标词的数量,对所述第一语句进行编码处理,得到所述第一语句对应的第一语句向量;
根据所述多个第二目标词和所述多个第二目标词的数量,对所述第二语句进行编码处理,得到所述第二语句对应的第二语句向量。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果,包括:
将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中的语义识别层,得到所述第一语句向量和所述第二语句向量之间的语义距离向量;
将所述语义距离向量输入至所述段落合并识别模型中的合并识别层中,得到针对所述第一语句和所述第二语句的语句合并识别结果,其中,所述语句合并识别结果包括语句合并概率。
5.根据权利要求4所述的方法,其特征在于,所述若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并,包括:
若所述语句合并概率大于预设概率阈值,确定所述第一语句和所述第二语句满足合并条件;
在所述第一语句和所述第二语句满足合并条件的情况下,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
6.根据权利要求1所述的方法,其特征在于,通过以下步骤获取训练好的段落合并识别模型:
获取从样本文本中识别出的多个样本语句组和每个样本语句组的真实样本合并标签,其中,所述样本语句组包括第一样本语句和第二样本语句;
确定所述第一样本语句对应的第一样本向量和所述第二样本语句对应的第二样本向量;
使用所述第一样本向量、所述第二样本向量和所述真实样本合并标签,对构建好的神经网络进行训练,直至所述神经网络满足预设训练条件,得到训练好的段落合并识别模型。
7.根据权利要求6所述的方法,其特征在于,通过以下步骤确定所述神经网络满足所述预设训练条件:
在对所述神经网络训练的过程中,基于所述神经网络针对测试样本的预估合并结果以及所述测试样本的真实合并标签,确定所述神经网络的模型训练指标,其中,所述模型训练指标包括模型准确率、模型精确率和模型召回率中的至少一个;
直至所述模型训练指标大于预设指标阈值时,确定所述神经网络满足所述预设训练条件,将训练完毕的所述神经网络作为训练好的所述段落合并识别模型。
8.根据权利要求6所述的方法,其特征在于,在所述获取从样本文本中识别出的多个样本语句组和每个样本语句组的真实样本合并标签之前,所述方法包括:
确定所述样本文本中的多段文本内容;
从所述多段文本内容中识别出多组正样本语句组,其中,所述正样本语句组包括位于同一段落中的、相邻的两个语句;
从所述多段文本内容中识别出多组负样本语句组,其中,所述负样本语句组包括位于不同段落中的两句语句;
将识别出的多组正样本语句组和各正样本语句组的真实样本合并标签,以及识别出的多组负样本语句组和各负样本语句组的真实样本合并标签,作为用于训练所述段落合并识别模型的多个样本语句组和各样本语句组的真实样本合并标签。
9.一种文本处理装置,其特征在于,所述装置包括:
语句获取模块,用于确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于待处理文本的不同段落;
向量确定模块,用于确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量;
结果识别模块,用于将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果;
段落合并模块,用于若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。
10.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8中任一项所述的文本处理方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8中任一项所述的文本处理方法的步骤。
CN202110650283.4A 2021-06-10 2021-06-10 一种文本处理方法、装置、设备以及存储介质 Pending CN113361260A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110650283.4A CN113361260A (zh) 2021-06-10 2021-06-10 一种文本处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110650283.4A CN113361260A (zh) 2021-06-10 2021-06-10 一种文本处理方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113361260A true CN113361260A (zh) 2021-09-07

Family

ID=77533707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110650283.4A Pending CN113361260A (zh) 2021-06-10 2021-06-10 一种文本处理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113361260A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943474A (zh) * 2022-06-16 2022-08-26 平安科技(深圳)有限公司 研发工作量检测方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及系统
CN110362832A (zh) * 2019-07-18 2019-10-22 北京香侬慧语科技有限责任公司 一种段落合并的方法、装置、存储介质及电子设备
CN110889280A (zh) * 2018-09-06 2020-03-17 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN111241851A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 语义相似度确定方法、装置及处理设备
CN112016292A (zh) * 2020-09-09 2020-12-01 平安科技(深圳)有限公司 文章截断点的设定方法、装置以及计算机设备
CN112417884A (zh) * 2020-11-05 2021-02-26 广州平云信息科技有限公司 一种基于知识增强和知识迁移的句子语义相关度判断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及系统
CN110889280A (zh) * 2018-09-06 2020-03-17 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN110362832A (zh) * 2019-07-18 2019-10-22 北京香侬慧语科技有限责任公司 一种段落合并的方法、装置、存储介质及电子设备
CN111241851A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 语义相似度确定方法、装置及处理设备
CN112016292A (zh) * 2020-09-09 2020-12-01 平安科技(深圳)有限公司 文章截断点的设定方法、装置以及计算机设备
CN112417884A (zh) * 2020-11-05 2021-02-26 广州平云信息科技有限公司 一种基于知识增强和知识迁移的句子语义相关度判断方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943474A (zh) * 2022-06-16 2022-08-26 平安科技(深圳)有限公司 研发工作量检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN107085581B (zh) 短文本分类方法和装置
US20230016365A1 (en) Method and apparatus for training text classification model
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN110163181B (zh) 手语识别方法及装置
CN110209802B (zh) 一种提取摘要文本的方法及装置
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN114358007A (zh) 多标签识别方法、装置、电子设备及存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN114462385A (zh) 一种文本分段方法及装置
Aida et al. A comprehensive analysis of PMI-based models for measuring semantic differences
CN115510232A (zh) 文本语句分类方法和分类装置、电子设备及存储介质
CN111930936A (zh) 一种平台留言文本挖掘方法及系统
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN113361260A (zh) 一种文本处理方法、装置、设备以及存储介质
CN109213988B (zh) 基于N-gram模型的弹幕主题提取方法、介质、设备及系统
CN113780556A (zh) 神经网络训练及文字识别的方法、装置、设备及存储介质
CN113761875A (zh) 事件抽取方法、装置、电子设备及存储介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN110198291B (zh) 一种网页后门检测方法、装置、终端及存储介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN113255345B (zh) 一种语义识别方法、相关装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information