CN113076720B - 长文本的分段方法及装置、存储介质、电子装置 - Google Patents

长文本的分段方法及装置、存储介质、电子装置 Download PDF

Info

Publication number
CN113076720B
CN113076720B CN202110476650.3A CN202110476650A CN113076720B CN 113076720 B CN113076720 B CN 113076720B CN 202110476650 A CN202110476650 A CN 202110476650A CN 113076720 B CN113076720 B CN 113076720B
Authority
CN
China
Prior art keywords
sequence
sentence
vector
text
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110476650.3A
Other languages
English (en)
Other versions
CN113076720A (zh
Inventor
田维政
李昕城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinsheng Technology Shenzhen Co ltd
Original Assignee
Xinsheng Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinsheng Technology Shenzhen Co ltd filed Critical Xinsheng Technology Shenzhen Co ltd
Priority to CN202110476650.3A priority Critical patent/CN113076720B/zh
Publication of CN113076720A publication Critical patent/CN113076720A/zh
Application granted granted Critical
Publication of CN113076720B publication Critical patent/CN113076720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种长文本的分段方法及装置、存储介质、电子装置,其中,该方法包括:将源语音文档转换为文本文档;将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系;基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段。通过本发明,解决了相关技术对长文本自动分段的准确率低的技术问题,实现了长文本的自动和准确分段,提高了自动识别文本的可读性。

Description

长文本的分段方法及装置、存储介质、电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种长文本的分段方法及装置、存储介质、电子装置。
背景技术
相关技术中,会议是日常生活中经常开展的一项活动,以语音作为主要载体的会议,比如:单位现场会议、远程会议、议会会议、听证会等,它们包含大量语音信息,同时也存在很多冗余信息,通过直接收听语音或者观看视频来筛选自己所需的信息,是相当费时费力的。随着人工智能技术和自然语言技术近年来的迅速发展,越来越多与语音文本相关的项目开始得到研发并落地运用。从大型长文档(例如:会议语音文档、法律文档、技术手册和论文文章等)中了解和提取信息仍然是一项具有挑战性的任务。由语音识别得到的会议语音文档,通常是一整段长文档的无段落结构,不方便阅读,是一个十分有必要去解决的问题。
相关技术中,句子连贯分析的技术方法有基于贪心转换的算法,优点在于解析时间是线性复杂度,效率较高,但缺点在于每一步的决策都是基本句子局部信息,忽视了文本全文的信息,如果在一个部分分析错误,则会导致连续累积的错误;另一种是基于图表的解析方法,优点在于结果更精确,缺点在于速度很慢。但是这些方法不适配于现在深度神经网络的训练方式,同时没能充分联系上下文信息来进行连贯性关系的分析。相关技术中的文本分段将分段看作是一个序列标注任务,针对一篇文章,然后寻找段落与段落之间的相似程度,从而得到分割点。但是这种方法只在上下文有明显差异的文章才能得到不错的分块效果,分段的准确率较低。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种长文本的分段方法及装置、存储介质、电子装置。
根据本发明的一个实施例,提供了一种长文本的分段方法,包括:将源语音文档转换为文本文档;将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系;基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段。
可选的,根据所述句向量序列生成语篇树包括:对所述句向量序列进行压缩和选择编码得到句状态序列,其中,所述句状态序列包括所有句子的状态序列向量;在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
可选的,基于所述第一序列与所述第二序列生成语篇树包括:分别计算所述第一序列和所述第二序列的序列长度;若所述第一序列和所述第二序列的序列长度小于或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;若所述第一序列的序列长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
可选的,基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段包括:设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;将所述标记数据集拆分为训练集,验证集,以及测试集;采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
可选的,采用预设文本分段模型和所述语篇树更新所述初始标签信息,输出有效句序列包括:从所述句向量序列中提取每个句子的特征向量;采用双向长期短期记忆BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关系信息的特征向量;采用条件随机场模型基于所述融合特征向量对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
可选的,采用BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量包括:获取每个句子在所述语篇树中的位置信息,并基于所述位置信息设置每个句子的位置权重,并利用所述位置权重更新每个句子的特征向量,得到树特征向量;将各个句子的树特征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;采用正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,所述正向隐状态序列包括每个句子的正向隐状态向量,所述反向隐状态序列包括每个句子的反向隐状态向量;
将所述正向隐状态序列,所述反向隐状态序列,以及所述树特征向量进行拼接得到所述融合特征向量。
可选的,将所述文本文档转换为向量序列包括:采用正则表达式对所述文本文档进行数据清洗,得到清洗后的文本数据集合,其中,所述文本数据集合包括多个长文本;对所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列和句序列;将所述词序列和所述句序列分别转换为词向量序列和句向量序列。
根据本发明的另一个实施例,提供了一种长文本的分段装置,包括:第一转换模块,用于将源语音文档转换为文本文档;第二转换模块,用于将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;生成模块,用于根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系;分段模块,用于基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段。
可选的,所述生成模块包括:处理单元,用于对所述句向量序列进行压缩和选择编码得到句状态序列,其中,所述句状态序列包括所有句子的状态序列向量;递归单元,用于在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;生成单元,用于将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
可选的,所述生成单元包括:计算子单元,用于分别计算所述第一序列和所述第二序列的序列长度;第一输出子单元,用于若所述第一序列和所述第二序列的序列长度小于或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;
第二输出子单元,用于若所述第一序列的序列长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
可选的,所述分段模块包括:设置单元,用于设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;拆分单元,用于将所述标记数据集拆分为训练集,验证集,以及测试集;更新单元,用于采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;分段单元,用于在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
可选的,所述更新单元包括:第一提取子单元,用于从所述句向量序列中提取每个句子的特征向量;第二提取子单元,用于采用双向长期短期记忆BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关系信息的特征向量;更新单元,用于采用条件随机场模型基于所述融合特征向量对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
可选的,所述第二提取子单元还用于:获取每个句子在所述语篇树中的位置信息,并基于所述位置信息设置每个句子的位置权重,并利用所述位置权重更新每个句子的特征向量,得到树特征向量;将各个句子的树特征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;采用正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,所述正向隐状态序列包括每个句子的正向隐状态向量,所述反向隐状态序列包括每个句子的反向隐状态向量;将所述正向隐状态序列,所述反向隐状态序列,以及所述树特征向量进行拼接得到所述融合特征向量。
可选的,所述第二转换模块包括:清洗单元,用于采用正则表达式对所述文本文档进行数据清洗,得到清洗后的文本数据集合,其中,所述文本数据集合包括多个长文本;处理单元,用于对所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列和句序列;转换单元,用于将所述词序列和所述句序列分别转换为词向量序列和句向量序列。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,将源语音文档转换为文本文档,将文本文档转换为向量序列,根据向量序列生成语篇树,语篇树的每个叶子节点对应句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系,基于语篇树生成文本文档的段落分割点,并采用段落分割点对文本文档进行分段,采用语篇树的分析方法,进行连贯性关系的分析,充分利用了上下文信息,实现更效率和准确的分析性能,解决了相关技术对长文本自动分段的准确率低的技术问题,实现了长文本的自动和准确分段,提高了自动识别文本的可读性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种录音笔的硬件结构框图;
图2是根据本发明实施例的一种长文本的分段方法的流程图;
图3是本发明实施例中语篇树的示意图;
图4是本发明实施例中预处理模块的原理图;
图5是本发明实施例中语篇分析模块的结果示例图;
图6是本发明实施例的系统结构图;
图7是根据本发明实施例的一种长文本的分段装置的结构框图;
图8是本发明实施例的一种电子装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在服务器、计算机、手机、录音笔、或者类似的运算装置中执行。以运行在录音笔上为例,图1是本发明实施例的一种录音笔的硬件结构框图。如图1所示,录音笔可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述录音笔还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述录音笔的结构造成限定。例如,录音笔还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储录音笔程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种长文本的分段方法对应的录音笔程序,处理器102通过运行存储在存储器104内的录音笔程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至录音笔。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括录音笔的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种长文本的分段方法,图2是根据本发明实施例的一种长文本的分段方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将源语音文档转换为文本文档;
本实施例语音识别模块是指根据语音输入,将其转化为文本的格式方便进行后续的处理。本实施例的文本自动分段系统是通过上传会议录音文件,然后利用语音识别技术进行识别并转换成方便处理的文本格式,通过该语音识别模块得到的会议语音转换文本是只有一个段落的长文本数据。
步骤S204,将文本文档转换为向量序列,其中,向量序列包括词向量序列和句向量序列;
步骤S206,根据向量序列生成语篇树,其中,语篇树的每个叶子节点对应句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系;
在本实施例基于的修辞结构理论(RST,Rhetorical Structure Theory)是一种基于文本局部之间关系的关于文本组织的描述理论,根据这个理论能够对文本构造出一个树结构模型,从树根节点开始的树形图可以代表整个文本的修辞关系结构。用修辞结构理论(RST)进行文本分析一般采取自底向上的剖析过程:首先,将一个文本切分成多个语篇单元;然后,确定跨段和关系,除去非良构的树;最后,进行排歧、对可能共存的多种分析做出解释。通过括号内标注出来的上下句逻辑关系,能够表示出语篇句间的连贯关系,表明文本中的思路和意图。因此,如果能够让计算机掌握语篇连贯性结构的规律特征,就能进一步帮助计算机生成和理解自然语言,有助于各种下游任务的性能提高。
图3是本发明实施例中语篇树的示意图,例如有一个段落:“我喜欢打篮球。我喜欢看关于篮球的一些比赛。但是,我更喜欢看NBA。”利用修辞结构理论(RST)对这个段落构造出如图3的树形图。其中,以句子为单位,分成了a.b.c.三个部分,通常称为语篇单元。语篇单元不局限于以句子来划分,对于图中的每一个语篇单元,可以根据需要进行更细化的划分,例如划分出主谓宾等关系结构。在图中,a,b两个句子是通过“详述”关系而相关的,并且它们作为一个整体通过“对照”关系与第三个c句子相关。通过这种关系分析的方法,可以知道a.b.c.三个语篇单元是通过某种关系联系在一起的,具有某些相关性。因此可以根据这种关系联系,融入进文本段落划分边界判断的任务中。
本实施例中叶子节点在语篇树中的位置与句子在文本文档中的位置对应,连贯性关系是一种上下句逻辑关系(如详述,对照,反转等),通过标注出来的上下句逻辑关系,能够表示出语篇句间的连贯关系,表明文本中的思路和意图。因此,如果能够让计算机掌握语篇连贯性结构的规律特征,就能进一步帮助计算机生成和理解自然语言,有助于各种下游任务的性能提高。
步骤S208,基于语篇树生成文本文档的段落分割点,并采用段落分割点对文本文档进行分段。
将会议语音转换成文本后,是一篇没有分段的长文本的会议语音文档,因此需要根据文本中句子的连贯性规律信息,利用文本中的语篇单元来判断段落之间的边界,使会议语音文档得到有逻辑性的分段,从而让用户方便地阅读。一篇具有层次分明的段落结构的文本才方便让读者阅读。传统自动文本分段技术有无监督的方法和有监督的方法。首先将文档根据句子划分,然后依次比较两句相邻的句子的相似度,分割点往往就产生在相似度最低的地方,这种是无监督的方法。将文本进行人工标记段落分割点,构造分类器或者序列标注模型来进行分割点的学习和检测。
针对长文档类型的数据,进行语篇连贯性问题的分析研究。根据RST框架,可以将文本结构以树形图来表示,称为语篇树,语篇树的叶子节点就是一个个被划分出来的文本局部,被称为语篇单元。利用语篇单元能够让神经网络模型减少对文本中冗余信息的学习,以能够更效率更准确地学习到语篇连贯性结构的规律特征,从而给如文本分段任务或者文本摘要任务等下游任务提供更加简洁和丰富的信息。
通过上述步骤,将源语音文档转换为文本文档,将文本文档转换为向量序列,根据向量序列生成语篇树,语篇树的每个叶子节点对应句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系,基于语篇树生成文本文档的段落分割点,并采用段落分割点对文本文档进行分段,采用语篇树的分析方法,进行连贯性关系的分析,充分利用了上下文信息,实现更效率和准确的分析性能,解决了相关技术对长文本自动分段的准确率低的技术问题,实现了长文本的自动和准确分段,提高了自动识别文本的可读性。
在本实施例的一个实施方式中,将文本文档转换为向量序列包括:采用正则表达式对文本文档进行数据清洗,得到清洗后的文本数据集合,其中,文本数据集合包括多个长文本;对文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列和句序列;将词序列和句序列分别转换为词向量序列和句向量序列。
上述实施方式可以应用在预处理模块中,图4是本发明实施例中预处理模块的原理图,由于语音识别技术并非百分百准确,因此经过语音识别模块得到的长文本数据可能存在“脏”的情况,即包含有一些无意义或错误的字符或者多余的标点符号,这些都会对文本数据造成干扰,因此需要设置正则表达式(可替代的技术)进行数据清洗,可以得到经过清洗的文本数据集合context_all={text_1,text_2,…,text_n},其中context_all表示所有的长文本集合,text_n表示文本集合的第n个长文本。
在后续的模块中需要利用词级数据和句级数据,因此需要进一步将上述得到的长文本集合context_all中的每个长文本进行分词和分句操作,可以得到长文本对应的词序列word_list_n={word_1,word_2,…,word_n},其中word_list_n表示第n个长文本的词序列,word_n表示长文本中的第n个单词;同样地,可以得到长文本对应的句序列seg_list_n={seg_1,seg_2,…,seg_n},其中seg_list_n表示第n个长文本的句序列,seg_n表示文本中的第n个句子。
得到的词序列word_list_n和句序列seg_list_n是计算机无法直接理解的文本数据形式,因此需要对这些词序列和句序列进行向量化处理。在本步骤中,利用中文预训练模型(可选的)来完成这一操作。预训练模型是指该模型已经经历过一系列的学习和训练,里面包含的参数已经处于一个较好的初始状态,利用这种预训练模型可以使得向量化过程的代价更小和能够达到更好的性能。将词序列word_list_n作为中文预训练模型的输入,能够得到对应的词向量序列word_embedding_n(K)={embedding_1,embedding_2,…,embedding_n},其中word_embedding_n表示第n个长文本的词向量序列,embedding_n表示第n个词所对应的词向量,K表示每个词向量的向量维度,K是使用预训练模型时的所需要决定的工程经验参数。同样地,将句序列seg_list_n作为预训练模型的输入,能够得到对应的句向量序列seg_embedding_n(K)={seg_embedding_1,seg_embedding_2,…,seg_embedding_n},其中seg_embedding_n表示第n个长文本的句向量序列,seg_embedding_n表示第n个句子所对应的句向量,K表示每个句向量的向量维度,K是使用预训练模型时的所需要决定的工程经验参数。
在本实施例的一个实施方式中,根据句向量序列生成语篇树包括:
S11,对句向量序列进行压缩和选择编码得到句状态序列,其中,句状态序列包括所有句子的状态序列向量;
S12,在初始化堆栈中存储文本文档的词向量序列,递归循环以下步骤,直到初始化堆栈中的内容全部被提取出来,生成第一词状态向量序列:从初始化堆栈的顶部提取出一个词向量,并利用句状态序列中的状态序列向量计算该词向量的状态向量;
S13,将第一词状态向量序列分割为第一序列和第二序列,基于第一序列与第二序列生成语篇树。
在一些实例中,基于第一序列与第二序列生成语篇树包括:分别计算第一序列和第二序列的序列长度;若第一序列和第二序列的序列长度小于或等于预设长度,采用分类器解析第一序列和第二序列之间的第一连贯性关系,将第一序列和第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,第一连贯性关系输出为第一叶子节点和第二叶子节点的父节点;若第一序列的序列长度大于预设长度,则将第一序列重新压进初始化堆栈,递归循环以下步骤,直到初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等于预设长度:从初始化堆栈的顶部提取出一个词向量,再利用句状态序列中的状态序列向量计算该词向量的状态向量;将第一序列拆分为第三序列和第四序列,采用分类器解析第一序列和第二序列之间的第一连贯性关系,以及第三序列与第四序列之间的第二连贯性关系,将第二序列输出为语篇树的第一叶子节点,将第三序列和第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,第一连贯性关系输出为第一叶子节点,第二叶子节点和第三叶子节点的父节点,第二连贯性关系输出为第二叶子节点和第三叶子节点的父节点。
本实施方式可以应用在语篇分析模块中,语篇分析模块的具体任务是从文本中找到正确的语篇树,并且识别出每棵语篇树中的各个语篇单元以及语篇单元之间的关系。在这里以序列对序列模型(可替代技术)为例子进行流程说明。序列对序列模型是由编码器和解码器两部分组成的。
步骤A,首先是编码器部分,将有已经得到的句向量序列seg_embedding_n作为编码器的输入,其中编码器设置计算单元参数为T,T是工程经验参数,然后编码得到句状态序列seg_h_n={seg_h_1,…,seg_h_T},其中seg_h_n表示第n个句子的状态序列向量集合,seg_h_T表示经过第T个计算单元后该句子的状态序列向量。最后取seg_h_T来表示对应句子的状态序列向量。
步骤B,然后是解码器部分,初始化一个堆栈S来存放已经得到的词向量序列word_embedding_n,然后在每一次解码中,从堆栈S的顶部提取出一个词向量embedding_n,再利用步骤A得到的seg_h_T来计算该词向量的状态表示向量。
步骤C,不断递归循环步骤B),直到堆栈S里面的内容全部被提取出来,形成词状态表示向量序列embedding_h_list={embedding_h_1,…,embedding_h_n},其中embedding_h_n表示第n个词状态表示向量。
步骤D,在词状态表示向量序列embedding_h_list中,选取一个位置k将embedding_h_list分割成两个部分,例如part1={embedding_h_1,…,embedding_h_k},part2={embedding_h_k,…,embedding_h_n},其中k为工程经验参数。使用一个分类器来得到两个部分的关系,对于得到的两个部分part1和part2,若某个部分的序列长度大于L,L为工程经验参数,则将该部分重新压进堆栈,重新执行步骤C)和D)。
直到没有数据需要重新压进堆栈,则结束迭代,最后得到具有层次结构关系的词向量序列,结果示例如图5所示,图5是本发明实施例中语篇分析模块的结果示例图,即得到一棵语篇树,其中节点(a)和(b)看作是一个语篇单元,语篇单元的父节点代表了它们之间的关系。通过本模块的处理,将原本的长文分成了一颗颗语篇树的形式并得到相对应的语篇单元关系信息,在后续的文本分段模块将加入对这些关系信息的学习,以提升分段任务的性能效果。
在本实施例的一个实施方式中,基于语篇树生成文本文档的段落分割点,并采用段落分割点对文本文档进行分段包括:
S21,设置文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,初始标签信息用于表征对应的句子是否为段落分割点;
S22,将标记数据集拆分为训练集,验证集,以及测试集;
S23,采用预设文本分段模型,基于拆分后的标记数据集和语篇树更新初始标签信息,输出有效句序列,其中,有效句序列中的每个句子关联一个有效分段标签;
在基于本实施方式的一个示例中,采用预设文本分段模型和语篇树更新初始标签信息,输出有效句序列包括:从句向量序列中提取每个句子的特征向量;采用BiLSTM(Bi-directional LongShort-TermMemory,双向长时间的短期记忆网络)基于语篇树提取特征向量的融合特征向量,其中,融合特征向量包括句子信息和语篇树关系信息的特征向量;采用条件随机场模型基于融合特征向量对每个句子进行分段标签预测,并更新每个句子的初始标签信息,输出有效句序列。
可选的,采用BiLSTM网络基于语篇树提取特征向量的融合特征向量包括:获取每个句子在语篇树中的位置信息,并基于位置信息设置每个句子的位置权重,并利用位置权重更新每个句子的特征向量,得到树特征向量;将各个句子的树特征向量输入到BiLSTM网络,其中,BiLSTM网络包括一个正向LSTM和一个反向LSTM;采用正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,正向隐状态序列包括每个句子的正向隐状态向量,反向隐状态序列包括每个句子的反向隐状态向量;将正向隐状态序列,反向隐状态序列,以及树特征向量进行拼接得到融合特征向量。
S24,在有效句序列中选择指定句,并以指定句为分割点,对文本文档进行分段,其中,指定句的有效分段标签为段落分割点。
本实施例的目的是找出一篇文章中的段落边界,使文本分段得更加富有逻辑性,可以应用在文本分段模块中。本模块引入了注意力机制(Attention)来丰富数据对上下文信息的学习,注意力机制的本质是对输入的信息进行筛选,保留有价值的信息而滤去不重要的信息,也即是对各种数据信息计算权重向量,包括:
步骤A),数据标注:将文本分段看作是一个序列标注任务,主要基于监督学习来进行,通过标注数据让数据成为带有标签的有监督数据是进行监督学习必不可少的一个环节,文本分段模块通过学习有标签数据的特征来得到预测函数,进而预测出段落之间的分割点。在本实施例的文本分段中,着重于基于句子来进行标注,对由已经得到的句序列集合seg_list_n的每个句子后面自动标注上初始预测的标签【CON】或【CUT】,其中标签【CON】表示对应的句子是连续的,【CUT】表示这里是段落分割点。标注例子:[句子1]【CON】[句子2]【CUT】[句子3]【CON】[句子4]【CON】[句子5]【CUT】,这里一个文本有两个段落,其中[句子1]和[句子2]是第一个段落,[句子3][句子4][句子5]是第二个段落。通过这种序列标注方式,将句子处理成带有标签的标记数据集tag_seg。
步骤B),将由步骤A)标注好的数据集tag_seg划分为以下三个部分:
(1)训练集:主要是用来作为模型的训练数据;
(2)验证集:主要是用来验证训练模型的性能;
(3)测试集:主要是用来测试最终模型的效果。划分标准是A:B:C,就是训练集占标记数据集tag_seg的A%,验证集占B%,测试集占C%,其中A、B、C均为工程经验参数。
步骤C),模型训练:得到各种数据集后,就可以将数据输入到文本分段模型进行模型训练,在这里以BERT+BiLSTM+Attention+CRF的模型为例子进行流程说明:
C.1)模型的第一层是输入层,利用中文预训练模型BERT(Bidirectional EncoderRepresentations from Transformers,双向编码器)作为输入层来使用,即BERT作为一个特征提取器。
C.2)将由步骤B)得到的句序列集合输入到输入层,将文本转化成计算机可以理解的向量形式,得到特征向量集合seg_vector={v_1,v_2,…,v_n},其中v_n表示第n个句子的特征向量。
C.3)模型的第二层是BiLSTM层,LSTM是指长短期记忆的人工神经网络模型。BiLSTM是由一个正方向的LSTM和一个反方向的LSTM所构成。具体BiLSTM的训练流程步骤如下:
(1)BiLSTM能够根据C.2)得到的特征向量集合提取到句子的特征信息,将各个句子对应的特征向量作为BiLSTM层的输入;
(2)引入由语篇分析模块得到的语篇树和注意力机制来加强句子对上下文逻辑关系信息的学习。由于语篇树中的语篇单元在句子中都可以找到对应的词来匹配,则可以提取出句子所在的语篇单元在对应的语篇树上的位置信息(对应句子在文本文档中的出现位置),若该语篇单元在语篇树上靠得越前,则赋予的权重就应该越大。因此利用注意力机制,对语篇单元的位置信息进行权重的计算,得到位置权重pos_weight,然后利用各个语篇单元对应的特征向量embedding_h_list,根据对应权重pos_weight进行加权求和的计算,最后得到的值作为语篇树对应的特征向量tree_vector。
(3)正向LSTM根据输入的句子特征向量能够输出得到正向隐状态序列{h正_1,h正_2,…,h正_n},其中将h正_n表示该句子的第n个时序的正向隐状态,然后利用注意力机制,对正向隐状态序列{h正_1,h正_2,…,h正_n}中每个时序的权重进行计算,得到h正_weight,然后将正向隐状态序列和对应权重h正_weight进行加权求和,最后得到的值作为该句子的正向隐状态向量h正_vector;
(4)与(3)同理,反向LSTM根据输入的句子特征向量能够输出得到反向隐状态序列{h反_1,h反_2,…,h反_n},其中将h反_n表示该句子的第n个时序的反向隐状态,然后利用注意力机制,对反向隐状态序列{h反_1,h反_2,…,h反_n}中每个时序的权重进行计算,得到h反_weight,然后将反向隐状态序列和对应权重h反_weight进行加权求和,最后得到的值作为该句子的反向隐状态向量h反_vector;
(5)将正向隐状态向量h正_vector、反向隐状态向量h反_vector和对应的语篇树特征向量tree_vector三者进行拼接得到完整的隐状态序列h={h正_vector,h反_vector,tree_vector},在完整隐状态序列h中包含了经过BiLSTM+Attention通过句子信息和语篇树关系信息学习到的句子特征向量。
C.4)模型的最后一层是条件随机场(conditional random field,简称CRF)层,CRF是指条件随机场模型,CRF能够根据上面得到的隐状态序列h对句子进行分段标签预测。CRF在重新对一个句子进行预测的时候可以利用上这个句子以前的分段标签信息,然后根据维特比算法得到最优的分段标签结果,得到被标注上分段标签的句子序列。
C.5)利用C.4)得到的带有分段标签的句子序列作为输入数据,重复迭代C.2)—C.4)的模型训练步骤,直到满足迭代结束条件(如分段标签的准确率大于一定比例)为止,记录下最终带有有效分段标签的句子序列,即预测了每个句子的标签是【CON】或者【CUT】,最后得到文本分段结果。
图6是本发明实施例的系统结构图,应用在文本自动分段系统中,包括:(1)语音识别模块:用于将会议录音转换成文本形式;(2)预处理模块:主要针对文本的清洗、分词等数据预处理操作,以便于后续模块的处理;(3)语篇分析模块:用于对文本的语篇树构建和语篇单元的识别;(4)文本分段模块:用于对文本的分段操作。
为了能够实时地接受用户的文本自动分段请求,本实施例将语音识别模块、预处理模块、语篇分析模块和文本分段模块预先加载到内存中,采用B/S模式,每当有用户发起处理请求,能够及时处理,返回结果。
本实施例根据修辞结构理论(RST)框架,提出一种适用于句间连贯性分析的语篇分析方法,利用神经网络学习到丰富的语篇连贯性关系结构的特征信息,以帮助文本分段下游任务的性能提升。所以,本实施例引入语篇连贯性关系的特征,提高段落分割点的识别效果,从而得到性能更好的分段结果。
对于句子连贯性分析技术,不能充分利用上下文信息来分析句间连贯性关系,没能适配目前流行的深度神经网络训练方式的问题,本实施例提出的语篇分析方法,采取深度神经网络来进行连贯性关系的分析,充分利用了上下文信息,实现更效率和准确的分析性能。对于分段技术中依赖数据相似度,无法准确地识别出段落分割点的问题,本实施例利用语篇分析方法得到的连贯性关系信息和语篇单元信息,以帮助提高文本分段的性能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种长文本的分段装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本发明实施例的一种长文本的分段装置的结构框图,如图7所示,该装置包括:第一转换模块70,第二转换模块72,生成模块74,分段模块76,其中,
第一转换模块70,用于将源语音文档转换为文本文档;
第二转换模块72,用于将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;
生成模块74,用于根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系;
分段模块76,用于基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段。
可选的,所述生成模块包括:处理单元,用于对所述句向量序列进行压缩和选择编码得到句状态序列,其中,所述句状态序列包括所有句子的状态序列向量;递归单元,用于在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;生成单元,用于将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
可选的,所述生成单元包括:计算子单元,用于分别计算所述第一序列和所述第二序列的序列长度;第一输出子单元,用于若所述第一序列和所述第二序列的序列长度小于或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;
第二输出子单元,用于若所述第一序列的序列长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
可选的,所述分段模块包括:设置单元,用于设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;拆分单元,用于将所述标记数据集拆分为训练集,验证集,以及测试集;更新单元,用于采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;分段单元,用于在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
可选的,所述更新单元包括:第一提取子单元,用于从所述句向量序列中提取每个句子的特征向量;第二提取子单元,用于采用双向长期短期记忆BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关系信息的特征向量;更新单元,用于采用条件随机场模型基于所述融合特征向量对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
可选的,所述第二提取子单元还用于:获取每个句子在所述语篇树中的位置信息,并基于所述位置信息设置每个句子的位置权重,并利用所述位置权重更新每个句子的特征向量,得到树特征向量;将各个句子的树特征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;采用正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,所述正向隐状态序列包括每个句子的正向隐状态向量,所述反向隐状态序列包括每个句子的反向隐状态向量;将所述正向隐状态序列,所述反向隐状态序列,以及所述树特征向量进行拼接得到所述融合特征向量。
可选的,所述第二转换模块包括:清洗单元,用于采用正则表达式对所述文本文档进行数据清洗,得到清洗后的文本数据集合,其中,所述文本数据集合包括多个长文本;处理单元,用于对所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列和句序列;转换单元,用于将所述词序列和所述句序列分别转换为词向量序列和句向量序列。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本申请实施例还提供了一种电子装置,图8是本发明实施例的一种电子装置的结构图,如图8所示,包括处理器81、通信接口82、存储器83和通信总线84,其中,处理器81,通信接口82,存储器83通过通信总线84完成相互间的通信,存储器83,用于存放计算机程序;
处理器81,用于执行存储器83上所存放的程序时,实现如下步骤:将源语音文档转换为文本文档;将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系;基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段。
可选的,根据所述句向量序列生成语篇树包括:对所述句向量序列进行压缩和选择编码得到句状态序列,其中,所述句状态序列包括所有句子的状态序列向量;在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
可选的,基于所述第一序列与所述第二序列生成语篇树包括:分别计算所述第一序列和所述第二序列的序列长度;若所述第一序列和所述第二序列的序列长度小于或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;若所述第一序列的序列长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
可选的,基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段包括:设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;将所述标记数据集拆分为训练集,验证集,以及测试集;采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
可选的,采用预设文本分段模型和所述语篇树更新所述初始标签信息,输出有效句序列包括:从所述句向量序列中提取每个句子的特征向量;采用双向长期短期记忆BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关系信息的特征向量;采用条件随机场模型基于所述融合特征向量对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
可选的,采用BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量包括:获取每个句子在所述语篇树中的位置信息,并基于所述位置信息设置每个句子的位置权重,并利用所述位置权重更新每个句子的特征向量,得到树特征向量;将各个句子的树特征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;采用正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,所述正向隐状态序列包括每个句子的正向隐状态向量,所述反向隐状态序列包括每个句子的反向隐状态向量;
将所述正向隐状态序列,所述反向隐状态序列,以及所述树特征向量进行拼接得到所述融合特征向量。
可选的,将所述文本文档转换为向量序列包括:采用正则表达式对所述文本文档进行数据清洗,得到清洗后的文本数据集合,其中,所述文本数据集合包括多个长文本;对所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列和句序列;将所述词序列和所述句序列分别转换为词向量序列和句向量序列。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的长文本的分段方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的长文本的分段方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种长文本的分段方法,其特征在于,包括:
将源语音文档转换为文本文档;
将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;
根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系,连贯性关系是上下句逻辑关系;
基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段;
其中,基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段包括:设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;将所述标记数据集拆分为训练集,验证集,以及测试集;采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
2.根据权利要求1所述的方法,其特征在于,根据所述句向量序列生成语篇树包括:
对所述句向量序列进行压缩和选择编码得到句状态序列,其中,所述句状态序列包括所有句子的状态序列向量;
在初始化堆栈中存储所述文本文档的词向量序列,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第一词状态向量序列:从所述初始化堆栈的顶部提取出一个词向量,并利用所述句状态序列中的状态序列向量计算该词向量的状态向量;
将所述第一词状态向量序列分割为第一序列和第二序列,基于所述第一序列与所述第二序列生成语篇树。
3.根据权利要求2所述的方法,其特征在于,基于所述第一序列与所述第二序列生成语篇树包括:
分别计算所述第一序列和所述第二序列的序列长度;
若所述第一序列和所述第二序列的序列长度小于或等于预设长度,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,将所述第一序列和所述第二序列分别输出为语篇树的第一叶子节点和第二叶子节点,所述第一连贯性关系输出为所述第一叶子节点和所述第二叶子节点的父节点;
若所述第一序列的序列长度大于预设长度,则将所述第一序列重新压进所述初始化堆栈,递归循环以下步骤,直到所述初始化堆栈中的内容全部被提取出来,生成第二词状态向量序列且序列长度小于或等于所述预设长度:从所述初始化堆栈的顶部提取出一个词向量,再利用所述句状态序列中的状态序列向量计算该词向量的状态向量;将所述第一序列拆分为第三序列和第四序列,采用分类器解析所述第一序列和所述第二序列之间的第一连贯性关系,以及所述第三序列与所述第四序列之间的第二连贯性关系,将所述第二序列输出为语篇树的第一叶子节点,将所述第三序列和所述第四序列分别输出为语篇树的第二叶子节点和第三叶子节点,所述第一连贯性关系输出为所述第一叶子节点,第二叶子节点和第三叶子节点的父节点,所述第二连贯性关系输出为所述第二叶子节点和所述第三叶子节点的父节点。
4.根据权利要求1所述的方法,其特征在于,采用预设文本分段模型和所述语篇树更新所述初始标签信息,输出有效句序列包括:
从所述句向量序列中提取每个句子的特征向量;
采用双向长期短期记忆BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量,其中,所述融合特征向量包括句子信息和语篇树关系信息的特征向量;
采用条件随机场模型基于所述融合特征向量对每个句子进行分段标签预测,并更新每个句子的所述初始标签信息,输出有效句序列。
5.根据权利要求4所述的方法,其特征在于,采用BiLSTM网络基于所述语篇树提取所述特征向量的融合特征向量包括:
获取每个句子在所述语篇树中的位置信息,并基于所述位置信息设置每个句子的位置权重,并利用所述位置权重更新每个句子的特征向量,得到树特征向量;
将各个句子的树特征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;
采用正向LSTM根据输入的树特征向量输出得到正向隐状态序列,以及采用反向LSTM根据输入的树特征向量输出得到反向隐状态序列,其中,所述正向隐状态序列包括每个句子的正向隐状态向量,所述反向隐状态序列包括每个句子的反向隐状态向量;
将所述正向隐状态序列,所述反向隐状态序列,以及所述树特征向量进行拼接得到所述融合特征向量。
6.根据权利要求1所述的方法,其特征在于,将所述文本文档转换为向量序列包括:
采用正则表达式对所述文本文档进行数据清洗,得到清洗后的文本数据集合,其中,所述文本数据集合包括多个长文本;
对所述文本数据集合中的每个长文本分别进行分词和分句,得到与每个长文本对应的词序列和句序列;
将所述词序列和所述句序列分别转换为词向量序列和句向量序列。
7.一种长文本的分段装置,其特征在于,包括:
第一转换模块,用于将源语音文档转换为文本文档;
第二转换模块,用于将所述文本文档转换为向量序列,其中,所述向量序列包括词向量序列和句向量序列;
生成模块,用于根据所述向量序列生成语篇树,其中,所述语篇树的每个叶子节点对应所述句向量序列的一个句向量,叶子节点的父节点对应下级至少两个叶子节点之间的连贯性关系,连贯性关系是上下句逻辑关系;
分段模块,用于基于所述语篇树生成所述文本文档的段落分割点,并采用所述段落分割点对所述文本文档进行分段;
所述分段模块包括:设置单元,用于设置所述文本文档的句序列集合中每个句子的初始标签信息,生成标记数据集,其中,所述初始标签信息用于表征对应的句子是否为段落分割点;拆分单元,用于将所述标记数据集拆分为训练集,验证集,以及测试集;更新单元,用于采用预设文本分段模型,基于拆分后的所述标记数据集和所述语篇树更新所述初始标签信息,输出有效句序列,其中,所述有效句序列中的每个句子关联一个有效分段标签;分段单元,用于在所述有效句序列中选择指定句,并以所述指定句为分割点,对所述文本文档进行分段,其中,所述指定句的有效分段标签为段落分割点。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6任一项中所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6任一项中所述的方法。
CN202110476650.3A 2021-04-29 2021-04-29 长文本的分段方法及装置、存储介质、电子装置 Active CN113076720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110476650.3A CN113076720B (zh) 2021-04-29 2021-04-29 长文本的分段方法及装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110476650.3A CN113076720B (zh) 2021-04-29 2021-04-29 长文本的分段方法及装置、存储介质、电子装置

Publications (2)

Publication Number Publication Date
CN113076720A CN113076720A (zh) 2021-07-06
CN113076720B true CN113076720B (zh) 2022-01-28

Family

ID=76616140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110476650.3A Active CN113076720B (zh) 2021-04-29 2021-04-29 长文本的分段方法及装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN113076720B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114462385A (zh) * 2021-07-13 2022-05-10 北京金山数字娱乐科技有限公司 一种文本分段方法及装置
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113723086B (zh) * 2021-08-31 2023-09-05 平安科技(深圳)有限公司 一种文本处理方法、系统、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955959A (zh) * 2016-05-06 2016-09-21 深圳大学 一种情感分类方法及系统
CN107562760A (zh) * 2016-06-30 2018-01-09 科大讯飞股份有限公司 一种语音数据处理方法及装置
CN110399484A (zh) * 2019-06-25 2019-11-01 平安科技(深圳)有限公司 长文本的情感分析方法、装置、计算机设备和存储介质
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111670435A (zh) * 2018-01-30 2020-09-15 甲骨文国际公司 使用交流话语树来检测对解释的请求
CN111931482A (zh) * 2020-09-22 2020-11-13 苏州思必驰信息科技有限公司 文本分段方法和装置
CN112613321A (zh) * 2020-12-17 2021-04-06 南京数动信息科技有限公司 一种抽取文本中实体属性信息的方法及系统
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508830A (zh) * 2011-11-28 2012-06-20 北京工商大学 从新闻文档中抽取社会网络的方法和系统
CN107305541B (zh) * 2016-04-20 2021-05-04 科大讯飞股份有限公司 语音识别文本分段方法及装置
CN109977372B (zh) * 2019-03-26 2023-06-27 苏州大学 中文篇章树的构建方法
CN110309306B (zh) * 2019-06-19 2022-08-26 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955959A (zh) * 2016-05-06 2016-09-21 深圳大学 一种情感分类方法及系统
CN107562760A (zh) * 2016-06-30 2018-01-09 科大讯飞股份有限公司 一种语音数据处理方法及装置
CN111670435A (zh) * 2018-01-30 2020-09-15 甲骨文国际公司 使用交流话语树来检测对解释的请求
CN110399484A (zh) * 2019-06-25 2019-11-01 平安科技(深圳)有限公司 长文本的情感分析方法、装置、计算机设备和存储介质
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111931482A (zh) * 2020-09-22 2020-11-13 苏州思必驰信息科技有限公司 文本分段方法和装置
CN112613321A (zh) * 2020-12-17 2021-04-06 南京数动信息科技有限公司 一种抽取文本中实体属性信息的方法及系统
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《面向网络信息资源聚合搜索的细粒度聚合单元元数据研究》;曹树金等;《中国图书馆学报》;20170619;全文 *

Also Published As

Publication number Publication date
CN113076720A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN107315737B (zh) 一种语义逻辑处理方法及系统
CN110852087A (zh) 中文纠错方法和装置、存储介质及电子装置
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN110717325B (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN114580382A (zh) 文本纠错方法以及装置
CN113961685A (zh) 信息抽取方法及装置
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN111950287A (zh) 一种基于文本的实体识别方法及相关装置
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
CN111177375A (zh) 一种电子文档分类方法及装置
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
CN113553847A (zh) 用于对地址文本进行解析的方法、装置、系统和存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN113470617B (zh) 语音识别方法以及电子设备、存储装置
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN114298048A (zh) 命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant