CN109753647B - 段落的划分方法及装置 - Google Patents

段落的划分方法及装置 Download PDF

Info

Publication number
CN109753647B
CN109753647B CN201711082718.XA CN201711082718A CN109753647B CN 109753647 B CN109753647 B CN 109753647B CN 201711082718 A CN201711082718 A CN 201711082718A CN 109753647 B CN109753647 B CN 109753647B
Authority
CN
China
Prior art keywords
paragraph
probability
vector
group
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711082718.XA
Other languages
English (en)
Other versions
CN109753647A (zh
Inventor
姜珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201711082718.XA priority Critical patent/CN109753647B/zh
Publication of CN109753647A publication Critical patent/CN109753647A/zh
Application granted granted Critical
Publication of CN109753647B publication Critical patent/CN109753647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种段落的划分方法及装置,涉及信息处理技术领域,主要目的在于提高段落划分的正确性、健壮性及鲁棒性,本发明的主要技术方案包括:对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。

Description

段落的划分方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种段落的划分方法及装置。
背景技术
随着信息处理技术的发展,人们对信息的需求越来越高,例如,对裁判文书中段落的划分。
目前,对裁判文书常用的段落划分方法为通过枚举方式,即枚举每个段落中可能出现的预设关键字,当裁判文书中的自然段落中匹配到预设关键字后,将该自然段划分到某个段落中,实现段落的划分。发明人在实现上述发明过程中,发现现有技术中通过枚举的方式执行段落划分时,会存在枚举不全面的问题,导致段落划分的准确率较低,此外,当裁判文书或者预设关键字出错时,不会智能对错别字进行识别,使划分段落的健壮性、鲁棒性降低。
发明内容
有鉴于此,本发明提供的一种段落的划分方法及装置,主要目的在于提高段落划分的正确性、健壮性及鲁棒性。
为了解决上述问题,本发明主要提供如下技术方案:
第一方面,本发明提供了一种段落的划分方法,包括:
对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;
根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;
将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;
利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
可选的,所述方法还包括:
获取样本文章中进行段落分组的标记,确定每个段落分组中的信息要素;
对所述信息要素进行训练学习,得到训练函数,形成段落分组模型。
可选的,对待划分文章进行向量化处理得到段落向量包括:
将所述待划分文章中每个自然段的字符使用数字表示,每个字符对应一个数字;
根据信息增益对所述数字进行计算得到预设数量的维度;
按照维度的信息熵大小进行排名,获取排名前N的维度,得到所述段落向量;其中,所述排名前N的维度作为段落向量的信息要素,记录于所述数组中。
可选的,根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率包括:
获取所述段落分组模型中的训练函数;其中,所述段落分组模型中的每个段落分组对应一个训练函数;
利用逻辑回归算法或者支持向量机,对所述段落向量进行回归;
计算每个段落向量属于所述每个段落分组对应的训练函数的概率。
可选的,将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数包括:
对隐马尔科夫模型中的初始状态概率矩阵进行初始化;
将每个段落向量以及对应的概率作为可见观测序列,记录于观测状态转移概率矩阵中;
计算每个自然段进行自转或者向后转的转移概率,将所述转移概率记录于隐含状态转移概率矩阵。
可选的,利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率包括:
在所述隐含状态转移概率矩阵中计算转移可能的最大概率;
根据所述最大概率通过回溯的方式确定最优路径,完成所述待划分文章的段落划分。
第二方面,本发明提供一种段落划分的装置,包括:
处理单元,用于对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;
第一确定单元,用于根据预先学习的段落分组模型,确定所述处理单元得到的每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;
输入单元,用于将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;
解码单元,用于利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
可选的,所述装置还包括:
标记单元,用于获取样本文章中进行段落分组的标记;
第二确定单元,用于确定每个段落分组中的信息要素;
训练单元,用于对所述信息要素进行训练学习,得到训练函数,形成段落分组模型。
可选的,所述处理单元包括:
处理模块,用于将所述待划分文章中每个自然段的字符使用数字表示,每个字符对应一个数字;
计算模块,用于根据信息增益对所述数字进行计算得到预设数量的维度;
排名模块,用于按照维度的信息熵大小进行排名;
获取模块,用于获取排名前N的维度,得到所述段落向量;其中,所述排名前N的维度作为段落向量的信息要素,记录于所述数组中。
可选的,第一确定单元,包括:
获取模块,用于获取所述段落分组模型中的训练函数;其中,所述段落分组模型中的每个段落分组对应一个训练函数;
回归模块,用于利用逻辑回归算法或者支持向量机,对所述段落向量进行回归;
计算模块,用于计算每个段落向量属于所述每个段落分组对应的训练函数的概率。
可选的,所述输入单元包括:
初始化模块,用于对隐马尔科夫模型中的初始状态概率矩阵进行初始化;
处理模块,用于将每个段落向量以及对应的概率作为可见观测序列,记录于观测状态转移概率矩阵中;
计算模块,用于计算每个自然段进行自转或者向后转的转移概率,得到隐含状态转移概率矩阵。
可选的,所述解码单元包括:
计算模块,用于在所述隐含状态转移概率矩阵中计算转移可能的最大概率;
确定模块,用于根据所述最大概率通过回溯的方式确定最优路径,完成所述待划分文章的段落划分。
第三方面,本发明提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面中任意一项所述的段落划分的方法。
第四方面,本发明提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述第一方面中任意一项所述的段落划分的方法。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
本发明提供的段落的划分方法及装置,对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分;与现有技术中通过枚举关键字的方式相比,本发明通过向量化处理的方式提取自然段落的所有特征,通过段落分组模型,根据各个特征可以拟合每个段落分组的概率,通过隐马尔科夫模型每个段落分组对应的概率进行约束以及修正,使用预设解码算法策略减少了计算的复杂度,进而提高了段落划分的正确性、健壮性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种段落的划分方法的流程图;
图2示出了本发明实施例提供的一种段落向量拟合的示意图;
图3示出了本发明实施例提供的一种观测状态概率矩阵B的示意图;
图4示出了本发明实施例提供的一种转移概率矩阵A的示意图;
图5示出了本发明实施例提供的一种利用预设解码算法对所述隐含参数进行解码的示意图;
图6示出了本发明实施例提供的一种段落分组模型的训练方法的流程图;
图7示出了本发明实施例提供的一种样本文件标记的示意图;
图8示出了本发明实施例提供一种段落划分的装置的组成框图;
图9示出了本发明实施例提供另一种段落划分的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种段落的划分方法,如图1所示,所述方法包括:
101、对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段。
获取一份电子版本的待划分文章,该待划分文章可以是任何类型的文章,本发明后续实施例会以裁判文书类型的待划分文章为例进行说明。
在具体执行划分段落过程中,全部使用机器自动化完成,由于机器侧无法识别汉字、字母等内容,因此,在获取到待划分文章后,需要将全部内容进行转换,执行转换的目的在于待划分文章的所有内容能够被机器识别。
虽然待划分文章都能够转化为二进制的数字表示,但是,对于一些汉字的组合而言,组合后的汉字存在一定意义,例如“北京”、“河北”等,北京、河北可能从数字(或者二进制)的表示上看不出两者的相似点,两者是否存在关联关系。因此,为了能够精确的确定出一个自然段落的内容,本发明实施例采用数组的形式进行表示一个自然段落。
以一个自然段落为例,在使用二进制表示每个字后,每个字的状态为独立的、打散的,为了查找一个自然段落中的信息,引入了信息熵的概念,信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下,随机变量的复杂度(不确定度),信息增益是:信息熵-条件熵。信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度,信息增益越大,说明该信息增益大的特征对识别一个自然段所述的段落分组的贡献越大。示例性的,如“的、与、和”等字可能在待划分文章的每个自然段中均会出现,该类汉字的信息增益较小,对段落划分的贡献就小,甚至可以忽略;如:“本院认为、判决”等字,可能是划分段落分组的关键,该类信息增益较大。其中,有关计算信息增益的方法请参考现有技术中的任一种,本发明实施例在此不再进行赘述。
通过计算信息增益的方式,对每个自然段落进行分析归纳,得到例如1000维度的向量,每一维度作为数组中的一个信息要素。该些信息要素记录于数组中,用于表示一个自然段,该过程为向量化。在执行划分段落过程中,起决定性作用的:向量化处理后得到的段落向量的维度数量,在一定程度上大于或者等于一个自然段落本身的所有有效内容的维度数量,示例性的,对于一个自然段中的个别词汇,如“的、举例、其中”等等,对于一个自然段落本身的内容没有实际贡献。
示例性的,假设,待划分文章共包含X(X大于10)个自然段落,分别为x1,x2,x3,x4…向量化后得到的段落向量为x1=[信息要素1-1,信息要素1-2,信息要素1-3…信息要素1-1000],x2=[信息要素2-1,信息要素2-2,信息要素2-3…信息要素2-1000],…,其中,x1为第一自然段落的段落向量,x2为第二自然段落的段落向量,后面依此类推。
102、根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段。
所述段落分组模型为根据人为标注分段后,学习得到,段落分组模型中包含有针对多种文章类型的段落分组,确定一种类型的文章后(如裁判文书类),将所有段落向量输入到段落划分模型中,段落分组模型的原理是采用回归的方式确定每个自然段落属于既定段落分组的概率。
在段落分组模型中通过学习得到每个段落分组对应的规律,该规律可以用函数去表示,段落向量输入到段落分组模型后,每个段落向量作为离散的点,去拟合一个函数,将拟合后的函数与段落分组对应的函数进行比对,可根据两个函数之间相似度高低,确定段落分组的划分。
示例性的,如图2所示,图2示出了本发明实施例提供的一种段落向量拟合的示意图,其中x1为第一自然段对应的段落向量,F1为段落分组1,F2为段落分组2,待划分文章中所有自然段落对应的段落向量会在段落分组模型中执行回归运算,得到段落向量x1分别属于F1、F2、F3…的概率,由图中可以看出:P(F1|x1)>P(F2|x1),即段落向量x1属于第一段落分组的概率大于段落向量x1属于第二段落分组的概率,表示第一自然段可能会属于第一段落分组。图2中分散的点代表待划分文章的自然段落数量,F1、F2是由归属于段落分组F1、F2的所有段落的向量点拟合得到的曲线,但是,必须强调的是,图2仅为示例性的举例,并不是代表对自然段落数量以及段落分组的数量进行限定。
在实际应用中,确定每个段落向量属于所述段落分组模型中每个段落分组的概率时,可以通过基础的逻辑回归算法计算每个段落向量属于每个段落分组的概率,也可以通过支持向量机(Support Vector Machine,SVM)计算每个段落向量属于每个段落分组的概率。上述图2中,是通过基础的逻辑回归算法计算得到的结果,但是,本发明实施例并不会对计算方法进行限定。
103、将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数。
隐马尔可夫模型(Hidden Markov Model,HMM)中包含有初始状态概率矩阵π、转移概率矩阵A、观测状态概率矩阵B,其中,初始状态概率矩阵π可以人为设定,设定待划分文章(如裁判文书)中可能执行段落分组开始的段落向量(自然段落),如可以设定从第一段落向量为段落分组的起始点,也可以设置第二段落向量为段落分组的起始点,示例性的,当设定第一段落向量为段落分组的起始点时,可设定P(F1|x1)=0.9,P(F2|x1)=0.1,P(F3|x1)=0,具体的,本发明实施例不作限定。
观测状态概率矩阵B中,根据步骤102中确定的每个段落向量属于所述段落分组模型中每个段落分组的概率得到,观测状态概率矩阵B中记录的是观察序列,人为可看到。如图3所示,图3示出了本发明实施例提供的一种观测状态概率矩阵B的示意图,根据步骤102的计算结果,将待划分文章中所有段落向量属于段落分组F1的概率记录于观测状态概率矩阵B中,如第一段落向量属于F1的概率为P(F1|x1),第二段落向量属于F1的概率为P(F1|x2),依次将各个段落向量属于段落分组的所有概率都进行记录,得到图3所示内容。图3仅为便于理解给出的示例性说明,使用表格的形式进行说明,在实际应用过程中,对段落向量与段落分组之间的记录方式不做限定,也可以使用矩阵存储的方式等等。
转移概率矩阵A可以人为的对业务逻辑进行归纳,本发明实施例中,段落分组是顺序固定的,但是会缺少某些段落向量,所以每个段落分组都是可以自转和向后面的段落分组进行转移。示例性的,如图4所示,图4示出了本发明实施例提供的一种转移概率矩阵A的示意图,假设,段落分组为3组,在本发明实施例中,一个分组可执行自转和向后转,F1可执行自转,即F1→F1,概率为0.4,F1可向后转,分别转向F2以及F3,F1→F2的概率为0.4,F1→F3的概率为02,;F2不可转向F1,只能自转或者向后转,自转即F2→F2,对应的概率为0.5,还可执行向后转,F2→F3,对应的概率为0.5;F3不可向前转,即不能执行F3→F1,也不可执行F3→F2,只能执行自转F3→F3,概率为1。
需要说明的是,图4所示的转移概率矩阵A中仅包含3个段落分组,但是,在实际应用中,可能会将待划分文章划分为十几个、甚至二十几个段落分组,不管段落分组的数量是多少,各个段落分组的自转概率和向后转概率的总和为1,例如,图4中,F1→F1的概率为0.4,F1→F2的概率为0.4,F1→F3的概率为0.2,0.4+0.4+0.2=1。
分别得到初始状态概率矩阵π(附图中未示出)、转移概率矩阵A、观测状态概率矩阵B后,计算得到隐含参数,该隐含参数可能代表段落向量属于某个段落分组,但是计算得到的隐含参数也不能直接最终确定划分的段落分组,还需要与步骤104进行结合。
104、利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
呈由上述示例,如图5所示,假设,初始状态概率矩阵π中,第一段落向量x1属于段落分组F1的概率是π1=0.8,第一段落向量x1属于段落分组F2的概率是π2=0.2。
请同时参考图3和图4,在计算第一段落向量属于段落向量F1的最终概率P1时,计算P1时,结合初始状态概率矩阵π(附图中未示出)、转移概率矩阵A、观测状态概率矩阵B,P1=π1*P(F1|x1),其中,π1为初始状态概率矩阵中第一段落向量x1属于段落分组F1的概率,P(F1|x1)为观测状态概率矩阵中第一段落向量x1属于段落分组F1的概率(图3所示)。
继续计算P2,P2为第一段落向量属于段落分组F2的概率,其计算方法类似,不同点在于,第一段落向量x1属于段落分组F2的概率是π2=0.2,观测状态概率矩阵B中可能与P(F1|x1)也存在差异,本发明实施例在此不再对P2的计算过程进行详细说明。
P3为第二段落向量属于段落分组F1的概率,其可能来源为F1的自转,因此,P3=0.4*P1*P(F1|x2),其中,0.4为转移概率矩阵中F1→F1(F1自转)的概率(如图2所示),P1为第一段落向量属于段落向量F1的最终概率,P(F1|x2)为观测状态概率矩阵中第二段落向量x2属于段落分组F1的概率(图3所示)。
P4为第二段落向量属于段落分组F2的概率,其可能来源包括F1的向后转F1→F2,以及F2自转F2→F2,因此,在计算P4时,要进行分别计算,分别计算后,从两个P4中,确定一个概率最大的值,作为最终的P4。
当F1→F2时,P4-1=0.4*P1*P(F1|x2),0.4为F1→F2的概率(如图4所示),P(F2|x2)为观测状态概率矩阵中第二段落向量x2属于段落分组F2的概率(图3所示)。
当F2→F2时,P4-2=0.5*P1*P(F1|x2),0.5为F1→F2的概率(如图4所示),P(F2|x2)为观测状态概率矩阵中第二段落向量x2属于段落分组F2的概率(图3所示)。
比较P4-1与P4-2的数值大小,并将数值相对较大的概率作为第二段落向量属于段落分组F2的最终概率。
最后利用HMM模型的viterbi解码算法进行段落分组的结果区分。viterbi算法本质是一个动态规划的算法,在矩阵中确定了每个状态的最优转移可能,并通过回溯确定路径来解码状态。在确定最终的分段结果时,查看一个段落向量分别对应段落分组的概率的最大值,示例性的,假设,x1对应的F1、F2以及F3的概率分别为0.8、0.3、0,可以确定x1属于F1的概率最大,可以确定x1属于F1的段落分组。X2对应的F1、F2以及F3的概率分别为0.1、0.8、0.3,可以确定x2属于F2的概率最大,可以确定x2属于段落分组F2…直到确定完所有的段落向量分别在F1、F2以及F3的最概率,形成一个最优路径,并根据最优路径对待划分文章进行段落划分。
本发明实施例提供的段落的划分方法,对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分;与现有技术中通过枚举关键字的方式相比,本发明实施例通过向量化处理的方式提取自然段落的所有特征,通过段落分组模型,根据各个特征可以拟合每个段落分组的概率,通过隐马尔科夫模型每个段落分组对应的概率进行约束以及修正,使用预设解码算法策略减少了计算的复杂度,进而提高了段落划分的正确性、健壮性。
进一步的,作为对上述实施例的细化和扩展,在执行图1所示方法之前,对已知样本进行训练,得到段落分组模型,以辅助完成图1所述方法的实现。如图6所示,图6示出了本发明实施例提供的一种段落分组模型的训练方法的流程图,所述方法包括:
201、获取样本文章中进行段落分组的标记,确定每个段落分组中的信息要素。
本发明实施例所述的样本文章可以为任意类型的文章,在进行学习、训练之前,需要人为干预,首先人工对样本文章进行标注,标注好样本文章中段落分组后,对各个段落分组进行标记,人工标记时可以使用颜色进行标记、文字进行标记、数字进行标记等等。示例性的,如图7所示,图7示出了本发明实施例提供的一种样本文件标记的示意图;人工对N个样本文章进行标记后(N为大于2的正整数),对标记后的样本文章进行学习,首先,获取样本文章中进行段落分组的标记(如图7所示的标记),分别对标记后的样本文章进行学习,得到每个段落分组中的信息要素。
信息要素是对段落分组划分有贡献的词汇,例如:原告、被告、受理、陈述、宣判、法院等词汇,像一些动词、连词等可能在每个段落分组中都会出现,这类词语对段落分组的划分没有实际意义,例如:的、与、之、和等词汇。
202、对所述信息要素进行训练学习,得到训练函数,形成段落分组模型。
在步骤201中得到信息要素后,对每个段落分组中的信息要素进行学习,为了训练得到更准确的段落分组,通过不断的学习过程得到段落分组模型,而并非只是通过一次两次的训练就得出。
步骤201得到的信息要素就是出现在样本文章中的具体文字,本步骤中,通过对步骤201得到的信息要素进行学习,对信息要素进行抽象。例如,在某一段落分组中会多次出现不同的人名,其对应的信息要素不是具体的人名,而是将“姓名”作为一个信息要素;再者,某一段落分段中,会出现本院认为、或者本院宣判等,XX人赔偿**元于XX人等,其对应的信息要素并不在意具体的赔偿金额,而是“本院认为、本院宣判”等等。再者,段落分组中会出现不同的地名,如北京、上海等,在训练学习时,将信息要素确定为地点或者地名,或者城市。具体的本发明实施例对信息要素的具体内容不做限定。
在对各个段落分组的信息要素训练学习完毕后,将各个信息要素进行拟合、回归,得到能够拟合一个段落分组中所有信息要素的训练函数,,该训练函数可以为线性函数、指数函数等等,形成段落分组模型。在拟合、回归时,可以使用基础的逻辑回归方法或者SVM,本发明实施例对此不做限定。
进一步的,以下实施例中,分别对图1所示方法中的各个步骤进行细化:
在执行步骤101对待划分文章进行向量化处理得到段落向量时,可以包含但不局限于以下方式,例如:将所述待划分文章中每个自然段的字符使用数字表示,每个字符对应一个数字;例如,可以先将待划分文章的全部内容转换为0-10万的数字,再使用二进制的方式表示每个字代表的具体数字,在将全部内容转换为数字表示的时候,需要注意,一个汉字/字母都对应一个数字。
用数字表示的字符均作为独立的离散的点,可通过信息增益的方式对所述数字进行计算得到预设数量的维度;在具体实施过程中,信息增益方式中,可计算得到30万个维度,本发明实施例中,按照维度的信息熵大小进行排名,从30万维度中获取排名前N的维度(例如,排名前1000的维度),得到所述段落向量;其中,所述排名前N的维度作为段落向量的信息要素,记录于所述数组中,其中,得到1000维信息要素的过程称为向量化处理。
需要说明的是,对每个自然段落执行向量化处理后得到的1000维信息要素的内容,其大于或者至少等于一个自然段落本身的代表含义。
在步骤102执行根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率时,具体包括:获取所述段落分组模型中的训练函数;由上述图6所示的方法可知所述段落分组模型中的每个段落分组对应一个训练函数,利用逻辑回归算法或者支持向量机,对所述段落向量进行回归;将回归的结果与获取的训练函数进行比对,与训练函数相似度较高的,代表哪个段落向量属于与训练函数代表的段落分组。计算每个段落向量属于所述每个段落分组对应的训练函数的概率。
在执行将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数,并利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率时,具体过程包括:对隐马尔科夫模型中的初始状态概率矩阵进行初始化;将每个段落向量以及对应的概率作为可见观测序列,记录于观测状态转移概率矩阵中;将所述段落分组固定,计算每个自然段进行自转或者向后转的转移概率,得到隐含状态转移概率矩阵。在所述隐含状态转移概率矩阵中计算转移可能的最大概率;根据所述最大概率通过回溯的方式确定最优路径,完成所述待划分文章的段落划分。具体实现过程,请参与图3至图5的详细内容描述,本发明实施例在此不再进行赘述。
进一步的,作为对上述方法的实现,本发明另一实施例还提供了一种段落划分的装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供一种段落划分的装置,如图8所示,包括:
处理单元31,用于对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;
第一确定单元32,用于根据预先学习的段落分组模型,确定所述处理单元得到的每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;
输入单元33,用于将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;
解码单元34,用于利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
进一步的,如图9所示,所述装置还包括:
标记单元35,用于获取样本文章中进行段落分组的标记;
第二确定单元36,用于确定每个段落分组中的信息要素;
训练单元37,用于对所述信息要素进行训练学习,得到训练函数,形成段落分组模型。
进一步的,如图9所示,所述处理单元31包括:
处理模块311,用于将所述待划分文章中每个自然段的字符使用数字表示,每个字符对应一个数字;
计算模块312,用于根据信息增益对所述数字进行计算得到预设数量的维度;
排名模块313,用于按照维度的信息熵大小进行排名;
获取模块314,用于获取排名前N的维度,得到所述段落向量;其中,所述排名前N的维度作为段落向量的信息要素,记录于所述数组中。
进一步的,如图9所示,第一确定单元32,包括:
获取模块321,用于获取所述段落分组模型中的训练函数;其中,所述段落分组模型中的每个段落分组对应一个训练函数;
回归模块322,用于利用逻辑回归算法或者支持向量机,对所述段落向量进行回归;
计算模块323,用于计算每个段落向量属于所述每个段落分组对应的训练函数的概率。
进一步的,如图9所示,所述输入单元33包括:
初始化模块331,用于对隐马尔科夫模型中的初始状态概率矩阵进行初始化;
处理模块332,用于将每个段落向量以及对应的概率作为可见观测序列,记录于观测状态转移概率矩阵中;
计算模块333,用于计算每个自然段进行自转或者向后转的转移概率,将所述转移概率记录于隐含状态转移概率矩阵。
进一步的,如图9所示,所述解码单元34包括:
计算模块341,用于在所述隐含状态转移概率矩阵中计算转移可能的最大概率;
确定模块342,用于根据所述最大概率通过回溯的方式确定最优路径,完成所述待划分文章的段落划分。
本发明实施例提供的段落的划分装置,对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分;与现有技术中通过枚举关键字的方式相比,本发明实施例通过向量化处理的方式提取自然段落的所有特征,通过段落分组模型,根据各个特征可以拟合每个段落分组的概率,通过隐马尔科夫模型每个段落分组对应的概率进行约束以及修正,使用预设解码算法策略减少了计算的复杂度,进而提高了段落划分的正确性、健壮性。
所述段落划分的装置包括处理器和存储器,上述处理单元、第一确定单元、输入单元和解码单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高段落划分的正确性、健壮性及鲁棒性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述段落的划分方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述段落的划分方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;
根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;
将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;
利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
可选的,所述方法还包括:
获取样本文章中进行段落分组的标记,确定每个段落分组中的信息要素;
对所述信息要素进行训练学习,得到训练函数,形成段落分组模型。
可选的,对待划分文章进行向量化处理得到段落向量包括:
将所述待划分文章中每个自然段的字符使用数字表示,每个字符对应一个数字;
根据信息增益对所述数字进行计算得到预设数量的维度;
按照维度的信息熵大小进行排名,获取排名前N的维度,得到所述段落向量;其中,所述排名前N的维度作为段落向量的信息要素,记录于所述数组中。
可选的,根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率包括:
获取所述段落分组模型中的训练函数;其中,所述段落分组模型中的每个段落分组对应一个训练函数;
利用逻辑回归算法或者支持向量机,对所述段落向量进行回归;
计算每个段落向量属于所述每个段落分组对应的训练函数的概率。
可选的,将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数包括:
对隐马尔科夫模型中的初始状态概率矩阵进行初始化;
将每个段落向量以及对应的概率作为可见观测序列,记录于观测状态转移概率矩阵中;
计算每个自然段进行自转或者向后转的转移概率,将所述转移概率记录于隐含状态转移概率矩阵。
可选的,利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率包括:
在所述隐含状态转移概率矩阵中计算转移可能的最大概率;
根据所述最大概率通过回溯的方式确定最优路径,完成所述待划分文章的段落划分。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;
根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;
将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;
利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种段落的划分方法,其特征在于,包括:
对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;
根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段,所述段落分组模型是基于逻辑回归算法或支持向量机的段落分组模型;
将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;
利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分;
将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数包括:
对隐马尔科夫模型中的初始状态概率矩阵进行初始化;
将每个段落向量以及对应的概率作为可见观测序列,记录于观测状态转移概率矩阵中;
计算每个自然段进行自转或者向后转的转移概率,将所述转移概率记录于所述隐含参数;
利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率包括:
在所述隐含参数中计算转移可能的最大概率;
根据所述最大概率通过回溯的方式确定最优路径,完成所述待划分文章的段落划分。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本文章中进行段落分组的标记,确定每个段落分组中的信息要素;
对所述信息要素进行训练学习,得到训练函数,形成段落分组模型。
3.根据权利要求2所述的方法,其特征在于,对待划分文章进行向量化处理得到段落向量包括:
将所述待划分文章中每个自然段的字符使用数字表示,每个字符对应一个数字;
根据信息增益对所述数字进行计算得到预设数量的维度;
按照维度的信息熵大小进行排名,获取排名前N的维度,得到所述段落向量;其中,所述排名前N的维度作为段落向量的信息要素,记录于所述数组中。
4.根据权利要求3所述的方法,其特征在于,根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率包括:
获取所述段落分组模型中的训练函数;其中,所述段落分组模型中的每个段落分组对应一个训练函数;
利用逻辑回归算法或者支持向量机,对所述段落向量进行回归;
计算每个段落向量属于所述每个段落分组对应的训练函数的概率。
5.一种段落划分的装置,其特征在于,包括:
处理单元,用于对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;
第一确定单元,用于根据预先学习的段落分组模型,确定所述处理单元得到的每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段,所述段落分组模型是基于逻辑回归算法或支持向量机的段落分组模型;
输入单元,用于将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;
解码单元,用于利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分;
所述输入单元包括:
初始化模块,用于对隐马尔科夫模型中的初始状态概率矩阵进行初始化;
处理模块,用于将每个段落向量以及对应的概率作为可见观测序列,记录于观测状态转移概率矩阵中;
计算模块,用于计算每个自然段进行自转或者向后转的转移概率,将所述转移概率记录于所述隐含参数;
所述解码单元包括:
计算模块,用于在所述隐含参数中计算转移可能的最大概率;
确定模块,用于根据所述最大概率通过回溯的方式确定最优路径,完成所述待划分文章的段落划分。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
标记单元,用于获取样本文章中进行段落分组的标记;
第二确定单元,用于确定每个段落分组中的信息要素;
训练单元,用于对所述信息要素进行训练学习,得到训练函数,形成段落分组模型。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的段落划分的方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求4中任意一项所述的段落划分的方法。
CN201711082718.XA 2017-11-07 2017-11-07 段落的划分方法及装置 Active CN109753647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711082718.XA CN109753647B (zh) 2017-11-07 2017-11-07 段落的划分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711082718.XA CN109753647B (zh) 2017-11-07 2017-11-07 段落的划分方法及装置

Publications (2)

Publication Number Publication Date
CN109753647A CN109753647A (zh) 2019-05-14
CN109753647B true CN109753647B (zh) 2022-11-04

Family

ID=66399939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711082718.XA Active CN109753647B (zh) 2017-11-07 2017-11-07 段落的划分方法及装置

Country Status (1)

Country Link
CN (1) CN109753647B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674635B (zh) * 2019-09-27 2023-04-25 北京妙笔智能科技有限公司 一种用于文本段落划分的方法和装置
CN110765889B (zh) * 2019-09-29 2024-06-25 平安直通咨询有限公司上海分公司 法律文书的特征提取方法、相关装置及存储介质
CN113297824A (zh) * 2021-05-11 2021-08-24 北京字跳网络技术有限公司 文本显示方法、装置、电子设备和存储介质
CN113268581B (zh) * 2021-07-20 2021-10-08 北京世纪好未来教育科技有限公司 题目生成方法和装置
CN115687629B (zh) * 2023-01-03 2023-04-04 深圳竹云科技股份有限公司 文本生成方法、装置、计算机设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN105912570A (zh) * 2016-03-29 2016-08-31 北京工业大学 基于隐马尔可夫模型的英文简历关键字段抽取方法
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9460386B2 (en) * 2015-02-05 2016-10-04 International Business Machines Corporation Passage justification scoring for question answering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN105912570A (zh) * 2016-03-29 2016-08-31 北京工业大学 基于隐马尔可夫模型的英文简历关键字段抽取方法
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CRF的百科全书文本段落划分;许勇等;《计算机工程》;20070520(第10期);全文 *

Also Published As

Publication number Publication date
CN109753647A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109753647B (zh) 段落的划分方法及装置
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN110705214B (zh) 一种自动编码方法及装置
US11860684B2 (en) Few-shot named-entity recognition
CN117235226A (zh) 一种基于大语言模型的问题应答方法及装置
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN113221555B (zh) 一种基于多任务模型的关键词识别方法、装置及设备
CN112308113A (zh) 一种基于半监督的目标识别方法、设备及介质
CN113806500B (zh) 信息处理方法、装置和计算机设备
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
CN111222336A (zh) 一种识别未知实体的方法及装置
CN112328655B (zh) 文本标签挖掘方法、装置、设备及存储介质
CN109697292A (zh) 一种机器翻译方法、装置、电子设备和介质
CN109597982B (zh) 摘要文本识别方法及装置
CN110709855A (zh) 用于密集视频描述的技术
CN113435499A (zh) 标签分类方法、装置、电子设备和存储介质
CN111738009B (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
CN111652286A (zh) 一种基于图嵌入的物体识别方法、设备及介质
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN114860905A (zh) 意图识别方法、装置及设备
CN110968702B (zh) 一种事理关系提取方法及装置
CN117541853A (zh) 一种基于类别解耦的分类知识蒸馏模型训练方法和装置
CN107577658B (zh) 词向量处理方法、装置以及电子设备
CN114595329A (zh) 一种原型网络的少样本事件抽取系统及方法
CN113779999A (zh) 命名实体识别方法和命名实体识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant