CN113312897A - 一种文本总结方法、电子设备及存储介质 - Google Patents
一种文本总结方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113312897A CN113312897A CN202110686988.1A CN202110686988A CN113312897A CN 113312897 A CN113312897 A CN 113312897A CN 202110686988 A CN202110686988 A CN 202110686988A CN 113312897 A CN113312897 A CN 113312897A
- Authority
- CN
- China
- Prior art keywords
- sampling
- vector
- text
- determinant
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本总结方法、电子设备及存储介质,所述方法包括:获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息;对所述特征信息和所述相似程度信息进行编码,得到核矩阵;对所述核矩阵进行若干次行列式采样,得到采样结果:对所述采样结果进行统计计算,得到最概然结果,与所述最概然结果对应的句子为所述文本的总结结果。本发明能够降低行列式采样到计算复杂度,可以显著提高基于行列式采样的机器学习的运算效率。
Description
技术领域
本发明涉及文本总结方法领域,特别涉及一种文本总结方法、电子设备及存储介质。
背景技术
行列式采样在量子化学计算和机器学习等任务中有重要应用。因其中涉及到的基本的泡利不相容原理,行列式采样生成的数据样本有天然的多样性,这一点对机器学习中的文本总结和推荐系统等任务都具有重要意义。但是,此前行列式采样的算法的计算效率不高,计算复杂度限制了相关应用的推广。尤其在文本的语义总结中,传统的行列式采样算法的低效性极大的限制了能够进行总结的文本的长度。
目前的行列式采样算法有两种,一种是科学计算中经常采用的马尔可夫链的方法,一种是机器学习任务中通常采用的determinantal-point-process(DPP)的算法。这些方法应用于自动化文本总结,均存在比较显著的问题。
具体的,马尔可夫链的算法应用于文本总结存在显著的任务依赖的问题,采样中的自关联问题会导致算法可能在某些文本总结的任务上失效,并且这种失效不可预判;而DPP算法在长文本总结的问题应用中,需要耗费大量的计算时间进行机器学习训练,而且随着文本长度的增加呈高阶的多项式增长。这就导致了行列式采样的模型在文本总结的机器学习应用中存在显著的局限性。
发明内容
本发明的目的在于提供一种文本总结方法、电子设备及存储介质,以解决目前的行列式采样的模型在文本总结的机器学习应用中存在显著的局限性的问题。
为了解决以上问题,本发明通过以下技术方案实现:
一种文本总结方法,包括:
步骤S1、获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息;
步骤S2、对所述特征信息和所述相似程度信息进行编码,得到核矩阵;
步骤S3、对所述核矩阵进行若干次行列式采样,得到采样结果;
步骤S4、对所述采样结果进行统计计算,得到最概然结果,与所述最概然结果对应的句子为所述文本的总结结果。
可选地,所述特征信息包括文本中每个句子的长度特征和位置特征。
可选地,所述特征信息中的每一特征对应一可调参数。
可选地,所述步骤S3包括:
所述核矩阵为L×N矩阵U,且满足UTU=I,I为单位矩阵;
对所述L×N矩阵U进行行列式抽样处理,抽样一次得到的样本为N维向量要求每个样本xi∈[1,L],且N维向量服从概率分布其中向量其中,表示抽样一次得到向量的概率;表示矩阵U中行指标为列指标为的部分所构成的子矩阵的行列式的值。
式中,x1,x2,...,xk-1已在前k-1步得到,表示已生成x1,x2,...,xk-1和向量后,在第k步采样得到xk的概率;表示矩阵U中行指标为x1,x2,x3,...,xk,列指标为d1,d2,...,dk的部分所构成的子矩阵的行列式的值。
步骤S3.4、重复步骤S3.1~步骤S3.3;直至得到的目标向量的数量达到预设要求。
可选地,所述步骤S3.2包括:
优选地,所述步骤S4包括:在所述步骤S3被重复执行M次后,得到一系列采样结果其中,i=1,2,...,M;将重复采样M次中出现频率最高的结果作为这个行列式采样过程的最概然结果。或者,采用贝叶斯最小风险的统计方法来推断,将M次采样结果中与其他采样结果相关度最高的一个采样结果当作这个行列式采样过程的最概然结果。
另一方面,本发明还提供一种电子设备,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上文所述的方法。
再一方面,本发明还提供一种可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上文所述的方法
本发明至少具有以下优点之一:
本发明提供的文本总结方法是基于行列式采样的文本总结机器学习任务,其主要想法是把从文本中挑选句子这一行为处理为随机过程,并用行列式采样过程来刻画,由行列式采样的多样性可知,由这一随机过程可以挑选出句子之间句义重复最小的一组句子,可作为对文本的一个精简的总结。本发明通过降低行列式采样算法整体的采样复杂度使得其采样复杂度达到O(N3)级别,由此可以显著提高基于行列式采样(Determinantal PointProcess)的机器学习的运算效率。数值计算表明在文本总结的机器学习任务中,获得较已知方法两倍的加速。
附图说明
图1为本发明一实施例提供的一种文本总结方法的流程示意图。
具体实施方式
以下结合附图1和具体实施方式对本发明提出的一种文本总结方法、电子设备及存储介质作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
一种文本总结方法,包括:步骤S1、获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息。
步骤S2、对所述特征信息和所述相似程度信息进行编码,得到核矩阵。
步骤S3、对所述核矩阵进行若干次行列式采样,得到采样结果。
步骤S4、对所述采样结果进行统计计算,得到最概然结果,与所述最概然结果对应的句子为所述文本的总结结果。
所述特征信息包括文本中每个句子的长度特征和位置特征。所述相似程度信息可以是文本中的两两句子之间的相似程度信息。
所述特征信息中的每一特征对应一可调参数。所述可调参数可以通过对训练集中文本总结的示例学习得到。这些可调参数的值反映了编码过程中对于所述特征信息中的哪些特征更为看重,从而影响之后得到的核矩阵,以及最后达到的文本总结的质量。我们这里采取对文本总结示例学习得到参数的方式更具灵活性,更贴切实际。
所述步骤S3包括:所述核矩阵为L×N矩阵U,且满足UTU=I,I为单位矩阵。对所述L×N矩阵U进行行列式抽样处理,抽样一次得到的样本为N维向量要求每个样本xi∈[1,L],且N维向量服从概率分布其中向量式中,表示抽样一次得到向量的概率;表示矩阵U中行指标为列指标为的部分所构成的子矩阵的行列式的值。
式中,x1,x2,...,xk-1已在前k-1步得到,表示已生成x1,x2,...,xk-1和向量后,在第k步采样得到xk的概率;表示矩阵U中行指标为x1,x2,x3,...,xk,列指标为d1,d2,...,dk的部分所构成的子矩阵的行列式的值,
步骤S3.4、重复步骤S3.1~步骤S3.3;直至得到的目标向量的数量达到预设要求。
所述步骤S3.2包括:
该(2)式由步骤S3.2的(1)式以及行列式的几何意义推出。其中,uk(xk)是一个由矩阵元构成的列向量,而wk是一个由线性方程组定义的单位向量,该线性方程组有k个未知数和k-1个方程,故在规定了单位模长后,这个方程组的解可唯一确定,即wk。我们可以通过高斯消元法或QR分解等方式求解wk,其中最为简单的方式是通过从k-1到k步迭代进行高斯消元的方式高效求解,这是因为在对矩阵和的高斯消元过程中,前k-2行的消元过程完全相同,因此可以通过迭代的方式利用起之前的计算结果,从而完成整个步骤S3.2中求所有wk的过程总共只需要的O(N3)计算复杂度。
所述步骤S4包括:在所述步骤S3被重复执行M次后,得到一系列采样结果其中,i=1,2,...,M。而对于这个行列式采样过程最概然结果的推断,我们可以将重复采样M次中出现频率最高的结果作为这个行列式采样过程的最概然结果,或是采用贝叶斯最小风险(minimum Bayes risk,MBR)的统计方法来推断,即将这M次采样结果中与其他结果相关度最高的一个采样结果当作这个行列式采样过程的最概然结果。
另一方面,本发明还提供一种电子设备,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上文所述的方法。
再一方面,本发明还提供一种可读存储介质,所述可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上文所述的方法
综上所述,本实施例提供的文本总结方法是基于行列式采样的文本总结机器学习任务,其主要想法是把从文本中挑选句子这一行为处理为随机过程,并用行列式采样过程来刻画,由行列式采样的多样性可知,由这一随机过程可以挑选出句子之间句义重复最小的一组句子,可作为对文本的一个精简的总结。本发明通过降低行列式采样算法整体的采样复杂度使得其采样复杂度达到O(N3)级别,由此可以显著提高基于行列式采样(Determinantal Point Process)的机器学习的运算效率。数值计算表明在文本总结的机器学习任务中,获得较已知方法两倍的加速。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应当注意的是,在本文的实施方式中所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施方式仅仅是示意性的,例如,附图中的流程图和框图显示了根据本文的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用于执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本文各个实施方式中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (9)
1.一种文本总结方法,其特征在于,包括:
步骤S1、获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息;
步骤S2、对所述特征信息和所述相似程度信息进行编码,得到核矩阵;
步骤S3、对所述核矩阵进行若干次行列式采样,得到采样结果;
步骤S4、对所述采样结果进行统计计算,得到最概然结果,与所述最概然结果对应的句子为所述文本的总结结果。
2.如权利要求1所述的文本总结方法,其特征在于,所述特征信息包括文本中每个句子的长度特征和位置特征。
3.如权利要求2所述的文本总结方法,其特征在于,所述特征信息中的每一特征对应一可调参数。
式中,x1,x2,...,xk-1已在前k-1步得到,表示已生成x1,x2,...,xk-1和向量后,在第k步采样得到xk的概率;表示矩阵U中行指标为x1,x2,x3,...,xk,列指标为d1,d2,...,dk的部分所构成的子矩阵的行列式的值;
步骤S3.4、重复步骤S3.1~步骤S3.3;直至得到的目标向量的数量达到预设要求。
8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1至7中任一项所述的方法。
9.一种可读存储介质,其特征在于,所述可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110686988.1A CN113312897B (zh) | 2021-06-21 | 2021-06-21 | 一种文本总结方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110686988.1A CN113312897B (zh) | 2021-06-21 | 2021-06-21 | 一种文本总结方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312897A true CN113312897A (zh) | 2021-08-27 |
CN113312897B CN113312897B (zh) | 2022-09-30 |
Family
ID=77379715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110686988.1A Active CN113312897B (zh) | 2021-06-21 | 2021-06-21 | 一种文本总结方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312897B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209386A (zh) * | 2020-01-07 | 2020-05-29 | 重庆邮电大学 | 一种基于深度学习的个性化文本推荐方法 |
CN111737401A (zh) * | 2020-06-22 | 2020-10-02 | 首都师范大学 | 一种基于Seq2set2seq框架的关键词组预测方法 |
-
2021
- 2021-06-21 CN CN202110686988.1A patent/CN113312897B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209386A (zh) * | 2020-01-07 | 2020-05-29 | 重庆邮电大学 | 一种基于深度学习的个性化文本推荐方法 |
CN111737401A (zh) * | 2020-06-22 | 2020-10-02 | 首都师范大学 | 一种基于Seq2set2seq框架的关键词组预测方法 |
Non-Patent Citations (2)
Title |
---|
HUI YUAN,等: "The determinants of crowdfunding success: A semantic text analytics approach", 《DECISION SUPPORT SYSTEMS》 * |
徐民霖: "结合情感词典和神经网络的文本情感分析研究", 《中国硕士论文电子期刊》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113312897B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110023963B (zh) | 使用神经网络处理文本序列 | |
Tillmann | On the computational intractability of exact and approximate dictionary learning | |
JP2021501390A (ja) | テキスト意味論的コード化の方法および装置 | |
CN110851604B (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
US8630482B2 (en) | Feature conversion device, similar information search apparatus provided therewith, coding parameter generation method, and computer program | |
Rachkovskij | Formation of similarity-reflecting binary vectors with random binary projections | |
Pingel et al. | Stability transformation: a tool to solve nonlinear problems | |
Gripon et al. | A comparative study of sparse associative memories | |
Thapa et al. | Spamhd: Memory-efficient text spam detection using brain-inspired hyperdimensional computing | |
CN104699660A (zh) | 概述非线性回归问题中的结构化矩阵 | |
CN113312897B (zh) | 一种文本总结方法、电子设备及存储介质 | |
US9870199B2 (en) | Generating compact representations of high-dimensional data | |
US20190266482A1 (en) | Distance based deep learning | |
Ubaru et al. | Low rank approximation using error correcting coding matrices | |
Ryabko et al. | Information-theoretic method for classification of texts | |
CN116521899A (zh) | 一种基于改进的图神经网络的文档级关系抽取算法及系统 | |
US11954432B2 (en) | Symbol sequence generation apparatus, text compression apparatus, symbol sequence generation method and program | |
Kharin et al. | Statistical estimation of parameters for binary Markov chain models with embeddings | |
Ryabko et al. | Experimental investigation of forecasting methods based on data compression algorithms | |
QasemiZadeh et al. | Random indexing explained with high probability | |
CN114238564A (zh) | 一种信息检索方法、装置、电子设备及存储介质 | |
Kanerva | Hyperdimensional Computing: An Algebra for Computing with Vectors | |
CN109902169B (zh) | 基于电影字幕信息提升电影推荐系统性能的方法 | |
Grice et al. | A quantum algorithm for Viterbi decoding of classical convolutional codes | |
Coquelin et al. | Harnessing Orthogonality to Train Low-Rank Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |