CN107122350B - 一种多段落文本的特征抽取系统的方法 - Google Patents

一种多段落文本的特征抽取系统的方法 Download PDF

Info

Publication number
CN107122350B
CN107122350B CN201710287337.9A CN201710287337A CN107122350B CN 107122350 B CN107122350 B CN 107122350B CN 201710287337 A CN201710287337 A CN 201710287337A CN 107122350 B CN107122350 B CN 107122350B
Authority
CN
China
Prior art keywords
text
paragraph
vector
weight
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710287337.9A
Other languages
English (en)
Other versions
CN107122350A (zh
Inventor
许延祥
王飞剑
刘宗福
周东红
黄世祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Emcc Technology Co ltd
Original Assignee
Beijing Emcc Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Emcc Technology Co ltd filed Critical Beijing Emcc Technology Co ltd
Priority to CN201710287337.9A priority Critical patent/CN107122350B/zh
Publication of CN107122350A publication Critical patent/CN107122350A/zh
Application granted granted Critical
Publication of CN107122350B publication Critical patent/CN107122350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种多段落文本的特征抽取系统及方法,包括第一计算模块、主控模块、权重设置模块、文本处理模块、分词器和第二计算模块;所述第一计算模块、权重设置模块、文本处理模块、分词器和第二计算模块均与主控模块进行数据交互。本发明提供的技术方案通用、可行的来实现文本特征提取,并在文本特征提取过程中,能够体现文本中不同段落的权重差异。

Description

一种多段落文本的特征抽取系统的方法
技术领域
本发明涉及一种文本特征抽取技术,具体涉及一种多段落文本的特征抽取系统的方法。
背景技术
原始文档经过文本处理系统的预处理、分词、词频统计、TF-IDF计算及向量生成等步骤被存储在持久化存储体中,以备进一步的文本计算应用调用。
通过提取文本特征并转化为向量存储,满足了文本之间可以进行计算比较的目的,同时需要保证文本的主要语义在文本向量中得以保留。那么衡量文本特征提取好坏的关键就是:文本的语义是否能够较好的保留。现有技术在文本特征提取时存在着一个显著的缺点,就是把文本通篇内容对等待。但是,人们在组织文本内容时,是把文本作为一个完整篇章来对待的,通常是用标题来概括全篇的主题,隐含了文章的领域和范畴,在文本首段落明确全文的主要内容和核心思想,其它段落分别针对主题的某个方面进行阐述,通常每个段落的首句会表达全段的主题(但这点经常被打破)。一般最后一段会作为总结段落陈述结论或回顾中心思想(资讯或简单文章可能不遵循这点)。因而,对于各段落来讲,同样语句、用词及词频在不同的段落其语义权重(即表达文本语义的相对重要性)是不一样的。
总体来说,对于段落:标题权重>摘要(如果有)权重>首段落权重>尾段落权重>其它段落权重;对于段落内各语句:首句权重>其它句权重。而当前的文本特征提取技术并没有把这种行文过程中按段落组织语义的特点考虑进去。
发明内容
针对现有技术中的不足,本发明的目的是提供一种多段落文本的特征抽取系统的方法,本发明是实现一种通用、可行的方法来实现文本特征提取,并在文本特征提取过程中,能够体现文本中不同段落的权重差异。
本发明的目的是采用下述技术方案实现的:
本发明提供一种多段落文本的特征抽取系统,其改进之处在于,包括第一计算模块、主控模块、权重设置模块、文本处理模块、分词器和第二计算模块;所述第一计算模块、权重设置模块、文本处理模块、分词器和第二计算模块均与主控模块进行数据交互。
进一步地,还包括文本向量库,所述文本向量库用于存储所述主控模块传输的段落文本向量。
进一步地,所述第一计算模块用于计算段落文本中的方程组;所述第二计算模块用于信息检索与数据挖掘的常用加权的TF-IDF计算。
进一步地,所述权重设置模块用于对生成的方程组进行权重设置,所述文本处理模块用于对段落文本进行分段处理。
本发明还提供一种多段落文本的特征抽取系统的抽取方法,其改进之处在于,包括:
对任一文本T的段落进行标记;
对任一文本T设置期望相对权重向量;
采用权重设置模块和文本处理模块分别对上述的标记段落和期望相对权重向量进行特征抽取,得到段落不同权重的文本向量。
进一步地,所述对任一文本T的段落进行标记,包括:
对任一文T,由n个段落组成,第i个段落标记为Pi,则T=[P1,P2,…,Pn]。
进一步地,所述对任一文本T设置期望相对权重向量,包括:
对于任一文本T,存在一个期望相对权重向量weights=[w1,w2,…wn],其中,wi表示Pi的相对权重;wi用绝对数值或相对数值表示。
进一步地,所述对上述的标记段落和期望相对权重向量进行特征抽取,得到段落不同权重的文本向量,包括下述步骤:
1)对于T中的每个段落P,采用分词器和第二计算模块进行向量化处理,并将得到的段落文本向量存入n维向量数组,其中数组元素为段落Pi所对应的文本向量;
2)对于n维向量数组中的每个数组元素,文本处理模块生成段落Pi所对应的文本向量的权重和,并存入权重和数组;
3)基于权重和数组和期望相对权重向量weights,生成用于权重分配的齐次线性方程组,并为方程组添加调节系数;
4)采用第一计算模块解方程组,得出解为调节系数数组;
5)调节各段落文本向量:把调节系数与对应的文本向量相乘,得出调节后的段落文本向量;
6)合并段落文本向量:将n维向量数组中乘过调节系统的段落文本向量进行累加,得到最终的体现各段落不同权重的段落文本向量,将段落文本向量存储至文本向量库中。
进一步地,所述步骤2)中,文本向量的权重和计算方法为:将段落Pi所对应的文本向量中每个元素值相加,返回累加结果,文本向量的权重和存入权重和数组的相应位置。
进一步地,所述步骤3)中,齐次线性方程组以矩阵表示,最终返回一个二组数组;对每个段落增加一个调节系数,包括:调节系数ci满足等式(paragraphWeight[i]*ci)/(paragraphWeight[i]*ci)=weights[i];
其中:ci为段落Pi的调节系数;得到特定解时,在方程组中添加约束条件sum(ci)=1;paragraphWeight[]为权重和数组;weights[i]为期望相对权重向量;
优选的,所述步骤5)中,即对于n维向量数组中的每个数组元素,满足vectorArray[i][j]*coefficients[i],然后保存在原文本向量的原位置上。
其中:coefficients[i]为调节系数数组元素,vectorArray[i][j]为n维向量数组,i、j=1、2、3、......、n,i表示数组的行,j表示数组的列。
与最接近的现有技术相比,本发明提供的技术方案达到的有益效果是:
本发明实现一种通用、可行的方法来实现文本特征提取,并在文本特征提取过程中,能够体现文本中不同段落的权重差异,具体为:
1.精度和效率高:提取的文本向量能够更好地反应原文的语义特征,能够大幅度提高用户可感知的文本推荐精度,并且可以根据各类应用的需要随时调整各段落的相对权重。
2.成本低廉:可以方便地各种文本处理系统衔接,只需替换原有的文本向量生成部分即可。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现在技术的文本提取的主要结构和原理图;
图2是多段落文本的特征抽取系统的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
实施例一、
本发明提供一种多段落文本的特征抽取系统,其结构图如图2所示,包括第一计算模块、主控模块、权重设置模块、文本处理模块、分词器和第二计算模块;所述第一计算模块、权重设置模块、文本处理模块、分词器和第二计算模块均与主控模块进行数据交互。
上述实施例中,还包括文本向量库,所述文本向量库用于存储所述主控模块传输的段落文本向量。
上述实施例中,所述第一计算模块用于计算段落文本中的方程组;所述第二计算模块用于信息检索与数据挖掘的常用加权的TF-IDF计算。
上述实施例中,所述权重设置模块用于对生成的方程组进行权重设置,所述文本处理模块用于对段落文本进行分段处理。
实施例二、
本发明还提供一种多段落文本的特征抽取系统的抽取方法,包括:
S1:对于任一文本T,假设其由n个段落组成,第i个段落标记为Pi,则T=[P1,P2,…,Pn]。
S2:对于任一文本T,假设存在一个期望相对权重向量weights=[w1,w2,…wn],其中,wi表示Pi的相对权重。wi可以用绝对数值来表示(如:整型数值),也可以相对数值来表示(如:百分比)。
S3:采用权重设置模块和文本处理模块分别对上述的标记段落和期望相对权重向量进行特征抽取,得到段落不同权重的文本向量,包括下述子步骤:
1)对于T中的每个段落P,采用分词器和第二计算模块进行向量化处理,并将得到的段落文本向量存入n维向量数组vectorArray[],其中数组元素vectorArray[i]为段落Pi所对应的文本向量;
2)对于vectorArray中的每个元素vectorArray[i],生成该向量的权重和,计算方法为:将该向量中每个元素值相加,返回累加结果。向量和存入数组paragraphWeight[]的相应位置。
3)基于paragraphWeight和weights,生成用于权重分配的齐次线性方程组。方程组直接以矩阵来表示,最终返回一个二组数组。为使每个段落的文本向量在最终向量中达到相应的相对权重要求,需要对每个段落增加一个调节系数,方程组就是关于调节系数的。假设段落Pi的调节系数为ci,则ci需满足等式(paragraphWeight[i]*ci)/(paragraphWeight[i]*ci)=weights[i]。为得到特定解,在方程组中添加约束条件sum(ci)=1。
4)采用第一计算模块解方程组,得出解为调节系数数组coefficients[n]。
5)调节各段落文本向量:把调节系数与对应的文本向量相乘,得出调节后的文本向量。即对于vectorArray中的每个向量vectorArray[i],将其中的每个元素vectorArray[i][j]*coefficients[i],然后保存在原文本向量的原位置上。
6)合并文本向量:将vectorArray中乘过调节系统的文本向量进行累加,得到最终的体现各段落不同权重的文本向量,将段落文本向量存储至文本向量库中。
本发明的技术方案在提取的文本向量能够更好地反应原文的语义特征,能够大幅度提高用户可感知的文本推荐精度,精度和效率高,并且可以根据各类应用的需要随时调整各段落的相对权重。可以方便地各种文本处理系统衔接,只需替换原有的文本向量生成部分即可,成本低廉。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种多段落文本的特征抽取系统的方法,其特征在于,所述系统包括第一计算模块、主控模块、权重设置模块、文本处理模块、分词器和第二计算模块;所述第一计算模块、权重设置模块、文本处理模块、分词器和第二计算模块均与主控模块进行数据交互;
所述系统,还包括文本向量库,所述文本向量库用于存储所述主控模块传输的段落文本向量;
所述第一计算模块用于计算段落文本中的方程组;所述第二计算模块用于信息检索与数据挖掘的常用加权的TF-IDF计算;
所述权重设置模块用于对生成的方程组进行权重设置,所述文本处理模块用于对段落文本进行分段处理;
所述多段落文本的特征抽取系统的方法,包括:
对任一文本T的段落进行标记;
对任一文本T设置期望相对权重向量;
采用权重设置模块和文本处理模块分别对标记段落和期望相对权重向量进行特征抽取,得到段落不同权重的文本向量;
所述对标记段落和期望相对权重向量进行特征抽取,得到段落不同权重的文本向量,包括下述步骤:
1)对于T中的每个段落P,采用分词器和第二计算模块进行向量化处理,并将得到的段落文本向量存入n维向量数组,其中数组元素为段落Pi所对应的文本向量;
2)对于n维向量数组中的每个数组元素,文本处理模块生成段落Pi所对应的文本向量的权重和,并存入权重和数组;
3)基于权重和数组和期望相对权重向量weights,生成用于权重分配的齐次线性方程组,并为方程组添加调节系数;
4)采用第一计算模块解方程组,得出解为调节系数数组;
5)调节各段落文本向量:把调节系数与对应的文本向量相乘,得出调节后的段落文本向量;
6)合并段落文本向量:将n维向量数组中乘过调节系统的段落文本向量进行累加,得到最终的体现各段落不同权重的段落文本向量,将段落文本向量存储至文本向量库中。
2.如权利要求1所述的多段落文本的特征抽取系统的方法,其特征在于,所述对任一文本T的段落进行标记,包括:
对任一文本T,由n个段落组成,第i个段落标记为Pi,则T=[P1,P2,…,Pn]。
3.如权利要求1所述的多段落文本的特征抽取系统的方法,其特征在于,所述对任一文本T设置期望相对权重向量,包括:
对于任一文本T,存在一个期望相对权重向量weights=[w1,w2,…,wn],其中,Wi表示Pi的相对权重;Wi用绝对数值或相对数值表示。
4.如权利要求1所述的多段落文本的特征抽取系统的方法,其特征在于,所述步骤2)中,文本向量的权重和计算方法为:将段落Pi所对应的文本向量中每个元素值相加,返回累加结果,文本向量的权重和存入权重和数组的相应位置。
5.如权利要求1所述的多段落文本的特征抽取系统的方法,其特征在于,所述步骤3)中,齐次线性方程组以矩阵表示,最终返回一个二维数组;对每个段落增加一个调节系数,包括:调节系数ci满足等式
Figure FDA0002783184190000021
其中:ci为段落Pi的调节系数;得到特定解时,在方程组中添加约束条件sum(ci)=1;paragraphWeight[]为权重和数组;weights[i]为期望相对权重向量;
所述步骤5)中,即对于n维向量数组中的每个数组元素,满足vectorArray[i][j]*coefficients[i],然后保存在原文本向量的原位置上;
其中:coefficients[i]为调节系数数组元素,vectorArray[i][j]为n维向量数组,i、j=1、2、3、……、n,i表示数组的行,j表示数组的列。
CN201710287337.9A 2017-04-27 2017-04-27 一种多段落文本的特征抽取系统的方法 Active CN107122350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710287337.9A CN107122350B (zh) 2017-04-27 2017-04-27 一种多段落文本的特征抽取系统的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710287337.9A CN107122350B (zh) 2017-04-27 2017-04-27 一种多段落文本的特征抽取系统的方法

Publications (2)

Publication Number Publication Date
CN107122350A CN107122350A (zh) 2017-09-01
CN107122350B true CN107122350B (zh) 2021-02-05

Family

ID=59725061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710287337.9A Active CN107122350B (zh) 2017-04-27 2017-04-27 一种多段落文本的特征抽取系统的方法

Country Status (1)

Country Link
CN (1) CN107122350B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952279B (zh) * 2022-12-02 2023-09-12 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
WO2013038824A1 (ja) * 2011-09-15 2013-03-21 株式会社富士通マーケティング 会計データ生成装置、方法、プログラム、システム、サーバ装置、及び記録媒体
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
CN104408083A (zh) * 2014-10-27 2015-03-11 六盘水职业技术学院 一种社会化媒体分析系统
CN105760474A (zh) * 2016-02-14 2016-07-13 Tcl集团股份有限公司 一种基于位置信息的文档集的特征词提取方法及系统
CN105808524A (zh) * 2016-03-11 2016-07-27 江苏畅远信息科技有限公司 一种基于专利文献摘要的专利自动分类方法
CN106372064A (zh) * 2016-11-18 2017-02-01 北京工业大学 一种文本挖掘的特征词权重计算方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
WO2013038824A1 (ja) * 2011-09-15 2013-03-21 株式会社富士通マーケティング 会計データ生成装置、方法、プログラム、システム、サーバ装置、及び記録媒体
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
CN104408083A (zh) * 2014-10-27 2015-03-11 六盘水职业技术学院 一种社会化媒体分析系统
CN105760474A (zh) * 2016-02-14 2016-07-13 Tcl集团股份有限公司 一种基于位置信息的文档集的特征词提取方法及系统
CN105808524A (zh) * 2016-03-11 2016-07-27 江苏畅远信息科技有限公司 一种基于专利文献摘要的专利自动分类方法
CN106372064A (zh) * 2016-11-18 2017-02-01 北京工业大学 一种文本挖掘的特征词权重计算方法

Also Published As

Publication number Publication date
CN107122350A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
US20200234102A1 (en) Joint learning of local and global features for entity linking via neural networks
US8886648B1 (en) System and method for computation of document similarity
US11294974B1 (en) Golden embeddings
WO2019169024A1 (en) Content channel curation
WO2019169023A1 (en) Query topic map
CN106708996A (zh) 用于对关系数据库进行全文搜索的方法及系统
US9141882B1 (en) Clustering of text units using dimensionality reduction of multi-dimensional arrays
CN106651544A (zh) 最少用户交互的会话式推荐系统
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN112988980B (zh) 目标产品查询方法、装置、计算机设备和存储介质
US20150169740A1 (en) Similar image retrieval
KR20200137924A (ko) 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치
WO2017136674A1 (en) Generating feature embeddings from a co-occurrence matrix
CN112035728B (zh) 一种跨模态检索方法、装置及可读存储介质
CN101251847A (zh) 一种适用于移动设备的电子词典词库结构
CN114706987B (zh) 文本类目预测方法、装置、设备、存储介质和程序产品
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112328735A (zh) 热点话题确定方法、装置及终端设备
CN107122350B (zh) 一种多段落文本的特征抽取系统的方法
WO2020112580A1 (en) Data retrieval
Fuketa et al. Image-classifier deep convolutional neural network training by 9-bit dedicated hardware to realize validation accuracy and energy efficiency superior to the half precision floating point format
CN115203378B (zh) 基于预训练语言模型的检索增强方法、系统及存储介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN112925872A (zh) 一种数据搜索方法和装置
Zhu et al. Chinese text summarization based on fine-tuned GPT2

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant