CN111723191A - 一种基于全信息自然语言的文本过滤和提取方法及其系统 - Google Patents

一种基于全信息自然语言的文本过滤和提取方法及其系统 Download PDF

Info

Publication number
CN111723191A
CN111723191A CN202010423247.XA CN202010423247A CN111723191A CN 111723191 A CN111723191 A CN 111723191A CN 202010423247 A CN202010423247 A CN 202010423247A CN 111723191 A CN111723191 A CN 111723191A
Authority
CN
China
Prior art keywords
information
text
filtering
filtered
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010423247.XA
Other languages
English (en)
Other versions
CN111723191B (zh
Inventor
韩钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianwen Digital Media Technology Beijing Co ltd
Original Assignee
Tianwen Digital Media Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianwen Digital Media Technology Beijing Co ltd filed Critical Tianwen Digital Media Technology Beijing Co ltd
Priority to CN202010423247.XA priority Critical patent/CN111723191B/zh
Publication of CN111723191A publication Critical patent/CN111723191A/zh
Application granted granted Critical
Publication of CN111723191B publication Critical patent/CN111723191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于全信息自然语言的文本过滤和提取方法及其系统,包括:预处理待过滤的文本,得到待过滤文本信息;根据框架特征对待过滤文本信息进行过滤处理,将待过滤文本信息分为框架信息和过滤文本信息;将过滤文本信息输入基于全信息自然语言知识库的处理模型,输出知识点信息,并将知识点信息反馈到全信息自然语言知识库;根据框架信息和知识点信息,输出目标格式文件。其通过基于全信息自然语言技术的过滤处理和细化处理,提高了理解文本主体思想的准确性,实现了自动提取文本中具体明确的技术表达。

Description

一种基于全信息自然语言的文本过滤和提取方法及其系统
技术领域
本发明涉及图书出版领域,尤其是一种基于全信息自然语言的文本过滤和提取方法及其系统。
背景技术
信息科学理论将信息分为本体论信息和认识论信息两个基本层次,本体论信息与认识主体存在无关,认识论信息与认识主体密切相关。而认识论观点认为,认识主体所感知的客观事物信息包含语法信息、语义信息、语用信息,三者构成了全信息整体。目前,信息技术在图书出版领域的应用,由原来的数据处理、信息处理发展到知识处理需求层面,对语言文字处理要求的难度和精度不断提高。在现有的技术条件下,对语言文字的处理大多停留在语法层面上,要全面理解分析文本的主体思想,并给出具体明确的技术表达,还存在困难。
发明内容
为解决上述问题,本发明的目的在于提供一种基于全信息自然语言的文本过滤和提取方法,以实现对图书文本进行精准过滤和提取。
本发明解决其问题所采用的技术方案是:
本发明的第一方面,一种基于全信息自然语言的文本过滤和提取方法,包括:预处理待过滤的文本,得到待过滤文本信息;根据框架特征对所述待过滤文本信息进行过滤处理,将待过滤文本信息分为框架信息和过滤文本信息;将所述过滤文本信息输入基于全信息自然语言知识库的处理模型,输出知识点信息,并将所述知识点信息反馈到所述全信息自然语言知识库;其中,所述处理模型根据语言信息特征对所述过滤文本信息进行多次过滤处理,且每次所述过滤处理所根据的所述语言信息特征均不同;根据所述框架信息和所述知识点信息,输出目标格式文件。
上述基于全信息自然语言的文本过滤和提取方法至少具有以下的有益效果:通过建立全信息自然语言知识库,并对待过滤的文本进行框架特征和语言信息特征过滤处理,实现对图书中各种语言信息特征的提取和转换,提高了全面理解分析文本的主体思想的准确性,完成具体明确的技术表达。
进一步,所述语言信息特征包括语法信息特征、语义信息特征和语用信息特征。法信息特征、语义信息特征和语用信息特征,三者构成了全信息自然语言的整体,保证了语言信息特征过滤处理的完整性。
进一步,所述预处理包括:对所述待过滤的文本的语法信息特征、语义信息特征和语用信息特征进行参量描述。通过对待过滤的文本进行参量描述,实现定量分析文本信息,用以描述和度量全信息。
进一步,将所述过滤文本信息输入基于全信息自然语言知识库的处理模型,包括:根据语法信息特征对所述过滤文本信息进行过滤处理,得到语法分析结果;根据语义信息特征对所述语法分析结果进行过滤处理,得到语义分析结果;根据语用信息特征对所述语义分析结果进行过滤处理,得到所述知识点信息。
根据各个语言信息特征对过滤文本信息进行过滤处理,对过滤文本信息进行外在形式、内容含义以及效用价值的分析,实现对过滤文本信息的深度理解和精准识别。
进一步,所述过滤处理包括:获取输入文本和过滤特征,生成过滤特征向量;将所述过滤特征与所述输入文本通过特征比对算法进行比对,选取相似度大于预定参数的所述待过滤文本信息,组成目标文本队列,计算公式如下:
Figure BDA0002497737960000031
其中,X为所述过滤特征向量,Y为所述输入文本的信息向量,X×Y为两个向量的积,||X||×||Y||为两个向量的长度乘积,sim(X,Y)为两个向量的余弦相似度;所述过滤特征包括所述框架特征和所述语言信息特征。
通过计算余弦值大小来衡量两个文本间的相似度,余弦值越接近1,夹角便越接近0,两个文本越相似。对相似度不达到预设值的文本进行删除处理,去除相似度不高的文本信息。
进一步,在组成目标文本队列后,还进行以下步骤:使用K-means方法对所述目标文本队列进行聚类分析,得到多个文本簇集,从所述文本簇集中平均选出推荐文本,组成推荐文本队列,所述聚类分析的计算公式如下:
Figure BDA0002497737960000041
其中,k为所述文本簇集的数量。
K-means方法的目标函数为最大化余弦距离和,当目标函数达到最优则算法停止。从文本簇集中平均选出推荐文本,进一步提高了推荐文本的准确性。
进一步,所述过滤处理还包括:当所述推荐文本的数量小于预设值时,对所述目标文本队列重新进行聚类分析,直到所述推荐文本的数量达到预设值;将所述推荐文本队列的文本信息按照过滤处理的顺序进行排序,得到过滤处理结果。通过进行重过滤,使所有前一次或前几次未进入推荐队列的目标队列文本作为新的目标文本,重新进行聚类与提取,减小模型的随机性,提高过滤处理的准确性。
本发明的第二方面,一种基于全信息自然语言的文本过滤和提取系统,包括:基于全信息自然语言知识库,用于储存和更新具体事物的多种所述语言信息特征;预处理模块,被配置为对所述待过滤的文本的多种所述语言信息特征进行参量描述,得到待过滤文本信息;框架提取模块,被配置为根据框架特征对待过滤文本信息进行过滤处理,将待过滤文本信息分为框架信息和过滤文本信息;处理模型,被配置为根据多种所述语言信息特征对所述过滤文本信息进行过滤处理,输出知识点信息,包括:多个依次连接的过滤处理模块,所述过滤处理模块被配置为根据所述语言信息特征对前一个过滤处理模块的输出进行所述过滤处理,每个所述过滤处理模块所采用的所述语言信息特征均不同;转换模块,被配置为根据所述框架信息和所述知识点信息,输出目标格式文件。
本发明的第三方面,一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如上所述的基于全信息自然语言的文本过滤和提取方法。
本发明的第四方面,一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的基于全信息自然语言的文本过滤和提取方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1为本发明实施例一种基于全信息自然语言的文本过滤和提取方法的流程图;
图2为图1中过滤处理的流程图;
图3为图1中将过滤文本信息输入基于全信息自然语言知识库的处理模型的流程图;
图4为本发明实施例一种基于全信息自然语言的文本过滤和提取系统的结构图;
图5为图4中全信息自然语言知识库、处理模型和转换模块的结构图。
具体实施方式
参照图1,本发明实施例提供了一种基于全信息自然语言的文本过滤和提取方法,包括步骤S110、预处理待过滤的文本,得到待过滤文本信息;步骤S120、根据框架特征对待过滤文本信息进行过滤处理,将待过滤文本信息分为框架信息和过滤文本信息;步骤S130、将过滤文本信息输入基于全信息自然语言知识库100的处理模型400,输出知识点信息,并将知识点信息反馈到全信息自然语言知识库100;步骤S140、根据框架信息和知识点信息,输出目标格式文件。
通过建立全信息自然语言知识库100,并对待过滤文本信息进行框架特征和语言信息特征过滤处理,实现对图书中各种语言信息特征的提取和转换,提高了全面理解分析文本的主体思想的准确性,完成具体明确的技术表达。
另一个实施例,语言信息特征包括语法信息特征、语义信息特征和语用信息特征。法信息特征、语义信息特征和语用信息特征,三者构成了全信息自然语言的整体,保证了语言信息特征过滤处理的完整性。
另一个实施例,预处理包括:对待过滤的文本信息的语法信息特征、语义信息特征和语用信息特征进行参量描述。通过对待过滤的文本信息进行参量描述,实现定量分析文本信息,用以描述和度量全信息。为了把具体事物的全信息概念具体化,设定事物X的运动状态集合为{X1,X2,X3,…,Xn},相应语法信息特征参量为{C1,C2,…,Cn}、相应语义信息特征参量为{T1,T2,…,Tn}以及相应语用信息特征参量为{U1,U2,…,Un}。
参照图2,另一个实施例,过滤处理包括:
步骤S121、获取输入文本和过滤特征,生成过滤特征向量。其中,过滤特征包括框架特征和语言信息特征。在本实施例中,对待过滤文本信息根据框架特征进行过滤处理时,根据待过滤文本信息的情况,指定以数字标识的章节关键句词为首位特征,以句号或者无标点符号为末位特征。
步骤S122、将过滤特征与输入文本通过特征比对算法进行比对,选取相似度大于预定参数的待过滤文本信息,组成目标文本队列,计算公式如下:
Figure BDA0002497737960000071
其中,X为过滤特征向量,Y为输入文本的信息向量,X×Y为两个向量的积,||X||×||Y||为两个向量的长度乘积,sim(X,Y)为两个向量的余弦相似度。
通过计算余弦值大小来衡量两个文本间的相似度,余弦值越接近1,夹角便越接近0,两个文本越相似。为筛选出与用户特征关键词相似性较高的文本,需设置检验计算的阈值。在本实施例中,阈值为0.5到1之间的一个数值,余弦相似度大于此阈值则进入目标文本序列,对余弦相似度不达到预设值的文本进行筛选处理,即把待过滤文本信息的目录内容放进目标文本队列,对目录内容以外的部分进行过滤。
步骤S123、使用K-means方法对目标文本队列进行聚类分析,得到多个文本簇集,从文本簇集中平均选出推荐文本,组成推荐文本队列,聚类分析的计算公式如下:
Figure BDA0002497737960000081
其中,k为文本簇集的数量。K-means方法的目标函数为最大化余弦距离和,当目标函数达到最优则算法停止。从文本簇集中平均选出推荐文本,进一步提高了推荐文本的准确性。
步骤S124、当推荐文本的数量小于预设值时,对目标文本队列重新进行聚类分析,直到推荐文本的数量达到预设值。当预设值大于每次过滤后推荐文本的数量时,需要进行多次过滤,为减小模型的随机性,本实例中,将重过滤的起始点设在目标文本队列的形成后。这样,所有前一次或前几次未进入推荐文本队列的目标文本队列作为新的目标文本,重新进行聚类与提取,当推荐文本的数量达到预设数量时则停止循环。
步骤S125、将推荐文本队列的文本信息按照过滤处理的顺序进行排序,得到过滤处理结果。在本实施例中,最后把待过滤文本信息的目录内容形成过滤处理结果,作为框架信息,目录内容以外被过滤的部分形成过滤文本信息。而在其他实施例中,根据语法信息特征对过滤文本信息进行过滤处理,形成过滤处理结果,作为语法分析结果;根据语义信息特征对语法分析结果进行过滤处理,形成过滤处理结果,作为语义分析结果;根据语用信息特征对语义分析结果进行过滤处理,形成过滤处理结果,作为知识点信息。
参照图3,另一个实施例,将过滤文本信息输入基于全信息自然语言知识库的处理模型400,包括:
步骤S131、根据语法信息特征对过滤文本信息进行过滤处理,得到语法分析结果:选取关键词集合与标点符号集合作为语法过滤特征进行过滤处理,得到语法分析结果。选取相关的关键词作为主语结构,建立包括分号和句号的标点符号集合,对过滤文本信息进行过滤处理。这样就实现对该关键词的外在形式进行了初步识别,所属的领域范畴,即得出该关键词的语法信息特征。
步骤S132、根据语义信息特征对语法分析结果进行过滤处理,得到语义分析结果:对关键词集合和连接助词的位置关系进行权重设置,对语法分析结果进行过滤处理,得到语义分析结果。通过语义分析中的中文分词,把该关键词的连接助词,比如“的”字,前后位置进行量化权重。在本实施例中,将该关键词在“的”之前的内容进行保留,其他内容进行过滤。这样就去除语法分析结果中的非本质部分,得到该关键词的抽象规则和概念,即得出该关键词的语义信息特征。
步骤S133、根据语用信息特征对语义分析结果进行过滤处理,得到知识点信息:从全信息自然语言知识库100中匹配出与关键词集合对应的查询文本;把查询文本进行分词操作,形成语用过滤特征;把语义分析结果在语用过滤特征中进行循环过滤处理,得到知识点信息。通过在全信息自然语言知识库100中匹配出查询文本,得到更多关于该关键词的属性,通过把语义分析结果在语用过滤特征中进行循环过滤处理,最终分析出该关键词的特点以及价值所在,即得出该关键词的语用信息特征。
参照图4和图5,另一个实施例,一种基于全信息自然语言的文本过滤和提取系统,包括:全信息自然语言知识库100,用于储存和更新具体事物的多种语言信息特征;预处理模块200,被配置为对待过滤的文本的多种语言信息特征进行参量描述,得到待过滤文本信息;框架提取模块300,被配置为根据框架特征对待过滤文本信息进行过滤处理,将待过滤文本信息分为框架信息和过滤文本信息;处理模型400,被配置为根据多种语言信息特征对过滤文本信息进行过滤处理,输出知识点信息,包括:多个依次连接的过滤处理模块410,过滤处理模块410被配置为根据语言信息特征对前一个过滤处理模块410的输出进行过滤处理,每个过滤处理模块410所采用的语言信息特征均不同;转换模块500,被配置为根据框架信息和知识点信息,输出目标格式文件。
具体地,本发明选取华中科技大学出版社2018年10月出版的《机电传动与控制技术》一书,以书中的第二章2.1节的文本内容作为待过滤的文本,进行基于全信息自然语言的文本过滤和提取,输出电子课件。其中,文本的输入格式为word,电子课件的输出格式为PPT。
首先在全信息自然语言知识库100中选取针对电动机专业领域的内容,即从自然语言序列中提取出来的关于电动机的语法、语义和语用信息,主要包括但不限于与电动机专业相关的语法、语义、语用的知识和相关的词性、词义、词类、词法结构,还包括词频含义的不同区分规则,短语搭配,逻辑知识。
然后把《机电传动与控制技术》第二章2.1节的文档输入预处理模块200,对文档的内容进行语法信息、语义信息、语用信息的参量描述,得到关于电动机控制技术的待过滤文本信息,即得到关于电动机控制技术的含义,定义,效用等信息。预处理模块200完成对文档进行基本的智能梳理,得到关于电动机控制技术的运动状态集合为{X1,X2,…,Xn},相应语法信息参量为{G1,G2,…,Gn}、相应语义信息参量为{S1,S2,…,Sn}以及相应语用信息参量为{P1,P2,…,Pn}。
接着,框架提取模块300对关于电动机控制技术的待过滤文本信息进行特征匹配和过滤处理。针对文档的情况,设定以“第二章”or“1,2,3,4”为首位特征,以句号或者空格为末位特征作为指定特征进行输入。通过计算特征向量与待过滤文本信息向量的余弦值,筛选出与用户特征关键词相似性较高的文本,余弦相似度大于此阈值则进入目标文本序列,对余弦相似度不达到预设值的文本进行筛选处理,即把待过滤文本信息的目录内容放进目标文本队列,对目录内容以外的部分进行过滤。其中,目录内容成为电子课件框架,过滤掉的内容成为过滤文本信息。
然后,处理模型400对过滤文本信息进行知识点信息提取,实际上就是对过滤文本信息进行细化处理。
首先,对过滤文本信息进行语法层面分析:建立保存标点符号字符串集合STR1[“;”,“。”]、保存关键词“电动机”字符串集合STR2[“电动机”],并设定STR2[“电动机”]作为主语结构。然后把电子课件框架提取后的2.1节的文本信息和字符串集合STR1[“;”,“。”]以及STR2[“电动机”]主语结构的规则进行匹配过滤,就能得到处理后的字符串集合STR3[“有的电动机要求在一定时间内转动;”,“电动机的基本控制形式有速度和力矩控制,以及包括启动、停止的位置控制。”,“电动机的特性分为电气特性和机械特性。”],STR3即为语法分析结果。
接着,对语法分析结果进行语义层面分析:通过语义分析中的中文分词,将STR3结果中‘的’前后位置进行量化权重,以STR2[“电动机”]主语结构“的”字前后位置进行权重设置,设置STR2[“电动机”]主语结构在“的”之前保留,反之过滤。将STR3以此种设置规则进行文本过滤。得到语义分析处理结果字符串集合STR4[“电动机的基本控制形式有速度和力矩控制,以及包括启动、停止的位置控制。”,“电动机的特性分为电气特性和机械特性。”]。STR4即为语义分析结果。
然后,对语义分析结果进行语用层面分析:根据文档的实际需求,设置保存“电动机”和“控制”字符串集合STR5[“电动机”,“控制”]为条件,查询出真实事物的属性,形成字符串集合STR6[“电动机控制是指,对电机的启动、加速、运转、减速及停止进行的控制。”]。再把字符串集合STR6进行中文分词,形成字符串集合STR7[“启动”,“加速”,“运转”,“减速”,“停止进行”],将STR4在STR7中进行循环匹配过滤,通过提取STR7关键字符,优化处理后,得到字符串集合STR8[“电动机的基本控制形式有速度和力矩控制,以及包括启动、停止的位置控制。”]。STR8为语用分析结果。对STR8进行汇总和优化,得到文档的知识点信息,并将知识点信息反馈到全信息自然语言知识库100。
最后,转换模块500根据获得的电子课件框架和知识点信息,并依据文本输出格式为PPT的要求,设置文本输出的相关参数,比如字体大小、形态、颜色以及版面格式,转换模块500根据参数设置后得到输出的电子课件。
本实施例通过全信息自然语言知识库100储存和更新具体事物的语法信息特征、语义信息特征和语用信息特征,然后由预处理模块200对待过滤的文本信息的语法信息特征、语义信息特征和语用信息特征进行参量描述;通过框架提取模块300对待过滤文本信息进行框架提取,得到框架信息和过滤文本信息;通过处理模型400根据多种语言信息特征对过滤文本信息进行过滤处理,输出知识点信息。最后通过转换模块500输出目标格式文件。通过实验验证,能看出本发明方法能有效地对文本进行过滤,全面理解分析文本的主体思想,并准确地提取出具体明确的技术表达。
以上,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

Claims (10)

1.一种基于全信息自然语言的文本过滤和提取方法,其特征在于,包括:
预处理待过滤的文本,得到待过滤文本信息;
根据框架特征对所述待过滤文本信息进行过滤处理,将待过滤文本信息分为框架信息和过滤文本信息;
将所述过滤文本信息输入基于全信息自然语言知识库的处理模型,输出知识点信息,并将所述知识点信息反馈到所述全信息自然语言知识库;其中,所述处理模型根据语言信息特征对所述过滤文本信息进行多次过滤处理,且每次所述过滤处理所根据的所述语言信息特征均不同;
根据所述框架信息和所述知识点信息,输出目标格式文件。
2.根据权利要求1所述的基于全信息自然语言的文本过滤和提取方法,其特征在于,所述语言信息特征包括语法信息特征、语义信息特征和语用信息特征。
3.根据权利要求2所述的基于全信息自然语言的文本过滤和提取方法,其特征在于,所述预处理包括:对所述待过滤的文本的语法信息特征、语义信息特征和语用信息特征进行参量描述。
4.根据权利要求3所述的基于全信息自然语言的文本过滤和提取方法,其特征在于,将所述过滤文本信息输入基于全信息自然语言知识库的处理模型,包括:
根据语法信息特征对所述过滤文本信息进行过滤处理,得到语法分析结果;
根据语义信息特征对所述语法分析结果进行过滤处理,得到语义分析结果;
根据语用信息特征对所述语义分析结果进行过滤处理,得到所述知识点信息。
5.根据权利要求4所述的基于全信息自然语言的文本过滤和提取方法,其特征在于,所述过滤处理包括:
获取输入文本和过滤特征,生成过滤特征向量;
将所述过滤特征与所述输入文本通过特征比对算法进行比对,选取相似度大于预定参数的所述待过滤文本信息,组成目标文本队列,计算公式如下:
Figure FDA0002497737950000021
其中,X为所述过滤特征向量,Y为所述输入文本的信息向量,X×Y为两个向量的积,||X||×||Y||为两个向量的长度乘积,sim(X,Y)为两个向量的余弦相似度;所述过滤特征包括所述框架特征和所述语言信息特征。
6.根据权利要求5所述的基于全信息自然语言的文本过滤和提取方法,其特征在于,在组成目标文本队列后,还进行以下步骤:使用K-means方法对所述目标文本队列进行聚类分析,得到多个文本簇集,从所述文本簇集中平均选出推荐文本,组成推荐文本队列,所述聚类分析的计算公式如下:
Figure FDA0002497737950000031
其中,k为所述文本簇集的数量。
7.根据权利要求6所述的基于全信息自然语言的文本过滤和提取方法,其特征在于,所述过滤处理还包括:
当所述推荐文本的数量小于预设值时,对所述目标文本队列重新进行聚类分析,直到所述推荐文本的数量达到预设值;
将所述推荐文本队列的文本信息按照过滤处理的顺序进行排序,得到过滤处理结果。
8.一种应用如权利要求1至7任一项所述的基于全信息自然语言的文本过滤和提取系统,包括:
基于全信息自然语言知识库,用于储存和更新具体事物的多种所述语言信息特征;
预处理模块,被配置为对所述待过滤的文本的多种所述语言信息特征进行参量描述,得到待过滤文本信息;
框架提取模块,被配置为根据框架特征对待过滤文本信息进行过滤处理,将待过滤文本信息分为框架信息和过滤文本信息;
处理模型,被配置为根据多种所述语言信息特征对所述过滤文本信息进行过滤处理,输出知识点信息,包括:多个依次连接的过滤处理模块,所述过滤处理模块被配置为根据所述语言信息特征对前一个过滤处理模块的输出进行所述过滤处理,每个所述过滤处理模块所采用的所述语言信息特征均不同;
转换模块,被配置为根据所述框架信息和所述知识点信息,输出目标格式文件。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如权利要求1至7中任一项基于全信息自然语言的文本过滤和提取方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于全信息自然语言的文本过滤和提取方法。
CN202010423247.XA 2020-05-19 2020-05-19 一种基于全信息自然语言的文本过滤和提取方法及其系统 Active CN111723191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010423247.XA CN111723191B (zh) 2020-05-19 2020-05-19 一种基于全信息自然语言的文本过滤和提取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010423247.XA CN111723191B (zh) 2020-05-19 2020-05-19 一种基于全信息自然语言的文本过滤和提取方法及其系统

Publications (2)

Publication Number Publication Date
CN111723191A true CN111723191A (zh) 2020-09-29
CN111723191B CN111723191B (zh) 2023-10-27

Family

ID=72564609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010423247.XA Active CN111723191B (zh) 2020-05-19 2020-05-19 一种基于全信息自然语言的文本过滤和提取方法及其系统

Country Status (1)

Country Link
CN (1) CN111723191B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492409A (zh) * 2022-01-27 2022-05-13 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078889A1 (en) * 2005-10-04 2007-04-05 Hoskinson Ronald A Method and system for automated knowledge extraction and organization
US20080071519A1 (en) * 2006-09-19 2008-03-20 Xerox Corporation Labeling of work of art titles in text for natural language processing
JP2009080625A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 知識構築装置、プログラムおよび知識構築方法
US20110078554A1 (en) * 2009-09-30 2011-03-31 Microsoft Corporation Webpage entity extraction through joint understanding of page structures and sentences
US20150278197A1 (en) * 2014-03-31 2015-10-01 Abbyy Infopoisk Llc Constructing Comparable Corpora with Universal Similarity Measure
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
RU2636098C1 (ru) * 2016-10-26 2017-11-20 Общество с ограниченной ответственностью "Аби Продакшн" Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения
CN107491548A (zh) * 2017-08-28 2017-12-19 武汉烽火普天信息技术有限公司 一种网络舆情文本信息推荐及可视化方法
RU2639655C1 (ru) * 2016-09-22 2017-12-21 Общество с ограниченной ответственностью "Аби Продакшн" Система для создания документов на основе анализа текста на естественном языке
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
CN110377751A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 课件智能生成方法、装置、计算机设备及存储介质
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078889A1 (en) * 2005-10-04 2007-04-05 Hoskinson Ronald A Method and system for automated knowledge extraction and organization
US20080071519A1 (en) * 2006-09-19 2008-03-20 Xerox Corporation Labeling of work of art titles in text for natural language processing
JP2009080625A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 知識構築装置、プログラムおよび知識構築方法
US20110078554A1 (en) * 2009-09-30 2011-03-31 Microsoft Corporation Webpage entity extraction through joint understanding of page structures and sentences
US20150278197A1 (en) * 2014-03-31 2015-10-01 Abbyy Infopoisk Llc Constructing Comparable Corpora with Universal Similarity Measure
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
RU2639655C1 (ru) * 2016-09-22 2017-12-21 Общество с ограниченной ответственностью "Аби Продакшн" Система для создания документов на основе анализа текста на естественном языке
RU2636098C1 (ru) * 2016-10-26 2017-11-20 Общество с ограниченной ответственностью "Аби Продакшн" Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
CN107491548A (zh) * 2017-08-28 2017-12-19 武汉烽火普天信息技术有限公司 一种网络舆情文本信息推荐及可视化方法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN110377751A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 课件智能生成方法、装置、计算机设备及存储介质
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
恋蛩音: "PPT-Record02—怎样将一个Word文档直接转成一个PPT文件?", pages 1 *
田磊等: "基于聚类优化的协同过滤个性化图书推荐", vol. 8, no. 8 *
钟义信: "自然语言理解的全信息方法论", vol. 27, no. 27, pages 5 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492409A (zh) * 2022-01-27 2022-05-13 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品
CN114492409B (zh) * 2022-01-27 2022-12-20 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Also Published As

Publication number Publication date
CN111723191B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111475607B (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN117951249A (zh) 基于大语言模型的知识库应答方法及系统
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN111737420A (zh) 一种基于争议焦点的类案检索方法及系统及装置及介质
CN118364053A (zh) 一种基于Langchain的文档向量化与文档分割方法
WO2024114681A1 (zh) 一种搜索结果展示方法、装置、计算机设备及存储介质
CN114219248A (zh) 一种基于lda模型、依存句法和深度学习的人岗匹配方法
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN111723191B (zh) 一种基于全信息自然语言的文本过滤和提取方法及其系统
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN117235254A (zh) 电力设备故障分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant