CN110728151B - 基于视觉特征的信息深度处理方法及系统 - Google Patents
基于视觉特征的信息深度处理方法及系统 Download PDFInfo
- Publication number
- CN110728151B CN110728151B CN201911009497.2A CN201911009497A CN110728151B CN 110728151 B CN110728151 B CN 110728151B CN 201911009497 A CN201911009497 A CN 201911009497A CN 110728151 B CN110728151 B CN 110728151B
- Authority
- CN
- China
- Prior art keywords
- image
- information
- entity
- industry
- word sense
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 41
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000005516 engineering process Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 18
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 238000013486 operation strategy Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 175
- 238000000605 extraction Methods 0.000 claims description 56
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 19
- 239000010410 layer Substances 0.000 claims description 18
- 238000007619 statistical method Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 8
- 235000019988 mead Nutrition 0.000 claims description 8
- 230000019771 cognition Effects 0.000 claims description 6
- 230000001939 inductive effect Effects 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000000844 transformation Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 10
- 238000011161 development Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 description 6
- 238000013467 fragmentation Methods 0.000 description 6
- 238000006062 fragmentation reaction Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 239000003208 petroleum Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000003925 brain function Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种基于视觉特征的信息深度处理方法及系统,所述基于视觉特征的信息深度处理方法包括步骤:获取基于视觉特征的图文数据,对所述图文数据采用AI人工智能和/或深度学习技术进行语义识别,以识别得到意图信息,根据识别得到的意图信息对所述图文数据执行预定义的操作策略,以形成用于媒体业的包括媒体内容、版权和/或用户资源的图文数据库。通过上述方式,本申请能够对视觉特征的图文数据进AI处理和深度学习处理,然后建立可以适用于媒体业的图文数据库,实现行业的转型升级,提升行业的技术地位和发展优势,提高市场竞争力。
Description
技术领域
本申请涉及信息处理技术领域,具体涉及一种基于视觉特征的信息深度处理方法,一种应用所述基于视觉特征的信息深度处理方法的系统。
背景技术
随着信息技术的快速发展,报纸已经从纸张的形式,逐渐扩展到电子的方式,这极大地方便了用户,但是,这对传统的传媒行业提起了极大的挑战。
同时,为把握国家和地方大力推进文化产业发展的重大产业政策的契机,抢占行业科技制高点,越来越多的传媒行业为了实现产业的升级,提升竞争力,会需要实现产业化应用,推进媒体行业的转型升级、文创行业内容汇聚以及挖掘内容的价值。
但是,现有技术在媒体领域中缺乏对图文数据的人工智能分析处理,难以实现产业的转型和整合,不利于产业的可持续发展。
针对现有技术的多方面不足,本申请的发明人经过深入研究,提出一种基于视觉特征的信息深度处理方法及系统。
发明内容
本申请的目的在于,提供一种基于视觉特征的信息深度处理方法及系统,能够对视觉特征的图文数据进AI处理和深度学习处理,然后建立可以适用于媒体业的图文数据库,实现行业的转型升级,提升行业的技术地位和发展优势,提高市场竞争力,推进产业的可持续发展。
为解决上述技术问题,本申请提供一种基于视觉特征的信息深度处理方法,作为其中一种实施方式,所述基于视觉特征的信息深度处理方法包括步骤:
获取基于视觉特征的图文数据;
对所述图文数据采用AI人工智能和/或深度学习技术进行语义识别,以识别得到意图信息:采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值;其中,捕获权重值具体包括:采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,和采用基于词义的SCM文档表示模型的行业实体与关系抽取及智能关联技术捕获所述图文数据中的词义簇及其对应的权重值,其中,所述行业实体与关系抽取及智能关联技术用于:通过行业实体识别技术抽取出图文数据文档中所包含的公司名称、行业名称、个人名称和术语的实体,根据多层网络文本信息提取出这些实体之间的关系,对来自不同文档的实体和关系进行数据清洗,以进行同一实体辨认和错误的数据纠正,以根据实体和关系实现实体之间的智能关联;
采用余弦相似度、相对熵KL距离、Jensen-Shannon距离和Hellinger距离根据所述词义簇及其对应的权重值进行语义识别;或,采用基于产生式的隐含狄利克雷分布LDA根据所述词义簇及其对应的权重值构建主题—文档概率映射进行语义识别;
根据识别得到的意图信息对所述图文数据执行预定义的操作策略,以形成用于媒体业的包括媒体内容、版权和/或用户资源的图文数据库。
作为其中一种实施方式,所述图像识别法包括:
所述图像识别法包括采用贝叶斯Bayes模型或马尔柯夫Markow随机场MRF模型的统计法。
作为其中一种实施方式,所述图像识别法包括:
所述图像识别法包括以符号来描述图像特征、采用图像分层描述、将图像分解为单层或多层子图像、以识别所述图文数据的空间结构关系信息的句法识别法。
作为其中一种实施方式,所述图像识别法包括:
所述图像识别法包括以模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程的神经网络方法。
作为其中一种实施方式,所述图像识别法包括:
所述图像识别法包括以利用互相关计算匹配量度、用绝对差的平方和作为不匹配量度或利用几何变换的模板匹配法Template Matching。
作为其中一种实施方式,所述行业实体与关系抽取及智能关联技术,具体包括:
行业实体识别,用于辨认来自不同文档或同一文档之间的实体是否为现实世界的同一实体并判别纠正实体抽取与关系抽取中出现的错误,利用基于上下文语义的行业实体识别检测方法,包括:从图文数据的文本仓库里获得包含目标简称字符串的所有文本内容,提取简称字符串的上下文,并调整实意词的权重,以篇章上下文为对象,借助聚类算法对上下文进行聚类,采用人工智能对聚类获得的不同意义类簇进行归纳分析,确定具有确凿证据的企业简称上下文,利用企业简称上下文模型识别文本内容特定的企业简称并排除歧义情况;
行业实体关系抽取及智能关联,用于从图文数据的多层网络海量信息中抽取包括人物–机构关系和机构–地点关系的行业实体静态关系,其包括实体关系抽取采取字典匹配方法、机器学习方法和/或MI互信息算法,其中:所述字典匹配方法用于从行业信息知识库中匹配现在已经存在的实体的名称或关系动词进行匹配;所述机器学习方法用于从少量的人工标注好的实体或关系实例开始,采用迭代学习并在每次迭代中获取新的实体或关系实例;所述MI互信息算法用于计算实体的MI值并对包括企业–企业关系、机构–地点关系或人物–地点关系的动态关系进行动态关系抽取;
多媒体文档的自动摘要技术,用于通过自动摘要技术把大量的图文数据信息变成较为短小的文档,包括:计算图文数据的句子相似度,采用MEAD系统的质心值、位置值和首句相似度值三个特征,并结合在线检测出的特征计算文摘句的特征,组合各种特征,计算权重,按句子权重信息自上而下、逐步筛选与已选文摘句冗余度小的句子添加到文摘中,生成符合长度要求的文摘句,按照文摘句在图文数据所表示的原始新闻数据流中的顺序排序,通过连接文本,形成文摘,并根据需求适当排除掉代表性低的文摘句。
为解决上述技术问题,本申请还提供一种基于视觉特征的信息深度处理系统,作为其中一种实施方式,其配置有处理器,所述处理器用于执行程序数据,以实现如上所述的基于视觉特征的信息深度处理方法。
本申请提供的基于视觉特征的信息深度处理方法及系统,所述基于视觉特征的信息深度处理方法包括步骤:获取基于视觉特征的图文数据,对所述图文数据采用AI人工智能和/或深度学习技术进行语义识别,以识别得到意图信息,根据识别得到的意图信息对所述图文数据执行预定义的操作策略,以形成用于媒体业的包括媒体内容、版权和/或用户资源的图文数据库。通过上述方式,本申请能够对视觉特征的图文数据进AI处理和深度学习处理,然后建立可以适用于媒体业的图文数据库,实现行业的转型升级,提升行业的技术地位和发展优势,提高市场竞争力。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本申请基于视觉特征的信息深度处理方法一实施方式的流程示意图。
图2为本申请基于视觉特征的信息深度处理系统一实施方式的结构示意图。
具体实施方式
为更进一步阐述本申请为达成预定申请目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本申请详细说明如下。
通过具体实施方式的说明,当可对本申请为达成预定目的所采取的技术手段及效果得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本申请加以限制。
请参阅图1,图1为本申请基于视觉特征的信息深度处理方法一实施方式的流程示意图。
需要说明的是,本实施方式所述基于视觉特征的信息深度处理方法可以包括但不限于如下几个步骤。
步骤S101,获取基于视觉特征的图文数据;
步骤S102,对所述图文数据采用AI人工智能和/或深度学习技术进行语义识别,以识别得到意图信息;
步骤S103,根据识别得到的意图信息对所述图文数据执行预定义的操作策略,以形成用于媒体业的包括媒体内容、版权和/或用户资源的图文数据库。
容易理解的是,本实施方式以人工智能和深度学习技术为基础,可以实现互联网图文内容多元汇聚、语义分析和数据挖掘技术,建设报业集团内容、版权、用户资源的大数据资源体系。
进一步而言,本实施方式所述对所述图文数据采用AI人工智能和/或深度学习技术进行语义识别的步骤,具体包括:采用基于词义的SCM文档表示模型的AI人工智能和/或深度学习技术对所述图文数据进行语义识别。
不难理解的是,在自媒体时代背景下,目前互联网信息日益呈现出碎片化趋势,其突出的特点是信息的个性化、简短化,信息主体是零散的、泛化的、多重的。本实施方式可以采用向量空间模型(Vector Space Model,VSM)来解决处理互联网碎片化信息中出现的一词多义;但是,针对词汇本身的意义并不明确,并不是文档表示中最恰当的基本单元的情况,词汇所携带的意义是决定文档主题的基本元素,因此词义才是文档表示中更为恰当的基本单元。换而言之,文档能为词汇设定足够的上下文条件,足以确定文档中的每个词汇的具体词义。进一步来说,采用词义作为文档表示的基本单元,碎片化信息中的一词多义和多词同义现象即可迎刃而解。为此,本实施方式可以采用基于词义的文档表示模型(SenseCluster MocIel,SCM),以词义为基本特征度量文档之间的主题共性,允许文档长度更短,使得“碎片化”文档层面的主题分析可以实现,将主题分析研究推向了更高层次。
具体而言,本实施方式所述采用基于词义的SCM文档表示模型的AI人工智能和/或深度学习技术对所述图文数据进行语义识别的步骤,具体包括:
第一步,采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值;
第二步,采用基于相似度的余弦相似度、相对熵KL距离、Jensen-Shannon距离和Hellinger距离根据所述词义簇及其对应的权重值进行语义识别;或,采用基于产生式的隐含狄利克雷分布LDA根据所述词义簇及其对应的权重值构建主题—文档概率映射进行语义识别。
容易理解的是,本实施方式SCM模型相对于基于术语的模型来说,最大的改变是词义的引入,而由于词义的引入,使得SCM模型具备了解决“一词多义”和“多词同义”的问题,排除了术语模型下的模糊和,实现了文档的精确表示,从而显示出SCM模型显著的优越性。
本实施方式基于SCM模型的主题分析侧重于文档的表示,在文档得到基于词义的精确表示后,捕获到文档中的词义簇及其对应的权重。此后,可采取各种聚类方法对文档进行主题分析,主要包括基于相似度的方法和基于产生式的方法。而基于相似度的方法以VSM为代表,将自动获取的每个词义簇视为空间的一维,将文档表示在词义簇空间里的一个向量,从而能够实现基于相似度的文档聚类方法。此外,基于产生式的方法以LDA为代表,将每个词义簇与一个虚拟的主题空间进行主题—词义簇概率映射,最终构建主题—文档概率映射,寻找一个最贴近图文数据文档的主题。
需要特别说明的是,本实施方式所述采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值的步骤,具体包括:采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,其中,所述图像识别法包括采用贝叶斯Bayes模型或马尔柯夫Markow随机场MRF模型的统计法。
容易理解的是,本实施方式的统计法(Statistic Method),该方法可以对研究的图像进行大量的统计分析,找出其中的规律并提取反映图像本质特点的特征来进行图像识别的。本实施方式可以以数学上的决策理论为基础,建立统计学识别模型,因而是一种分类误差最小的方法。本实施方式可以采用图像统计模型有贝叶斯(Bayes)模型和马尔柯夫(Markow)随机场(MRF)模型。但是,贝叶斯决策规则虽然从理论上解决了最优分类器的设计问题,其应用却在很大程度受到了更为困难的概率密度估计问题的限制;同时,正是因为统计方法基于严格的数学基础,而忽略了被识别图像的空间结构关系,当图像非常复杂、类别数很多时,将导致特征数量的激增,给特征提取造成困难,也使分类难以实现。尤其是当被识别图像,如指纹、染色体等,其主要特征是结构特征时,用统计法就很难进行识别。
需要特别说明的是,本实施方式所述采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值的步骤,具体包括:采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,其中,所述图像识别法包括以符号来描述图像特征、采用图像分层描述、将图像分解为单层或多层子图像、以识别所述图文数据的空间结构关系信息的句法识别法。
容易理解的是,本实施方式句法识别法(Syntactic Recognition),该方法可以作为对统计法的补充,在用统计法对图像进行识别时,图像的特征是用数值特征描述的,而句法识别法则是用符号来描述图像特征的。句法识别法可以模仿语言学中句法的层次结构,采用分层描述的方法,把复杂图像分解为单层或多层的相对简单的子图像,主要突出被识别对象的空间结构关系信息。句法识别法的模式识别源于统计法,而句法识别法则扩大了模式识别的能力,使其不仅能用于对图像的分类,而且可以用于对景物的分析与物体结构的识别。但是,当存在较大的干扰和噪声时,句法识别法抽取子图像(基元)困难,容易产生误判率,难以满足分类识别精度和可靠度的要求。
需要特别说明的是,所述采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值的步骤,具体包括:采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,其中,所述图像识别法包括以模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程的神经网络方法。
容易理解的是,本实施方式神经网络方法(Neural Network),该方法是指用神经网络算法对图像进行识别的方法。神经网络系统是由大量的,同时也是很简单的处理单元,或称为神经元,其通过广泛地按照某种方式相互连接而形成的复杂网络系统,虽然每个神经元的结构和功能十分简单,但由大量的神经元构成的网络系统的行为却是丰富多彩和十分复杂的。神经网络方法可以反映人脑功能的许多基本特征,是人脑神经网络系统的简化、抽象和模拟。句法识别法侧重于模拟人的逻辑思维,而神经网络方法则侧重于模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程,与符号处理是一种互补的关系。本实施方式由于神经网络具有非线性映射逼近、大规模并行分布式存储和综合优化处理、容错性强、独特的联想记忆及自组织、自适应和自学习能力,因而特别适合处理需要同时考虑许多因素和条件的问题以及信息不确定性的模糊或不精确问题。
需要特别说明的是,所述采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值的步骤,具体包括:采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,其中,所述图像识别法包括以利用互相关计算匹配量度、用绝对差的平方和作为不匹配量度或利用几何变换的模板匹配法Template Matching。
容易理解的是,本实施方式所述模板匹配法(Template Matching),可以采用最基本的图像识别方法。其可以检测待识别图像的某些区域特征而设计阵列,既可以是数字量,也可以是符号串等。本实施方式模板匹配法可以把已知物体的模板与图像中所有未知物体进行比较,如果某一未知物体与该模板匹配,则该物体被检测出来,并被认为是与模板相同的物体。
此外,由于图像存在噪声以及被检测物体形状和结构方面的不确定性,模板匹配法在较复杂的情况下往往得不到理想的效果,难以绝对精确,因此,本实施方式可以在图像的每一点上求模板与图像之间的匹配量度,如果匹配量度达到某一阈值的地方,表示该图像中存在所要检测的物体。本实施方式可以利用互相关计算匹配量度,或用绝对差的平方和作为不匹配量度,但是这两种方法经常发生不匹配的情况,因此,本实施方式还可以利用几何变换的匹配方法来提高稳健性。
需要补充说明的是,本实施方式所述采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值的步骤,具体包括:采用基于词义的SCM文档表示模型的行业实体与关系抽取及智能关联技术捕获所述图文数据中的词义簇及其对应的权重值,其中,所述行业实体与关系抽取及智能关联技术用于:通过行业实体识别技术抽取出图文数据文档中所包含的公司名称、行业名称、个人名称和术语的实体,根据多层网络文本信息提取出这些实体之间的关系,对来自不同文档的实体和关系进行数据清洗,以进行同一实体辨认和错误的数据纠正,以根据实体和关系实现实体之间的智能关联。
容易理解的是,行业实体与关系抽取及智能关联,具体地说,通过行业实体识别技术,抽取出文档中所包含的实体,包括公司名称,行业名称,个人名称等,这些实体都会被存入行业信息知识库。之后,需要根据多层网络文本信息提取出这些实体之间的关系。关系的类型与行业息息相关,比如上游与下游企业等。在获得实体及实体之间的关系之后,系统还需要对来自不同文档的实体和关系进行数据清洗,包括同一实体辨认和错误的数据纠正,最后,根据实体和关系,实现实体之间的智能关联。
具体而言,本实施方式所述行业实体与关系抽取及智能关联技术,具体包括如下三种:
第一种,行业实体识别,用于辨认来自不同文档或同一文档之间的实体是否为现实世界的同一实体并判别纠正实体抽取与关系抽取中出现的错误,利用基于上下文语义的行业实体识别检测方法,包括:从图文数据的文本仓库里获得包含目标简称字符串的所有文本内容,提取简称字符串的上下文,并调整实意词的权重,以篇章上下文为对象,借助聚类算法对上下文进行聚类,采用人工智能对聚类获得的不同意义类簇进行归纳分析,确定具有确凿证据的企业简称上下文,利用企业简称上下文模型识别文本内容特定的企业简称并排除歧义情况。
举例而言,在行业实体识别过程中,多层网络信息由于内容作者知识背景、文化习惯等方面的差异,文本中的行业实体具有异常灵活的展现方式。观察发现,企业名称最常见的阐释方式是简称,其次是企业全称,另外还包含较大比例的别名。简称识别和别名识别给行业实体带来了巨大困难,举例来说“中国石油”可能是“中国石油天然气股份有限公司”,也很可能是“中国石油行业”。
本实施方式行业实体识别可以首先进行数据清洗。数据清洗采用以下方法实现:
清洗方法一,同一实体辨认:辨认来自不同文档或同一文档之间的实体是否为现实世界的同一实体。本实施方式可以采用半监督学习的办法实现同一实体辨认。
清洗方法二,错误数据纠正:负责判别纠正实体抽取与关系抽取中出现的错误。本实施方式在实体抽取和关系抽取过程中,可以采用统计分析的方法实现错误数据纠正。
然后,本实施方式采取基于上下文语义的行业实体识别检测方法,突破关键词检索技术的机械性,具有保持覆盖率、大幅度提高精度的特点。具体地说,本实施方式可以将针对有名称歧义的企业,进行海量文本分析:首先,从图文数据的文本仓库里获得包含该简称字符串的所有文本内容。然后,提取简称字符串的上下文,这里主要是篇章中所有的实义词汇。为突出包含简称字符串的句子在歧义分析中的贡献,本实施方式可以特地加大句子中实意词的权重。接下来,以篇章上下文为对象,借助聚类算法对上下文进行聚类。本实施方式可以不设定类簇个数,通过自然途径获得歧义简称字符串的不同意义。之后,本实施方式可以引入人工,对聚类获得的不同意义类簇进行归纳分析,确定具有确凿证据的企业简称上下文。最后利用企业简称上下文模型,识别文本内容特定的企业简称,排除其他歧义情况。
需要补充说明的是,企业名称出现在文本内容中有多种情况:主角、配角或无关。企业-内容关联技术是企业名称检测技术的延展,有助于确定是否某企业是某篇文本内容的核心企业,从而确定某企业关系的置信度。本实施方式可以采取句子权重打分自学习机制。首先对文本内容的文体进行预测。例如新闻文体里,第一段落的意义十分重要,而句子重要性随着内容后延而递减。其次,从未标注文本中自动获取文本内容各个句子的重要性指标,这一目标需要分类技术得以实现,需要人工标注部分样本。最后,在某企业名称出现在某句子里时,根据问题模型和出现位置,确定该企业在该文本中的置信度。
第二种,行业实体关系抽取及智能关联,用于从图文数据的多层网络海量信息中抽取包括人物–机构关系和机构–地点关系的行业实体静态关系,其包括实体关系抽取采取字典匹配方法、机器学习方法和/或MI互信息算法,其中:所述字典匹配方法用于从行业信息知识库中匹配现在已经存在的实体的名称或关系动词进行匹配;所述机器学习方法用于从少量的人工标注好的实体或关系实例开始,采用迭代学习并在每次迭代中获取新的实体或关系实例;所述MI互信息算法用于计算实体的MI值并对包括企业–企业关系、机构–地点关系、人物–地点关系的动态关系进行动态关系抽取。
具体而言,本实施方式行业实体关系抽取及智能关联可以采用如下处理过程:
首先,进行行业实体静态关系抽取。特定行业中,人物–机构关系和机构–地点关系属于静态关系,可从多层网络海量信息中抽取。实体关系抽取采取字典匹配和机器学习方法相结合的办法、机器学习方法或互信息(Mutual Information, MI)算法相结合的办法,具体可以包括如下三种:
第一种,字典匹配:本实施方式可以从行业信息知识库中匹配现在已经存在的实体的名称或关系动词进行匹配。字典匹配具有精确率高的优点,但是对于那些在知识库中不存在的实体和关系无能为力。特别是,字典匹配只能抽取有动词表达的关系,对其他词性表达的关系则效果较差。
第二种,机器学习方法:从少量的人工标注好的实体或关系实例开始,采用迭代学习的办法,在每次迭代中获取新的实体或关系实例。
第三种,互信息算法,其关系抽取算法可以综合处理人物–机构或机构–地点在同一条网络信息中同现的程度。本实施方式MI算法公式可以如下:
通过上述公式不难看出,两类实体若MI值较高,则具有较可信的关系。
然后进行动态关系抽取。企业–企业关系、机构–地点关系、人物–地点关系等属于动态关系,依赖于特定的事件。因此这些关系的抽取依赖于事件话题分析后的事件网络信息。虽然此时数据较为稀疏,同属某特定事件的网络信息内举行较强,从中发现的上述关系也较为可信。本实施方式可以采取简单统计手段就可获得。而由于上述事件中的关系具备唯一性,因此可简单选择一类关系中最为可信的关系作为最终结果。
第三种,多媒体文档的自动摘要技术,用于通过自动摘要技术把大量的图文数据信息变成较为短小的文档,包括:计算图文数据的句子相似度,采用MEAD系统的质心值、位置值和首句相似度值三个特征,并结合在线检测出的特征计算文摘句的特征,组合各种特征,计算权重,按句子权重信息自上而下、逐步筛选与已选文摘句冗余度小的句子添加到文摘中,生成符合长度要求的文摘句,按照文摘句在图文数据所表示的原始新闻数据流中的顺序排序,通过连接文本,形成文摘,并根据需求适当排除掉代表性低的文摘句。
容易理解的是,本实施方式多媒体文档的自动摘要技术,其具体实施例可以包括如下:
首先需要说明的是,由于互联网图文数据信息很多,本实施方式可以通过自动摘要技术把大量的图文信息变成较为短小的文档,而尽量保留“重要”信息。这是大数据时代重要的技术之一,为企业和个人及时筛选大量信息,大大提升效率。自动化摘要提取基本流程为:首先进行句子相似度的计算,然后进行文摘句的抽取,最后对文摘句进行排序,组织成一段文字。
第一,文摘句加权。基于原文抽取的自动文摘的基本思想是找到被认为能够反映中心思想的部分(句子或段落),把这些关键部分抽取出来以后组织成摘要。在摘要过程中,句子加权阶段首先进行特征的抽取,然后组合各种特征,计算权重。本实施方式可以采用MEAD系统的质心值、位置值和首句相似度值三个特征,并结合在线检测出的特征计算文摘句的特征。词的质心值即词在中的关键程度,在本实施方式中可以通过词的特征权重得出。本实施方式可以参考MEAD系统将三个特征线性组合起来。
第二,文摘句抽取。在获得句子的权值之后,接下来是根据权值选取句子。话题文摘的一个显著特点就是冗余度高,关键的信息往往被重复地在多篇文档中叙述,如果不加处理的直接按权值由高到低选取句子,选取的摘要势必会含有大量重复的内容。文摘句的选取就是要是选取的句子在涵盖文档集主要信息的同时,冗余信息尽可能少。本实施方式的句子选择方法可以按句子权重信息自上而下、逐步筛选与已选文摘句冗余度小的句子添加到文摘中,最终生成符合长度要求的文摘。
第三,文摘句排序。本实施方式可以按照文摘据在原始新闻数据流中的顺序排序,通过连接文本,即可形成文摘。为灵活控制文摘的长度,本实施方式还可根据需求适当排除掉代表性较弱的文摘句。
本申请能够对视觉特征的图文数据进AI处理和深度学习处理,然后建立可以适用于媒体业的图文数据库,实现行业的转型升级,提升行业的技术地位和发展优势,提高市场竞争力。
请参阅图2,本申请还提供一种基于视觉特征的信息深度处理系统,作为其中一种实施方式,其配置有处理器21,所述处理器21用于执行程序数据,以实现如图1及其实施方式所述的基于视觉特征的信息深度处理方法。
具体而言,所述处理器21用于获取基于视觉特征的图文数据;
所述处理器21用于对所述图文数据采用AI人工智能和/或深度学习技术进行语义识别,以识别得到意图信息;
所述处理器21用于根据识别得到的意图信息对所述图文数据执行预定义的操作策略,以形成用于媒体业的包括媒体内容、版权和/或用户资源的图文数据库。
容易理解的是,本实施方式以人工智能和深度学习技术为基础,可以实现互联网图文内容多元汇聚、语义分析和数据挖掘技术,建设报业集团内容、版权、用户资源的大数据资源体系。
进一步而言,本实施方式所述处理器21用于对所述图文数据采用AI人工智能和/或深度学习技术进行语义识别,具体包括:所述处理器21用于采用基于词义的SCM文档表示模型的AI人工智能和/或深度学习技术对所述图文数据进行语义识别。
不难理解的是,在自媒体时代背景下,目前互联网信息日益呈现出碎片化趋势,其突出的特点是信息的个性化、简短化,信息主体是零散的、泛化的、多重的。本实施方式可以采用如向量空间模型VSM来解决处理互联网碎片化信息中出现的一词多义;但是,针对词汇本身的意义并不明确,并不是文档表示中最恰当的基本单元的情况,词汇所携带的意义是决定文档主题的基本元素,因此词义才是文档表示中更为恰当的基本单元。换而言之,文档能为词汇设定足够的上下文条件,足以确定文档中的每个词汇的具体词义。进一步来说,采用词义作为文档表示的基本单元,碎片化信息中的一词多义和多词同义现象即可迎刃而解。为此,本实施方式可以采用基于词义的文档表示模型SCM,以词义为基本特征度量文档之间的主题共性,允许文档长度更短,使得“碎片化”文档层面的主题分析可以实现,将主题分析研究推向了更高层次。
具体而言,本实施方式所述处理器21用于采用基于词义的SCM文档表示模型的AI人工智能和/或深度学习技术对所述图文数据进行语义识别,具体包括:
第一步,所述处理器21用于采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值;
第二步,所述处理器21用于采用基于相似度的余弦相似度、相对熵KL距离、Jensen-Shannon距离和Hellinger距离根据所述词义簇及其对应的权重值进行语义识别;或,所述处理器21用于采用基于产生式的隐含狄利克雷分布LDA根据所述词义簇及其对应的权重值构建主题—文档概率映射进行语义识别。
容易理解的是,本实施方式SCM模型相对于基于术语的模型来说,最大的改变是词义的引入,而由于词义的引入,使得SCM模型具备了解决“一词多义”和“多词同义”的问题,排除了术语模型下的模糊和,实现了文档的精确表示,从而显示出SCM模型显著的优越性。
本实施方式基于SCM模型的主题分析侧重于文档的表示,在文档得到基于词义的精确表示后,捕获到文档中的词义簇及其对应的权重。此后,可采取各种聚类方法对文档进行主题分析,主要包括基于相似度的方法和基于产生式的方法。而基于相似度的方法以VSM为代表,将自动获取的每个词义簇视为空间的一维,将文档表示在词义簇空间里的一个向量,从而能够实现基于相似度的文档聚类方法。此外,基于产生式的方法以LDA为代表,将每个词义簇与一个虚拟的主题空间进行主题—词义簇概率映射,最终构建主题—文档概率映射,寻找一个最贴近图文数据文档的主题。
需要特别说明的是,本实施方式所述处理器21用于采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值,具体包括:所述处理器21用于采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,其中,所述图像识别法包括采用贝叶斯Bayes模型或马尔柯夫Markow随机场MRF模型的统计法。
容易理解的是,本实施方式的统计法(Statistic Method),该方法可以对研究的图像进行大量的统计分析,找出其中的规律并提取反映图像本质特点的特征来进行图像识别的。本实施方式可以以数学上的决策理论为基础,建立统计学识别模型,因而是一种分类误差最小的方法。本实施方式可以采用图像统计模型有贝叶斯(Bayes)模型和马尔柯夫(Markow)随机场(MRF)模型。但是,贝叶斯决策规则虽然从理论上解决了最优分类器的设计问题,其应用却在很大程度受到了更为困难的概率密度估计问题的限制;同时,正是因为统计方法基于严格的数学基础,而忽略了被识别图像的空间结构关系,当图像非常复杂、类别数很多时,将导致特征数量的激增,给特征提取造成困难,也使分类难以实现。尤其是当被识别图像,如指纹、染色体等,其主要特征是结构特征时,用统计法就很难进行识别。
需要特别说明的是,本实施方式所述处理器21用于采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值,具体包括:所述处理器21用于采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,其中,所述图像识别法包括以符号来描述图像特征、采用图像分层描述、将图像分解为单层或多层子图像、以识别所述图文数据的空间结构关系信息的句法识别法。
容易理解的是,本实施方式句法识别法(Syntactic Recognition),该方法可以对统计法的补充,在用统计法对图像进行识别时,图像的特征是用数值特征描述的,而句法识别法则是用符号来描述图像特征的。句法识别法可以模仿语言学中句法的层次结构,采用分层描述的方法,把复杂图像分解为单层或多层的相对简单的子图像,主要突出被识别对象的空间结构关系信息。句法识别法的模式识别源于统计法,而句法识别法则扩大了模式识别的能力,使其不仅能用于对图像的分类,而且可以用于对景物的分析与物体结构的识别。但是,当存在较大的干扰和噪声时,句法识别法抽取子图像(基元)困难,容易产生误判率,难以满足分类识别精度和可靠度的要求。
需要特别说明的是,所述处理器21用于采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值,具体包括:所述处理器21用于采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,其中,所述图像识别法包括以模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程的神经网络方法。
容易理解的是,本实施方式神经网络方法(Neural Network),该方法是指用神经网络算法对图像进行识别的方法。神经网络系统是由大量的,同时也是很简单的处理单元,或称为神经元,其通过广泛地按照某种方式相互连接而形成的复杂网络系统,虽然每个神经元的结构和功能十分简单,但由大量的神经元构成的网络系统的行为却是丰富多彩和十分复杂的。神经网络方法可以反映人脑功能的许多基本特征,是人脑神经网络系统的简化、抽象和模拟。句法识别法侧重于模拟人的逻辑思维,而神经网络方法则侧重于模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程,与符号处理是一种互补的关系。本实施方式由于神经网络具有非线性映射逼近、大规模并行分布式存储和综合优化处理、容错性强、独特的联想记忆及自组织、自适应和自学习能力,因而特别适合处理需要同时考虑许多因素和条件的问题以及信息不确定性的模糊或不精确问题。
需要特别说明的是,所述处理器21用于采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值,具体包括:所述处理器21用于采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,其中,所述图像识别法包括以利用互相关计算匹配量度、用绝对差的平方和作为不匹配量度或利用几何变换的模板匹配法Template Matching。
容易理解的是,本实施方式所述模板匹配法(Template Matching),可以采用最基本的图像识别方法。其可以检测待识别图像的某些区域特征而设计阵列,既可以是数字量,也可以是符号串等。本实施方式模板匹配法可以把已知物体的模板与图像中所有未知物体进行比较,如果某一未知物体与该模板匹配,则该物体被检测出来,并被认为是与模板相同的物体。
此外,由于图像存在噪声以及被检测物体形状和结构方面的不确定性,模板匹配法在较复杂的情况下往往得不到理想的效果,难以绝对精确,因此,本实施方式可以在图像的每一点上求模板与图像之间的匹配量度,如果匹配量度达到某一阈值的地方,表示该图像中存在所要检测的物体。本实施方式可以利用互相关计算匹配量度,或用绝对差的平方和作为不匹配量度,但是这两种方法经常发生不匹配的情况,因此,本实施方式还可以利用几何变换的匹配方法来提高稳健性。
需要补充说明的是,本实施方式所述处理器21用于采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值,具体包括:所述处理器21用于采用基于词义的SCM文档表示模型的行业实体与关系抽取及智能关联技术捕获所述图文数据中的词义簇及其对应的权重值,其中,所述行业实体与关系抽取及智能关联技术用于:通过行业实体识别技术抽取出图文数据文档中所包含的公司名称、行业名称、个人名称和术语的实体,根据多层网络文本信息提取出这些实体之间的关系,对来自不同文档的实体和关系进行数据清洗,以进行同一实体辨认和错误的数据纠正,以根据实体和关系实现实体之间的智能关联。
容易理解的是,行业实体与关系抽取及智能关联,具体地说,通过行业实体识别技术,抽取出文档中所包含的实体,包括公司名称,行业名称,个人名称等,这些实体都会被存入行业信息知识库。之后,需要根据多层网络文本信息提取出这些实体之间的关系。关系的类型与行业息息相关,比如上游与下游企业等。在获得实体及实体之间的关系之后,系统还需要对来自不同文档的实体和关系进行数据清洗,包括同一实体辨认和错误的数据纠正,最后,根据实体和关系,实现实体之间的智能关联。
具体而言,本实施方式所述行业实体与关系抽取及智能关联技术,具体包括如下三种:
第一种,行业实体识别,用于辨认来自不同文档或同一文档之间的实体是否为现实世界的同一实体并判别纠正实体抽取与关系抽取中出现的错误,利用基于上下文语义的行业实体识别检测方法,包括:从图文数据的文本仓库里获得包含目标简称字符串的所有文本内容,提取简称字符串的上下文,并调整实意词的权重,以篇章上下文为对象,借助聚类算法对上下文进行聚类,采用人工智能对聚类获得的不同意义类簇进行归纳分析,确定具有确凿证据的企业简称上下文,利用企业简称上下文模型识别文本内容特定的企业简称并排除歧义情况。
举例而言,在行业实体识别过程中,多层网络信息由于内容作者知识背景、文化习惯等方面的差异,文本中的行业实体具有异常灵活的展现方式。观察发现,企业名称最常见的阐释方式是简称,其次是企业全称,另外还包含较大比例的别名。简称识别和别名识别给行业实体带来了巨大困难,举例来说“中国石油”可能是“中国石油天然气股份有限公司”,也很可能是“中国石油行业”。
本实施方式行业实体识别可以首先进行数据清洗。数据清洗采用以下方法实现:
清洗方法一,同一实体辨认:辨认来自不同文档或同一文档之间的实体是否为现实世界的同一实体。本实施方式可以采用半监督学习的办法实现同一实体辨认。
清洗方法二,错误数据纠正:负责判别纠正实体抽取与关系抽取中出现的错误。本实施方式在实体抽取和关系抽取过程中,可以采用统计分析的方法实现错误数据纠正。
然后,本实施方式采取基于上下文语义的行业实体识别检测方法,突破关键词检索技术的机械性,具有保持覆盖率、大幅度提高精度的特点。具体地说,本实施方式可以将针对有名称歧义的企业,进行海量文本分析:首先,从图文数据的文本仓库里获得包含该简称字符串的所有文本内容。然后,提取简称字符串的上下文,这里主要是篇章中所有的实义词汇。为突出包含简称字符串的句子在歧义分析中的贡献,本实施方式可以特地加大句子中实意词的权重。接下来,以篇章上下文为对象,借助聚类算法对上下文进行聚类。本实施方式可以不设定类簇个数,通过自然途径获得歧义简称字符串的不同意义。之后,本实施方式可以引入人工,对聚类获得的不同意义类簇进行归纳分析,确定具有确凿证据的企业简称上下文。最后利用企业简称上下文模型,识别文本内容特定的企业简称,排除其他歧义情况。
需要补充说明的是,企业名称出现在文本内容中有多种情况:主角、配角或无关。企业-内容关联技术是企业名称检测技术的延展,有助于确定是否某企业是某篇文本内容的核心企业,从而确定某企业关系的置信度。本实施方式可以采取句子权重打分自学习机制。首先对文本内容的文体进行预测。例如新闻文体里,第一段落的意义十分重要,而句子重要性随着内容后延而递减。其次,从未标注文本中自动获取文本内容各个句子的重要性指标,这一目标需要分类技术得以实现,需要人工标注部分样本。最后,在某企业名称出现在某句子里时,根据问题模型和出现位置,确定该企业在该文本中的置信度。
第二种,行业实体关系抽取及智能关联,用于从图文数据的多层网络海量信息中抽取包括人物–机构关系和机构–地点关系的行业实体静态关系,其包括实体关系抽取采取字典匹配方法、机器学习方法和/或MI互信息算法,其中:所述字典匹配方法用于从行业信息知识库中匹配现在已经存在的实体的名称或关系动词进行匹配;所述机器学习方法用于从少量的人工标注好的实体或关系实例开始,采用迭代学习并在每次迭代中获取新的实体或关系实例;所述MI互信息算法用于计算实体的MI值并对包括企业–企业关系、机构–地点关系、人物–地点关系的动态关系进行动态关系抽取。
具体而言,本实施方式行业实体关系抽取及智能关联可以采用如下处理过程:
首先,进行行业实体静态关系抽取。特定行业中,人物–机构关系和机构–地点关系属于静态关系,可从多层网络海量信息中抽取。实体关系抽取采取字典匹配和机器学习方法相结合的办法、机器学习方法或互信息(Mutual Information, MI)算法相结合的办法,具体可以包括如下三种:
第一种,字典匹配:本实施方式可以从行业信息知识库中匹配现在已经存在的实体的名称或关系动词进行匹配。字典匹配具有精确率高的优点,但是对于那些在知识库中不存在的实体和关系无能为力。特别是,字典匹配只能抽取有动词表达的关系,对其他词性表达的关系则效果较差。
第二种,机器学习方法:从少量的人工标注好的实体或关系实例开始,采用迭代学习的办法,在每次迭代中获取新的实体或关系实例。
第三种,互信息算法,其关系抽取算法可以综合处理人物–机构或机构–地点在同一条网络信息中同现的程度。本实施方式MI算法公式可以如下:
通过上述公式不难看出,两类实体若MI值较高,则具有较可信的关系。
然后进行动态关系抽取。企业–企业关系、机构–地点关系、人物–地点关系等属于动态关系,依赖于特定的事件。因此这些关系的抽取依赖于事件话题分析后的事件网络信息。虽然此时数据较为稀疏,同属某特定事件的网络信息内举行较强,从中发现的上述关系也较为可信。本实施方式可以采取简单统计手段就可获得。而由于上述事件中的关系具备唯一性,因此可简单选择一类关系中最为可信的关系作为最终结果。
第三种,多媒体文档的自动摘要技术,用于通过自动摘要技术把大量的图文数据信息变成较为短小的文档,包括:计算图文数据的句子相似度,采用MEAD系统的质心值、位置值和首句相似度值三个特征,并结合在线检测出的特征计算文摘句的特征,组合各种特征,计算权重,按句子权重信息自上而下、逐步筛选与已选文摘句冗余度小的句子添加到文摘中,生成符合长度要求的文摘句,按照文摘句在图文数据所表示的原始新闻数据流中的顺序排序,通过连接文本,形成文摘,并根据需求适当排除掉代表性低的文摘句。
容易理解的是,本实施方式多媒体文档的自动摘要技术,其具体实施例可以包括如下:
首先需要说明的是,由于互联网图文数据信息很多,本实施方式可以通过自动摘要技术把大量的图文信息变成较为短小的文档,而尽量保留“重要”信息。这是大数据时代重要的技术之一,为企业和个人及时筛选大量信息,大大提升效率。自动化摘要提取基本流程为:首先进行句子相似度的计算,然后进行文摘句的抽取,最后对文摘句进行排序,组织成一段文字。
第一,文摘句加权。基于原文抽取的自动文摘的基本思想是找到被认为能够反映中心思想的部分(句子或段落),把这些关键部分抽取出来以后组织成摘要。在摘要过程中,句子加权阶段首先进行特征的抽取,然后组合各种特征,计算权重。本实施方式可以采用MEAD系统的质心值、位置值和首句相似度值三个特征,并结合在线检测出的特征计算文摘句的特征。词的质心值即词在中的关键程度,在本实施方式中可以通过词的特征权重得出。本实施方式可以参考MEAD系统将三个特征线性组合起来。
第二,文摘句抽取。在获得句子的权值之后,接下来是根据权值选取句子。话题文摘的一个显著特点就是冗余度高,关键的信息往往被重复地在多篇文档中叙述,如果不加处理的直接按权值由高到低选取句子,选取的摘要势必会含有大量重复的内容。文摘句的选取就是要是选取的句子在涵盖文档集主要信息的同时,冗余信息尽可能少。本实施方式的句子选择方法可以按句子权重信息自上而下、逐步筛选与已选文摘句冗余度小的句子添加到文摘中,最终生成符合长度要求的文摘。
第三,文摘句排序。本实施方式可以按照文摘据在原始新闻数据流中的顺序排序,通过连接文本,即可形成文摘。为灵活控制文摘的长度,本实施方式还可根据需求适当排除掉代表性较弱的文摘句。
本申请能够对视觉特征的图文数据进AI处理和深度学习处理,然后建立可以适用于媒体业的图文数据库,实现行业的转型升级,提升行业的技术地位和发展优势,提高市场竞争力。
此外,本申请还可以提供一种计算机可读存储介质,其用于存储程序数据,所述程序数据被处理器执行时,可以实现如图1、图2及其实施方式所述的方法、系统的功能和步骤。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本申请技术方案的范围内。
Claims (7)
1.一种基于视觉特征的信息深度处理方法,其特征在于,所述基于视觉特征的信息深度处理方法包括步骤:
获取基于视觉特征的图文数据;
对所述图文数据采用AI人工智能和/或深度学习技术进行语义识别,以识别得到意图信息:采用基于词义的SCM文档表示模型捕获所述图文数据中的词义簇及其对应的权重值;其中,捕获权重值具体包括:采用基于词义的SCM文档表示模型的图像识别法捕获所述图文数据中的词义簇及其对应的权重值,和采用基于词义的SCM文档表示模型的行业实体与关系抽取及智能关联技术捕获所述图文数据中的词义簇及其对应的权重值,其中,所述行业实体与关系抽取及智能关联技术用于:通过行业实体识别技术抽取出图文数据文档中所包含的公司名称、行业名称、个人名称和术语的实体,根据多层网络文本信息提取出这些实体之间的关系,对来自不同文档的实体和关系进行数据清洗,以进行同一实体辨认和错误的数据纠正,以根据实体和关系实现实体之间的智能关联;
采用余弦相似度、相对熵KL距离、Jensen-Shannon距离和Hellinger距离根据所述词义簇及其对应的权重值进行语义识别;或,采用基于产生式的隐含狄利克雷分布LDA根据所述词义簇及其对应的权重值构建主题—文档概率映射进行语义识别;
根据识别得到的意图信息对所述图文数据执行预定义的操作策略,以形成用于媒体业的包括媒体内容、版权和/或用户资源的图文数据库。
2.根据权利要求1所述的基于视觉特征的信息深度处理方法,其特征在于,
所述图像识别法包括采用贝叶斯Bayes模型或马尔柯夫随机场MRF模型的统计法。
3.根据权利要求1所述的基于视觉特征的信息深度处理方法,其特征在于,
所述图像识别法包括以符号来描述图像特征、采用图像分层描述、将图像分解为单层或多层子图像、以识别所述图文数据的空间结构关系信息的句法识别法。
4.根据权利要求1所述的基于视觉特征的信息深度处理方法,其特征在于,
所述图像识别法包括以模拟和实现人的认知过程中的感知觉过程、形象思维、分布式记忆和自学习自组织过程的神经网络方法。
5.根据权利要求1所述的基于视觉特征的信息深度处理方法,其特征在于,
所述图像识别法包括以利用互相关计算匹配量度、用绝对差的平方和作为不匹配量度或利用几何变换的模板匹配法Template Matching。
6.根据权利要求1所述的基于视觉特征的信息深度处理方法,其特征在于,所述行业实体与关系抽取及智能关联技术,具体包括:
行业实体识别,用于辨认来自不同文档或同一文档之间的实体是否为现实世界的同一实体并判别纠正实体抽取与关系抽取中出现的错误,利用基于上下文语义的行业实体识别检测方法,包括:从图文数据的文本仓库里获得包含目标简称字符串的所有文本内容,提取简称字符串的上下文,并调整实意词的权重,以篇章上下文为对象,借助聚类算法对上下文进行聚类,采用人工智能对聚类获得的不同意义类簇进行归纳分析,确定具有确凿证据的企业简称上下文,利用企业简称上下文模型识别文本内容特定的企业简称并排除歧义情况;
行业实体关系抽取及智能关联,用于从图文数据的多层网络海量信息中抽取包括人物–机构关系和机构–地点关系的行业实体静态关系,其包括实体关系抽取采取字典匹配方法、机器学习方法和/或MI互信息算法,其中:所述字典匹配方法用于从行业信息知识库中匹配现在已经存在的实体的名称或关系动词进行匹配;所述机器学习方法用于从少量的人工标注好的实体或关系实例开始,采用迭代学习并在每次迭代中获取新的实体或关系实例;所述MI互信息算法用于计算实体的MI值并对包括企业–企业关系、机构–地点关系或人物–地点关系的动态关系进行动态关系抽取;
多媒体文档的自动摘要技术,用于通过自动摘要技术把大量的图文数据信息变成较为短小的文档,包括:计算图文数据的句子相似度,采用MEAD系统的质心值、位置值和首句相似度值三个特征,并结合在线检测出的特征计算文摘句的特征,组合各种特征,计算权重,按句子权重信息自上而下、逐步筛选与已选文摘句冗余度小的句子添加到文摘中,生成符合长度要求的文摘句,按照文摘句在图文数据所表示的原始新闻数据流中的顺序排序,通过连接文本,形成文摘,并根据需求适当排除掉代表性低的文摘句。
7.一种基于视觉特征的信息深度处理系统,其特征在于,其配置有处理器,所述处理器用于执行程序数据,以实现如权利要求1-6任一项所述的基于视觉特征的信息深度处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911009497.2A CN110728151B (zh) | 2019-10-23 | 2019-10-23 | 基于视觉特征的信息深度处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911009497.2A CN110728151B (zh) | 2019-10-23 | 2019-10-23 | 基于视觉特征的信息深度处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728151A CN110728151A (zh) | 2020-01-24 |
CN110728151B true CN110728151B (zh) | 2024-03-12 |
Family
ID=69222835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911009497.2A Active CN110728151B (zh) | 2019-10-23 | 2019-10-23 | 基于视觉特征的信息深度处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728151B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283432A (zh) * | 2020-02-20 | 2021-08-20 | 阿里巴巴集团控股有限公司 | 图像识别、文字排序方法及设备 |
CN111309928A (zh) * | 2020-02-21 | 2020-06-19 | 广东电网有限责任公司 | 一种基于贝叶斯和语义分析的运维知识库构建方法 |
CN111507355B (zh) * | 2020-04-17 | 2023-08-22 | 北京百度网讯科技有限公司 | 一种字符识别方法、装置、设备和存储介质 |
CN111753496B (zh) * | 2020-06-22 | 2023-06-23 | 平安付科技服务有限公司 | 行业类别识别方法、装置、计算机设备及可读存储介质 |
CN112883684B (zh) * | 2021-01-15 | 2023-07-07 | 王艺茹 | 一种多用途视觉传达设计的信息处理方法 |
US11893818B2 (en) | 2021-07-21 | 2024-02-06 | Abbyy Development Inc. | Optimization and use of codebooks for document analysis |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326306A (zh) * | 2015-07-03 | 2017-01-11 | 湖南科兴达信息科技有限公司 | Pdf文件自动识别生成数字报刊技术 |
CN106445903A (zh) * | 2015-08-04 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 图文数据的排版方法和装置 |
CN106776523A (zh) * | 2017-01-22 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的新闻速报生成方法及装置 |
CN107924387A (zh) * | 2015-06-18 | 2018-04-17 | 缇洛公司 | 用于生成电子页面的系统和方法 |
CN108140235A (zh) * | 2015-10-14 | 2018-06-08 | 高通股份有限公司 | 用于产生图像视觉显示的系统和方法 |
CN110162753A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于生成文本模板的方法、装置、设备和计算机可读介质 |
-
2019
- 2019-10-23 CN CN201911009497.2A patent/CN110728151B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924387A (zh) * | 2015-06-18 | 2018-04-17 | 缇洛公司 | 用于生成电子页面的系统和方法 |
CN106326306A (zh) * | 2015-07-03 | 2017-01-11 | 湖南科兴达信息科技有限公司 | Pdf文件自动识别生成数字报刊技术 |
CN106445903A (zh) * | 2015-08-04 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 图文数据的排版方法和装置 |
CN108140235A (zh) * | 2015-10-14 | 2018-06-08 | 高通股份有限公司 | 用于产生图像视觉显示的系统和方法 |
CN106776523A (zh) * | 2017-01-22 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的新闻速报生成方法及装置 |
CN110162753A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于生成文本模板的方法、装置、设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110728151A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728151B (zh) | 基于视觉特征的信息深度处理方法及系统 | |
Qian et al. | Social event classification via boosted multimodal supervised latent dirichlet allocation | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
Yang et al. | Mining multi-tag association for image tagging | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
Ganesh | Prediction based on social media dataset using CNN-LSTM to classify the accurate Aggression level | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
Banerjee et al. | Bengali question classification: Towards developing qa system | |
CN109885675A (zh) | 基于改进lda的文本子话题发现方法 | |
Tian et al. | Image classification based on the combination of text features and visual features | |
CN115935194A (zh) | 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
Li | Text recognition and classification of english teaching content based on SVM | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN114792246A (zh) | 一种基于主题集成聚类的产品典型性特质挖掘方法及系统 | |
Perez-Tellez et al. | On the difficulty of clustering microblog texts for online reputation management | |
Soni et al. | The use of supervised text classification techniques: A comprehensive study | |
Prieto et al. | Open set classification of untranscribed handwritten text image documents | |
Digamberrao et al. | Author identification on literature in different languages: a systematic survey | |
Matos et al. | Comparing different approaches for detecting hate speech in online Portuguese comments | |
Nguyen et al. | Named entity disambiguation: A hybrid approach | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
Sundararajan et al. | Probabilistic model based context augmented deep learning approach for sarcasm detection in social media | |
Ramachandran et al. | Document Clustering Using Keyword Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |