CN111832082B - 图文完整性检测方法及装置 - Google Patents

图文完整性检测方法及装置 Download PDF

Info

Publication number
CN111832082B
CN111832082B CN202010841566.2A CN202010841566A CN111832082B CN 111832082 B CN111832082 B CN 111832082B CN 202010841566 A CN202010841566 A CN 202010841566A CN 111832082 B CN111832082 B CN 111832082B
Authority
CN
China
Prior art keywords
text
picture
information
characters
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010841566.2A
Other languages
English (en)
Other versions
CN111832082A (zh
Inventor
余红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010841566.2A priority Critical patent/CN111832082B/zh
Publication of CN111832082A publication Critical patent/CN111832082A/zh
Application granted granted Critical
Publication of CN111832082B publication Critical patent/CN111832082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本说明书的实施例提供用于检测针对对象的图文描述内容的图文完整性的方法和装置。在该方法中,获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息;根据图片描述信息和/或文字描述信息,确定图文完整性检测模型的模型特征向量;以及将所确定出的模型特征向量提供给图文完整性检测模型来进行图文完整性检测。

Description

图文完整性检测方法及装置
技术领域
本说明书实施例通常涉及信息处理领域,尤其涉及用于检测针对对象的图文描述内容的图文完整性的方法及装置。
背景技术
针对比如商品的对象,通常使用图文结合的方式来进行图文描述。为了确保图文描述内容能够真实地反映对象详情,需要图文描述内容具备一定的信息量。例如,电商交易平台上的商品,需要具备完整的图文详情,使得用户能够根据该图文详情获悉该商品的真实信息,由此确认是否匹配个人需求。当图文描述内容中的信息过于简洁时,将无法确保图文描述内容的真实性,用户也没有足够的信息来确认是否匹配个人需求。信息过于简洁的图文描述内容通常被认为是信息不完整,比如,只有公司联系方式、产品简单的规格信息,甚至无内容或无有效内容。为了确保对象的图文描述内容的真实性和完整性,需要对展示的图文详情进行图文完整性检验。
发明内容
鉴于上述,本说明书实施例提供用于检测针对对象的图文描述内容的图文完整性的方法及装置。利用该方法和装置,通过获取针对对象的图文描述内容中的图片描述信息和文字描述信息,并且根据图片描述信息和文字描述信息确定模型特征向量,然后将所确定出的模型特征向量作为图文完整性检测模型的模型输入来进行图文完整性检测,由此可以提升图文完整性检测的效率和准确率。
根据本说明书实施例的一个方面,提供一种用于检测针对对象的图文描述内容的图文完整性的方法,包括:获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息;根据所述图片描述信息和/或所述文字描述信息,确定图文完整性检测模型的模型特征向量;以及将所述模型特征向量提供给所述图文完整性检测模型来进行图文完整性检测。
可选地,在上述方面的一个示例中,所述图片描述信息包括图片数量信息和各个图片的图片尺寸信息,所述文字描述信息包括所包含的各种文字字符的字符数量信息。
可选地,在上述方面的一个示例中,所述模型特征向量的向量维度包括下述维度和/或其衍生维度:图片数量、图片尺寸、中文字符数量、字母字符数量、数字字符数量以及其它字符数量。
可选地,在上述方面的一个示例中,所述衍生维度包括下述维度中的至少一种:图片尺寸比例,文字字符总数,各种文字字符在文字字符总数中的占比,中文字符与字母字符、数字字符和/或其它字符之间的字符数量差值,以及中文字符与字母字符的交叉性。
可选地,在上述方面的一个示例中,在获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息之前,所述方法还包括:对针对对象的图文描述内容进行无效信息过滤处理,获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息包括:获取经过过滤处理后的图文描述内容中的图片描述信息和/或文字描述信息。
可选地,在上述方面的一个示例中,所述图文完整性检测模型包括下述模型中的一种:随机森林模型;决策树模型;梯度提升树模型;神经网络模型;支持向量机;感知机。
可选地,在上述方面的一个示例中,所述方法还可以包括:在检测出所述图文描述内容不具备图文完整性时,发出用于指示图文信息不完整的提示信息。
根据本说明书的实施例的另一方面,提供一种用于检测针对对象的图文描述内容的图文完整性的装置,包括:描述信息获取单元,获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息;特征向量确定单元,根据所述图片描述信息和/或所述文字描述信息,确定图文完整性检测模型的模型特征向量;以及图文完整性检测单元,将所述模型特征向量提供给所述图文完整性检测模型来进行图文完整性检测。
可选地,在上述方面的一个示例中,所述图片描述信息包括图片数量信息和各个图片的图片尺寸信息,所述文字描述信息包括所包含的各种文字字符的字符数量信息。
可选地,在上述方面的一个示例中,所述模型特征向量的向量维度包括下述维度和/或其衍生维度:图片数量、图片尺寸、中文字符数量、字母字符数量、数字字符数量以及其它字符数量。
可选地,在上述方面的一个示例中,所述衍生维度包括下述维度中的至少一种:图片尺寸比例,文字字符总数,各种文字字符在文字字符总数中的占比,中文字符与字母字符、数字字符和/或其它字符之间的字符数量差值,以及中文字符与字母字符的交叉性。
可选地,在上述方面的一个示例中,所述装置还包括:过滤处理单元,在获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息之前,对针对对象的图文描述内容进行无效信息过滤处理,所述描述信息获取单元获取经过过滤处理后的图文描述内容中的图片描述信息和/或文字描述信息。
可选地,在上述方面的一个示例中,所述装置还包括:提示单元,在检测出所述图文描述内容不具备图文完整性时,发出用于指示图文信息不完整的提示信息。
根据本说明书的实施例的另一方面,提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的图文完整性检测方法。
根据本说明书的实施例的另一方面,提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的图文完整性检测方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1A-1C示出了根据本说明书的实施例的图文详情描述的示例示意图。
图2示出了根据本说明书的实施例的用于检测针对对象的图文描述内容的图文完整性的方法的示例流程图。
图3示出了根据本说明书的实施例的图文完整性检测模型的训练过程的示例流程图。
图4示出了根据本说明书的实施例的用于检测针对对象的图文描述内容的图文完整性的装置的方框图。
图5示出了根据本说明书的实施例的用于实现语句叠字错误检测过程的电子设备的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
针对比如商品的对象,通常使用图文结合的方式来进行图文描述。为了确保图文描述内容能够真实地反映对象详情,需要图文描述内容具备一定的信息量。当图文描述内容中的图文信息不完整时,将无法确保图文描述内容的真实性,用户也没有足够的信息来确认是否匹配个人需求。为了确保对象的图文描述内容的真实性和完整性,需要对所展示(例如,线上展示)的图文详情进行图文完整性检验。
鉴于上述,本说明书的实施例提出用于检测针对对象的图文描述内容的图文完整性的方案。在该方案中,获取针对对象的图文描述内容中的图片描述信息和文字描述信息,并根据图片描述信息和文字描述信息确定模型特征向量,然后使用图文完整性检测模型来根据所确定出的模型特征向量来进行图文完整性检测,由此可以提升图文完整性检测的效率和准确率。
下面参照附图描述根据本说明书的实施例的用于检测针对对象的图文描述内容的图文完整性的方法及装置。
图1A-1C示出了根据本说明书的实施例的图文详情描述的示例示意图。
在图1A中,所示出的图文详情是文字描述信息,该文字描述信息仅仅包含一个数字字符“1”。在图1B中,所示出的图文详情是文字描述信息,该文字描述信息包括文字字符,所述文字字符包括中文字符、数字字符、字母字符以及符号字符。在图1C中,所示出的图文详情包含图片描述信息和文字描述信息。所包含的图片描述信息包括2张图片。
要说明的是,图1A-1C中示出的图文详情仅仅是例示实例。在本说明书的其它示例中,图文详情可以包括更多的图片和/或更多类型的文字字符。
图2示出了根据本说明书的实施例的用于检测针对对象的图文描述内容的图文完整性的方法200的示例流程图。
如图2所示,在210,获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息。例如,可以通过图像识别技术和/或文字识别技术来从图文描述内容中提取出图片描述信息和/或文字描述信息。图片描述信息的示例可以包括但不限于图片数量信息和各个图片的图片尺寸信息。文字描述信息的示例可以包括但不限于所包含的各种文字字符的字符数量信息。所述文字字符的示例可以包括但不限于中文字符、字母字符、数字字符以及其它字符。所述其它字符例如可以包括符号字符等。要说明的是,在进行字符数量统计时,除了中文字符、字母字符和数字字符之外的其它字符作为一种字符类型来整体统计。
在220,根据所获取的图片描述信息和/或文字描述信息,确定图文完整性检测模型的模型特征向量。这里,可以采用本领域中的任何合适的特征向量确定方式来确定出图文完整性检测模型的模型特征向量。在一个示例中,所确定出的模型特征向量的向量维度包括图片数量、图片尺寸、中文字符数量、字母字符数量、数字字符数量以及其它字符数量。在另一示例中,所确定出的模型特征向量的向量维度还可以包括上述向量维度的衍生维度。所述衍生维度的示例可以包括但不限于下述维度中的至少一种:图片尺寸比例,文字字符总数,各种文字字符在文字字符总数中的占比,中文字符与字母字符、数字字符和/或其它字符之间的字符数量差值,以及中文字符与字母字符的交叉性。中文字符与字母字符的交叉性用于反映中文字符与字母字符之间是否存在交叉放置的情形。例如,文字描述信息“你好3333”是中文字符与字母字符之间不存在交叉性的示例,以及文字描述信息“你2好2”是中文字符与字母字符之间存在交叉性的示例。
在230,将所确定出的模型特征向量提供给图文完整性检测模型来进行图文完整性检测。例如,可以将所述确定出的模型特征向量作为模型输入提供给图文完整性检测模型,图文完整性检测模型使用该模型特征向量来进行模型预测,由此确定出图文是否完整。在一个示例中,图文完整性检测模型可以是能够进行分类预测的模型。图文完整性检测模型的示例可以包括但不限于:随机森林模型;决策树模型;梯度提升树模型;神经网络模型;支持向量机;感知机。在这种情况下,需要预先使用经过标签标注后的图文详情数据作为训练数据来训练好图文完整性检测模型。
图3示出了根据本说明书的实施例的图文完整性检测模型的训练过程 300的示例流程图。
如图3所示,在310,获取经过标签标注后的历史图文详情数据(图文描述内容)中的图片描述信息和/或文字描述信息。
在320,根据所获取的图片描述信息和/或文字描述信息,确定图文完整性检测模型的模型特征向量。
在330,将所确定出的模型特征向量以及标签数据提供给图文完整性检测模型来进行模型训练,直到满足模型训练结束条件,由此训练出图文完整性检测模型。
在如上所述训练出图文完整性检测模型后,可以使用图文完整性检测模型来进行图文完整性检测。所训练出的图文完整性检测模型可以存储在图文完整性检测装置中,也可以存储在图文完整性检测装置的外部。
回到图2,在如上经过图文完整性检测模型的模型预测后,在240,根据模型预测结果判断图文是否完整。如果判断为图文完整,则流程结束,或者向用户提示图文信息完整。
如果判断为图文不完整(即,不具备图文完整性),则在250,发出用于指示图文信息不完整的提示信息。所述提示信息的示例可以包括但不限于语音信号、视频信号、闪烁光信号、蜂鸣信号、文本消息等。在一个示例中国,所述提示信息可以采用广播、组播或单播的方式发出。在用户接收到用于指示图文信息不完整的提示信息后,可以补充图文信息(例如,在用户是图文描述内容的上传者的情况下),或者驳回对象上传或向对象上传者发送图文信息描述不合规的通知(例如,在用户是对象上传合规监管者的情况下)。
此外,可选地,在获取针对对象的图文描述内容中的图片描述信息和文字描述信息之前,所述方法还可以包括:对针对对象的图文描述内容进行无效信息过滤处理,由此可以从图文描述内容中去除无效信息。所述无效信息例如可以是比如图片尺寸最长边长小于预定尺寸的图片,文字全部为标点符号的文字信息等。相应地,获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息包括:获取经过过滤处理后的图文描述内容中的图片描述信息和/或文字描述信息。
要说明的是,图2中示出的实施例仅仅是例示性的,在本说明书的其它实施例中,所述方法也可以不包括240的操作。
如上参照图1A到图3,对根据本说明书的实施例的图文完整性检测方法进行了描述。
利用该方法,通过获取针对对象的图文描述内容中的图片描述信息和文字描述信息,并根据图片描述信息和文字描述信息确定模型特征向量,然后使用图文完整性检测模型来根据所确定出的模型特征向量来进行图文完整性检测,可以提升图文完整性检测的效率和准确率。
图4示出了根据本说明书的实施例的用于检测针对对象的图文描述内容的图文完整性的装置(下文中称为“图文完整性检测装置”)400的方框图。如图4所示,图文完整性检测装置400包括描述信息获取单元410、特征向量确定单元420和图文完整性检测单元430。
描述信息获取单元410被配置为获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息。描述信息获取单元410的操作可以参考上面参照图2描述的210的操作。
特征向量确定单元420被配置为根据图片描述信息和/或文字描述信息,确定图文完整性检测模型的模型特征向量。特征向量确定单元420的操作可以参考上面参照图2描述的220的操作。
图文完整性检测单元430被配置为将所确定出的模型特征向量提供图文完整性检测模型来进行图文完整性检测。图文完整性检测单元430的操作可以参考上面参照图2描述的230的操作。
此外,可选地,在一个示例中,所述图片描述信息可以包括图片数量信息和各个图片的图片尺寸信息。所述文字描述信息可以包括所包含的各种文字字符的字符数量信息。
此外,可选地,在一个示例中,所述模型特征向量的向量维度可以包括下述维度和/或其衍生维度:图片数量、图片尺寸、中文字符数量、字母字符数量、数字字符数量以及其它字符数量。
此外,可选地,在一个示例中,所述衍生维度可以包括下述维度中的至少一种:图片尺寸比例,文字字符总数,各种文字字符在文字字符总数中的占比,中文字符与字母字符、数字字符和/或其它字符之间的字符数量差值,以及中文字符与字母字符的交叉性。
此外,可选地,图文完整性检测装置还可以包括过滤处理单元(未示出)。所述过滤处理单元被配置为在获取针对对象的图文描述内容中的图片描述信息和/或文字描述信息之前,对针对对象的图文描述内容进行无效信息过滤处理。相应地,描述信息获取单元410获取经过过滤处理后的图文描述内容的图片描述信息和/或文字描述信息。
此外,可选地,图文完整性检测装置还可以包括提示单元(未示出)。在检测出所述图文描述内容不具备图文完整性时,所述提示单元发出用于指示图文信息不完整的提示信息。
如上参照图1A 到图4,对根据本说明书实施例的图文完整性检测方法和图文完整性检测装置进行了描述。上面的图文完整性检测装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图5示出了根据本说明书的实施例的用于实现图文完整性检测过程的电子设备500的示意图。如图5所示,电子设备500可以包括至少一个处理器510、存储器(例如,非易失性存储器)520、内存530和通信接口540,并且至少一个处理器510、存储器520、内存530和通信接口540经由总线 560连接在一起。至少一个处理器510执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器510:获取针对对象的图文描述内容中的图片描述信息和 /或文字描述信息;根据图片描述信息和/或文字描述信息,确定图文完整性检测模型的模型特征向量;以及将模型特征向量提供给图文完整性检测模型来进行图文完整性检测。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器510进行本说明书的各个实施例中以上结合图1A-4描述的各种操作和功能。
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1A-4描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、 CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (9)

1.一种用于检测针对对象的图文描述内容的图文完整性的方法,包括:
对针对对象的图文描述内容进行无效信息过滤处理,所述无效信息包括图片尺寸最长边长小于预定尺寸的图片;
获取经过过滤处理后的图文描述内容中的图片数量信息、各个图片的图片尺寸信息和各种文字字符的字符数量信息,所述图文描述内容用于以图文结合的方式对所述对象进行图文描述,所述图片数量信息和所述各个图片的图片尺寸信息作为图片描述信息,所述各种文字字符的字符数量信息作为文字描述信息;
根据所述图片描述信息和所述文字描述信息,确定图文完整性检测模型的模型特征向量,其中,所述模型特征向量的向量维度包括下述维度和/或其衍生维度:图片数量、图片尺寸、中文字符数量、字母字符数量、数字字符数量以及其它字符数量;以及
将所述模型特征向量提供给所述图文完整性检测模型来进行图文完整性检测。
2.如权利要求1所述的方法,其中,所述衍生维度包括下述维度中的至少一种:图片尺寸比例,文字字符总数,各种文字字符在文字字符总数中的占比,中文字符与字母字符、数字字符和/或其它字符之间的字符数量差值,以及中文字符与字母字符的交叉性。
3.如权利要求1所述的方法,其中,所述图文完整性检测模型包括下述模型中的一种:
随机森林模型;
决策树模型;
梯度提升树模型;
神经网络模型;
支持向量机;
感知机。
4.如权利要求1所述的方法,还包括:
在检测出所述图文描述内容不具备图文完整性时,发出用于指示图文信息不完整的提示信息。
5.一种用于检测针对对象的图文描述内容的图文完整性的装置,包括:
过滤处理单元,对针对对象的图文描述内容进行无效信息过滤处理,所述无效信息包括图片尺寸最长边长小于预定尺寸的图片;
描述信息获取单元,获取经过过滤处理后的图文描述内容中的图片数量信息、各个图片的图片尺寸信息和各种文字字符的字符数量信息,所述图文描述内容用于以图文结合的方式对所述对象进行图文描述,所述图片数量信息和所述各个图片的图片尺寸信息作为图片描述信息,所述各种文字字符的字符数量信息作为文字描述信息;
特征向量确定单元,根据所述图片描述信息和所述文字描述信息,确定图文完整性检测模型的模型特征向量,其中,所述模型特征向量的向量维度包括下述维度和/或其衍生维度:图片数量、图片尺寸、中文字符数量、字母字符数量、数字字符数量以及其它字符数量;以及
图文完整性检测单元,将所述模型特征向量提供给所述图文完整性检测模型来进行图文完整性检测。
6.如权利要求5所述的装置,其中,所述衍生维度包括下述维度中的至少一种:图片尺寸比例,文字字符总数,各种文字字符在文字字符总数中的占比,中文字符与字母字符、数字字符和/或其它字符之间的字符数量差值,以及中文字符与字母字符的交叉性。
7.如权利要求5所述的装置,还包括:
提示单元,在检测出所述图文描述内容不具备图文完整性时,发出用于指示图文信息不完整的提示信息。
8.一种电子设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到4中任一所述的方法。
9.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到4中任一所述的方法。
CN202010841566.2A 2020-08-20 2020-08-20 图文完整性检测方法及装置 Active CN111832082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010841566.2A CN111832082B (zh) 2020-08-20 2020-08-20 图文完整性检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010841566.2A CN111832082B (zh) 2020-08-20 2020-08-20 图文完整性检测方法及装置

Publications (2)

Publication Number Publication Date
CN111832082A CN111832082A (zh) 2020-10-27
CN111832082B true CN111832082B (zh) 2023-02-24

Family

ID=72918894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010841566.2A Active CN111832082B (zh) 2020-08-20 2020-08-20 图文完整性检测方法及装置

Country Status (1)

Country Link
CN (1) CN111832082B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832765A (zh) * 2017-09-13 2018-03-23 百度在线网络技术(北京)有限公司 对包括文字内容和图像内容的图片识别
CN108399409A (zh) * 2018-01-19 2018-08-14 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN109885796A (zh) * 2019-01-25 2019-06-14 内蒙古工业大学 一种基于深度学习的网络新闻配图匹配性检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354168B2 (en) * 2016-04-11 2019-07-16 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
US10163022B1 (en) * 2017-06-22 2018-12-25 StradVision, Inc. Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same
CN109299682A (zh) * 2018-09-13 2019-02-01 北京字节跳动网络技术有限公司 视频文字检测方法、装置和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832765A (zh) * 2017-09-13 2018-03-23 百度在线网络技术(北京)有限公司 对包括文字内容和图像内容的图片识别
CN108399409A (zh) * 2018-01-19 2018-08-14 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN109885796A (zh) * 2019-01-25 2019-06-14 内蒙古工业大学 一种基于深度学习的网络新闻配图匹配性检测方法

Also Published As

Publication number Publication date
CN111832082A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN112861648B (zh) 文字识别方法、装置、电子设备及存储介质
US20130194448A1 (en) Rules for merging blocks of connected components in natural images
WO2014092979A1 (en) Method of perspective correction for devanagari text
KR20090084968A (ko) 모바일 장치 시스템을 이용한 디지탈 이미지 아카이빙 및 검색
US10140510B2 (en) Machine print, hand print, and signature discrimination
US11386897B2 (en) Method and system for extraction of key-terms and synonyms for the key-terms
RU2018145499A (ru) Автоматизация проверки достоверности изображения
CN113963147B (zh) 一种基于语义分割的关键信息提取方法及系统
CN111222409A (zh) 车辆品牌的标注方法、装置及系统
CN111079480A (zh) 身份证信息的识别方法、装置及终端设备
CN112001200A (zh) 识别码识别方法、装置、设备、存储介质和系统
CN116934195A (zh) 一种商品信息查验方法、装置、电子设备及存储介质
CN112784220A (zh) 一种纸质合同防篡改校验方法及系统
CN110852247A (zh) 异常检测方法、装置、电子设备及计算机可读存储介质
CN111832082B (zh) 图文完整性检测方法及装置
CN114550193A (zh) 文档完整性检测方法、系统和电子设备
CN112364702A (zh) 一种物品核验方法及装置
CN113111734B (zh) 一种水印分类模型训练方法及装置
CN109064121B (zh) 一种签署电子合同的方法及装置
CN107578250B (zh) 一种二维码防伪方法及系统
CN106055693B (zh) 一种信息处理方法及终端
CN115018783A (zh) 一种视频水印检测方法和装置、电子设备和存储介质
CN114692757A (zh) 一种异常驾驶行为的监测方法、装置及电子设备
CN114254138A (zh) 多媒体资源分类方法、装置、电子设备和存储介质
CN111125225A (zh) 账单数据解析方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant