CN112800771B - 文章识别方法、装置、计算机可读存储介质和计算机设备 - Google Patents

文章识别方法、装置、计算机可读存储介质和计算机设备 Download PDF

Info

Publication number
CN112800771B
CN112800771B CN202010097314.3A CN202010097314A CN112800771B CN 112800771 B CN112800771 B CN 112800771B CN 202010097314 A CN202010097314 A CN 202010097314A CN 112800771 B CN112800771 B CN 112800771B
Authority
CN
China
Prior art keywords
article
text
identified
sample
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010097314.3A
Other languages
English (en)
Other versions
CN112800771A (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010097314.3A priority Critical patent/CN112800771B/zh
Publication of CN112800771A publication Critical patent/CN112800771A/zh
Application granted granted Critical
Publication of CN112800771B publication Critical patent/CN112800771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文章的识别方法、装置、计算机可读存储介质和计算机设备,获取待识别文章,然后根据该文章的文本信息获取对应的词向量表示,并将该词向量表示作为该文章的文章语义特征,接着结合该文章的文章正文的正文呈现形式特征,从而根据文章的文章语义特征和正文呈现形式特征识别出该文章所属文章类型,该方案将文章整体的文章语义特征及其正文呈现形式特征进行结合来识别文章的类型,避免传统方式仅提取文章中个别关键字而未能命中关键词词典的缺陷,而能够从文章的整体文本语义以及正文呈现形式来对各类型文章进行识别,提高文章识别的准确性。

Description

文章识别方法、装置、计算机可读存储介质和计算机设备
技术领域
本申请涉及互联网技术领域,特别是涉及一种文章的识别方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着互联网技术的发展,如手机、平板电脑等各式各样的计算机设备可以通过互联网建立网络连接,以使信息资源能够在计算机设备上进行发布、浏览等。文章作为其中一种信息资源在互联网被广泛传播,例如社交平台的服务号可定期发布文章以供用户浏览,而用户也可通过文章搜索接口查询需要的文章。但这些文章当中可能会携带有如金融诈骗等敏感信息内容,需要对这类文章进行识别。
然而,传统方法主要是首先采集相关关键词词典,以提取文章关键字结合关键词词典命中情况的方式对待识别文章所属文章类型进行识别,例如识别该文章是否为金融诈骗类型的文章等,但这种方式存在对文章的识别准确率较低的技术问题。
发明内容
基于此,有必要针对传统技术存在对文章的识别准确率较低的技术问题,提供一种文章的识别方法、装置、计算机可读存储介质和计算机设备。
一种文章的识别方法,包括:
获取待识别文章;
根据所述待识别文章的文本信息获取所述待识别文章的词向量表示,将所述词向量表示作为所述待识别文章的文章语义特征;
获取所述待识别文章的正文呈现形式特征;
根据所述文章语义特征和正文呈现形式特征,识别所述待识别文章的文章类型。
一种文章的识别装置,所述装置包括:
文章获取模块,用于获取待识别文章;
语义特征获取模块,用于根据所述待识别文章的文本信息获取所述待识别文章的词向量表示,将所述词向量表示作为所述待识别文章的文章语义特征;
形式特征获取模块,用于获取所述待识别文章的正文呈现形式特征;
类型识别模块,用于根据所述文章语义特征和正文呈现形式特征,识别所述待识别文章的文章类型。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取待识别文章;根据所述待识别文章的文本信息获取所述待识别文章的词向量表示,将所述词向量表示作为所述待识别文章的文章语义特征;获取所述待识别文章的正文呈现形式特征;根据所述文章语义特征和正文呈现形式特征,识别所述待识别文章的文章类型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取待识别文章;根据所述待识别文章的文本信息获取所述待识别文章的词向量表示,将所述词向量表示作为所述待识别文章的文章语义特征;获取所述待识别文章的正文呈现形式特征;根据所述文章语义特征和正文呈现形式特征,识别所述待识别文章的文章类型。
上述文章的识别方法、装置、计算机可读存储介质和计算机设备,获取待识别文章,然后根据该文章的文本信息获取对应的词向量表示,并将该词向量表示作为该文章的文章语义特征,接着结合该文章的文章正文的正文呈现形式特征,从而根据文章的文章语义特征和正文呈现形式特征识别出该文章所属文章类型,该方案将文章整体的文章语义特征及其正文呈现形式特征进行结合来识别文章的类型,避免传统方式仅提取文章中个别关键字而未能命中关键词词典的缺陷,而能够从文章的整体文本语义以及正文呈现形式特征来对各类型文章进行识别,提高文章识别的准确性。
附图说明
图1为一个实施例中文章的识别方法的应用环境图;
图2为一个实施例中文章的识别方法的流程示意图;
图3为一个实施例中获取词向量表示步骤的流程示意图;
图4为一个实施例中文章展示界面的界面示意图;
图5为一个实施例中获取文章的正文呈现形式特征的流程示意图;
图6为另一个实施例中文章的识别方法的流程示意图;
图7为一个实施例中信用卡文章的对比示意图;
图8为一个实施例中文章的识别装置的结构框图;
图9为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请的文章的识别方法,可以应用于如图1所示的应用环境中,图1为一个实施例中文章的识别方法的应用环境图,该应用环境可以包括第一终端110、服务器120和第二终端130,服务器120可以通过互联网等网络与第一终端110和第二终端130建立通信连接。其中,服务器120可以是如微信公众平台、微博等内容交互平台的服务器,内容交互平台可以应用于用户终端进行如文章、音频等内容的发布、浏览等操作,例如第二终端130可以通过内容交互平台的服务器120发布文章,服务器120可以将该文章推送给第一终端110进行浏览。以微信公众平台为例,服务器120可以是微信公众平台的服务器,微信公众号对应的文章发布账户可以通过第二终端130将文章发送至微信公众平台的服务器120进行发布,第一终端110则可以通过微信公众平台的服务器120浏览该公众号发布的文章。
在服务器120将文章推送给第一终端110进行浏览之前,可以先对该文章所属文章类型进行识别,如果该文章类型为敏感类型,则可以不将该文章进行推送。例如,服务器120识别该文章为金融诈骗类文章,则可以不将该文章推送给第一终端110,还可以对第二终端130进行警告、封禁处理。具体的,服务器120可以将第二终端130发送的文章作为待识别文章,根据该待识别文章的文本信息获取该文章的词向量表示,并将该词向量表示作为该文章的文章语义特征,接着获取该文章的正文呈现形式特征,最后根据该文章的文章语义特征和正文呈现形式特征识别出该文章所属文章类型,例如识别出是否为金融诈骗类文章等。
其中,第一终端110、第二终端130具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种文章的识别方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明,参照图2,该文章的识别方法具体包括如下步骤:
步骤S201,获取待识别文章。
本步骤中,服务器120可以将文章发布账户通过如图1所示的第二终端130发送的待发布文章,作为待识别文章。也就是说,服务器120可以作为文章管理平台,对需要发布的文章先进行文章类型识别处理,如果该文章的文章类型满足发布要求,则可以将该文章进行发布。
其中,文章发布账户可以在第二终端130上生成待发布文章,具体来说,可以为文章设置文章标题、文章正文内容等,文章发布账户可以按照服务器120规定的文章格式模板,将具体的文本、图片、音频或者视频中的一种或多种内容作为文章的正文内容,为这些正文内容设置相应的文章标题,从而生成待发布文章。在该待发布文章生成完毕后,通过第二终端130发送给服务器120,服务器120获取该待发布文章并作为待识别文章。
需要说明的是,除了第二终端130发送的待发布文章以外,服务器120也可以将其本地存储的已发布文章作为待识别文章。具体而言,服务器120上的部分文章可能已经开放给第一终端110、第二终端130进行浏览,但这些文章的文章类型可能较早前发布而未经文章类型识别的,对此服务器120可以将这些文章作为待识别文章,从而对这些文章进行识别,如果从中识别出文章类型不满足发布要求的文章,则可以撤销这些文章的开放权限,从而使得第一终端110、第二终端130不可访问这些文章。
步骤S202,根据待识别文章的文本信息获取待识别文章的词向量表示,将词向量表示作为待识别文章的文章语义特征。
本步骤主要是服务器120获取待识别文章整体的文章语义特征。其中,文章语义特征主要用于从整体上反映该待识别文章的含义,例如可以综合该待识别文章中如文字、图片等各元素之间存在的相互联系或区别获取该待识别文章的语义特征。由此,获取待识别文章的语义特征可以从整体上得到该文章整体的含义,这样可以避免如虽然文章当中不实际包含能命中敏感词词典的敏感词,但从文章的整体语义上与敏感词相关的待识别文章无法被准确分类的缺陷,从而有利于对文章的类型进行识别。具体的,服务器120可以先获取待识别文章的文本信息,基于该文本信息提取该文章整体的文章语义特征。其中,待识别文章的文本信息可以以文字、图片、音频和视频等形式携带于待识别文章当中。对于以文字形式存在的文本信息,服务器120可以直接将相应的文字作为文本信息,而对于以图片、音频和视频等形式存在的文本信息,则服务器120可以将相应形式的内容转化为文字,从而得到对应的文本信息。服务器120在得到待识别文章的文本信息后,根据该文本信息获取该待识别文章的词向量表示。具体的,服务器120可以对待识别文章的文本信息进行分词处理,并获取对应于各分词的多个词向量,根据多个词向量得到该待识别文章的词向量表示,最后将该词向量表示作为待识别文章的文章语义特征。在实际应用中,可以利用深度学习分类工具如fastext模型、word2vec模型来获取该待识别文章的词向量表示。
步骤S203,获取待识别文章的正文呈现形式特征。
本步骤中,服务器120获取该待识别文章的正文呈现形式特征。其中,正文呈现形式特征是指文章的正文内容所采用的内容呈现形式的特征,举例来说,该正文内容的内容呈现形式可以包括纯文字、大段文字、纯图片、图片加小段文字、音频加文字、音频加动画以及图片嵌入导流链接等多种形式呈现,服务器120根据待识别文章的正文呈现形式获取相应的正文呈现形式特征,例如是否包含有大篇幅文字、是否含有嵌入了导流链接的图片等特征。本步骤能够从正文内容形式特征的角度,有助于判别该待识别文章是否含有特定文章类型才会采用的正文呈现形式特征,例如一般的金融诈骗类文章会在正文布置一张包含有导流型二维码的图片,而通过判断当前的待识别文章的正文是否包含有图片嵌入导流链接,将有助于识别出该文章是否属于金融诈骗类文章。
需要说明的是,本步骤S203主要是获取待识别文章的文章正文对应的正文呈现形式特征,并不影响步骤S202根据待识别文章的文本信息获取待识别文章的词向量表示从而得到待识别文章的文章语义特征的过程,从而本步骤S203可以在步骤S202之前执行,也可以在步骤S202之后执行。
步骤S204,根据文章语义特征和正文呈现形式特征,识别待识别文章的文章类型。
本步骤中,服务器120结合待识别文章整体的文章语义特征,以及该文章的在文章正文的正文呈现形式特征来对待识别文章的文章类型进行识别,从整体语义以及正文内容呈现形式两个角度识别该文章对应的文章类型,提高文章识别的准确性。作为一个实施例,服务器120可以预先对一些样本文章及其对应的文章类型进行标记,在得到待识别文章的文章语义特征和正文呈现形式特征后,即可将各样本文章的文章语义特征、正文呈现形式特征分别与该待识别文章的文章语义特征、正文呈现形式特征进行比较,得到相应的文章语义特征相似度以及正文呈现形式特征相似度,从而可以根据待识别文章与各样本文章之间的文章语义特征相似度以及正文呈现形式特征相似度,判断出该待识别文章所属文章类型。
上述实施例提供的文章的识别方法,服务器120获取待识别文章,然后服务器120根据该文章的文本信息获取对应的词向量表示,并将该词向量表示作为该文章的文章语义特征,接着服务器120结合该文章的文章正文的正文呈现形式特征,从而根据文章的文章语义特征和正文呈现形式特征识别出该文章所属文章类型。该方法能够将文章整体的文章语义特征及其正文呈现形式特征进行结合来识别文章的类型,避免传统方式仅提取文章中个别关键字而未能命中关键词词典的缺陷,而能够从文章的整体文本语义以及正文呈现形式特征来对各类型文章进行识别,提高文章识别的准确性。
上述实施例,主要是以本申请提供的文章的识别方法应用于服务器120进行说明,需要说明的是,本申请提供的文章的识别方法也可以由服务器120和终端相互配合执行。具体来说,第二终端130可以获取待识别文章,该待识别文章可以是文章发布账户在该第二终端130上进行编辑的待发布文章,然后第二终端130可以先提取出该待发布文章的文本信息,然后将待发布文章和该待发布文章的文本信息通过互联网发送至服务器120,服务器120可以直接根据第二终端130发送的该待识别文章的文本信息获取待识别文章的词向量表示,并将其作为待识别文章的文章语义特征,并且获取该待识别文章的正文呈现形式特征,最后服务器120即可根据文章语义特征和正文呈现形式特征,识别待识别文章的文章类型,而该文章类型还可以进一步由服务器120反馈给第二终端130,可以用于指示第二终端130根据其文章类型对待发布文章进行重新编辑等操作,从而由服务端和用户端相互配合完成对待识别文章所属文章类型进行识别的处理过程。
如图3所示,图3为一个实施例中获取词向量表示步骤的流程示意图,在一个实施例中,步骤S202中的根据待识别文章的文本信息获取待识别文章的词向量表示,可以包括:
步骤S301,对待识别文章的文本信息进行分词,得到待识别文章的文本词。
其中,服务器120在得到待识别文章后,可以获取该待识别文章的文本信息,并对该文本信息进行分词处理,得到该待识别文章的文本词。其中,待识别文章的文本词指对文本信息进行分词处理得到的分词结果,该文本信息中通常包括多段文字,各段文字均可以包括多个语句,而服务器120可以将这些语句进行分词处理,得到多个文本词。
在一个实施例中,对待识别文章的文本信息进行分词的步骤,具体可以包括:
获取待识别文章的文本信息,将文本信息中包含的设定字符进行过滤,得到过滤后的文本信息,将过滤后的文本信息转化为设定字体类型的文本信息,对设定字体类型的文本信息进行分词。
其中,服务器120可以预先设置特定的字符,用于对待识别文章的文本信息进行过滤处理,以便对该待识别文章的文本信息进行分词处理。其中,服务器120预先设置的字符可以但不限于是空白字符或者标点符号等,即服务器120可以先将待识别文章的文本信息中包含的空白字符或者标点符号进行过滤,得到过滤后的文本信息。然后,服务器120可以将该过滤后的文本信息转化为设定字体类型的文本信息,例如服务器120可以将文本信息中的繁体字转化为简体字等,从而得到设定字体类型的文本信息,并对该文本信息进行分词处理。
在上述实施例中,服务器120先对设定字符进行过滤在进行字体类型的转化,需要说明的是,服务器120也可以先进行字体类型的转化,再进行设定字符的过滤处理,该两个步骤可以进行互换。
在一个实施例中,在对待识别文章的文本信息进行分词之前,可以通过如下方式获取待识别文章的文本信息,具体包括:
步骤S3011,获取待识别文章的标题文本;
步骤S3012,获取待识别文章的正文内容;
步骤S3013,将正文内容中包含的非文本类型的内容转化为对应的文本,得到正文文本;
步骤S3014,根据标题文本和正文文本,得到待识别文章的文本信息。
本实施例,待识别文章的具体构成可以包括文章的标题、文章的正文。如图4所示,图4为一个实施例中文章展示界面的界面示意图,在该界面示意图当中,文章的标题可以在标题显示区域410当中进行显示,而该文章的标题通常是以文本类型的内容进行呈现,服务器120可以获取该待识别文章的标题文本;此外,文章的正文内容以及文章发布账户、文章发布时间均可以在文章正文展示区域420当中进行展示,其中,文章的正文内容可以包括多种类型的内容,可以将其分为文本类型和非文本类型,文本类型可以对应于纯文字内容,而非文本类型则可以包括图片、动画、视频和音频等类型。
文章正文展示区域420可以包括文本内容展示区域421和非文本内容展示区域422,文本内容展示区域421用于展示文章的正文内容中包含的文本类型的内容,而非文本内容展示区域422用于展示文章的正文内容中包含的非文本类型的内容。其中,对于正文内容中包含的文本类型的内容,服务器120可以直接获取其文本作为正文文本;而对于正文内容中包含的非文本类型的内容,服务器120则需要将其转化为对应的文本,从而得到正文文本。需要说明的是,对于仅包含文本类型的内容的正文内容,可以将文本类型的内容直接作为该正文内容的正文文本;对于仅包含非文本类型的内容,可以将该非文本类型的内容转化为对应的文本,并将其作为该正文内容的正文文本;而对于既包含文本类型的内容又包含非文本类型的内容的正文内容,可以将这两部分对应的文本进行组合,作为正文内容的正文文本。最后,服务器120将标题文本和正文内容对应的正文文本作为待识别文章的文本信息。
本实施例,可以有效地将待识别文章的标题和包含有各类型内容的正文内容中提取出其携带的文本信息,避免遗漏待识别文章中包含的文本信息,使得文本信息能够被完整提取,以便基于该文本信息准确获取该待识别文章的文章语义特征。
在其中一个实施例中,非文本类型的内容可以包括目标图片,上述步骤S3013中的将正文内容中包含的非文本类型的内容转化为对应的文本,得到正文文本,具体可以包括:
获取目标图片中携带的文字信息,确定文字信息在目标图片上的布局特征,将文字信息转化为与布局特征相匹配的文本,得到正文文本。
本实施例主要是服务器120可以从包含有图片的正文内容中提取相应正文文本。具体的,服务器120可以先从目标图片中识别出该目标图片携带的文字信息,例如对于包含信用卡的图片,可以从中识别出卡号、银行等文字信息,而考虑到图片属于二维数据,而服务器120需要从中识别出有序的一维文本序列以便于生成相应词向量,由此服务器120除了获取目标图片中携带的文字信息后,确定该文字信息在目标图片上的布局特征,该布局特征可以用于表征该文字信息在图片上的文字排布信息,例如在包含信用卡的图片当中,银行卡的卡号是从左至右排列还是由上而下排列等,通过结合文字信息在目标图片上的布局特征,服务器120可以将文字信息转化为与布局特征相匹配的文本,从而得到不破坏正文内容原有语义的正文文本。
进一步的,在一些实施例当中,非文本类型的内容可以包括依序展示的至少两张目标图片;上述将文字信息转化为与布局特征相匹配的文本,得到正文文本的步骤,可以包括:
将各目标图片中的文字信息转化为与布局特征相匹配的文本,得到至少两个子正文文本;按照各目标图片对应的展示顺序,将至少两个子正文文本组合得到正文文本。
具体的,文章的正文内容中可以包括至少两张目标图片,该至少两张目标图片可以在正文内容中依序进行展示。如图4所示,这种图片展示方式,可以对应于在非文本内容展示区域422中播放视频,其中,视频的各帧图像可以对应于目标图片,目标图片可以在视频播放的过程中依序进行展示;又如,这种图片展示方式还可以对应于在非文本内容展示区域422中播放动画,各帧动画可以对应于目标图片。由于目标图片是依序展示的,由此,服务器120可以首先将各目标图片中的文字信息分别转化为与其布局特征相匹配的文本,从而得到至少两个子正文文本,各子正文文本分别对应于不同的目标图片,最后服务器120可以按照各目标图片对应的展示顺序,将该至少两个子正文文本进行组合,最终得到正文内容。该方案能够在文章的正文内容包含有多张依序展示的目标图片的情况下,有序地将各图片对应的正文文本进行组合,从而得到不破坏正文内容原有语义的正文文本。
步骤S302,获取与文本词的词义特征对应的第一词向量,获取与文本词的构词特征对应的第二词向量;
步骤S303,根据第一词向量和第二词向量获取待识别文章的词向量表示。
上述步骤S302和S303,服务器120获取与待识别文章的文本词对应的第一词向量和第二词向量。其中,第一词向量是指与文本词的词义特征对应的词向量,而第二词向量是指与文本词的构词特征对应的词向量。根据与该待识别文章的各文本词的词义特征以及构词特征对应的词向量,获取待识别文章的词向量表示。具体的,待识别文章的文本词的数量可以是多个,可以获取各文本词的第一词向量和第二词向量。其中,各文本词可以具有词义特征和构词特征,词义特征是指该文本词本身的语义特征,根据该本身的语义特征,可以将该文本词本身转化为一个词向量,该词向量即为第一词向量。以“办理信用卡”作为文本词为例,根据其词义特征,可以将“办理信用卡”本身转化为第一词向量;而构词特征是指构成该文本词的特征,例如可以按照设定的字数将该文本词划分为多个字词以表现该文本词的构词特性。还是以“办理信用卡”为例,按照设定的字数2将“办理信用卡”划分为“办理”、“理信”、“信用”和“用卡”等字词,然后将这些字词分别转化为词向量,得到对应于该文本词的第二词向量。由此,服务器120可以获取待识别文章中各文本词对应的第一词向量和第二词向量,根据各文本词对应的第一词向量和第二词向量得到待识别文章的词向量表示。采用该实施例的方式获取待识别文章的词向量表示,能够比仅采用各文本词单词本身得到词向量表示更加准确,进一步提高获取待识别文章的文章语义特征的准确性,基于此也有利于对待识别文章的文章类型进行更准确识别。
在一个实施例中,待识别文章的正文呈现形式特征可以包括文本统计特征或者正文导流特征中的至少一种。其中,文本统计特征可以包括该待识别文章的正文内容所包含的文本类型的内容的字数等,即文章正文的长度特征,而对于如涉及金融诈骗类的文章,其正文内容往往很少,甚至正文不包含任何内容,这样,基于正文内容的文本统计特征,可以有助于对特定类型的文章进行有效识别。而正文导流特征可以包括在该文章的正文内容当中是否存在导流链接等特征,该导流链接可以包括以二维码等形式呈现的网页链接等,该导流链接的主要目的在于通过该文章为相应的网页进行导流,以期在用户访问该链接后跳转到其他网页当中,而这些网页可能是涉及金融诈骗的网页。
由此,可以根据文本统计特征和正文导流特征获取待识别文章的正文呈现形式特征,在一些实施例中,如图5所示,图5为一个实施例中获取文章的正文呈现形式特征的流程示意图,步骤S203中的获取待识别文章的正文呈现形式特征,具体可以包括:
步骤S501,获取待识别文章的正文文本,确定正文文本对应的文本统计特征。
其中,服务器120获取待识别文章的正文文本,并对该正文文本中的文本类型的内容对应的文本字数进行统计,将该文本字数作为正文文本对应的文本统计特征,即服务器120可以将该待识别文章的正文长度特征作为文本统计特征。
步骤S502,确定待识别文章的正文内容中的导流标识信息。
其中,该导流标识信息可以包括图片中是否包含二维码、文章的正文内容中是否含有网页链接等等。
步骤S503,根据导流标识信息得到待识别文章的正文导流特征。
本步骤中,服务器120可以根据导流标识信息对相应的网页进行访问,例如解析图片中包含的二维码,访问其对应的网页,判断该网页是否为特定类型的网页,例如是否为金融诈骗等敏感网页,从而可以确定该待识别文章的正文导流特征,例如可以确定该待识别文章是否包含有导流至敏感网页的导流链接。
步骤S504,根据文本统计特征和正文导流特征,获取正文呈现形式特征。
服务器120可以将文本统计特征和正文导流特征作为该待识别文章的正文呈现形式特征。
本实施例可以将待识别文章的正文长度特征以及是否包含导流型二维码等特征作为待识别文章的正文呈现形式特征,基于此可以将正文长度特征以及是否包含导流型二维码等特征与待识别文章的文章语义特征进行结合,对于目的为恶意导流的文章,其在文章的正文内容中通常只包含有极少量的文字并一般会在图片中嵌入导流型二维码进行导流,本实施例的方案将有助于对此类文章进行准确识别。
在一个实施例中,步骤S204中的根据文章语义特征和正文呈现形式特征,识别待识别文章的文章类型,具体包括:
将文章语义特征和正文呈现形式特征输入至预先构建的文章分类器;获取该文章分类器得到的文章类型,得到待识别文章的文章类型。
本实施例主要是利用预先构建的文章分类器获取对应于该文章语义特征和正文呈现形式特征的文章类型,并将其作为待识别文章的文章类型。其中,该文章分类器可以是服务器120根据至少两种文章类型的文章样本的样本特征信息,进行模型训练得到的文章分类器,而该至少两种文章类型的文章样本的样本特征信息,相应的,需要包括样本文章语义特征和样本正文呈现形式特征。
进一步的,在将文章语义特征和正文呈现形式特征输入至预先构建的文章分类器之前,具体可以通过如下步骤获取文章分类器:
获取原始文章样本,获取对该原始文章样本的文章类型标注指令,根据文章类型标注指令,将原始文章样本划分为至少两种文章类型的文章样本,获取至少两种文章类型的文章样本的样本文章语义特征,以及获取至少两种文章类型的文章样本的样本正文呈现形式特征,利用至少两种文章类型的文章样本的样本文章语义特征和样本正文呈现形式特征进行模型训练,得到文章分类器。
在一些实施例中,可以通过如下方式获取原始文章样本,具体步骤可以包括:
获取设定时间段内发布的备选文章集,将备选文章集中的文章标题包含预设敏感词的文章,作为目标文章;确定目标文章对应的文章发布账户;若文章发布账户发布的目标文章的数量大于设定数量阈值,则将文章发布账户作为目标账户;从目标账户发布的历史文章中获取原始文章样本。
具体的,服务器120可以预存有多个历史文章,该多个历史文章可以是由不同的文章发布账户发布的历史文章,服务器120可以从这些历史文章中获取原始文章样本。其中,服务器120可以获取一设定时间段如近半年内发布的历史文章,作为备选文章集。然后从备选文章集当中,提取标题包含有预设敏感词如“信用卡”的文章,将这些文章作为目标文章。
然后,服务器120进一步确定这些目标文章对应的文章发布账户,即查询这些目标文章分别是由哪些账户发布的,然后确定出各文章发布账户所发布的目标文章的数量,如果某个文章发布账户所发布的目标文章的数量大于设定的数量阈值(如4),则将该文章发布账户设为目标账户,由此可筛选出经常发布敏感文章的账户,进而服务器120可以获取这些目标账户所发布的历史文章,从其发布的历史文章中随机选取部分作为原始文章样本,以提高对文章样本标注的效率和有效性。
其中,原始文章样本的数量可以是多个,用户可以对这些原始文章样本的文章类型进行人工标注,服务器120可以获取用户输入的对该原始文章样本的文章类型标注指令,并根据该文章类型标注指令,将这些原始文章样本划分为至少两种文章类型的文章样本。
具体的,可以将原始文章样本划分为正负样本,即将原始文章样本划分为两种类型的文章样本,而其中对原始文章样本的文章类型进行人工标注的步骤中,可以依照预设的正负样本标注规则,对各原始文章样本进行标注。举例来说,负样本标注规则可以包括:1、标题恶意导流,例如对于文章标题当中包含预设关键词的文章进行标注;2、文章正文比较短,并且介绍如信用卡等特定信息,但图片配敏感网页的二维码链接;3、该文章对应的文章发布账户多次发布格式、排版类似的敏感文章;而对于正样本标注规则,可以是未对应有如上情形的文章均标注为正样本。
在将原始文章样本划分为至少两种文章类型的文章样本后,可以进一步获取该至少两种文章类型的文章样本的样本文章语义特征和样本正文呈现形式特征。
其中,为了实现基于文章分类器对待识别文章的文章类型进行准确识别,需要采用与获取待识别文章的文章语义特征和正文呈现形式特征相同的方式,来获取与文章样本的样本文章语义特征和样本正文呈现形式特征。以样本文章语义特征为例,获取至少两种文章类型的文章样本的样本文章语义特征的步骤,具体包括:
获取至少两种文章类型的文章样本的样本文本信息,根据样本文本信息的词义特征获取对应的第一样本词向量,根据样本文本信息的构词特征获取对应的第二样本词向量,根据第一样本词向量和第二样本词向量,获取至少两种文章类型的文章样本的样本文章语义特征。
具体来说,各文章类型的文章样本,可以通过同样的方式获取对应的样本文章语义特征。首先,服务器120可以将该样本文本信息进行分词处理,得到对应的多个样本文本词;而针对于各样本文本词,服务器120获取与该样本文本词的词义特征对应的第样本词向量,以及获取与该样本文本词的构词特征对应的第二样本词向量。接着,服务器120可根据各样本文本词对应的第一样本词向量和第二样本词向量,获取各文章类型的文章样本的样本文章语义特征。
从而,服务器120可以采用与获取待识别文章的文章语义特征和正文呈现形式特征相同的方式,获取该至少两种文章类型的文章样本对应的样本文章语义特征和样本正文呈现形式特征,并利用该至少两种文章类型的文章样本的样本文章语义特征和样本正文呈现形式特征进行模型训练,得到文章分类器。
总体而言,本实施例中,服务器120可以先采集多个文章样本,对这些文章样本所属文章类型进行标注,得到至少两种文章类型的文章样本,然后采用与获取待识别文章的文章语义特征和正文呈现形式特征相同的方式,获取该至少两种文章类型的文章样本对应的样本文章语义特征和样本正文呈现形式特征。根据该样本文章语义特征和样本正文呈现形式特征以及被标注的文章类型,可以对文章分类器进行模型训练,得到训练后的文章分类器,以使得该文章分类器可以根据输入的文章语义特征和正文呈现形式特征,输出对应的文章类型。在具体实现中,该文章分类器可以基于如逻辑回归模型、梯度提升树模型等模型实现。
在一个实施例中,提供了一种文章的识别方法,如图6所示,图6为另一个实施例中文章的识别方法的流程示意图,该方法包括如下步骤:
步骤S601,获取待识别文章;
步骤S602,对待识别文章的文本信息进行分词,得到待识别文章的文本词;
步骤S603,获取与文本词的词义特征对应的第一词向量,获取与文本词的构词特征对应的第二词向量;
步骤S604,根据第一词向量和第二词向量获取待识别文章的词向量表示,将词向量表示作为待识别文章的文章语义特征;
步骤S605,获取待识别文章的正文文本,确定正文文本对应的文本统计特征;
步骤S606,确定待识别文章的正文内容中的导流标识信息;根据导流标识信息得到待识别文章的正文导流特征;
步骤S607,根据文本统计特征和正文导流特征,获取正文呈现形式特征。
步骤S608,将文章语义特征和正文呈现形式特征输入至预先构建的文章分类器;其中,该文章分类器是根据至少两种文章类型的文章样本的样本特征信息,进行模型训练得到的文章分类器;该样本特征信息包括样本文章语义特征和样本正文呈现形式特征;
步骤S609,获取文章分类器得到的文章类型,得到待识别文章的文章类型。
上述文章的识别方法,可以利用如fastext模型对待识别文章的文本信息进行分词处理得到第一词向量和第二词向量,将该第一词向量和第二词向量作为待识别文章的词向量表示,并作为待识别文章的文章语义特征;另外,还获取待识别文章的正文文本对应的文本统计特征,以及根据正文内容中的导流标识信息获取待识别文章的正文导流特征,例如可以提取该文章的正文长度特征以及是否包含导流型二维码等特征作为正文呈现形式特征,最后将文章语义特征和正文呈现形式特征输入至文章分类器,得到该待识别文章对应的文章类型,其中,从而实现基于有监督的文章语义特征和正文呈现形式特征对待识别文章的文章类型进行准确识别。
为了更清晰阐明本申请的技术方案,将本申请的文章的识别方法,应用于对微信公众号的文章进行识别,可以用于识别微信公众号发布的文章是否为金融诈骗类文章,如图7所示,图7为一个实施例中信用卡文章的对比示意图,对于正常信用卡文章,其正文内容通常包含一定信息量的文本类型的内容配合以图片形式展示的银行的正规短信样式,而对于广告作弊类信用卡文章,则通常包含较少或者不包含文本类型的正文内容,而由于其目的在于恶意导流,其正文内容往往为空,通常只包含一张图片,而且该图片当中包含有导流型二维码,该导流型二维码通常会链接至金融诈骗网页。
对此,本应用示例有通过如下方式训练出针对于微信公众号文章进行广告作弊识别的广告作弊分类器,并基于该广告作弊分类器对微信公众号发布的文章进行识别。主要步骤包括:
1、正负训练样本构建:
正负训练样本的构建过程,可以包括对负文章样本的人工标注以及对负文章样本的人工标注。
例如,可以获取微信公众平台近半年的全量文章中包含有“信用卡”的备选文章,并这些备选文章,按照所属公众号进行划分,确定发布备选文章的数量大于等于四的公众号,作为目标公众号,从这些目标公众号发布的历史公众号文章当中随机选取部分进行手动标注正负样本。具体标注规则如下:
i.对于标题恶意导流;其中,该标题中常包含关键词:公众号、进度查询、入口、官方和中心等;
ii.对于文章的正文较短、介绍特定信用卡,但图片配贷款平台二维码;
iii.公众号会多次发布格式、排版类似的信用卡作弊文章。
即满足上述标注规则的历史公众号文章,被标注为负样本;而其余未有如上情形的历史公众号文章则被标为正样本。
2、有监督文本语义表示学习
获取如上标注好的正负样本集合,对这些文章样本做如下基本正规化处理:
i.将文章样本中的繁体转化为简体;
ii.采用如ansj等分词工具进行中文分词;
iii.过滤空白字符和标点符号;
如上三步正规化处理的顺序可以根据实际情况进行调整。然后,可以使用如fastext模型对这些正规化处理得到的文章样本进行训练得到二分类器,同时得到每个文章样本对应的文章语义特征。
3、基于有监督的文章语义特征训练广告作弊分类器
使用上述fasttext模型对每个文章样本得到的词向量表示作为该文章样本的文章语义特征后,再提取该文章样本的正文长度特征以及是否包含二维码等正文呈现形式特征,利用这些被预先标注的正负文章样本的文章语义特征以及正文呈现形式特征对如逻辑回归模型、梯度提升树模型等模型进行训练,得到广告作弊分类器。这样,微信公众号平台的服务器即可利用该训练好的广告作弊分类器,对各待识别文章所属文章类型进行准确识别,具体的,服务器可以首先获取待识别文章,并利用fasttext模型根据该待识别文章的文本信息获取该待识别文章的词向量表示,并作为该待识别文章的文章语义特征,然后获取待识别文章的包括正文长度特征和是否包含二维码等作为待识别文章的正文呈现形式特征,将该待识别文章的文章语义特征和正文呈现形式特征输入到训练好的广告作弊分类器,识别该待识别文章的是否为金融诈骗类文章。
在一个实施例中,提供了一种文章的识别装置,如图8所示,图8为一个实施例中文章的识别装置的结构框图,该文章的识别装置800,可以包括:
文章获取模块801,用于获取待识别文章;
语义特征获取模块802,用于根据待识别文章的文本信息获取待识别文章的词向量表示,将词向量表示作为待识别文章的文章语义特征;
形式特征获取模块803,用于获取待识别文章的正文呈现形式特征;
类型识别模块804,用于根据文章语义特征和正文呈现形式特征,识别待识别文章的文章类型。
在一个实施例中,语义特征获取模块802,进一步用于:对待识别文章的文本信息进行分词,得到待识别文章的文本词;获取与文本词的词义特征对应的第一词向量,获取与文本词的构词特征对应的第二词向量;根据第一词向量和第二词向量获取待识别文章的词向量表示。
在一个实施例中,语义特征获取模块802,进一步用于:获取待识别文章的文本信息;将文本信息中包含的设定字符进行过滤,得到过滤后的文本信息;将过滤后的文本信息转化为设定字体类型的文本信息;对设定字体类型的文本信息进行分词。
在一个实施例中,语义特征获取模块802,还用于:获取待识别文章的标题文本;获取待识别文章的正文内容;将正文内容中包含的非文本类型的内容转化为对应的文本,得到正文文本;根据标题文本和正文文本,得到待识别文章的文本信息。
在一个实施例中,非文本类型的内容包括目标图片;语义特征获取模块802,进一步用于:
获取目标图片中携带的文字信息;确定文字信息在目标图片上的布局特征;将文字信息转化为与布局特征相匹配的文本,得到正文文本。
在一个实施例中,非文本类型的内容包括依序展示的至少两张目标图片;语义特征获取模块802,进一步用于:将各目标图片中的文字信息转化为与布局特征相匹配的文本,得到至少两个子正文文本;按照各目标图片对应的展示顺序,将至少两个子正文文本组合得到正文文本。
在一个实施例中,正文呈现形式特征包括文本统计特征或者正文导流特征中的至少一种。
在一个实施例中,正文呈现形式特征包括文本统计特征和正文导流特征;形式特征获取模块803,进一步用于:获取待识别文章的正文文本,确定正文文本对应的文本统计特征;确定待识别文章的正文内容中的导流标识信息;根据导流标识信息得到待识别文章的正文导流特征;根据文本统计特征和正文导流特征,获取正文呈现形式特征。
在一个实施例中,类型识别模块804,进一步用于:将文章语义特征和正文呈现形式特征输入至预先构建的文章分类器;其中,文章分类器是根据至少两种文章类型的文章样本的样本特征信息,进行模型训练得到的文章分类器;样本特征信息包括样本文章语义特征和样本正文呈现形式特征;获取文章分类器得到的文章类型,得到待识别文章的文章类型。
在一个实施例中,类型识别模块804,还用于:获取原始文章样本;获取对原始文章样本的文章类型标注指令;根据文章类型标注指令,将原始文章样本划分为至少两种文章类型的文章样本;获取至少两种文章类型的文章样本的样本文章语义特征,以及获取至少两种文章类型的文章样本的样本正文呈现形式特征;利用至少两种文章类型的文章样本的样本文章语义特征和样本正文呈现形式特征进行模型训练,得到文章分类器。
在一个实施例中,类型识别模块804,进一步用于:获取设定时间段内发布的备选文章集;将备选文章集中的文章标题包含预设敏感词的文章,作为目标文章;确定目标文章对应的文章发布账户;若文章发布账户发布的目标文章的数量大于设定数量阈值,则将文章发布账户作为目标账户;从目标账户发布的历史文章中获取原始文章样本。
在一个实施例中,类型识别模块804,进一步用于:获取至少两种文章类型的文章样本的样本文本信息;根据样本文本信息的词义特征获取对应的第一样本词向量;根据样本文本信息的构词特征获取对应的第二样本词向量;根据第一样本词向量和第二样本词向量,获取至少两种文章类型的文章样本的样本文章语义特征。
图9为一个实施例中计算机设备的结构框图。该计算机设备具体可以是图1中的服务器120。如图9所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文章的识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文章的识别方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文章的识别方法的步骤。此处文章的识别方法的步骤可以是上述各个实施例的文章的识别方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文章的识别方法的步骤。此处文章的识别方法的步骤可以是上述各个实施例的文章的识别方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (22)

1.一种文章的识别方法,包括:
获取待识别文章;
根据所述待识别文章的文本信息获取所述待识别文章的词向量表示,将所述词向量表示作为所述待识别文章的文章语义特征;
获取所述待识别文章的正文文本,确定所述正文文本对应的文本统计特征;
确定所述待识别文章的正文内容中的导流标识信息;所述导流标识信息用于指示图片中是否包含二维码、文章的正文内容中是否含有网页链接;
根据所述导流标识信息得到所述待识别文章的正文导流特征;所述正文导流特征是指文章的正文内容中是否存在导流链接的特征;
根据所述文本统计特征和正文导流特征,获取正文呈现形式特征;所述正文呈现形式特征是指文章的正文内容所采用的内容呈现形式的特征;
将所述文章语义特征和正文呈现形式特征输入至预先构建的文章分类器;其中,所述文章分类器是根据至少两种文章类型的文章样本的样本特征信息,进行模型训练得到的文章分类器;所述样本特征信息包括样本文章语义特征和样本正文呈现形式特征;
获取所述文章分类器得到的文章类型,得到所述待识别文章的文章类型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文章的文本信息获取所述待识别文章的词向量表示,包括:
对所述待识别文章的文本信息进行分词,得到所述待识别文章的文本词;
获取与所述文本词的词义特征对应的第一词向量,获取与所述文本词的构词特征对应的第二词向量;
根据所述第一词向量和第二词向量获取所述待识别文章的词向量表示。
3.根据权利要求2所述的方法,其特征在于,所述对所述待识别文章的文本信息进行分词之前,还包括:
获取所述待识别文章的标题文本;
获取所述待识别文章的正文内容;
将所述正文内容中包含的非文本类型的内容转化为对应的文本,得到正文文本;
根据所述标题文本和正文文本,得到所述待识别文章的文本信息。
4.根据权利要求3所述的方法,其特征在于,所述非文本类型的内容包括目标图片;所述将所述正文内容中包含的非文本类型的内容转化为对应的文本,得到正文文本,包括:
获取所述目标图片中携带的文字信息;
确定所述文字信息在所述目标图片上的布局特征;
将所述文字信息转化为与所述布局特征相匹配的文本,得到所述正文文本。
5.根据权利要求4所述的方法,其特征在于,所述非文本类型的内容包括依序展示的至少两张所述目标图片;所述将所述文字信息转化为与所述布局特征相匹配的文本,得到所述正文文本,包括:
将各目标图片中的文字信息转化为与所述布局特征相匹配的文本,得到至少两个子正文文本;
按照所述各目标图片对应的展示顺序,将所述至少两个子正文文本组合得到所述正文文本。
6.根据权利要求2所述的方法,其特征在于,所述对所述待识别文章的文本信息进行分词,包括:
获取所述待识别文章的文本信息;
将所述文本信息中包含的设定字符进行过滤,得到过滤后的文本信息;
将所述过滤后的文本信息转化为设定字体类型的文本信息;
对所述设定字体类型的文本信息进行分词。
7.根据权利要求1所述的方法,其特征在于,所述正文呈现形式特征包括文本统计特征或者正文导流特征;其中,所述文本统计特征为所述待识别文章的正文内容中属于文本类型的内容的统计特征;所述正文导流特征为所述待识别文章的正文内容中具有的导流特征。
8.根据权利要求1所述的方法,其特征在于,所述将所述文章语义特征和正文呈现形式特征输入至预先构建的文章分类器之前,还包括:
获取原始文章样本;
获取对所述原始文章样本的文章类型标注指令;
根据所述文章类型标注指令,将所述原始文章样本划分为所述至少两种文章类型的文章样本;
获取所述至少两种文章类型的文章样本的样本文章语义特征,以及获取所述至少两种文章类型的文章样本的样本正文呈现形式特征;
利用所述至少两种文章类型的文章样本的样本文章语义特征和样本正文呈现形式特征进行模型训练,得到所述文章分类器。
9.根据权利要求8所述的方法,其特征在于,所述获取原始文章样本,包括:
获取设定时间段内发布的备选文章集;
将所述备选文章集中的文章标题包含预设敏感词的文章,作为目标文章;
确定所述目标文章对应的文章发布账户;
若所述文章发布账户发布的所述目标文章的数量大于设定数量阈值,则将所述文章发布账户作为目标账户;
从所述目标账户发布的历史文章中获取所述原始文章样本。
10.根据权利要求8所述的方法,其特征在于,所述获取所述至少两种文章类型的文章样本的样本文章语义特征,包括:
获取所述至少两种文章类型的文章样本的样本文本信息;
根据所述样本文本信息的词义特征获取对应的第一样本词向量;
根据所述样本文本信息的构词特征获取对应的第二样本词向量;
根据所述第一样本词向量和所述第二样本词向量,获取所述至少两种文章类型的文章样本的样本文章语义特征。
11.一种文章的识别装置,其特征在于,所述装置包括:
文章获取模块,用于获取待识别文章;
语义特征获取模块,用于根据所述待识别文章的文本信息获取所述待识别文章的词向量表示,将所述词向量表示作为所述待识别文章的文章语义特征;
形式特征获取模块,用于获取所述待识别文章的正文文本,确定所述正文文本对应的文本统计特征;确定所述待识别文章的正文内容中的导流标识信息;所述导流标识信息用于指示图片中是否包含二维码、文章的正文内容中是否含有网页链接;根据所述导流标识信息得到所述待识别文章的正文导流特征;所述正文导流特征是指文章的正文内容中是否存在导流链接的特征;根据所述文本统计特征和正文导流特征,获取正文呈现形式特征;所述正文呈现形式特征是指文章的正文内容所采用的内容呈现形式的特征;
类型识别模块,用于将所述文章语义特征和正文呈现形式特征输入至预先构建的文章分类器;其中,所述文章分类器是根据至少两种文章类型的文章样本的样本特征信息,进行模型训练得到的文章分类器;所述样本特征信息包括样本文章语义特征和样本正文呈现形式特征;获取所述文章分类器得到的文章类型,得到所述待识别文章的文章类型。
12.根据权利要求11所述的装置,其特征在于,所述根据所述待识别文章的文本信息获取所述待识别文章的词向量表示,包括:
对所述待识别文章的文本信息进行分词,得到所述待识别文章的文本词;
获取与所述文本词的词义特征对应的第一词向量,获取与所述文本词的构词特征对应的第二词向量;
根据所述第一词向量和第二词向量获取所述待识别文章的词向量表示。
13.根据权利要求12所述的装置,其特征在于,所述对所述待识别文章的文本信息进行分词之前,还包括:
获取所述待识别文章的标题文本;
获取所述待识别文章的正文内容;
将所述正文内容中包含的非文本类型的内容转化为对应的文本,得到正文文本;
根据所述标题文本和正文文本,得到所述待识别文章的文本信息。
14.根据权利要求13所述的装置,其特征在于,所述非文本类型的内容包括目标图片;所述将所述正文内容中包含的非文本类型的内容转化为对应的文本,得到正文文本,包括:
获取所述目标图片中携带的文字信息;
确定所述文字信息在所述目标图片上的布局特征;
将所述文字信息转化为与所述布局特征相匹配的文本,得到所述正文文本。
15.根据权利要求14所述的装置,其特征在于,所述非文本类型的内容包括依序展示的至少两张所述目标图片;所述将所述文字信息转化为与所述布局特征相匹配的文本,得到所述正文文本,包括:
将各目标图片中的文字信息转化为与所述布局特征相匹配的文本,得到至少两个子正文文本;
按照所述各目标图片对应的展示顺序,将所述至少两个子正文文本组合得到所述正文文本。
16.根据权利要求12所述的装置,其特征在于,所述对所述待识别文章的文本信息进行分词,包括:
获取所述待识别文章的文本信息;
将所述文本信息中包含的设定字符进行过滤,得到过滤后的文本信息;
将所述过滤后的文本信息转化为设定字体类型的文本信息;
对所述设定字体类型的文本信息进行分词。
17.根据权利要求11所述的装置,其特征在于,所述正文呈现形式特征包括文本统计特征或者正文导流特征;其中,所述文本统计特征为所述待识别文章的正文内容中属于文本类型的内容的统计特征;所述正文导流特征为所述待识别文章的正文内容中具有的导流特征。
18.根据权利要求11所述的装置,其特征在于,所述将所述文章语义特征和正文呈现形式特征输入至预先构建的文章分类器之前,还包括:
获取原始文章样本;
获取对所述原始文章样本的文章类型标注指令;
根据所述文章类型标注指令,将所述原始文章样本划分为所述至少两种文章类型的文章样本;
获取所述至少两种文章类型的文章样本的样本文章语义特征,以及获取所述至少两种文章类型的文章样本的样本正文呈现形式特征;
利用所述至少两种文章类型的文章样本的样本文章语义特征和样本正文呈现形式特征进行模型训练,得到所述文章分类器。
19.根据权利要求18所述的装置,其特征在于,所述获取原始文章样本,包括:
获取设定时间段内发布的备选文章集;
将所述备选文章集中的文章标题包含预设敏感词的文章,作为目标文章;
确定所述目标文章对应的文章发布账户;
若所述文章发布账户发布的所述目标文章的数量大于设定数量阈值,则将所述文章发布账户作为目标账户;
从所述目标账户发布的历史文章中获取所述原始文章样本。
20.根据权利要求18所述的装置,其特征在于,所述获取所述至少两种文章类型的文章样本的样本文章语义特征,包括:
获取所述至少两种文章类型的文章样本的样本文本信息;
根据所述样本文本信息的词义特征获取对应的第一样本词向量;
根据所述样本文本信息的构词特征获取对应的第二样本词向量;
根据所述第一样本词向量和所述第二样本词向量,获取所述至少两种文章类型的文章样本的样本文章语义特征。
21.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
22.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
CN202010097314.3A 2020-02-17 2020-02-17 文章识别方法、装置、计算机可读存储介质和计算机设备 Active CN112800771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097314.3A CN112800771B (zh) 2020-02-17 2020-02-17 文章识别方法、装置、计算机可读存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097314.3A CN112800771B (zh) 2020-02-17 2020-02-17 文章识别方法、装置、计算机可读存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN112800771A CN112800771A (zh) 2021-05-14
CN112800771B true CN112800771B (zh) 2023-11-07

Family

ID=75806085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097314.3A Active CN112800771B (zh) 2020-02-17 2020-02-17 文章识别方法、装置、计算机可读存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN112800771B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743051A (zh) * 2021-08-10 2021-12-03 广州坚和网络科技有限公司 一种字体设置方法、用户终端、服务器及系统
CN115033688A (zh) * 2022-05-11 2022-09-09 阿里巴巴(中国)有限公司 识别告警事件类型的方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304379A (zh) * 2018-01-15 2018-07-20 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
WO2019041521A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
CN109753646A (zh) * 2017-11-01 2019-05-14 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN110083832A (zh) * 2019-04-17 2019-08-02 北大方正集团有限公司 文章转载关系的识别方法、装置、设备及可读存储介质
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019041521A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
CN109753646A (zh) * 2017-11-01 2019-05-14 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN108304379A (zh) * 2018-01-15 2018-07-20 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN110083832A (zh) * 2019-04-17 2019-08-02 北大方正集团有限公司 文章转载关系的识别方法、装置、设备及可读存储介质
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备

Also Published As

Publication number Publication date
CN112800771A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
US11675977B2 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
CN109766438B (zh) 简历信息提取方法、装置、计算机设备和存储介质
US10740545B2 (en) Information extraction from open-ended schema-less tables
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN110874531A (zh) 一种话题分析方法、装置和存储介质
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN108170715B (zh) 一种文本结构化处理方法
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
CN111680634A (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN113254574A (zh) 一种机关公文辅助生成方法、装置以及系统
CN110427488B (zh) 文档的处理方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN111078839A (zh) 一种用于裁判文书的结构化处理方法及处理装置
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043840

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant