CN111177369A - 一种文章自动标签分类的方法及装置 - Google Patents

一种文章自动标签分类的方法及装置 Download PDF

Info

Publication number
CN111177369A
CN111177369A CN201911131632.0A CN201911131632A CN111177369A CN 111177369 A CN111177369 A CN 111177369A CN 201911131632 A CN201911131632 A CN 201911131632A CN 111177369 A CN111177369 A CN 111177369A
Authority
CN
China
Prior art keywords
article
executed
label
tag
semantic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911131632.0A
Other languages
English (en)
Inventor
李梦平
庄良基
林溪
赵广亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen 258 Network Technology Group Co ltd
Original Assignee
Xiamen 258 Network Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen 258 Network Technology Group Co ltd filed Critical Xiamen 258 Network Technology Group Co ltd
Priority to CN201911131632.0A priority Critical patent/CN111177369A/zh
Publication of CN111177369A publication Critical patent/CN111177369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种文章自动标签分类的方法及装置,属于计算机技术领域,特别涉及一种文章自动标签分类的方法,包括,文章标签端获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引端;索引端接收文章标签端传输的待执行标签,根据待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给文章标签端;文章标签端接收文章,并根据待执行标签对文章进行标签标记。本发明通过对文章进行语义分析,再基于得到的语义分析结果对文章进行标签标记,以实现对文章精准的标签分类,此技术方案简单、技术难度小,易操作,成本低,不依赖于硬件设备。

Description

一种文章自动标签分类的方法及装置
技术领域
本发明属于计算机技术领域,特别涉及一种文章自动标签分类的方法及装置。
背景技术
随着网络信息技术的飞速发展,当今正处于网络信息爆炸的时代,新闻、公众号文章、微博等不同类别文章覆盖了人们日常工作、生活和学习的各个方面。通过对文章标签分类,以精准的向用户推荐想要看到内容,不仅能够降低用户获取有效信息的成本,还能够延长用户访问网站的时间,提高产品的转化率。
本发明人经研究发现,在现有技术中,对文章标签分类通常是采用机器学习的技术手段,基于自然语言处理的技术架构进行标签,此过程不仅技术难度较大,而且需要较高的硬件成本。
发明内容
为了至少解决上述技术问题,本发明提供了一种文章自动标签分类的方法及装置。
根据本发明第一方面,提供了一种文章自动标签分类的方法,包括:
文章标签端获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引端;
所述索引端接收所述文章标签端传输的待执行标签,根据所述待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给所述文章标签端;
所述文章标签端接收所述文章,并根据待执行标签对所述文章进行标签标记。
进一步地,所述获取待执行标签包括:读取启动属性值,根据所述启动属性值获取待执行标签。
进一步地,所述读取启动属性值,根据所述启动属性值获取待执行标签,包括:读取启动属性值,在所述启动属性值为启动时间的情形下,获取当前时间,在当前时间与所述启动时间时,获取待执行标签;在所述启动属性值为启动周期的情形下,开始定时,按照周期获取待执行标签。
进一步地,所述文章标签端获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引端,包括:
所述文章标签端在获取到待执行标签的情形下,发起若干个异步请求,生成与所述异步请求的数量相同的进程,交替执行,以读取所述待执行标签,将所述待执行标签传输给所述索引端。
进一步地,所述索引端接收所述文章标签端传输的待执行标签,根据所述待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,包括:
所述索引端接收所述文章标签端传输的待执行标签,采用全文检索引擎根据所述待执行标签对已发布的文章全文检索,进行语义分析,得到每篇已发布文章对应的语义分析结果。
进一步地,所述根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给所述文章标签端,包括:
根据所述语义分析结果中的匹配权重获取文章唯一编码,获取与文章唯一编码对应的文章,将所述文章传输给所述文章标签端。
进一步地,所述根据所述语义分析结果中的匹配权重获取文章唯一编码的情形下,将所述文章唯一编码作为文章传输给所述文章标签端;
相应地,所述文章标签端接收所述文章唯一编码,并根据待执行标签对所述文章唯一编码进行标签标记,以完成对文章的标签标记。
根据本发明第二方面,提供了一种文章自动标签分类的装置,包括:
文章标签模块和索引模块;
所述文章标签模块,用于获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给所述索引模块;还用于在接收到所述索引模块传输的文章时,接收所述文章,并根据待执行标签对所述文章进行标签标记;
所述索引模块,用于接收文章标签端传输的待执行标签,根据待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给文章标签模块。
根据本发明第三方面,提供了一种计算机设备,包括:
包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
根据本发明第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有程序,所述程序被执行时,能够实现如上所述的文章自动标签分类的方法。
本发明的有益效果:在文章标签端通过采用异步的方法,以多进程的方式将各待执行标签传输给索引端,以此使各进程能够交替执行,快速读取待执行标签,进而缩短为文章标签的时间,提高工作效率。通过对文章进行语义分析,再基于得到的语义分析结果对文章进行标签标记,以此实现对文章精准的标签分类,此技术方案简单、技术难度小,容易操作实现。另外,本发明能够自动化地为已发布的文章进行精准的标签分类,有效避免人工为文章做标签分类操作时产生的错误,节约人力资源,降低劳动成本,并且,本技术方案无需依靠特定性能的硬件设备,降低了硬件设备成本。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1为本发明一个实施例提供的一种文章自动标签分类的方法流程图;
图2为本发明一个实施例提供的一种文章自动标签分类的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
在本发明的第一方面,提供一种文章自动标签分类的方法,如图1所示,包括:
步骤S101:文章标签端获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引端;
在本发明实施例中,文章标签端获取待执行标签,包括:读取启动属性值,根据启动属性值获取待执行标签。进一步地,文章标签端读取启动属性值,在启动属性值为启动时间的情形下,获取当前时间,在当前时间与启动时间时,获取待执行标签;在启动属性值为启动周期的情形下,开始定时,按照周期获取待执行标签。
文章标签端获取待执行标签时还包括,判定是否获取到待执行标签,在未获取到待执行标签的情形下,程序结束;在获取到待执行标签的情形下,发起若干个异步请求,生成与异步请求的数量相同的进程,交替执行,以读取待执行标签,将待执行标签传输给索引端。
需要说明的是,文章标签端具体可以搭建一个以超文本预处理器(PHP,HypertextPreprocessor)作为开发平台,以MySQL作为数据库,Nginx作为服务器的架构,基于该架构进行相应的操作。
本发明技术方案,通过采用异步的方法,以多进程的方式将各待执行标签传输给索引端,可以大大加快读取待执行标签的速度,进而缩短对文章进行标签标记所耗费的时间。
步骤S102:索引端接收文章标签端传输的待执行标签,根据待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给文章标签端;
在本发明实施例中,索引端接收文章标签端传输的待执行标签,采用全文检索引擎根据待执行标签对已发布的文章全文检索,进行语义分析,得到每篇已发布文章对应的语义分析结果。其中,全文检索引擎可以是斯芬克司(sphinx,SQL Phrase Index),还可以是迅搜全文检索引擎。
进一步地,索引端可以批量接收文章标签端传输的待执行标签,也可以逐个接收文章标签端传输的待执行标签。
然后,根据语义分析结果中的匹配权重获取文章唯一编码,获取与文章唯一编码对应的文章,将文章传输给文章标签端。
进一步地,索引端可以按照语义分析结果中的匹配权重由高到低的顺序,依次获取与匹配权重对应的文章唯一编码。当然索引端也可以按照匹配权重由低到高的顺序,依次获取与匹配权重对应的文章唯一编码。
根据语义分析结果获取与待执行标签适应的文章唯一编码后,还包括,判断是否获取到与待执行标签适应的文章唯一编码,是则获取与文章唯一编码对应的文章,将该文章传输给文章标签端,以进行标签标记;否则结束操作。
步骤S103:文章标签端接收文章,并根据待执行标签对文章进行标签标记。
在本发明实施例中,文章标签端在接收到文章的情形下,自动用与之对应的待执行标签作为标签标记文章并保存。具体地可以保存至Nginx服务器的MySQL数据库中。
在本发明的另一个实施例中,提供一种文章自动标签分类的方法,包括文章标签端和索引端,包括:
步骤S201:文章标签端获取待执行标签;
在本发明实施例中,以周期的方式获取待执行标签,周期可以为24小时,当然,周期也可以被设置为任意时长。还可以采用定时获取待执行标签的方式获取待执行标签。获取待执行标签的方式,包括但不限于逐条读取待执行标签。进一步地,获取待执行标签时,还包括,判定是否获取到待执行标签,在未获取到待执行标签的情形下,程序结束;在获取到待执行标签的情形下,执行步骤S202。
在本发明中,文章标签端具体可以搭建一个以超文本预处理器(PHP,HypertextPreprocessor)作为开发平台,以MySQL作为数据库,Nginx作为服务器的架构。
本实施例中,下面将以获取到一百个待执行标签为例,进行说明。
步骤S202:文章标签端采用异步的方法,以多进程的方式将各待执行标签传输给索引端;
在本发明实施例中,在获取到待执行标签的情形下,发起若干个异步请求,产生若干个进程交替执行,以读取待执行标签,将待执行标签传输给索引端。
本实施例通过采用异步的方法,以多进程的方式可以大大加快读取待执行标签的速度,缩短执行时间。
需要说明的是,上述发起异步请求的数量与产生进程的数量相同。
以获取到一百个待执行标签为例,文章标签端发起十个异步请求,以多进程的方式将各待执行标签传输给索引端。
步骤S203:索引端接收文章标签端传输的待执行标签,根据待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果;
在本发明实施例中,索引端可以批量接收文章标签端传输的待执行标签,也可以逐个接收文章标签端传输的待执行标签。
在本发明另一实施例中,索引端可以根据待执行标签对已发布的文章全文检索,进行语义分析,生成每篇文章对应的语义分析结果。具体地,可以采用全文检索引擎对文章进行全文检索,其中,全文检索引擎可以是斯芬克司(sphinx,SQL Phrase Index),还可以是迅搜全文检索引擎。在本实施例中,全文检索至少可以采用以下两种方式进行,一是定时全文检索,二是固定周期全文检索。
在本发明实施例中,语义分析结果至少包括:文章唯一编码,即文章id,以及用于标识文章与待执行标签匹配度的匹配权重。
本发明通过采用斯芬克斯进行全文检索,实现语义分析,以达到精确的语义分析结果,从而为精准的进行文章标签分类做好铺垫。
步骤S204:索引端根据语义分析结果获取与待执行标签适应的文章唯一编码,并将该文章唯一编码传输给文章标签端;
在本发明实施例中,索引端根据语义分析结果中的匹配权重获取文章唯一编码,将文章唯一编码传输给文章标签端。
进一步地,索引端可以按照匹配权重由高到低的顺序,依次获取与匹配权重对应的文章唯一编码。当然索引端也可以按照匹配权重由低到高的顺序,依次获取与匹配权重对应的文章唯一编码。
更进一步地,索引端根据语义分析结果获取与待执行标签适应的文章唯一编码后,还包括,判断是否获取到与待执行标签适应的文章唯一编码,是则将与待执行标签适应的文章唯一编码传输给文章标签端,以进行标签标记;否则结束操作,也就是说,在根据语义分析结果未获取到与待执行标签适应的文章唯一编码的情形下,结束操作。
步骤S205:文章标签端接收文章唯一编码,并根据待执行标签对文章唯一编码进行标签标记。
在本发明实施例中,文章标签端接收到文章唯一编码的情形下,自动用与之对应的待执行标签作为标签标记并保存。具体地可以保存至Nginx服务器的MySQL数据库中。
在本发明实施例中,在文章标签端通过采用异步的方法,以多进程的方式读取待执行标签,以此使各进程能够交替执行,快速读取待执行标签,进而缩短为文章标签的时间,提高工作效率。通过对文章进行语义分析,再基于得到的语义分析结果对文章进行标签标记,以此实现对文章精准的标签分类,此技术方案简单、技术难度小,容易操作实现。另外,本发明能够自动化地为已发布的文章进行精准的标签分类,有效避免人工手动为文章做标签分类操作时产生的错误,节约人力资源,降低劳动成本,并且,本技术方案无需依靠特定性能的硬件设备,降低了硬件设备成本。
根据本发明第二方面,提供一种文章自动标签分类的装置,如图2所示,包括:
文章标签模块20和索引模块21;
文章标签模块20,用于获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引模块;还用于在接收到索引模块21传输的文章时,接收文章,并根据待执行标签对文章进行标签标记;
在本发明实施例中,文章标签模块20,用于获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引模块;
在本发明实施例中,文章标签模块20,具体用于读取启动属性值,在启动属性值为启动时间的情形下,获取当前时间,在当前时间与启动时间时,获取待执行标签;在启动属性值为启动周期的情形下,开始定时,按照周期获取待执行标签。
进一步地,文章标签模块20,在获取待执行标签时还包括,判定是否获取到待执行标签,在未获取到待执行标签的情形下,程序结束;在获取到待执行标签的情形下,发起若干个异步请求,生成与异步请求的数量相同的进程,交替执行,以读取待执行标签,将待执行标签传输给索引模块21。
本发明技术方案,通过文章标签模块采用异步的方法,以多进程的方式将各待执行标签传输给索引模块,可以大大加快读取待执行标签的速度,进而缩短对文章进行标签标记所耗费的时间。
索引模块21,用于接收文章标签模块20传输的待执行标签,根据待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给文章标签模块20。
在本发明实施例中,索引模块21,具体用于接收文章标签模块传输的待执行标签,采用全文检索引擎根据待执行标签对已发布的文章全文检索,进行语义分析,得到每篇已发布文章对应的语义分析结果。其中,全文检索引擎可以是斯芬克司(sphinx,SQL PhraseIndex),还可以是迅搜全文检索引擎。
进一步地,索引模块21可以批量接收文章标签模块传输的待执行标签,也可以逐个接收文章标签模块传输的待执行标签。然后,根据语义分析结果中的匹配权重获取文章唯一编码,获取与文章唯一编码对应的文章,将文章传输给文章标签模块。
进一步地,索引模块可以按照语义分析结果中的匹配权重由高到低的顺序,依次获取与匹配权重对应的文章唯一编码。当然索引模块也可以按照匹配权重由低到高的顺序,依次获取与匹配权重对应的文章唯一编码。
根据语义分析结果获取与待执行标签适应的文章唯一编码后,还包括,判断是否获取到与待执行标签适应的文章唯一编码,是则获取与文章唯一编码对应的文章,将该文章传输给文章标签模块,以进行标签标记;否则结束操作。
在本发明的另一个实施例中,提供一种文章自动标签分类的装置,包括文章标签模块和索引模块,包括:
文章标签模块,用于获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引模块;还用于接收索引模块返回的文章唯一编码,并根据待执行标签对文章唯一编码进行标签标记。
在本发明实施例中,文章标签模块,用于以周期的方式获取待执行标签,周期可以为24小时,当然,周期也可以被设置为任意时长。还可以用于采用定时获取待执行标签的方式获取待执行标签。获取待执行标签的方式,包括但不限于逐条读取待执行标签。
进一步地,文章标签模块,还用于在获取待执行标签时,判定是否获取到待执行标签,在未获取到待执行标签的情形下,结束;在获取到待执行标签的情形下,采用异步的方法,以多进程的方式将各待执行标签传输给索引模块。
更进一步地,文章标签模块,用于在获取到待执行标签的情形下,发起若干个异步请求,产生若干个进程交替执行,以读取待执行标签,将待执行标签传输给索引模块。
本实施例通过采用异步的方法,以多进程的方式可以大大加快读取待执行标签的速度,缩短执行时间。
需要说明的是,上述发起异步请求的数量与产生进程的数量相同。
在本发明实施例中,文章标签模块还用于接收索引模块返回的文章唯一编码,在接收到文章唯一编码的情形下,自动用与之对应的待执行标签作为标签标记并保存。具体地可以保存至Nginx服务器的MySQL数据库中。
索引模块,用于接收文章标签模块传输的待执行标签,根据待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,根据语义分析结果获取与待执行标签适应的文章唯一编码,并将该文章唯一编码传输给文章标签模块。
在本发明实施例中,索引模块,可以批量接收文章标签模块传输的待执行标签,也可以逐个接收文章标签模块传输的待执行标签。
在本发明另一实施例中,索引模块可以根据待执行标签对已发布的文章全文检索,进行语义分析,生成每篇文章对应的语义分析结果。具体地,可以采用全文检索引擎对文章进行全文检索,其中,全文检索引擎可以是斯芬克司(sphinx,SQL Phrase Index),还可以是迅搜全文检索引擎。在本实施例中,全文检索至少可以采用以下两种方式进行,一是定时全文检索,二是固定周期全文检索。
在本发明实施例中,语义分析结果至少包括:文章唯一编码,即文章id,以及用于标识文章与待执行标签匹配度的匹配权重。
本发明通过采用斯芬克斯进行全文检索,实现语义分析,以达到精确的语义分析结果,从而为精准的进行文章标签分类做好铺垫。
在本发明实施例中,索引模块根据语义分析结果中的匹配权重获取文章唯一编码,将文章唯一编码传输给文章标签模块。
进一步地,索引模块可以按照匹配权重由高到低的顺序,依次获取与匹配权重对应的文章唯一编码。当然索引模块也可以按照匹配权重由低到高的顺序,依次获取与匹配权重对应的文章唯一编码。
更进一步地,索引模块根据语义分析结果获取与待执行标签适应的文章唯一编码后,还包括,判断是否获取到与待执行标签适应的文章唯一编码,是则将与待执行标签适应的文章唯一编码传输给文章标签模块,以进行标签标记;否则结束操作,也就是说,在根据语义分析结果未获取到与待执行标签适应的文章唯一编码的情形下,结束操作。
综上所述,在本发明实施例中,在文章标签模块通过采用异步的方法,以多进程的方式读取待执行标签,以此使各进程能够交替执行,快速读取待执行标签,进而缩短为文章标签的时间,提高工作效率。索引模块通过对文章进行语义分析,使得文章标签模块能基于得到的语义分析结果对文章进行标签标记,以此实现对文章精准的标签分类,此技术方案简单、技术难度小,容易操作实现。另外,本发明能够自动化地为已发布的文章进行精准的标签分类,有效避免人工手动为文章做标签分类操作时产生的错误,节约人力资源,降低劳动成本,并且,本技术方案无需依靠特定性能的硬件设备,降低了硬件设备成本。
根据本发明第三方面,提供一种计算机设备,包括:
包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文章自动标签分类方法的步骤。
根据本发明第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,所述程序被执行时,能够实现上述的文章自动标签分类的方法。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文章自动标签分类的方法,其特征在于,包括:
文章标签端获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引端;
所述索引端接收所述文章标签端传输的待执行标签,根据所述待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给所述文章标签端;
所述文章标签端接收所述文章,并根据待执行标签对所述文章进行标签标记。
2.如权利要求1所述的方法,其特征在于,
所述获取待执行标签包括:读取启动属性值,根据所述启动属性值获取待执行标签。
3.如权利要求2所述的方法,其特征在于,
所述读取启动属性值,根据所述启动属性值获取待执行标签,包括:读取启动属性值,在所述启动属性值为启动时间的情形下,获取当前时间,在当前时间与所述启动时间时,获取待执行标签;在所述启动属性值为启动周期的情形下,开始定时,按照周期获取待执行标签。
4.如权利要求1所述的方法,其特征在于,
所述文章标签端获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给索引端,包括:
所述文章标签端在获取到待执行标签的情形下,发起若干个异步请求,生成与所述异步请求的数量相同的进程,交替执行,以读取所述待执行标签,将所述待执行标签传输给所述索引端。
5.如权利要求1所述的方法,其特征在于,
所述索引端接收所述文章标签端传输的待执行标签,根据所述待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,包括:
所述索引端接收所述文章标签端传输的待执行标签,采用全文检索引擎根据所述待执行标签对已发布的文章全文检索,进行语义分析,得到每篇已发布文章对应的语义分析结果。
6.如权利要求1所述的方法,其特征在于,
所述根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给所述文章标签端,包括:
根据所述语义分析结果中的匹配权重获取文章唯一编码,获取与文章唯一编码对应的文章,将所述文章传输给所述文章标签端。
7.如权利要求6所述的方法,其特征在于,
所述根据所述语义分析结果中的匹配权重获取文章唯一编码的情形下,将所述文章唯一编码作为文章传输给所述文章标签端;
相应地,所述文章标签端接收所述文章唯一编码,并根据待执行标签对所述文章唯一编码进行标签标记,以完成对文章的标签标记。
8.一种文章自动标签分类的装置,其特征在于,包括:
文章标签模块和索引模块;
所述文章标签模块,用于获取待执行标签,采用异步的方法,以多进程的方式将各待执行标签传输给所述索引模块;还用于在接收到所述索引模块传输的文章时,接收所述文章,并根据待执行标签对所述文章进行标签标记;
所述索引模块,用于接收文章标签端传输的待执行标签,根据待执行标签对已发布的文章全文检索,进行语义分析,得到语义分析结果,根据语义分析结果获取与待执行标签适应的文章,并将该文章传输给文章标签模块。
9.一种计算机设备,其特征在于,包括:
包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,所述程序被执行时,能够实现如权利要求1-7任一项所述的文章自动标签分类的方法。
CN201911131632.0A 2019-11-19 2019-11-19 一种文章自动标签分类的方法及装置 Pending CN111177369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911131632.0A CN111177369A (zh) 2019-11-19 2019-11-19 一种文章自动标签分类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911131632.0A CN111177369A (zh) 2019-11-19 2019-11-19 一种文章自动标签分类的方法及装置

Publications (1)

Publication Number Publication Date
CN111177369A true CN111177369A (zh) 2020-05-19

Family

ID=70653719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911131632.0A Pending CN111177369A (zh) 2019-11-19 2019-11-19 一种文章自动标签分类的方法及装置

Country Status (1)

Country Link
CN (1) CN111177369A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6925453B1 (en) * 2000-07-13 2005-08-02 International Business Machines Corporation Methods and apparatus for distributed resource discovery using examples
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的系统和方法
CN105022794A (zh) * 2015-06-26 2015-11-04 广州时韵信息科技有限公司 一种快速搜索所需文章内容的方法及装置
CN106452855A (zh) * 2016-09-28 2017-02-22 网易(杭州)网络有限公司 一种文章标签添加方法和装置
CN106815356A (zh) * 2017-01-20 2017-06-09 泰华智慧产业集团股份有限公司 基于语义分析的精确目标用户消息推送方法及系统
CN106886569A (zh) * 2017-01-13 2017-06-23 重庆邮电大学 一种基于mpi的ml‑knn多标签中文文本分类方法
CN107038224A (zh) * 2017-03-29 2017-08-11 腾讯科技(深圳)有限公司 数据处理方法及数据处理装置
CN107451216A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 标签的粒度属性识别方法及装置
CN107608858A (zh) * 2017-09-28 2018-01-19 北京京东尚科信息技术有限公司 信息处理系统、方法和装置
CN107870966A (zh) * 2017-08-11 2018-04-03 成都萌想科技有限责任公司 一种基于语义模型的招聘简章数据抽取方法
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109241297A (zh) * 2018-07-09 2019-01-18 广州品唯软件有限公司 一种内容分类聚合方法、电子设备、存储介质及引擎
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
CN109766442A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种对用户笔记进行分类的方法及系统
CN109816450A (zh) * 2019-01-28 2019-05-28 优估(上海)信息科技有限公司 一种内容推广方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6925453B1 (en) * 2000-07-13 2005-08-02 International Business Machines Corporation Methods and apparatus for distributed resource discovery using examples
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的系统和方法
CN105022794A (zh) * 2015-06-26 2015-11-04 广州时韵信息科技有限公司 一种快速搜索所需文章内容的方法及装置
CN106452855A (zh) * 2016-09-28 2017-02-22 网易(杭州)网络有限公司 一种文章标签添加方法和装置
CN106886569A (zh) * 2017-01-13 2017-06-23 重庆邮电大学 一种基于mpi的ml‑knn多标签中文文本分类方法
CN106815356A (zh) * 2017-01-20 2017-06-09 泰华智慧产业集团股份有限公司 基于语义分析的精确目标用户消息推送方法及系统
CN107038224A (zh) * 2017-03-29 2017-08-11 腾讯科技(深圳)有限公司 数据处理方法及数据处理装置
CN107451216A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 标签的粒度属性识别方法及装置
CN107870966A (zh) * 2017-08-11 2018-04-03 成都萌想科技有限责任公司 一种基于语义模型的招聘简章数据抽取方法
CN107608858A (zh) * 2017-09-28 2018-01-19 北京京东尚科信息技术有限公司 信息处理系统、方法和装置
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109241297A (zh) * 2018-07-09 2019-01-18 广州品唯软件有限公司 一种内容分类聚合方法、电子设备、存储介质及引擎
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
CN109766442A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种对用户笔记进行分类的方法及系统
CN109816450A (zh) * 2019-01-28 2019-05-28 优估(上海)信息科技有限公司 一种内容推广方法及装置

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN109635838B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
EP4187400A1 (en) Method for converting natural language query to sql and device thereof
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN112328655B (zh) 文本标签挖掘方法、装置、设备及存储介质
WO2019102346A1 (en) Searching multilingual documents based on document structure extraction
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN115221276A (zh) 基于clip的中文图文检索模型训练方法、装置、设备及介质
US11574004B2 (en) Visual image search using text-based search engines
CN117668180A (zh) 文档问答方法、文档问答设备以及可读存储介质
CN115294397A (zh) 一种分类任务的后处理方法、装置、设备及存储介质
CN113870846B (zh) 基于人工智能的语音识别方法、装置及存储介质
CN107679055B (zh) 信息检索方法、服务器及可读存储介质
CN113869456A (zh) 采样监测方法、装置、电子设备及存储介质
CN116226443B (zh) 基于大规模视频语料库的弱监督视频片段定位方法及系统
CN110442858B (zh) 一种问句实体识别方法、装置、计算机设备及存储介质
CN111177369A (zh) 一种文章自动标签分类的方法及装置
CN109657071B (zh) 词汇预测方法、装置、设备和计算机可读存储介质
CN113255355B (zh) 文本信息中的实体识别方法、装置、电子设备和存储介质
CN110895538A (zh) 数据检索方法、装置、存储介质和处理器
Cineros et al. KmerFinderJS: a client-server method for fast species typing of bacteria over slow Internet connections
CN114201376A (zh) 基于人工智能的日志解析方法、装置、终端设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519