CN113051396B - 文档的分类识别方法、装置和电子设备 - Google Patents

文档的分类识别方法、装置和电子设备 Download PDF

Info

Publication number
CN113051396B
CN113051396B CN202110252127.2A CN202110252127A CN113051396B CN 113051396 B CN113051396 B CN 113051396B CN 202110252127 A CN202110252127 A CN 202110252127A CN 113051396 B CN113051396 B CN 113051396B
Authority
CN
China
Prior art keywords
text content
document
text
annotation data
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110252127.2A
Other languages
English (en)
Other versions
CN113051396A (zh
Inventor
周厚谦
钟辉强
黄强
徐思琪
刘晨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110252127.2A priority Critical patent/CN113051396B/zh
Publication of CN113051396A publication Critical patent/CN113051396A/zh
Application granted granted Critical
Publication of CN113051396B publication Critical patent/CN113051396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了文档的分类识别方法、装置和电子设备,涉及自然语言处理、深度学习和大数据技术领域。具体实现方案为:获取待处理文档,从待处理文档之中提取目标语句集合,并获取目标语句集合之中目标语句的语义特征,从待处理文档之中提取写作特征,根据语义特征和写作特征生成待处理文档的分类,本公开中基于语义特征和写作特征,对待处理文档进行分类,提高了分类的准确性。

Description

文档的分类识别方法、装置和电子设备
技术领域
本公开涉及人工智能技术领域,具体涉及自然语言处理、深度学习和大数据技术领域,尤其涉及文档的分类识别方法、装置和电子设备。
背景技术
舆论情况(简称“舆情”),是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
面对庞大的网络新闻等舆情数据,根据不同的场景需求,从中筛选、挖掘出真正有用的舆情数据,以实现对文档内容的过滤,如公司需要筛选出针对本公司的负面舆情信息,此时就需要对舆情信息对应的文档进行分类。因此,如何对文档信息进行准确分类识别,是亟待解决的技术问题。
发明内容
本公开提供了一种用于提高文档识别效果的文档的分类识别方法、装置和电子设备。
根据本公开的一方面,提供了一种文档的分类识别方法,包括:
获取待处理文档;
从所述待处理文档之中提取目标语句集合,并获取所述目标语句集合之中目标语句的语义特征;
从所述待处理文档之中提取写作特征;
根据所述语义特征和所述写作特征生成所述待处理文档的分类。
根据本公开的另一方面,提供了一种文档的分类识别装置,包括:
获取模块,用于获取待处理文档;
处理模块,用于从所述待处理文档之中提取目标语句集合,并获取所述目标语句集合之中目标语句的语义特征;
提取模块,用于从所述待处理文档之中提取写作特征;
生成模块,用于根据所述语义特征和所述写作特征生成所述待处理文档的分类。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述方法实施例所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述方法实施例所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述方法实施例所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种文档的分类识别方法的流程示意图;
图2为本公开实施例提供的另一种文档的分类识别方法的流程示意图;
图3为本公开实施例提供的一种学生分类模型的结构示意图;
图4为本公开实施例提供的一种学生分类模型的训练方法的流程示意图;
图5为本公开实施例提供的一种模型训练的结构示意图
图6为本公开实施例提供的一种文档的分类识别装置的结构示意图;
图7为本公开实施例提供的示例电子设备800的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的文档的分类识别方法、装置和电子设。
图1为本公开实施例提供的一种文档的分类识别方法的流程示意图。
如图1所示,该方法包括以下步骤:
步骤101,获取待处理文档。
其中,待处理文档,为需要进行文档分类识别的文档。
步骤102,从待处理文档之中提取目标语句集合,并获取目标语句集合之中目标语句的语义特征。
其中,目标语句为句子级别或短语级别。
在本实施例的一种实现方式中,从待处理的文档中提取预设数量的目标语句,其中,目标语句中包含文档的标题,其中,预设数量的目标语句例如为7个,降低了目标语句集合中包含的目标语句的数量,提高了识别的效率。
进而,对目标语句集合之中的目标语句进行语义识别,以获取每一个目标语句的语义特征。
步骤103,从待处理文档之中提取写作特征。
本实施例中,写作特征可用于指示相应类别的待处理文档的写作特点。
本实施例中,写作特征包含以下特征中的至少一个:
标题长度、正文长度、正文与标题中共现词的数量、词在正文中的位置、正文标点符号数、正文重复字数、是否包含赞扬类、评价类等预设敏感词汇等。
步骤104,根据语义特征和写作特征生成待处理文档的分类。
其中,文档的分类类别可以包含:
赞扬:描述用于赞美某一类人或物的内容;
低质量:可读性低、无内容价值;
文不对题:标题与正文内容无关。
需要说明的是,上述列举的文档的分类类别,仅为示意性说明,并不构成对本实施例的限定。
本实施例中,在对待处理文档进行分类识别时,不仅考虑了待处理文档中获取的目标语句的语义特征,还考虑了待处理文档的写作特征,通过增加写作特征,可以提高待处理文档分类的准确性。
例如,在文不对题类型文档的识别场景下,待识别文本属于文不对题类型,也就是说标题和正文不匹配,那么从待识别文本中提取到的写作特征中的正文和标题中共现词的数量则会低于预设数量,从而,结合该写作特征进行文档分类识别,可提高分类的准确性和效率。又例如,低质量的文档,可能属于不包含具体的内容的低质量文档,则根据写作特征中的正文长度、正文中重复字数等特征,则可以提高文档分类识别的准确性和效率。
需要说明的是,公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本公开实施例的文档的分类识别方法中,获取待处理文档,从待处理文档之中提取目标语句集合,并获取目标语句集合之中目标语句的语义特征,从待处理文档之中提取写作特征,根据语义特征和写作特征生成待处理文档的分类,本公开中基于语义特征和写作特征,对待处理文档进行分类,提高了分类的准确性。
基于上述实施例,图2为本公开实施例提供的另一种文档的分类识别方法的流程示意图,如图2所示,该方法包含以下步骤:
步骤201,获取待处理文档。
具体可参照上述步骤101,此处不再赘述。
步骤202,从待处理文档之中提取目标语句集合。
在本实施例的另一种实现方式中,提取待处理文档的标题,并作为目标语句加入目标语句集合,以及提取待处理文档的正文中的前N句语句,例如,N为6,并将从文档正文中提取的前6句语句,作为目标语句加入目标语句集合,实现了对短文本的识别,提高了识别的效率。步骤203,将目标语句集合之中的目标语句输入至学生分类模型的特征提取层,以生成初始语义特征。
图3为本公开实施例提供的一种学生分类模型的结构示意图,如图3所示,将目标语句集合中的目标语句,例如,标题和正文中的前10句,输入至特征提取层进行特征提取,以生成各目标语句的初始语义特征。其中,特征提取层可以为3层的(BidirectionalEncoder Representation from Transformers,BERT)模型,也就是说本公开中采用训练得到的浅层的学生分类模型进行分类识别,由于浅层模型识别速度快,提高了语义特征提取的效率。
步骤204,根据预设敏感词生成注意力权重。
本实施例中,可根据文档分类的场景,预设敏感词,例如,在赞美类文档识别的场景下,预设的敏感词例如为:榜样、学习、贡献,从而将可用于指示赞美类文档的词设置较大的权重。
步骤205,根据注意力权重对初始语义特征进程处理以生成语义特征。
在本实施例的一种实现方式中,在学生分类模型中设置注意力层,如图3中所示,其中,注意力层用于对特征提取层输出的初始语义特征,根据预设的各敏感词的权重,使得初始语义特征中属于敏感词的各个词向量对应的权重加重,实现对初始语义特征中各词向量的权重的重新设置,以生成语义特征,其中,各词向量的权要分布是不均匀的,而属于敏感词的词向量的权重较高。
步骤206,将待处理文档之中提取到的写作特征,输入学生分类模型的特征处理层,以生成处理得到的写作特征。
本实施例中,特征处理层用于对写作特征进行组合。通过对写作特征的组合,使得处理得到的写作特征建立了写作特征间的关联关系,例如,语义间的关联关系。
本实施例中,特征处理层,例如为全连接层。
步骤207,根据语义特征和处理得到的写作特征生成待处理文档的分类。
进一步,将识别到的语义特征和处理得到的写作特征,输入到训练得到的学生分类模型的输出层,以输出待处理文档的分类类别,例如,识别待处理文档为赞扬类别的概率为0.8,为非赞扬类别的概率为0.2,则确定该待处理文档为赞扬类别。同理,可识别出低质量类别、文不对题类别等。
进而,可将属于上述类别的待处理文档过了出来,满足文档质量的过滤,以提高文档质量。
需要说明的是,公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本公开实施例的文档分类识别方法中,获取待处理文档,将从待处理文档中提取到的目标语句集合中的目标语句输入至训练得到的学生分类模型的特征提取层,以进行特征提取生成初始语义特征,进而,根据注意力层预设的各敏感词的权要,对初始语义特征中属于敏感词的权重加强,以得到语义特征,同时,为了提高待处理文档分类识别的准确性,还提取了待处理文档的写作特征,并利用特征处理层,建立各个写作特征间的关系以得到处理后的写作特征,将语义特征和处理后的写作特征输入输出层,通过写作特征和语义特征进行待处理文档的分类识别,提高了分类的准确性。
上述实施例中说明了,通过训练得到的学生分类模型识别获取待识别文本的语义特征和写作特征,进而根据语义特征和写作特征进行文档分类。基于上述实施例,图4为本公开实施例提供的一种学生分类模型的训练方法的流程示意图,如图4所示,该方法包含以下步骤:
步骤401,获取标注数据。
步骤402,对标注数据进行增强。
本实施例中,为提高泛化性,通过以下数据增强的方式对标注数据进行增强,以获取更多的标注数据,以增加训练样本的多样性。
作为一种实现方式,获取标注数据之中的文本内容,使用同义词或者正则表达式对文本内容进行随机替换,将替换之后的文本内容作为标注数据。
例如,文本内容为“纸张价格上涨直逼猪肉”,使用同义词或者正则表达式对文本内容进行随机替换后,得到“纸张涨价直逼猪肉”。
作为第二种实现方式,获取标注数据之中的文本内容,其中,文本内容为第一语言,将文本内容从第一语言翻译为第二语言,将第二语言的文本内容进行回译,将回译之后的文本内容作为标注数据。
例如,文本内容为“纸张价格上涨直逼猪肉”,处理后得到“纸价涨到了猪肉的地步”。
作为第三种实现方式,获取标注数据之中的正常文本内容和异常文本内容,将正常文本内容和异常文本内容进行合并,以生成合并文本内容,将合并文本内容作为标注数据。
该种标注数据增强方式,主要用于自动生成低质量文本内容,适用于需要识别低质量文档的场景,以构造低质量类型的文本内容。其中,异常文本内容包含低质量等内容。实现了可生成适用于低质量文本类别识别的大量的训练样本,并增强了训练样本的多样性。
例如,正常的文本内容为“wto裁定某国A对某国B加征关税非法,XX政府提起上诉”,异常内容为低质量类的内容,例如,“阿去,本,拉馍”
将异常文本内容和正常文本内容合并后,得到的合并文本内容为:
阿去,本,拉馍wto裁定某国A对某国B加征关税非法,XX政府提起上诉。
作为第四种实现方式,获取标注数据之中的文本内容,获取文本内容之中的标题和正文,对文本内容之中的标题或正文进行替换,并将替换之中的文本内容作为标注数据。
该种标注数据增强方式,主要用于自动生成文不对题,即主题和文本内容不符合的文本内容,适用于需要识别文不对题文档的场景,实现了可生成适用于文不对题类别识别的大量的训练样本,并增强了训练样本的多样性。
例如,处理前,是标题和正文内容对应的:
标题1:X币价格为何创新高。
对应正文1:原因是大量机构和投资者入局,更多是以资产配置为导向,而没有国家信用背书的X币,始终难以摆脱投机的烙印。
标题2:某国发行电子货币A将使N银行失去存款基础。
对应正文2:如果某国人将他们的钱从存款账户转移到电子货币A,这可能会剥夺银行的资金来源,使它们依赖批发市场获得流动性。
处理后,标题和正文文本内容不对应:
标题2:某国发行电子货币A将使N银行失去存款基础。正文1:原因是大量机构和投资者入局,更多是以资产配置为导向,而没有国家信用背书的X币,始终难以摆脱投机的烙印。
标题1:X币价格为何创新高。正文2:如果某国人将他们的钱从存款账户转移到电子货币A,这可能会剥夺银行的资金来源,使它们依赖批发市场获得流动性。
作为第五种实现方式,通过随机算法生成文本内容,并作为标注数据。
该种标注数据增强方式,也用于自动生成杂乱无章的低质量的文本内容,适用于需要识别低质量文档的场景,实现了可生成适用于低质量文档类别识别的大量的训练样本,并增强了训练样本的多样性。
例如,生成的低质量文本内容为:利润擦色导致正文晚点删除质量文章省份但数据。
本实施例中,利用数据增强技术对标注的训练数据进行数据增强,能够增大标注的训练数据的数量并且提高训练数据的多样性。
步骤403,根据标注数据对教师分类模型进行训练,以生成训练得到的教师分类模型。
其中,标注数据可以为步骤401中的标注数据,也可以为通过步骤402的数据增强方法获取到的标注数据,为了提高训练的效果,本实施例中,以基于数据增强方式,获取的标注数据为例进行说明。
如图5所示,本实施例中,将标注数据作为训练样本,输入教师分类模型中,其中,教师分类模型为深层的模型,而学生分类模型是浅层的分类模型,例如,教师分类模型的特征提取层,为12层的bert模型结构,而学生分类模型的特征提取层为3层的bert模型结构。
本实施例中,先采用训练样本对教师分类模型进行训练,生成训练得到的教师分类模型,以使得训练得到的教师分类模型已经学习得到待识别文本和对应的分类类别的对应关系。
步骤404,获取无标注数据。
步骤405,根据训练得到的教师分类模型对无标注数据进行预测以生成分类类型标签。
本实施例中,利用训练得到的教师分类模型,对无标注的数据,进行预测,以生成无标注的数据对应的分类标签,例如,若教师分类模型为一个二分类模型,若无标注的数据A是文不对题文档,则利用训练得到的教师分类模型识别后,可以得到数据A为文不对题文档的概率为0.7,不是文不对题文档的概率是0.3;若教师分类模型为一个多分类模型,若无标注的数据A是文不对题文档,则利用训练得到的教师分类模型识别后,可以得到数据A为文不对题文档的概率为0.7,是赞扬文档的概率是0.15,是低质量文档的概率是0.15。
步骤406,根据无标注数据和对应的分类类型标签,以及标注数据,对学生分类模型进行训练。
其中,分类类型的标签,指示了各无标注数据对应分类类型的概率。
本实施例中,将训练得到的教师分类模型识别得到的无标注数据和对应的分类类型标签,与标注数据合并,作为训练样本,对学生分类模型进行训练,以使得学生分类模型可以根据教师分类模型的识别结果,进行不断的学习,并调整对应的参数,以使得训练得到的学生分类模型的识别能力可以匹配教师分类模型,以实现通过对浅层的学生分类模型进行训练,可以得到识别效果可以和教师分类模型匹配的学生分类模型,实现基于浅层的学生分类模型进行分类识别,在确保准确度的情况下,提高文档分类识别的效率。
为了实现上述实施例,本公开实施例提供了一种文档的分类识别装置。
图6为本公开实施例提供的一种文档的分类识别装置的结构示意图,如图6所示,该装置包含:
获取模块61,用于获取待处理文档。
处理模块62,用于从所述待处理文档之中提取目标语句集合,并获取所述目标语句集合之中目标语句的语义特征。
提取模块63,用于从所述待处理文档之中提取写作特征。
生成模块64,用于根据所述语义特征和所述写作特征生成所述待处理文档的分类。
进一步,作为一种可能的实现方式,处理模块62,用于:
提取所述待处理文档的标题,并作为所述目标语句加入所述目标语句集合;
提取所述待处理文档之中的前N句语句,并作为所述目标语句加入所述目标语句集合。
作为一种可能的实现方式,处理模块62,还用于:
将所述目标语句集合之中的目标语句输入至学生分类模型的特征提取层,以生成初始语义特征;
根据预设敏感词生成注意力权重;
根据所述注意力权重对所述初始语义特征进程处理以生成所述语义特征。
作为一种可能的实现方式,该装置还包括,标注模块和训练模块。
标注模块,用于获取标注数据。
训练模块,用于根据所述标注数据对教师分类模型进行训练;获取无标注数据;根据训练得到的教师分类模型对所述无标注数据进行预测以生成分类类型标签;根据所述分类类型标签和所述标注数据,对所述学生分类模型进行训练。
作为一种可能的实现方式,该装置还包括:
增强模块,用于对所述标注数据进行增强。
作为一种可能的实现方式,增强模块,具体用于:
获取所述标注数据之中的文本内容;
使用同义词或者正则表达式对所述文本内容进行随机替换,将替换之后的文本内容作为所述标注数据。
作为一种可能的实现方式,增强模块,具体用于:
获取所述标注数据之中的文本内容,其中,所述文本内容为第一语言;
将所述文本内容从所述第一语言翻译为第二语言;
将所述第二语言的文本内容进行回译,将回译之后的文本内容作为所述标注数据。
作为一种可能的实现方式,所述增强模块,具体用于:
获取所述标注数据之中的正常文本内容和异常文本内容;
将所述正常文本内容和所述异常文本内容进行合并,以生成合并文本内容;
将所述合并文本内容作为所述标注数据。
作为一种可能的实现方式,增强模块,具体用于:
获取所述标注数据之中的文本内容;
获取所述文本内容之中的标题和正文;
对所述文本内容之中的标题或正文进行替换,并将替换之中的文本内容作为所述标注数据。
作为一种可能的实现方式,增强模块,具体用于:
通过随机算法生成文本内容,并作为所述标注数据。
需要说明的是,前述对方法实施例的解释说明,也适用于该实施例的装置,原理相同,此处不再赘述。
本公开实施例的文档的分类识别装置中,获取待处理文档,从待处理文档之中提取目标语句集合,并获取目标语句集合之中目标语句的语义特征,从待处理文档之中提取写作特征,根据语义特征和写作特征生成待处理文档的分类,本公开中基于语义特征和写作特征,对待处理文档进行分类,提高了分类的准确性。
为了实现上述实施例,本实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述方法实施例所述的文档的分类识别方法。
为了实现上述实施例,本实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述方法实施例所述的文档的分类识别方法。
为了实现上述实施例,本实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述方法实施例所述的文档的分类识别方法。
图7为本公开实施例提供的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备800包括计算单元801,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)802中的计算机程序或者从存储单元808加载到RAM(Random AccessMemory,随机访问/存取存储器)803中的计算机程序,来执行各种适当的动作和处理。在RAM803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。I/O(Input/Output,输入/输出)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如文档的分类识别方法。例如,在一些实施例中,文档的分类识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的文档的分类识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档的分类识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (20)

1.一种文档的分类识别方法,包括:
获取待处理文档;
从所述待处理文档之中提取目标语句集合,并将所述目标语句集合之中的目标语句输入至学生分类模型的特征提取层,以生成初始语义特征;
根据预设敏感词生成注意力权重;
根据所述注意力权重对所述初始语义特征进程处理以生成所述目标语句集合之中目标语句的语义特征;从所述待处理文档之中提取写作特征;其中,所述写作特征可用于指示所述待处理文档的写作特点;所述写作特征包含以下特征中的至少一个:标题长度、正文长度、正文与标题中共现词的数量、词在正文中的位置、正文标点符号数、正文重复字数和是否包括预设敏感词汇;
根据所述语义特征和所述写作特征生成所述待处理文档的分类。
2.如权利要求1所述的方法,所述从所述待处理文档之中提取目标语句集合,包括:
提取所述待处理文档的标题,并作为所述目标语句加入所述目标语句集合;
提取所述待处理文档之中的前N句语句,并作为所述目标语句加入所述目标语句集合。
3.如权利要求1所述的方法,所述学生分类模型通过以下步骤生成:
获取标注数据;
根据所述标注数据对教师分类模型进行训练;
获取无标注数据;
根据训练得到的教师分类模型对所述无标注数据进行预测以生成分类类型标签;
根据所述分类类型标签和所述标注数据对所述学生分类模型进行训练。
4.如权利要求3所述的方法,其中,还包括:
对所述标注数据进行增强。
5.如权利要求4所述的方法,其中,所述对所述标注数据进行增强,包括:
获取所述标注数据之中的文本内容;
使用同义词或者正则表达式对所述文本内容进行随机替换,将替换之后的文本内容作为所述标注数据。
6.如权利要求4所述的方法,其中,所述对所述标注数据进行增强,包括:
获取所述标注数据之中的文本内容,其中,所述文本内容为第一语言;
将所述文本内容从所述第一语言翻译为第二语言;
将所述第二语言的文本内容进行回译,将回译之后的文本内容作为所述标注数据。
7.如权利要求4所述的方法,其中,所述对所述标注数据进行增强,包括:
获取所述标注数据之中的正常文本内容和异常文本内容;
将所述正常文本内容和所述异常文本内容进行合并,以生成合并文本内容;
将所述合并文本内容作为所述标注数据。
8.如权利要求4所述的方法,其中,所述对所述标注数据进行增强,包括:
获取所述标注数据之中的文本内容;
获取所述文本内容之中的标题和正文;
对所述文本内容之中的标题或正文进行替换,并将替换之中的文本内容作为所述标注数据。
9.如权利要求4所述的方法,其中,所述对所述标注数据进行增强,包括:
通过随机算法生成文本内容,并作为所述标注数据。
10.一种文档的分类识别装置,包括:
获取模块,用于获取待处理文档;
处理模块,用于从所述待处理文档之中提取目标语句集合,并将所述目标语句集合之中的目标语句输入至学生分类模型的特征提取层,以生成初始语义特征,根据预设敏感词生成注意力权重,根据所述注意力权重对所述初始语义特征进程处理以生成所述目标语句集合之中目标语句的语义特征;
提取模块,用于从所述待处理文档之中提取写作特征;其中,所述写作特征可用于指示所述待处理文档的写作特点;所述写作特征包含以下特征中的至少一个:标题长度、正文长度、正文与标题中共现词的数量、词在正文中的位置、正文标点符号数、正文重复字数和是否包括预设敏感词汇;
生成模块,用于根据所述语义特征和所述写作特征生成所述待处理文档的分类。
11.如权利要求10所述的装置,所述处理模块,还用于:
提取所述待处理文档的标题,并作为所述目标语句加入所述目标语句集合;
提取所述待处理文档之中的前N句语句,并作为所述目标语句加入所述目标语句集合。
12.如权利要求10所述的装置,所述装置还包括:
标注模块,用于获取标注数据;
训练模块,用于根据所述标注数据对教师分类模型进行训练;获取无标注数据;根据训练得到的教师分类模型对所述无标注数据进行预测以生成分类类型标签;根据所述分类类型标签和所述标注数据,对所述学生分类模型进行训练。
13.如权利要求12所述的装置,其中,所述装置还包括:
增强模块,用于对所述标注数据进行增强。
14.如权利要求13所述的装置,其中,所述增强模块,具体用于:
获取所述标注数据之中的文本内容;
使用同义词或者正则表达式对所述文本内容进行随机替换,将替换之后的文本内容作为所述标注数据。
15.如权利要求13所述的装置,其中,所述增强模块,具体用于:
获取所述标注数据之中的文本内容,其中,所述文本内容为第一语言;
将所述文本内容从所述第一语言翻译为第二语言;
将所述第二语言的文本内容进行回译,将回译之后的文本内容作为所述标注数据。
16.如权利要求13所述的装置,其中,所述增强模块,具体用于:
获取所述标注数据之中的正常文本内容和异常文本内容;
将所述正常文本内容和所述异常文本内容进行合并,以生成合并文本内容;
将所述合并文本内容作为所述标注数据。
17.如权利要求13所述的装置,其中,所述增强模块,具体用于:
获取所述标注数据之中的文本内容;
获取所述文本内容之中的标题和正文;
对所述文本内容之中的标题或正文进行替换,并将替换之中的文本内容作为所述标注数据。
18.如权利要求13所述的装置,其中,所述增强模块,具体用于:
通过随机算法生成文本内容,并作为所述标注数据。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
CN202110252127.2A 2021-03-08 2021-03-08 文档的分类识别方法、装置和电子设备 Active CN113051396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110252127.2A CN113051396B (zh) 2021-03-08 2021-03-08 文档的分类识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110252127.2A CN113051396B (zh) 2021-03-08 2021-03-08 文档的分类识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113051396A CN113051396A (zh) 2021-06-29
CN113051396B true CN113051396B (zh) 2023-11-17

Family

ID=76510286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110252127.2A Active CN113051396B (zh) 2021-03-08 2021-03-08 文档的分类识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113051396B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553428B (zh) * 2021-06-30 2024-04-23 北京百度网讯科技有限公司 文档分类方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN111782808A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104077A1 (en) * 2014-10-10 2016-04-14 The Trustees Of Columbia University In The City Of New York System and Method for Extracting Table Data from Text Documents Using Machine Learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN111782808A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于上下文语义的恶意域名语料提取模型研究;黄诚;刘嘉勇;刘亮;何祥;汤殿华;;计算机工程与应用(第09期);第106-112页 *

Also Published As

Publication number Publication date
CN113051396A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN112784589B (zh) 一种训练样本的生成方法、装置及电子设备
CN113220999B (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN112784591B (zh) 数据的处理方法、装置、电子设备和存储介质
CN113282701B (zh) 作文素材生成方法、装置、电子设备及可读存储介质
CN112052424B (zh) 一种内容审核方法及装置
US20240221404A1 (en) Method of training text quality assessment model and method of determining text quality
US20230073994A1 (en) Method for extracting text information, electronic device and storage medium
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113051911A (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN110826315B (zh) 使用神经网络系统识别短文本时效性的方法
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN114218951B (zh) 实体识别模型的训练方法、实体识别方法及装置
CN114417871B (zh) 模型训练及命名实体识别方法、装置、电子设备及介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113051396B (zh) 文档的分类识别方法、装置和电子设备
CN114417974B (zh) 模型训练方法、信息处理方法、装置、电子设备和介质
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant