CN104462229A - 一种事件分类方法及装置 - Google Patents

一种事件分类方法及装置 Download PDF

Info

Publication number
CN104462229A
CN104462229A CN201410640920.XA CN201410640920A CN104462229A CN 104462229 A CN104462229 A CN 104462229A CN 201410640920 A CN201410640920 A CN 201410640920A CN 104462229 A CN104462229 A CN 104462229A
Authority
CN
China
Prior art keywords
sample
translation
feature
event
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410640920.XA
Other languages
English (en)
Inventor
李寿山
朱珠
周国栋
段湘煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410640920.XA priority Critical patent/CN104462229A/zh
Publication of CN104462229A publication Critical patent/CN104462229A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种事件分类方法及装置,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法和装置,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。

Description

一种事件分类方法及装置
技术领域
本发明涉及信息抽取及模式识别技术领域,尤其涉及一种事件分类方法及装置。
背景技术
随着互联网的高速发展和信息高速公路的兴起,网络信息数据不断增加,使得大量信息以电子文本的形式呈现在人们面前。因此,如何从这些以电子文本形式呈现的大量信息中迅速、准确地提取出人们所需求的重要信息就越发重要。
信息抽取是从电子文本中自动获取信息的一种主要手段。信息抽取是将无结构的电子文本信息,按照人们的需求识别和抽取出来,转化为结构化或半结构化的信息,并采用数据库的形式存储,以便人们查询、分析或利用。
事件分类是信息抽取的一个重要研究方向。事件分类被定义为事件的检测与识别,即识别特定类型的事件,并进行相关信息的确定和抽取。主要的相关信息包括:事件的类型和子类型、事件的元素等。ACE2005把事件分为8个类型,33个子类型,事件分类就是分配给某事件一个确定的类型。例如:“高中同学前一个月结婚了”,通过事件分类,该事件将被分为“Marry”子类型,而“美国总统布什将于2月访问德国并与施罗德会谈”这一事件则会被分为“Meet”子类型。
目前,常用的事件分类的方法是基于机器学习的方法,即使用统计的方法进行事件抽取的研究,这种方法把事件抽取看成分类问题,选择合适的特征并使用合适的分类器来完成。但是,基于机器学习的方法虽然不依赖语料的内容与格式,但需要大规模的标注语料,否则会出现较为严重的数据稀疏问题。
发明内容
有鉴于此,本发明提供了一种事件分类方法及装置,以克服现有技术中基于机器学习的方法虽然不依赖语料的内容与格式,但需要大规模的标注语料,否则会出现较为严重的数据稀疏的问题。
为实现上述目的,本发明提供如下技术方案:
一种事件分类方法,所述方法包括:
对原始语料进行翻译获取翻译样本;
将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;
将所述双语样本作为训练样本,构建分类器;
利用所述分类器对待分类事件进行分类。
优选的,所述对原始语料进行翻译获取翻译样本具体包括:
使用机器翻译系统对原始语料进行翻译获取翻译样本。
优选的,所述方法还包括:
如果所述翻译样本为中文,则对所述翻译样本进行分词处理。
优选的,所述将所述双语样本作为训练样本,构建分类器具体包括:
将所述双语样本作为训练样本,构建最大熵分类器。
优选的,所述利用所述分类器对待分类事件进行分类具体包括:
利用所述最大熵分类器对所述待分类事件进行分类。
一种事件分类装置,所述装置包括:
翻译单元,用于对原始语料进行翻译获取翻译样本;
双语样本获取单元,用于将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;
构建单元,用于将所述双语样本作为训练样本,构建分类器;
分类单元,用于利用所述分类器对待分类事件进行分类。
优选的,所述翻译单元具体用于:
使用机器翻译系统对原始语料进行翻译获取翻译样本。
优选的,所述装置还包括:
分词单元,用于如果所述翻译样本为中文,则对所述翻译样本进行分词处理。
优选的,所述构建单元具体用于:
将所述双语样本作为训练样本,构建最大熵分类器。
优选的,所述分类单元具体用于:
利用所述最大熵分类器对所述待分类事件进行分类。
经由上述的技术方案可知,与现有技术相比,本发明公开了一种事件分类方法及装置,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法和装置,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一公开的一种事件分类方法具体流程示意图;
图2为本发明实施例二公开的一种事件分类装置具体结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
由背景技术可知,现有技术中基于机器学习的方法虽然不依赖语料的内容与格式,但需要大规模的标注语料,否则会出现较为严重的数据稀疏问题。
为此,本发明公开了一种事件分类方法及装置,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法和装置,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。
下面将通过具体实施例对本发明公开的事件分类方法及装置进行详细说明。
实施例一
请参阅附图1,为本发明实施例一公开的一种事件分类方法的具体流程示意图,该方法具体包括如下步骤:
S101:对原始语料进行翻译获取翻译样本。
原始语料为中文或英文。该步骤通过使用机器翻译系统对原始语料进行翻译获取翻译样本,所述机器翻译系统可以为多种现有的翻译工具,比如:谷歌翻译工具,对此,本发明实施例不做任何限制。
例如,原始语料为“Saddam's clan is said to have left for a small village in thedesert.”,则翻译样本为“据说萨达姆家族已经离开沙漠中的一个小村庄。”。需要说明的是,如果是把英文翻译成中文,则还需要对翻译样本进行分词处理,本实施例中,可使用中科院的分词工具完成这一分词处理过程。以上述翻译样本为例说明,分词处理后的句子是:据说萨达姆家族已经离开沙漠中的一个小村庄。
S102:将所述翻译样本的词特征与单语特征相加获得双语样本。
所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征。
具体的,仅使用单语特征时,以英文为例,一个英文文本x被表示为:
x = e 1 , e 2 . . . , e n , Tri , POS _ Tri , Tri _ con , POS _ con , Ent , Ent _ type , Ent _ subtype
其中,ei为该英文文本的词特征,Tri和POS_Tri分别为该英文文本的触发词及其词性,Tri_con和POS_con为触发词前后若干个词及其词性,Ent为触发词前后若干个实体,Ent_type和Ent_subtype为实体的类型和子类型。
本实施例中,将所述翻译样本的词特征与单语特征相加获得双语样本,此时,x可表示为:
x = e 1 , e 2 . . . , e n , Tri , POS _ Tri , Tri _ con , POS _ con , Ent , Ent _ type , Ent _ subtype , c 1 , c 2 , . . . , c m
其中,cj为原英文事件句对应的中文翻译句的词特征。
S103:将所述双语样本作为训练样本,构建分类器。
在该步骤中可根据最大熵分类方法将所述双语样本作为训练样本,构建最大熵分类器。最大熵分类方法是基于最大熵信息理论的,其基本思想是为所有已知的因素建立模型,而把所有未知的因素排除在外。也就是说,要找到一种概率分布,满足所有已知的事实,但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此,该方法适合融合各种不一样的特征,而无需考虑它们之间的影响。
在最大熵模型下,预测条件概率P(c|D)的公式如下:
P ( c i | D ) = 1 Z ( D ) exp ( Σ k λ k , c F k , c ( D , c i ) )
其中Z(D)是归一化因子。Fk,c是特征函数,定义为:
F k , c ( D , c ′ ) = 1 , n k ( d ) > 0 and c ′ = c 0 , otherwise
其中,D为训练集,c为类别
S104:利用所述分类器对待分类事件进行分类。
该步骤中,可利用最大熵分类器对所述待分类事件进行分类。
本实施例公开了一种事件分类方法,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。
基于上述方法实施例,本发明还公开了一种事件分类装置,下面将通过以下实施例进行详细描述。
实施例二
请参阅附图2,为本发明实施例二公开的一种事件分类装置的具体结构示意图,该装置具体包括如下单元:
翻译单元11,用于对原始语料进行翻译获取翻译样本。
双语样本获取单元12,用于将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征。
构建单元13,用于将所述双语样本作为训练样本,构建分类器。
分类单元14,用于利用所述分类器对待分类事件进行分类。
其中,所述翻译单元具体用于:
使用机器翻译系统对原始语料进行翻译获取翻译样本。
所述构建单元具体用于:
将所述双语样本作为训练样本,构建最大熵分类器。
所述分类单元具体用于:
利用所述最大熵分类器对所述待分类事件进行分类。
如果所述翻译样本为中文,所述装置还包括:
分词单元,用于对所述翻译样本进行分词处理。
需要说明的是,上述各个单元的具体功能实现已在方法实施例中进行详细说明,本实施例不再赘述,具体请参见方法实施例的相关说明。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种事件分类方法,其特征在于,所述方法包括:
对原始语料进行翻译获取翻译样本;
将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;
将所述双语样本作为训练样本,构建分类器;
利用所述分类器对待分类事件进行分类。
2.根据权利要求1所述的方法,其特征在于,所述对原始语料进行翻译获取翻译样本具体包括:
使用机器翻译系统对原始语料进行翻译获取翻译样本。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
如果所述翻译样本为中文,则对所述翻译样本进行分词处理。
4.根据权利要求3所述的方法,其特征在于,所述将所述双语样本作为训练样本,构建分类器具体包括:
将所述双语样本作为训练样本,构建最大熵分类器。
5.根据权利要求4所述的方法,其特征在于,所述利用所述分类器对待分类事件进行分类具体包括:
利用所述最大熵分类器对所述待分类事件进行分类。
6.一种事件分类装置,其特征在于,所述装置包括:
翻译单元,用于对原始语料进行翻译获取翻译样本;
双语样本获取单元,用于将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;
构建单元,用于将所述双语样本作为训练样本,构建分类器;
分类单元,用于利用所述分类器对待分类事件进行分类。
7.根据权利要求6所述的装置,其特征在于,所述翻译单元具体用于:
使用机器翻译系统对原始语料进行翻译获取翻译样本。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:
分词单元,用于如果所述翻译样本为中文,则对所述翻译样本进行分词处理。
9.根据权利要求8所述的装置,其特征在于,所述构建单元具体用于:将所述双语样本作为训练样本,构建最大熵分类器。
10.根据权利要求9所述的装置,其特征在于,所述分类单元具体用于:利用所述最大熵分类器对所述待分类事件进行分类。
CN201410640920.XA 2014-11-13 2014-11-13 一种事件分类方法及装置 Pending CN104462229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410640920.XA CN104462229A (zh) 2014-11-13 2014-11-13 一种事件分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410640920.XA CN104462229A (zh) 2014-11-13 2014-11-13 一种事件分类方法及装置

Publications (1)

Publication Number Publication Date
CN104462229A true CN104462229A (zh) 2015-03-25

Family

ID=52908265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410640920.XA Pending CN104462229A (zh) 2014-11-13 2014-11-13 一种事件分类方法及装置

Country Status (1)

Country Link
CN (1) CN104462229A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138520A (zh) * 2015-08-26 2015-12-09 苏州大学张家港工业技术研究院 一种事件触发词识别方法及装置
CN106202068A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
CN106951530A (zh) * 2017-03-21 2017-07-14 苏州大学 一种事件类型抽取方法和装置
CN109918646A (zh) * 2019-01-30 2019-06-21 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN110209807A (zh) * 2018-07-03 2019-09-06 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
CN111400431A (zh) * 2020-03-20 2020-07-10 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN112559747A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN103559181A (zh) * 2013-11-14 2014-02-05 苏州大学 一种双语语义关系分类模型的建立方法和系统
CN103617245A (zh) * 2013-11-27 2014-03-05 苏州大学 一种双语情感分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN103559181A (zh) * 2013-11-14 2014-02-05 苏州大学 一种双语语义关系分类模型的建立方法和系统
CN103617245A (zh) * 2013-11-27 2014-03-05 苏州大学 一种双语情感分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHU ZHU 等: "Bilingual Event Extraction: a Case Study on Trigger Type Determination", 《PROCEEDINGS OF THE 52ND ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (SHORT PAPERS)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138520A (zh) * 2015-08-26 2015-12-09 苏州大学张家港工业技术研究院 一种事件触发词识别方法及装置
CN105138520B (zh) * 2015-08-26 2018-08-17 苏州大学张家港工业技术研究院 一种事件触发词识别方法及装置
CN106202068A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
CN106202068B (zh) * 2016-07-25 2019-01-22 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
CN106951530A (zh) * 2017-03-21 2017-07-14 苏州大学 一种事件类型抽取方法和装置
CN106951530B (zh) * 2017-03-21 2020-01-17 苏州大学 一种事件类型抽取方法和装置
CN110209807A (zh) * 2018-07-03 2019-09-06 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
US11972213B2 (en) 2018-07-03 2024-04-30 Tencent Technology (Shenzhen) Company Limited Event recognition method and apparatus, model training method and apparatus, and storage medium
CN109918646A (zh) * 2019-01-30 2019-06-21 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN109918646B (zh) * 2019-01-30 2020-08-11 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN111400431A (zh) * 2020-03-20 2020-07-10 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN112559747A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质
CN112559747B (zh) * 2020-12-15 2024-05-28 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN104462229A (zh) 一种事件分类方法及装置
Boididou et al. Detection and visualization of misleading content on Twitter
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
US7937338B2 (en) System and method for identifying document structure and associated metainformation
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
US20170091318A1 (en) Apparatus and method for extracting keywords from a single document
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
Alomari et al. Road traffic event detection using twitter data, machine learning, and apache spark
CN105205124B (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN104102626A (zh) 一种用于短文本语义相似度计算的方法
US20160189057A1 (en) Computer implemented system and method for categorizing data
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
WO2021043087A1 (zh) 文字布局方法、装置、电子设备及计算机可读存储介质
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN111814472A (zh) 文本识别方法、装置、设备及存储介质
Patel et al. Dynamic lexicon generation for natural scene images
CN104142960A (zh) 互联网数据分析系统
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN103268346A (zh) 半监督分类方法及系统
Mittal et al. Got a complaint?-keep calm and tweet it!
CN103218420A (zh) 一种网页标题提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325

RJ01 Rejection of invention patent application after publication