CN109947947A - 一种文本分类方法、装置及计算机可读存储介质 - Google Patents

一种文本分类方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109947947A
CN109947947A CN201910250309.9A CN201910250309A CN109947947A CN 109947947 A CN109947947 A CN 109947947A CN 201910250309 A CN201910250309 A CN 201910250309A CN 109947947 A CN109947947 A CN 109947947A
Authority
CN
China
Prior art keywords
text
test text
feature
keyword
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910250309.9A
Other languages
English (en)
Other versions
CN109947947B (zh
Inventor
崔燕红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Teddy Bear Mobile Technology Co ltd
Beijing Teddy Future Technology Co ltd
Original Assignee
Beijing Teddy Bear Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Teddy Bear Mobile Technology Co Ltd filed Critical Beijing Teddy Bear Mobile Technology Co Ltd
Priority to CN201910250309.9A priority Critical patent/CN109947947B/zh
Publication of CN109947947A publication Critical patent/CN109947947A/zh
Application granted granted Critical
Publication of CN109947947B publication Critical patent/CN109947947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种文本分类方法、装置及计算机可读存储介质,首先获取测试文本;之后提取所述测试文本中的关键词;再通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;最后根据所述测试文本的语义配对特征确定所述测试文本的文本类别。如此,本发明通过提取出具有skip‑gram特性的带有语义特征的搭配,可以更好的支持文本分类,从而大大提高文本分类的可靠性。而且,由于Skip‑gram算法是有语义的,故通过对不同分类的支持程度,可以转化成文本模型,这将在基于语义的推荐模型上起到很大的作用。

Description

一种文本分类方法、装置及计算机可读存储介质
技术领域
本发明涉及文本自动化处理技术领域,尤其涉及一种文本分类方法、装置及计算机可读存储介质。
背景技术
随着文本自动化处理技术的不断演进,对文本分类的精确性要求越来越高。相关技术中,通常采用包括几种可能的分类方式来确定文本类别:方式1,利用深度神经网络(如CNN或RNN)来自动发现文本特征,并进一步利用soft-max方法进行文本分类;方式2,利用tf-idf或者chi-squares关键词提取得到文本特征,并进行文本分类;方式3,利用n-gram提取,得到文本特征,并进行文本分类。
然而,上述所提及的几种分类方式均存在明显的缺陷:1)CNN/RNN可以自动提取skip-gram pairs(搭配)作为文本分类特征,但是提取的特征搭配往往是人类无法理解的字符级配对,无法用语义解释;2)传统的关键词文本分类特征提取方法,没有考虑到词组间的配对搭配特征对文本分类的重要性;3)利用n-gram文本分类特征提取方法,忽略了skip-gram的配对特征对文本分类的重要性。
发明内容
本发明实施例为了解决上述提及的文本分类方式所存在的种种问题,创造性的提供一种文本分类方法、装置及计算机可读存储介质。
根据本发明实施例的第一方面,提供一种文本分类方法,该方法包括:获取测试文本;提取所述测试文本中的关键词;通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;根据所述测试文本的语义配对特征确定所述测试文本的文本类别。
根据本发明一实施方式,所述提取所述测试文本中的关键词,包括:对所述测试文本进行分词处理,得到分词处理结果;从所述分词处理结果中进行关键词提取,得到所述测试文本的关键词。
根据本发明一实施方式,所述语义配对算法为Skip-gram算法。
根据本发明一实施方式,所述通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征,包括:利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。
根据本发明一实施方式,根据所述测试文本的语义配对特征确定所述测试文本的文本类别,包括:从所述测试文本的语义配对特征中提取关键语义配对特征;根据所述关键语义配对特征确定所述测试文本的文本类别。
根据本发明实施例的第二方面,提供一种文本分类装置,所述装置包括:获取模块,用于获取测试文本;关键词提取模块,用于提取所述测试文本中的关键词;语义配对特征模块,用于通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;分类模块,用于根据所述测试文本的语义配对特征确定所述测试文本的文本类别。
根据本发明一实施方式,所述关键词提取模块包括:分词处理单元,用于对所述测试文本进行分词处理,得到分词处理结果;关键词提取单元,用于从所述分词处理结果中进行关键词提取,得到所述测试文本的关键词。
根据本发明一实施方式,所述语义配对特征模块包括:原始配对特征提取单元,用于利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;语义配对特征提取单元,用于通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。
根据本发明一实施方式,所述分类模块包括:关键语义配对特征提取单元,用于从所述测试文本的语义配对特征中提取关键语义配对特征;分类单元,用于根据所述关键语义配对特征确定所述测试文本的文本类别。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一文本分类方法。
本发明实施例文本分类方法、装置及计算机可读存储介质,首先获取测试文本;之后提取所述测试文本中的关键词;再通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;最后根据所述测试文本的语义配对特征确定所述测试文本的文本类别。如此,本发明通过提取出具有skip-gram特性的带有语义特征的搭配,可以更好的支持文本分类,从而大大提高文本分类的可靠性。而且,由于Skip-gram算法是有语义的,故通过对不同分类的支持程度,可以转化成文本模型,这将在基于语义的推荐模型上起到很大的作用。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例文本分类方法的实现流程示意图;
图2示出了本发明实施例文本分类装置的组成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
图1示出了本发明实施例文本分类方法的实现流程示意图。
参考图1,本发明实施例文本分类方法包括:操作101,获取测试文本;操作102,提取测试文本中的关键词;操作103,通过语义配对算法根据所提取的关键词进行配对特征提取,得到测试文本的语义配对特征;操作104,根据测试文本的语义配对特征确定测试文本的文本类别。
在操作101,可以获取任意大小,任意文本内容的测试文本。
在操作102,提取测试文本中的关键词具体包括:对所述测试文本进行分词处理,得到分词处理结果;从分词处理结果中进行关键词提取,得到测试文本的关键词。其中,通常可以利用tf-idf或者Chi-square的方法来进行关键词提取。以tf-idf为例,如果某个词或短语在测试文本中出现的频率TF高,并且在其他文本中很少出现,则认为该词或者短语具有很好的类别区分能力,适合用来分类。
在操作103,本发明所采用的语义配对算法为Skip-gram算法。具体地,通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征,包括:先利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;之后通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。
这里,n-gram算法主要采用固定长度N的滑动窗口进行切分,目前常用的n-gram模型是二元的Bi-gram和三元的Tri-gram模型,对两种模型的切分方法进行比较,比如“北京欢迎你的到来”,Bi-gram切分就是“北京欢迎欢迎你的你的到来”,Tri-gram切分就是“北京欢迎你的欢迎你的到来”。Skip-gram算法/模型,就是给定一个关键词后,预测在该关键词左右两边可能会出现什么词。当然这个预测是有范围的,也是采用固定窗口来表示。这样,通过操作103可以提取出具有Skip-gram特性的带有语义特征的搭配,同时具有Skip-gram特性,也有语义的特征。
在操作104,根据测试文本的语义配对特征确定测试文本的文本类别具体包括:从测试文本的语义配对特征中提取关键语义配对特征;根据关键语义配对特征确定测试文本的文本类别。在实际操作中,通常可以再次利用tf-idf或者Chi-square的方法来提取关键语义配对特征,得到具有skip-gram特性的带有关键语义特征的搭配,可以更好的支持文本分类,从而大大提高文本分类的可靠性。
本发明实施例文本分类方法,首先获取测试文本;之后提取所述测试文本中的关键词;再通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;最后根据所述测试文本的语义配对特征确定所述测试文本的文本类别。如此,本发明通过提取出具有skip-gram特性的带有语义特征的搭配,可以更好的支持文本分类,从而大大提高文本分类的可靠性。而且,由于Skip-gram算法是有语义的,故通过对不同分类的支持程度,可以转化成文本模型,这将在基于语义的推荐模型上起到很大的作用。
同样,基于如上文所述文本分类方法,本发明实施例又提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如下所述的操作步骤:操作101,获取测试文本;操作102,提取测试文本中的关键词;操作103,通过语义配对算法根据所提取的关键词进行配对特征提取,得到测试文本的语义配对特征;操作104,根据测试文本的语义配对特征确定测试文本的文本类别。
进一步地,基于上文所述文本分类方法,本发明实施例还提供一种文本分类装置,如图2所示,该装置20包括:获取模块201,用于获取测试文本;关键词提取模块202,用于提取测试文本中的关键词;语义配对特征模块203,用于通过语义配对算法根据所提取的关键词进行配对特征提取,得到测试文本的语义配对特征;分类模块204,用于根据测试文本的语义配对特征确定测试文本的文本类别。
根据本发明一实施方式,关键词提取模块202包括:分词处理单元,用于对测试文本进行分词处理,得到分词处理结果;关键词提取单元,用于从所述分词处理结果中进行关键词提取,得到测试文本的关键词。
根据本发明一实施方式,所述语义配对算法为Skip-gram算法。
根据本发明一实施方式,语义配对特征模块203包括:原始配对特征提取单元,用于利用n-gram算法根据所提取的关键词进行配对特征提取,得到测试文本的原始配对特征;语义配对特征提取单元,用于通过Skip-gram算法结合所得到的原始配对特征,提取测试文本的语义配对特征。
根据本发明一实施方式,分类模块204包括:关键语义配对特征提取单元,用于从测试文本的语义配对特征中提取关键语义配对特征;分类单元,用于根据关键语义配对特征确定测试文本的文本类别。
这里需要指出的是:以上对文本分类装置实施例的描述,与前述图1所示的方法实施例的描述是类似的,具有同前述图1所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对文本分类装置实施例中未披露的技术细节,请参照本发明前述图1所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取测试文本;
提取所述测试文本中的关键词;
通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;
根据所述测试文本的语义配对特征确定所述测试文本的文本类别。
2.根据权利要求1所述的方法,其特征在于,所述提取所述测试文本中的关键词,包括:
对所述测试文本进行分词处理,得到分词处理结果;
从所述分词处理结果中进行关键词提取,得到所述测试文本的关键词。
3.根据权利要求1所述的方法,其特征在于,所述语义配对算法为Skip-gram算法。
4.根据权利要求1或3所述的方法,其特征在于,所述通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征,包括:
利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;
通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。
5.根据权利要求1所述的方法,其特征在于,根据所述测试文本的语义配对特征确定所述测试文本的文本类别,包括:
从所述测试文本的语义配对特征中提取关键语义配对特征;
根据所述关键语义配对特征确定所述测试文本的文本类别。
6.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取测试文本;
关键词提取模块,用于提取所述测试文本中的关键词;
语义配对特征模块,用于通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;
分类模块,用于根据所述测试文本的语义配对特征确定所述测试文本的文本类别。
7.根据权利要求6所述的装置,其特征在于,所述关键词提取模块包括:
分词处理单元,用于对所述测试文本进行分词处理,得到分词处理结果;
关键词提取单元,用于从所述分词处理结果中进行关键词提取,得到所述测试文本的关键词。
8.根据权利要求6所述的装置,其特征在于,所述语义配对特征模块包括:
原始配对特征提取单元,用于利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;
语义配对特征提取单元,用于通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。
9.根据权利要求6所述的装置,其特征在于,所述分类模块包括:
关键语义配对特征提取单元,用于从所述测试文本的语义配对特征中提取关键语义配对特征;
分类单元,用于根据所述关键语义配对特征确定所述测试文本的文本类别。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-5任一项所述文本分类方法。
CN201910250309.9A 2019-03-29 2019-03-29 一种文本分类方法、装置及计算机可读存储介质 Active CN109947947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910250309.9A CN109947947B (zh) 2019-03-29 2019-03-29 一种文本分类方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910250309.9A CN109947947B (zh) 2019-03-29 2019-03-29 一种文本分类方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109947947A true CN109947947A (zh) 2019-06-28
CN109947947B CN109947947B (zh) 2021-11-23

Family

ID=67012295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910250309.9A Active CN109947947B (zh) 2019-03-29 2019-03-29 一种文本分类方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109947947B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449099A (zh) * 2020-03-25 2021-09-28 瑞典爱立信有限公司 文本分类方法和文本分类设备

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040006459A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-searching system and method
US20110225180A1 (en) * 2010-03-10 2011-09-15 Alibaba Group Holding Limited Guided search based on query model
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102289482A (zh) * 2011-08-02 2011-12-21 北京航空航天大学 一种非结构化数据查询方法
US8452795B1 (en) * 2010-01-15 2013-05-28 Google Inc. Generating query suggestions using class-instance relationships
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN105447161A (zh) * 2015-11-26 2016-03-30 广东工业大学 一种基于数据特征的智能信息分类方法
US20160132648A1 (en) * 2014-11-06 2016-05-12 ezDI, LLC Data Processing System and Method for Computer-Assisted Coding of Natural Language Medical Text
CN106844632A (zh) * 2017-01-20 2017-06-13 清华大学 基于改进支持向量机的产品评论情感分类方法及装置
CN107168953A (zh) * 2017-05-16 2017-09-15 电子科技大学 海量文本中基于词向量表征的新词发现方法及系统
CN107766426A (zh) * 2017-09-14 2018-03-06 北京百分点信息科技有限公司 一种文本分类方法、装置及电子设备
CN108154395A (zh) * 2017-12-26 2018-06-12 上海新炬网络技术有限公司 一种基于大数据的客户网络行为画像方法
CN108228546A (zh) * 2018-01-19 2018-06-29 北京中关村科金技术有限公司 一种文本特征提取方法、装置、设备及可读存储介质
CN108549636A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种赛事文字直播关键句抽取方法
CN108614875A (zh) * 2018-04-26 2018-10-02 北京邮电大学 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN109002561A (zh) * 2018-08-27 2018-12-14 山东师范大学 基于样本关键词学习的文本自动分类方法、系统及介质
CN109299269A (zh) * 2018-10-23 2019-02-01 阿里巴巴集团控股有限公司 一种文本分类方法和装置
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现系统
CN109361823A (zh) * 2018-11-01 2019-02-19 深圳市号互联科技有限公司 一种语音与文本相互转化的智能交互方式
CN109447266A (zh) * 2018-03-12 2019-03-08 南京农业大学 一种基于大数据的农业科技服务智能分拣方法
CN109492106A (zh) * 2018-11-13 2019-03-19 扬州大学 一种文本代码相结合的缺陷原因自动分类方法
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040006459A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-searching system and method
US8452795B1 (en) * 2010-01-15 2013-05-28 Google Inc. Generating query suggestions using class-instance relationships
US20110225180A1 (en) * 2010-03-10 2011-09-15 Alibaba Group Holding Limited Guided search based on query model
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102289482A (zh) * 2011-08-02 2011-12-21 北京航空航天大学 一种非结构化数据查询方法
US20160132648A1 (en) * 2014-11-06 2016-05-12 ezDI, LLC Data Processing System and Method for Computer-Assisted Coding of Natural Language Medical Text
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN105447161A (zh) * 2015-11-26 2016-03-30 广东工业大学 一种基于数据特征的智能信息分类方法
CN106844632A (zh) * 2017-01-20 2017-06-13 清华大学 基于改进支持向量机的产品评论情感分类方法及装置
CN107168953A (zh) * 2017-05-16 2017-09-15 电子科技大学 海量文本中基于词向量表征的新词发现方法及系统
CN107766426A (zh) * 2017-09-14 2018-03-06 北京百分点信息科技有限公司 一种文本分类方法、装置及电子设备
CN108154395A (zh) * 2017-12-26 2018-06-12 上海新炬网络技术有限公司 一种基于大数据的客户网络行为画像方法
CN108228546A (zh) * 2018-01-19 2018-06-29 北京中关村科金技术有限公司 一种文本特征提取方法、装置、设备及可读存储介质
CN109447266A (zh) * 2018-03-12 2019-03-08 南京农业大学 一种基于大数据的农业科技服务智能分拣方法
CN108549636A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种赛事文字直播关键句抽取方法
CN108614875A (zh) * 2018-04-26 2018-10-02 北京邮电大学 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN109002561A (zh) * 2018-08-27 2018-12-14 山东师范大学 基于样本关键词学习的文本自动分类方法、系统及介质
CN109299269A (zh) * 2018-10-23 2019-02-01 阿里巴巴集团控股有限公司 一种文本分类方法和装置
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现系统
CN109361823A (zh) * 2018-11-01 2019-02-19 深圳市号互联科技有限公司 一种语音与文本相互转化的智能交互方式
CN109492106A (zh) * 2018-11-13 2019-03-19 扬州大学 一种文本代码相结合的缺陷原因自动分类方法
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
亢华爱: "基于隐节点共振致密配对的Web数据文本抽取", 《科技通报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449099A (zh) * 2020-03-25 2021-09-28 瑞典爱立信有限公司 文本分类方法和文本分类设备
CN113449099B (zh) * 2020-03-25 2024-02-23 瑞典爱立信有限公司 文本分类方法和文本分类设备

Also Published As

Publication number Publication date
CN109947947B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
US9264387B2 (en) System and method for authorship disambiguation and alias resolution in electronic data
CN104881458B (zh) 一种网页主题的标注方法和装置
EP2251795A2 (en) Disambiguation and tagging of entities
CN111125354A (zh) 文本分类方法及装置
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
KR101713558B1 (ko) 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법
CN109657064A (zh) 一种文本分类方法及装置
CN105335352A (zh) 基于微博情感的实体识别方法
CN108268539A (zh) 基于文本分析的视频匹配系统
CN103313248A (zh) 一种识别垃圾信息的方法和装置
Abdelali et al. QADI: Arabic dialect identification in the wild
Castillo et al. Text analysis using different graph-based representations
JP6420268B2 (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
Ranjan et al. Document classification using lstm neural network
CN111309916A (zh) 摘要抽取方法和装置、存储介质和电子装置
CN110019821A (zh) 文本类标训练方法和识别方法、相关装置及存储介质
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置
CN114328798A (zh) 搜索文本的处理方法、装置、设备、存储介质和程序产品
Hashimoto et al. Social media analysis–determining the number of topic clusters from buzz marketing site
CN109947947A (zh) 一种文本分类方法、装置及计算机可读存储介质
Ventura et al. Mining concepts from texts
CN108475265B (zh) 获取未登录词的方法与装置
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
Jamison et al. Adjacency Pair Recognition in Wikipedia Discussions using Lexical Pairs
Palm Sentiment classification of Swedish Twitter data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee after: Beijing Teddy Future Technology Co.,Ltd.

Address before: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee before: Beijing Teddy Bear Mobile Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee after: Beijing Teddy Bear Mobile Technology Co.,Ltd.

Address before: 100085 07a36, block D, 7 / F, No.28, information road, Haidian District, Beijing

Patentee before: BEIJING TEDDY BEAR MOBILE TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address