CN105512101B - 一种自动构建主题词的方法及装置 - Google Patents

一种自动构建主题词的方法及装置 Download PDF

Info

Publication number
CN105512101B
CN105512101B CN201510859829.1A CN201510859829A CN105512101B CN 105512101 B CN105512101 B CN 105512101B CN 201510859829 A CN201510859829 A CN 201510859829A CN 105512101 B CN105512101 B CN 105512101B
Authority
CN
China
Prior art keywords
participle
result
weighted value
word segmentation
digital resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510859829.1A
Other languages
English (en)
Other versions
CN105512101A (zh
Inventor
王兴华
李小磊
万巍
尤勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201510859829.1A priority Critical patent/CN105512101B/zh
Publication of CN105512101A publication Critical patent/CN105512101A/zh
Application granted granted Critical
Publication of CN105512101B publication Critical patent/CN105512101B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种自动构建主题词方法及装置,该方法包括如下步骤:将第一数字资源进行分词,获得第一分词结果;获取第一分词结果中各个分词的权重值;获取至少一篇与第一数字资源相关的第二数字资源;将第二数字资源进行分词,获得第二分词结果;获取第二分词结果中各个分词的权重值;将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;根据主题词权重选取第一分词结果中的部分分词作为第一数字资源主题词。本发明不仅效率高,而且构建的主题词可以准确地表达第一数字资源的主题思想,能满足标引文献和检索文献的要求。

Description

一种自动构建主题词的方法及装置
技术领域
本发明涉及数字资源处理领域,具体涉及一种自动构建主题词的方法及装置。
背景技术
数字资源是文献信息的表现形式之一,是以数字形式发布、存取、利用的信息资源总和。主题词是指在标引和检索中用以表达文献主题的规范化的词或词组。因此,准确的主题词对文献的检索和标引等具有非常重要的作用,从而如何从数字资源中快速准确地提取主题词以对其进行有效的管理和利用是亟需解决的问题。
对于数字资源的主题词构建,目前一般采用如下几种办法:1)人工设定主题词;2)普通的文档数据抽取方法。
但是上述两种方法都存在不足,人工设定主题词的方法有效率低、成本高、易出错等缺点。普通的文档数据抽取方法,虽然其效率相比人工方式有一些提高,但存在构建效果不佳的问题,如,所选择的主题词实用性不强,不能满足标引文献和检索文献的要求,或者不能准确地表达文献的主题思想。
发明内容
因此,本发明要解决的技术问题在于现有的主题词抽取方法存在构建效果不佳的问题。
为此,本发明实施例提供了如下技术方案:
一种自动构建主题词的方法,包括如下步骤:
将第一数字资源进行分词,获得第一分词结果;
获取第一分词结果中各个分词的权重值;
获取至少一篇与第一数字资源相关的第二数字资源;
将第二数字资源进行分词,获得第二分词结果;
获取第二分词结果中各个分词的权重值;
将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;
根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;
根据主题词权重选取第一分词结果中的部分分词作为第一数字资源的主题词。
优选地,将第一数字资源进行分词获得第一分词结果的步骤和将第二数字资源进行分词获得第二分词结果的步骤均包括:
按照筛选条件对分词进行筛选,筛选条件包括删除停用词。
优选地,至少一篇与第一数字资源相关的第二数字资源是采用向量机进行识别、分类以及回归分析得到的。
优选地,第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。
优选地,第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值是通过以下公式计算得到的:
Y=(X-MIN)/(MAX-MIN)
其中,X是该分词的词频,MIN是该分词所在分词结果中最小的分词词频,MAX是该分词所在分词结果中最大的分词词频。
优选地,第一分词结果中各个分词的主题词权重是通过以下公式计算得到的:
其中,n为第一分词结果中该分词的权重值,v、w为权值,C_CPi为第二分词结果中第i个分词的权重值,PPi为第一分词结果中该分词与第二分词结果中第i个分词的匹配值,m为第二分词结果中不同分词的个数。
一种自动构建主题词的装置,包括:
第一分词单元,用于将第一数字资源进行分词,获得第一分词结果;
第一权重值计算单元,用于获取第一分词结果中各个分词的权重值;
第二数字资源获取单元,用于获取至少一篇与第一数字资源相关的第二数字资源;
第二分词单元,用于将第二数字资源进行分词,获得第二分词结果;
第二权重值计算单元,用于获取第二分词结果中各个分词的权重值;
匹配单元,用于将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;
主题词权重计算单元,用于根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;
主题词确定单元,用于根据主题词权重选取第一分词结果中的部分分词作为第一数字资源的主题词。
本发明实施例技术方案,具有如下优点:
本发明实施例提供的自动构建主题词的方法及装置,其首先利用分词器将第一数字资源进行分词并获取第一分词结果中各个分词的权重值;然后检索出至少一篇与该第一数字资源相似的第二数字资源,并根据该第二数字资源获取其第二分词结果中各个分词的权重值;最后,根据第一分词结果中各个分词与第二分词结果中各个分词的匹配程度和第二分词结果中各个分词的权重值调整第一分词结果中各个分词的权重值作为主题词权重值。最终根据第一分词结果中各个分词的主题词权重值确定出合适的主题词。通过该方法构建的主题词可以准确地表达第一数字资源的主题思想,能满足标引文献和检索文献的要求,且效率高、成本低、效果好。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中一种自动构建主题词的方法流程图;
图2为本发明实施例2中一种自动构建主题词的装置的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
如图1所示,本实施例提供了一种自动构建主题词方法,包括如下步骤:
S1:将第一数字资源进行分词,获得第一分词结果;
S2:获取第一分词结果中各个分词的权重值;
S3:获取至少一篇与第一数字资源相关的第二数字资源;
S4:将第二数字资源进行分词,获得第二分词结果;
S5:获取第二分词结果中各个分词的权重值;
S6:将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;
S7:根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;
S8:根据主题词权重选取第一分词结果中的部分分词作为第一数字资源主题词。
本实施例提供的自动构建主题词的方法,不仅效率高,而且通过该方法构建的主题词可以准确地表达第一数字资源的主题思想,能满足标引文献和检索文献的要求。
具体地,上述步骤S1中,是利用分词器对第一数字资源进行分词,然后删除停用词后进行词频统计。该停用词包括“了”、“什么”和“的”等,由于停用词大多没有实际的意义,不管其词频的高低如何,都不能作为主题词,因此为了降低后续的计算量且更加准确地构建主题词,此处需要将其筛选掉。本实施例中还可以筛选掉其他不能用作主题词的分词。同样地,步骤S4中也利用分词器将第二数字资源分词后筛选掉停用词再进行词频统计。即步骤S1和S4中都包括按照筛选条件对分词进行筛选的步骤,该筛选条件主要包括删除停用词,也可以根据实际需要加入其它的筛选条件。本实施例中可以事先构建一个停用词表。
具体地,步骤S3中的至少一篇与第一数字资源相关的第二数字资源是通过文章分类检索得出,文章分类检索是采用向量机进行识别、分类以及回归分析。
具体地,上述步骤S2中第一分词结果中各个分词的权重值和步骤S5中第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。本实施例中,第一分词结果中各个分词的词频S_CP1为:中国3 世界5 问题2 解决4 面临1 超越6 恐怖3危机2 信仰1 环境5。第二分词结果中各个分词的词频W_CP为:中国5 分类5 问题3 智慧5难题11 代表6 垄断4 健康4 心态3 世界3 筛选1。
具体地,第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值是通过以下公式计算得到的:
Y=(X-MIN)/(MAX-MIN)
其中,X是该分词的词频,MIN是该分词所在分词结果中最小的分词词频,MAX是该分词所在分词结果中最大的分词词频。
根据上述分词权重值的计算方法,得到第一分词结果中各个分词的权重值为:中国0.4 世界0.8 问题0.2 解决0.6 面临0.2 超越1.0 恐怖0.4 危机0.2 信仰1.0 环境0.8,记为S_CP2;
得到的第二分词结果中各个分词的权重值,并按降序排序后为:难题1.0 代表0.5中国0.4 分类0.4 智慧0.4 垄断0.3 健康0.3 心态0.2 问题0.2 世界0.2 筛选0。剔除词频进行归一化后权重值为0的词后记为C_CP。
具体地,本实施例中上述步骤S6中,将第一分词结果S_CP2中的各个分词与第二分词结果C_CP中的各个分词进行关系匹配,即相似关系计算,具体采用词向量算法的CBOW(Continuous Bag-of-Word Model)算法。匹配值越高则表示关系越近,匹配值记为PP,如下表所示:
具体地,第一分词结果中各个分词的主题词权重是通过以下公式计算得到的:
其中,n为第一分词结果中该分词的权重值,v、w为权值,C_CPi为第二分词结果中第i个分词的权重值,PPi为第一分词结果中该分词与第二分词结果中第i个分词的匹配值,m为第二分词结果中不同分词的个数。
本实施例中上述第一分词结果中各个分词的主题词权重的计算过程为:
首先,计算其中“中国”的S_CPC=(1.0*0.724104+0.5*0.768298+0.4*0.815880+0.4*0.868341+0.3*0.730932+0.3*0.810922+0.2*0.723622+0.2*0.738489+0.2*0.742204)/(1.0+0.5+0.4+0.4+0.3+0.3+0.2+0.2+0.2)=0.767245886。该步骤中,需要将匹配值等于1的数据剔除。最终第一分词结果中各个分词的S_CPC如下表所示:
S中分词 S_CPC
超越 0.564564615
信仰 0.253966923
世界 0.689685486
环境 0.905304667
解决 0.743733282
中国 0.767245886
恐怖 0.314501949
问题 0.772889784
面临 0.836398462
危机 0.800971538
然后,n和w均取值50%,计算第一分词结果中各个分词的主题词权重值S_CPPJ,如下表所示:
S中分词 S_CP2 S_CPC S_CPPJ 排名
超越 1.0 0.564564615 0.782282308 2
信仰 1.0 0.253966923 0.626983462 5
世界 0.8 0.689685486 0.744842743 3
环境 0.8 0.905304667 0.852652334 1
解决 0.6 0.743733282 0.671866641 4
中国 0.4 0.767245886 0.583622943 6
恐怖 0.4 0.314501949 0.357250975 10
问题 0.2 0.772889784 0.486444892 9
面临 0.2 0.836398462 0.518199231 7
危机 0.2 0.800971538 0.500485769 8
本实施例中,根据上表中第一分词结果中各个分词的主题词权重S_CPPJ降序排序结果,选取得分高的前5个分词作为第一数字资源的主题词。在其他的实施方式中,也可根据得分选取其他数目的分词作为主题词。
实施例2
本施例提供一种自动构建主题词的装置,包括:
第一分词单元U1,用于将第一数字资源进行分词,获得第一分词结果;
第一权重值计算单元U2,用于获取第一分词结果中各个分词的权重值;
第二数字资源获取单元U3,用于获取至少一篇与第一数字资源相关的第二数字资源;
第二分词单元U4,用于将第二数字资源进行分词,获得第二分词结果;
第二权重值计算单元U5,用于获取第二分词结果中各个分词的权重值;
匹配单元U6,用于将第一分词结果中各个分词与第二分词结果中各个分词进行匹配;
主题词权重计算单元U7,用于根据匹配结果、第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值计算第一分词结果中各个分词的主题词权重;
主题词确定单元U8,用于根据主题词权重选取第一分词结果中的部分分词作为第一数字资源的主题词。
本实施例提供的自动构建主题词的装置,不仅效率高,而且构建的主题词可以准确地表达第一数字资源的主题思想,能满足标引文献和检索文献的要求。
具体地,上述第一分词单元U1中,是利用分词器对第一数字资源进行分词,然后删除停用词后进行词频统计。由于停用词大多没有实际的意义,不能作为主题词,因此为了降低后续的计算量且更加准确地构建主题词,此处需要将其筛选掉。本实施例中还可以筛选掉其他不能用作主题词的分词。同样地,第二分词单元U4中也利用分词器将第二数字资源分词后筛选掉停用词再进行词频统计。即第一分词单元U1和第二分词单元U4中都需要按照筛选条件对分词进行筛选,该筛选条件主要包括删除停用词,也可以根据实际需要加入其它的筛选条件。
具体地,上述第一权重值计算单元U2中第一分词结果中各个分词的权重值和第二权重值计算单元U5中第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。具体地,第一分词结果中各个分词的权重值和第二分词结果中各个分词的权重值是通过以下公式计算得到的:
Y=(X-MIN)/(MAX-MIN)
其中,X是该分词的词频,MIN是该分词所在分词结果中最小的分词词频,MAX是该分词所在分词结果中最大的分词词频。
具体地,上述主题词权重计算单元U7中,第一分词结果中各个分词的主题词权重是通过以下公式计算得到的:
其中,n为第一分词结果中该分词的权重值,v、w为权值,C_CPi为第二分词结果中第i个分词的权重值,PPi为第一分词结果中该分词与第二分词结果中第i个分词的匹配值,m为第二分词结果中不同分词的个数。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种自动构建主题词的方法,其特征在于,包括如下步骤:
将第一数字资源进行分词,获得第一分词结果;
获取所述第一分词结果中各个分词的权重值;
获取至少一篇与所述第一数字资源相关的第二数字资源;
将所述第二数字资源进行分词,获得第二分词结果;
获取所述第二分词结果中各个分词的权重值;
将所述第一分词结果中各个分词与所述第二分词结果中各个分词进行匹配;
根据匹配结果、所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值计算所述第一分词结果中各个分词的主题词权重;
根据所述主题词权重选取所述第一分词结果中的部分分词作为所述第一数字资源的主题词。
2.如权利要求1所述的方法,其特征在于,所述将第一数字资源进行分词获得第一分词结果的步骤和所述将所述第二数字资源进行分词获得第二分词结果的步骤均包括:
按照筛选条件对分词进行筛选,所述筛选条件包括删除停用词。
3.如权利要求1或2所述的方法,其特征在于,所述至少一篇与所述第一数字资源相关的第二数字资源是采用向量机进行识别、分类以及回归分析得到的。
4.如权利要求1或2所述的方法,其特征在于,所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值均是根据各分词在对应分词结果中的词频得到的。
5.如权利要求4所述的方法,其特征在于,所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值是通过以下公式计算得到的:
Y=(X-MIN)/(MAX-MIN)
其中,X是该分词的词频,MIN是该分词所在分词结果中最小的分词词频,MAX是该分词所在分词结果中最大的分词词频。
6.如权利要求1或2所述的方法,其特征在于,所述第一分词结果中各个分词的主题词权重是通过以下公式计算得到的:
其中,n为所述第一分词结果中该分词的权重值,v、w为权值,C_CPi为所述第二分词结果中第i个分词的权重值,PPi为所述第一分词结果中该分词与所述第二分词结果中第i个分词的匹配值,m为第二分词结果中不同分词的个数。
7.一种自动构建主题词的装置,其特征在于,包括:
第一分词单元,用于将第一数字资源进行分词,获得第一分词结果;
第一权重值计算单元,用于获取所述第一分词结果中各个分词的权重值;
第二数字资源获取单元,用于获取至少一篇与所述第一数字资源相关的第二数字资源;
第二分词单元,用于将所述第二数字资源进行分词,获得第二分词结果;
第二权重值计算单元,用于获取所述第二分词结果中各个分词的权重值;
匹配单元,用于将所述第一分词结果中各个分词与所述第二分词结果中各个分词进行匹配;
主题词权重计算单元,用于根据匹配结果、所述第一分词结果中各个分词的权重值和所述第二分词结果中各个分词的权重值计算所述第一分词结果中各个分词的主题词权重;
主题词确定单元,用于根据所述主题词权重选取所述第一分词结果中的部分分词作为所述第一数字资源的主题词。
CN201510859829.1A 2015-11-30 2015-11-30 一种自动构建主题词的方法及装置 Expired - Fee Related CN105512101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510859829.1A CN105512101B (zh) 2015-11-30 2015-11-30 一种自动构建主题词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510859829.1A CN105512101B (zh) 2015-11-30 2015-11-30 一种自动构建主题词的方法及装置

Publications (2)

Publication Number Publication Date
CN105512101A CN105512101A (zh) 2016-04-20
CN105512101B true CN105512101B (zh) 2018-06-26

Family

ID=55720094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510859829.1A Expired - Fee Related CN105512101B (zh) 2015-11-30 2015-11-30 一种自动构建主题词的方法及装置

Country Status (1)

Country Link
CN (1) CN105512101B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126589B (zh) * 2016-06-17 2018-05-22 广州视源电子科技股份有限公司 简历搜索方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2372867A1 (en) * 1999-05-07 2000-11-16 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146359B2 (en) * 2002-05-03 2006-12-05 Hewlett-Packard Development Company, L.P. Method and system for filtering content in a discovered topic

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2372867A1 (en) * 1999-05-07 2000-11-16 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备

Also Published As

Publication number Publication date
CN105512101A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN107122340B (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN107122352A (zh) 一种基于k‑means、word2vec的抽取关键词的方法
CN108171184A (zh) 基于Siamese网络的用于行人重识别的方法
JP6928206B2 (ja) 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法
CN107330451A (zh) 基于深度卷积神经网络的服装属性检索方法
CN105975491A (zh) 企业新闻分析方法及系统
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
US20160180264A1 (en) Retention risk determiner
CN108038627B (zh) 一种对象评估方法及装置
CN103839078B (zh) 一种基于主动学习的高光谱图像分类方法
CN107545038B (zh) 一种文本分类方法与设备
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN110188047A (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN108363717B (zh) 一种数据安全级别的识别检测方法及装置
CN105488098B (zh) 一种基于领域差异性的新词提取方法
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
CN108764302A (zh) 一种基于颜色特征和词袋特征的票据图像分类方法
CN107194617A (zh) 一种app软件工程师软技能分类系统及方法
CN104679911B (zh) 一种基于离散弱相关的云平台决策森林分类方法
CN107977670A (zh) 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220620

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180626

CF01 Termination of patent right due to non-payment of annual fee