CN109344402A - 一种新术语自动发现识别方法 - Google Patents

一种新术语自动发现识别方法 Download PDF

Info

Publication number
CN109344402A
CN109344402A CN201811099604.0A CN201811099604A CN109344402A CN 109344402 A CN109344402 A CN 109344402A CN 201811099604 A CN201811099604 A CN 201811099604A CN 109344402 A CN109344402 A CN 109344402A
Authority
CN
China
Prior art keywords
new terminology
candidate
terminology
word frequency
candidate new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811099604.0A
Other languages
English (en)
Other versions
CN109344402B (zh
Inventor
刘伟
吴雯娜
王星
雷晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority to CN201811099604.0A priority Critical patent/CN109344402B/zh
Publication of CN109344402A publication Critical patent/CN109344402A/zh
Application granted granted Critical
Publication of CN109344402B publication Critical patent/CN109344402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新术语自动发现识别方法,涉及数据库技术、自然语言处理和新术语自动识别技术领域。该方法首先从中文期刊论文文献的关键词获取候选新术语,然后根据候选新术语的词频在年代分布和学科分布上的特征对候选新术语进行筛选,最后,综合利用候选新术语在各学科上的词频分布、历年词频变化趋势、以及影响因子等多个指标对候选新术语的综合指数进行计算,将综合指数符合学科阈值要求的确定为学科新术语。所以,采用本发明提供的方法,可以自动发现或识别出新术语,为知识组织工具能够及时融入新术语提供了条件。

Description

一种新术语自动发现识别方法
技术领域
本发明涉及数据库技术、自然语言处理和新术语自动识别技术领域,具体涉及一种新术语自动发现识别方法。
背景技术
术语是在专业领域中概念的语言指称,具有专业性、单义性和科学性等特点,限定学科领域下表示相同概念的术语之间相互为同义关系。比如“番茄”、“西红柿”、“狼桃”三个术语都是指我们日常吃的一种茄科番茄属草本植物。术语是构建专业词典、术语表、本体、叙词表、分类法等知识组织工具的最基本的素材。
新术语是那些在学科领域中已经出现但尚未收录到知识组织工具中的术语。中文新术语是包含有中文字符的新术语。
近年来,随着信息时代知识爆炸式的增长,各领域的新术语大量涌现,专业词典、术语表、本体、叙词表、分类法等知识组织工具必须与相应的学科领域的最新前沿保持同步,及时将新术语融入进来,否则就会使它们的服务质量受到影响甚至不可用。
但目前新术语的抽取主要依赖于专家的手工收集,各个专业领域中新术语大量涌现,使得手工更新的速度远远滞后于新术语的增长速度,因此需要自动的方法将新术语抽取进来,提高知识组织工具的更新效率,使之紧跟领域的发展。术语抽取方法在近年来受到越来越多的关注,但大部分方法是对成熟术语的抽取,缺少针对新术语抽取的方法,比如已有研究常使用的高频统计特征就无法用于新术语的抽取。
发明内容
本发明的目的在于提供一种新术语自动发现识别方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种新术语自动发现识别方法,包括如下步骤:
S1,从文献信息中获取其中的关键词信息和用于对关键词进行处理的相关信息;
S2,根据S1中得到的每一条关键词记录,对不规范的关键词进行清洗,得到候选新术语;
S3,对S2中得到的候选新术语进行词频统计;
S4,根据S3中得到的词频统计结果,将低频候选新术语从候选新术语表中删除;
S5,对候选新术语进行词频分析,得到候选新术语的综合指数;
S6,将S5中计算得到的综合指数与设定的阈值进行比较,符合条件的综合指数对应的候选新术语为新术语。
优选地,S1包括:中文期刊文献信息获取、中文期刊文献信息清理、中文期刊影响因子补加、关键词切分、学科分类切分和学科分类归齐。
优选地,S2包括:删除关键词中有乱码的记录,删除关键词首尾的空格和不可见字符,删除关键词中无汉字和英文的记录,将记录中的全角字符统一为半角,删除关键词中的无意义的标点符号。
优选地,S3包括步骤:生成候选新术语表;统计候选新术语总词频;统计候选新术语在各学科上的词频;统计候选新术语近十年的词频。
优选地,S4具体为,从术语总词频表中,将总词频低的候选新术语筛选出来,然后将这些低频候选新术语从候选新术语表中删除。
优选地,S5具体为,利用选新术语总词频、候选新术语在各学科上的词频分布、候选新术语历年词频变化趋势、以及候选新术语的影响因子指标,分别计算候选新术语的被关注指数、候选新术语在各学科上的分布指数和候选新术语近十年的发展指数,综合被关注指数、分布指数和发展指数,对候选新术语进行评估,计算候选新术语的综合指数。
优选地,S6具体为:设定实数阈值α,将综合指数大于α的候选新术语作为新术语,或,设定自然数阈值n,根据S5中计算得到的综合指数,按照从高到低的顺序对候选新术语进行排序,将排序中的前n个作为新术语。
本发明的有益效果是:本发明实施例提供的新术语自动发现识别方法,首先从中文期刊论文文献的关键词获取候选新术语,然后根据候选新术语的词频在年代分布和学科分布上的特征对候选新术语进行筛选,最后,综合利用候选新术语在各学科上的词频分布、历年词频变化趋势、以及影响因子等多个指标对候选新术语的综合指数进行计算,将综合指数符合学科阈值要求的确定为学科新术语。所以,采用本发明提供的方法,可以自动发现或识别出新术语,为知识组织工具能够及时融入新术语提供了条件。
附图说明
图1是本发明提供的新术语识别方法流程示意图;
图2是文献关键词获取方法流程示意图;
图3是关键词清洗方法流程示意图;
图4是候选新术语词频统计方法流程示意图;
图5是候选新术语词频分析方法流程示意图;
图6是生成候选新术语表的方法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
本发明中,新术语发现或识别是指利用计算机手段自动发现那些学科领域中已出现但尚未被该领域知识组织系统收录的中文术语。
如图1所示,本发明实施例提供了一种新术语自动发现识别方法,包括如下步骤:
S1,从文献信息中获取其中的关键词信息和用于对关键词进行处理的相关信息;
S2,根据S1中得到的每一条关键词记录,对不规范的关键词进行清洗,得到候选新术语;
S3,对S2中得到的候选新术语进行词频统计;
S4,根据S3中得到的词频统计结果,将低频候选新术语从候选新术语表中删除;
S5,对候选新术语进行词频分析,得到候选新术语的综合指数;
S6,将S5中计算得到的综合指数与设定的阈值进行比较,符合条件的综合指数对应的候选新术语为新术语。
其中,S1包括:中文期刊文献信息获取、中文期刊文献信息清理、中文期刊影响因子补加、关键词切分、学科分类切分和学科分类归齐。
具体的,本实施例中,中文期刊文献信息获取是从国家工程技术数字图书馆收录的18000多种中文期刊(http://www.istic.ac.cn/suoguan/QiKan.htm?lan=chn) 中,获取以当前年的前一年为时间结束节点,近十年的中文期刊文献信息记录 (比如今年是2018年,近十年是指2008年-2017年),形成中文期刊文献信息表,其中一条记录中关键词字段包含一个或多个关键词,学科分类字段包含一个或多个学科分类。
中文期刊文献信息清理是把中文期刊文献信息表中的字段只保留文献标题、关键词、学科分类、期刊名称、发表年份。
中文期刊影响因子补加是对每一条记录增加期刊影响因子字段,在影响因子字段中填写期刊名称字段中期刊的影响因子。其中,影响因子是从中国科学技术信息研究所最新发布的中国科技期刊引证报告(核心版) (http://www.istic.ac.cn/ScienceArticle/ tabid/702/ctl/ArticleShow/mid/2627/ArticleI D/661/Default.aspx)中获得。
关键词切分是把每条记录中关键词字段,如果有多个关键词,就切分为一个关键词一条记录,如下面的例子所示:
切分前:
切分后:
文献标题 关键词1 ……
文献标题 关键词2 ……
文献标题 关键词3 ……
学科分类切分是把每条记录中学科分类字段,如果有多个学科分类,就切分为一个学科分类一条记录,如下面的例子所示:
切分前:
切分后:
文献标题 关键词 学科分类1 ……
文献标题 关键词 学科分类2 ……
文献标题 关键词 学科分类3 ……
学科分类归齐是把学科分类字段中的学科分类按照中图分类法 (http:// www.clcindex.com/)的层级结构,向上统一成二级类目:对每一个记录中的学科分类,根据该学科分类的级别分三种情况处理:如果是二级类目,不做任何处理;如果是一级类目,删除该记录;如果是低于二级,比如三级类目或更低,根据中图分类的树结构,向上提升为二级类目,比如“TP31计算机软件”是四级类目,向上提升为二级类目“TP自动化技术、计算机技术”。
本发明的一个优选实施例中,S2包括:删除关键词中有乱码的记录,删除关键词首尾的空格和不可见字符,删除关键词中无汉字和英文的记录,将记录中的全角字符统一为半角,删除关键词中的无意义的标点符号。
其中,删除关键词中有乱码的记录,具体为,判断每条记录中的关键词字段是否存在乱码。在本发明中,乱码是指那些不属于汉字、英文字母、数字、标点符号的字符,比如都属于乱码。如果存在,则删除这些乱码。
删除关键词中无汉字和英文的记录,具体为,如果一个记录的关键词字段既没有任何一个汉字,也没有任何一个英文字母,比如“123”既没有汉字,也没有英文字母,则删除该记录。
将记录中的全角字符统一为半角,具体为,判断一个记录中各个字段中的字符是否有全角字符,如果有全角字符,则转化成半角字符。比如“cat”是全角字符,转成半角字符“cat”。
删除记录中关键词中出现的无意义的标点符号,这些标点符号包括:
‘’ “” 〝〞
ˇ · | @
* () 〈〉 {} 『』
〖〗 ﹛﹜ [] 《》 〔〕 【】 &
比如关键词“三网融合”,则删除无意义的标点符号(“”)后为三网融合,关键词互操作;,删除无特殊意义的标点符号(;)后为互操作。
本发明的一个实施例中,S3可以包括步骤:生成候选新术语表;统计候选新术语总词频;统计候选新术语在各学科上的词频;统计候选新术语近十年的词频。
其中,生成候选新术语表的方法是:对中文期刊文献信息表的关键词字段做无重复查询(SQL语句中Distinct操作),把所有唯一不重复的关键词生成候选新术语表。如图6的示例。
统计候选新术语表中每个候选新术语的总词频,候选新术语总词频的计算方法为:查询中文期刊文献信息表,对所有记录在关键词字段上做聚集查询(SQL 语句中的Group by关键词),统计每个候选新术语的总词频。生成术语总词频表,如下格式:
候选新术语 总词频
统计候选新术语在各学科上的词频,具体方法为,统计候选新术语表中每个候选新术语在中图分类中二级类目上的词频,候选新术语学科词频的计算方法为:查询中文期刊文献信息表,对所有记录在关键词字段和学科分类字段上做聚集查询(SQL语句中的Group by关键词,学科分类),统计每个候选新术语在每个二级学科分类下词频。生成术语学科词频表,如下格式:
候选新术语 学科分类 学科词频
统计候选新术语表中每个候选新术语在近十年中每年的词频,候选新术语十年词频的计算方法为:查询中文期刊文献信息表,对所有记录在候选新术语字段和发表年份字段上做聚集查询(SQL语句中的Group by关键词,发表年份),统计每个关键词在每年的词频。生成术语十年词频表,如下例所示:
本发明中,S4具体可以为,从术语总词频表中,将总词频低的候选新术语筛选出来,然后将这些低频候选新术语从候选新术语表中删除。
上述方法中,得到术语总词频表后,从术语总词频表中,将总词频低于5 的候选新术语筛选出来,然后将这些低频候选新术语从候选新术语表中删除。
本发明中,S5具体可以为,利用选新术语总词频、候选新术语在各学科上的词频分布、候选新术语历年词频变化趋势、以及候选新术语的影响因子指标,分别计算候选新术语的被关注指数、候选新术语在各学科上的分布指数和候选新术语近十年的发展指数,综合被关注指数、分布指数和发展指数,对候选新术语进行评估,计算候选新术语的综合指数。
其中,候选新术语的被关注指数s(t)等于新术语t的总词频。
候选新术语t在各学科上的分布指数d(t),可按照如下公式进行计算:
其中,subi(t)是指第i个二级学科分类下候选新术语t的词频,是指新术语t在二级学科分类下的平均词频,设二级学科分类共有n个,每个候选新术语的二级学科分类下的词频已经在上述步骤中得到。
候选新术语t近十年(从去年开始往前的十年)的发展指数e(t),可以按照如下公式进行计算:
其中,yi(t)是指候选新术语t在第i年份的词频,cy是指当前的年份,每个候选新术语在近十年的词频已经在上述步骤中得到。
候选新术语t的综合指数NT(t),可以按照如下公式进行计算:
NT(t)=a×log10s(t)+b×log10d(t)+c×log10e(t)
其中,a、b和c分别是权重系数,默认值是0.5、0.3和1,可以根据实际需要重新设置。
本发明实施例中,S6具体可以为:设定实数阈值α,将综合指数大于α的候选新术语作为新术语,或,设定自然数阈值n,根据S5中计算得到的综合指数,按照从高到低的顺序对候选新术语进行排序,将排序中的前n个作为新术语。
可见,本发明中,可以采用如下两种方式确定新术语:一种是,设定实数阈值α,将综合指数大于α的候选新术语作为新术语;另一种是,设定自然数阈值n,根据S5中计算得到的综合指数,按照从高到低的顺序对候选新术语进行排序,将排序中的前n个作为新术语。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例提供的新术语自动发现识别方法,首先从中文期刊论文文献的关键词获取候选新术语,然后根据候选新术语的词频在年代分布和学科分布上的特征对候选新术语进行筛选,最后,综合利用候选新术语在各学科上的词频分布、历年词频变化趋势、以及影响因子等多个指标对候选新术语的综合指数进行计算,将综合指数符合学科阈值要求的确定为学科新术语。所以,采用本发明提供的方法,可以自动发现或识别出新术语,为知识组织工具能够及时融入新术语提供了条件。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (7)

1.一种新术语自动发现识别方法,其特征在于,包括如下步骤:
S1,从文献信息中获取其中的关键词信息和用于对关键词进行处理的相关信息;
S2,根据S1中得到的每一条关键词记录,对不规范的关键词进行清洗,得到候选新术语;
S3,对S2中得到的候选新术语进行词频统计;
S4,根据S3中得到的词频统计结果,将低频候选新术语从候选新术语表中删除;
S5,对候选新术语进行词频分析,得到候选新术语的综合指数;
S6,将S5中计算得到的综合指数与设定的阈值进行比较,符合条件的综合指数对应的候选新术语为新术语。
2.根据权利要求1所述的新术语自动发现识别方法,其特征在于,S1包括:中文期刊文献信息获取、中文期刊文献信息清理、中文期刊影响因子补加、关键词切分、学科分类切分和学科分类归齐。
3.根据权利要求1所述的新术语自动发现识别方法,其特征在于,S2包括:删除关键词中有乱码的记录,删除关键词首尾的空格和不可见字符,删除关键词中无汉字和英文的记录,将记录中的全角字符统一为半角,删除关键词中的无意义的标点符号。
4.根据权利要求1所述的新术语自动发现识别方法,其特征在于,S3包括步骤:生成候选新术语表;统计候选新术语总词频;统计候选新术语在各学科上的词频;统计候选新术语近十年的词频。
5.根据权利要求4所述的新术语自动发现识别方法,其特征在于,S4具体为,从术语总词频表中,将总词频低的候选新术语筛选出来,然后将这些低频候选新术语从候选新术语表中删除。
6.根据权利要求5所述的新术语自动发现识别方法,其特征在于,S5具体为,利用选新术语总词频、候选新术语在各学科上的词频分布、候选新术语历年词频变化趋势、以及候选新术语的影响因子指标,分别计算候选新术语的被关注指数、候选新术语在各学科上的分布指数和候选新术语近十年的发展指数,综合被关注指数、分布指数和发展指数,对候选新术语进行评估,计算候选新术语的综合指数。
7.根据权利要求6所述的新术语自动发现识别方法,其特征在于,S6具体为:设定实数阈值α,将综合指数大于α的候选新术语作为新术语,或,设定自然数阈值n,根据S5中计算得到的综合指数,按照从高到低的顺序对候选新术语进行排序,将排序中的前n个作为新术语。
CN201811099604.0A 2018-09-20 2018-09-20 一种新术语自动发现识别方法 Active CN109344402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811099604.0A CN109344402B (zh) 2018-09-20 2018-09-20 一种新术语自动发现识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811099604.0A CN109344402B (zh) 2018-09-20 2018-09-20 一种新术语自动发现识别方法

Publications (2)

Publication Number Publication Date
CN109344402A true CN109344402A (zh) 2019-02-15
CN109344402B CN109344402B (zh) 2023-08-04

Family

ID=65305813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811099604.0A Active CN109344402B (zh) 2018-09-20 2018-09-20 一种新术语自动发现识别方法

Country Status (1)

Country Link
CN (1) CN109344402B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990376A (zh) * 2019-11-20 2020-04-10 中国农业科学院农业信息研究所 一种基于多因子混合排序机制的学科分类自动标引方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101178741A (zh) * 2007-12-24 2008-05-14 腾讯科技(深圳)有限公司 一种更新用户词库的方法及装置
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN101354712A (zh) * 2008-09-05 2009-01-28 北京大学 中文术语自动提取系统及方法
US20090119285A1 (en) * 2007-11-01 2009-05-07 Neelakantan Sundaresan Query utilization
US20100092095A1 (en) * 2008-10-14 2010-04-15 Exbiblio B.V. Data gathering in digital and rendered document environments
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103593469A (zh) * 2013-11-30 2014-02-19 合一网络技术(北京)有限公司 一种采用互补信息的关联关键词计算方法及装置
CN104156351A (zh) * 2014-08-08 2014-11-19 西安交通大学 一种基于纳税人年报的纳税人税务交易行为识别方法
CN104572622A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种术语的筛选方法
US20150169563A1 (en) * 2013-12-13 2015-06-18 National Cheng Kung University Method and system for recommending research information news
US20150324868A1 (en) * 2014-05-12 2015-11-12 Quixey, Inc. Query Categorizer
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
US20090119285A1 (en) * 2007-11-01 2009-05-07 Neelakantan Sundaresan Query utilization
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN101178741A (zh) * 2007-12-24 2008-05-14 腾讯科技(深圳)有限公司 一种更新用户词库的方法及装置
CN101354712A (zh) * 2008-09-05 2009-01-28 北京大学 中文术语自动提取系统及方法
US20100092095A1 (en) * 2008-10-14 2010-04-15 Exbiblio B.V. Data gathering in digital and rendered document environments
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103593469A (zh) * 2013-11-30 2014-02-19 合一网络技术(北京)有限公司 一种采用互补信息的关联关键词计算方法及装置
US20150169563A1 (en) * 2013-12-13 2015-06-18 National Cheng Kung University Method and system for recommending research information news
US20150324868A1 (en) * 2014-05-12 2015-11-12 Quixey, Inc. Query Categorizer
CN104156351A (zh) * 2014-08-08 2014-11-19 西安交通大学 一种基于纳税人年报的纳税人税务交易行为识别方法
CN104572622A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种术语的筛选方法
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LIN WU等: "Fusing Gini Index and Term Frequency for Text Feature Selection", 《IEEE》 *
刘伟等: "海量学术资源个性化推荐综述", 《计算机工程与应用》 *
古迎志等: "基于术语抽取与分级匹配的项目指南推荐方法", 《探索与研究》 *
周浪等: "一种面向术语抽取的短语过滤技术", 《计算机工程与应用》 *
杨双龙等: "中文专利文献术语自动识别研究", 《中文信息学报》 *
游宏梁;张巍;沈钧毅;刘挺;: "一种基于加权投票的术语自动识别方法", 中文信息学报 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990376A (zh) * 2019-11-20 2020-04-10 中国农业科学院农业信息研究所 一种基于多因子混合排序机制的学科分类自动标引方法
CN110990376B (zh) * 2019-11-20 2023-05-09 中国农业科学院农业信息研究所 一种基于多因子混合排序机制的学科分类自动标引方法

Also Published As

Publication number Publication date
CN109344402B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN104778161B (zh) 基于Word2Vec和Query log抽取关键词方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
Inouye et al. Comparing twitter summarization algorithms for multiple post summaries
CN106599054B (zh) 一种题目分类及推送的方法及系统
US7720837B2 (en) System and method for multi-dimensional aggregation over large text corpora
CN102945246B (zh) 网络信息数据的处理方法及装置
CN105045875B (zh) 个性化信息检索方法及装置
CN103313248B (zh) 一种识别垃圾信息的方法和装置
EP2657852A1 (en) Method and device for filtering harmful information
CN101334773A (zh) 一种过滤搜索引擎查询结果的方法
CN101980199A (zh) 基于态势评估的网络热点话题发现方法及系统
CN106407484A (zh) 一种基于弹幕语义关联的视频标签提取方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
JP5556711B2 (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
US20150120708A1 (en) Information aggregation, classification and display method and system
US20140053087A1 (en) Friend recommendation method, apparatus and storage medium
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
CN109344402A (zh) 一种新术语自动发现识别方法
CN1614607A (zh) 垃圾邮件过滤的方法和系统
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
CN114048310A (zh) 基于lda主题ap聚类的动向情报事件时间线提取方法
Yang et al. Post-level spam detection for social bookmarking web sites
CN107465519B (zh) 一种基于即时通讯应用的数据管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant