CN104636415A - 提取重要关键字的方法和执行所述方法的服务器 - Google Patents
提取重要关键字的方法和执行所述方法的服务器 Download PDFInfo
- Publication number
- CN104636415A CN104636415A CN201410642592.7A CN201410642592A CN104636415A CN 104636415 A CN104636415 A CN 104636415A CN 201410642592 A CN201410642592 A CN 201410642592A CN 104636415 A CN104636415 A CN 104636415A
- Authority
- CN
- China
- Prior art keywords
- word
- user
- file
- definition
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种通过重要关键字提取服务器来提取重要关键字的方法,所述方法包括:从网络接收一组的一个或更多个文件;从用户终端接收一个或更多个用户定义关键字;通过服务器来计算在所述一组文件中检测出的每个字的相对重要性值;通过服务器基于一个或更多个用户定义关键字来确定用于每个字的权重;通过服务器来将用于每个字的权重应用于每个字的相对重要性值;通过服务器基于应用了权重的相对重要性值来将至少一个字确定为重要关键字;以及通过服务器来将重要关键字传送至用户终端。因此,所述方法可以从至少一个文件中有效地检测用户定义关键字。
Description
相关申请的交叉引用
本申请要求2013年11月11日提交的申请号为10-2013-0136564的韩国专利申请的较早申请日的权益以及优先权,该申请的全部内容通过引用合并于此。
技术领域
本公开的实施例涉及提取重要关键字的计算机可执行技术,且更具体而言,涉及从一个或更多个文件中提取重要关键字的方法和执行所述方法的服务器。
背景技术
关键字分析使用模式匹配技术来分析句子的内容。在关键字分析过程中,可以基于分析器的主观经验来确定关键字,然后在目标文件的搜索中将其与搜索关键字相匹配。
由于相关技术中的关键字分析使用由分析器主观选择的字作为重要的字,这种关键字分析可能未使用在目标文件中实际重要的关键字。
发明内容
本公开的实施例针对一种基于用户定义关键字从至少一个文件中有效地提取重要关键字的方法。
本公开的实施例针对一种通过确定在至少一个文件中检测出的字的相对重要性并将用户定义关键字的权重应用于所述字的相对重要性来提取重要关键字的方法。
本公开的实施例针对一种提取重要关键字并将具有包括重要关键字的至少一个关键字列表提供给用户的方法。
在一些实施例中,一种通过重要关键字提取服务器来提取重要关键字的方法包括:从网络接收一组的一个或更多个文件;从用户终端接收一个或更多个用户定义关键字;通过服务器来计算在所述一组文件中检测出的每个字的相对重要性值;通过服务器基于一个或更多个用户定义关键字来确定用于每个字的权重;通过服务器来将用于每个字的权重应用于每个字的相对重要性值;通过服务器基于应用了权重的相对重要性值来将至少一个字确定为重要关键字;以及通过服务器来将重要关键字传送至用户终端。
在一个实施例中,计算相对重要性值可以包括:通过对特定的字在一个或更多个特定文件中出现的次数和包含所述一个或更多个特定文件的一个或更多个文件中所包括的全部的字的数目执行算术运算,来确定在所述一个或更多个特定文件中检测出的特定的字的初始重要性值。
计算相对重要性值还可以包括:确定包含特定的字的一个或更多个特定文件的数目与一个或更多个文件的总数目的比,其中,通过对特定的字的初始重要性值和所述比执行算术运算来计算相对重要性值。
确定用于每个字的权重还可以包括:将来自用户终端的一个或更多个用户定义关键字和用于所述一个或更多个用户定义关键字的相应权重储存在数据库中;在所述一组文件中搜索与至少一个用户定义关键字相匹配的至少一个字;搜索用于与所述至少一个字相匹配的至少一个用户定义关键字的相应权重;以及基于用于所述至少一个用户定义关键字的相应权重来确定用于每个字的权重。
在一个实施例中,搜索所述至少一个字可以包括:基于在所述一组文件中检测出的字的缩写来搜索所述至少一个字。
在一个实施例中,所述方法还可以包括:在所述一个或更多个文件中分析字的词素(morpheme),并且基于词素分析的结果来检测包括名词的字。在本文中,名词可以包括普通名词、专有名词和复合名词。
在一个实施例中,所述一个或更多个用户定义关键字可以包括由多个关键字组成的一组关键字。
在一个实施例中,所述方法还可以包括:从用户终端接收用于所述一个或更多个用户定义关键字的权重,以及将所述一个或更多个用户定义关键字和用于所述一个或更多个用户定义关键字的权重储存在数据库中。
在一个实施例中,所述方法还可以包括:计算所述一个或更多个用户定义关键字的相对重要性值;基于所述一个或更多个用户定义关键字的计算出的相对重要性值来确定用于所述一个或更多个用户定义关键字的权重;以及将所述一个或更多个用户定义关键字和用于所述一个或更多个用户定义关键字的权重储存在数据库中。
在一个实施例中,所述方法还可以包括:从所述一组文件中所检测出的字中检测与所述一个或更多个用户定义关键字相似的字,以及将所述相似的字储存在存储器中。
将所述至少一个字确定为重要关键字还可以包括:将具有等于或高于预定值的加权相对重要性值的至少一个字确定为重要关键字。
所述方法还可以包括从用户终端接收包括与用户所请求的关键字的数目有关的信息的请求,其中,传送重要关键字包括将与关键字的数目相对应的重要关键字传送至用户终端。
在一些实施例中,一种系统包括处理器、非暂存性计算机可读媒介,所述非暂存性计算机可读媒介在其上储存有指令,当执行所述指令时,使处理器执行如下方法,所述方法包括:计算在一个或更多个文件中检测出的每个字的相对重要性值;将每个字与一个或更多个用户定义关键字进行比较;如果至少一个字与至少一个用户定义关键字相匹配,则将用于所述至少一个用户定义关键字的权重应用于所述至少一个字的相对重要性值;将具有高重要性值的至少一个字确定为重要关键字;以及将重要关键字传送至用户终端。
在一个实施例中,计算相对重要性值可以包括:通过对特定的字在一个或更多个特定文件中出现的次数和包含所述一个或更多个特定文件的一个或更多个文件中所包括的全部的字的数目执行算术运算,来确定在所述一个或更多个特定文件中检测出的所述特定的字的初始重要性值;确定所述一个或更多个特定文件的数目与所述一个或更多个文件的数目的比;以及通过对所述特定的字的初始重要性值和所述比执行算术运算来计算每个字的相对重要性值。
在一个实施例中,所述方法还可以包括:分析一个或更多个文件中所包括的字的词素,以及基于词素分析的结果来检测包含名词的字。
比较每个字还可以包括:确定在所述一个或更多个文件中检测出的字中哪些字具有高相对重要性值,以及将具有高相对重要性值的字与所述一个或更多个用户定义关键字进行比较。
在一个实施例中,所述方法还可以包括从用户终端接收包括与用户所请求的关键字的数目有关的信息的请求,其中,传送重要关键字包括将与关键字的数目相对应的重要关键字传送至用户终端。
在一些实施例中,一种非暂存性计算机可读媒介,所述非暂存性计算机可读媒介在其上储存有计算机可执行指令,当处理器执行所述指令时,执行如下方法,所述方法包括:计算在一个或更多个文件中检测出的每个字的相对重要性值;将每个字与一个或更多个用户定义关键字进行比较,以及如果至少一个字与至少一个用户定义关键字相匹配,则将用于所述至少一个用户定义关键字的权重应用于所述至少一个字的相对重要性值,以确定所述至少一个字的重要性值;将具有高重要性值的至少一个字确定为重要关键字;以及将重要关键字传送至用户终端。
在一个实施例中,计算相对重要性值可以包括:通过对特定的字在一个或更多个特定文件中出现的次数和包含所述一个或更多个特定文件的一个或更多个文件中所包括的全部的字的数目执行算术操作,来确定在所述一个或更多个特定文件中检测出的特定的字的初始重要性值;确定所述一个或更多个特定文件的数目与所述一个或更多个文件的数目的比;以及通过对所述特定的字的初始重要性值和所述比执行算术运算,来计算每个字的相对重要性值。
本公开的实施例可以在至少一个文件中有效地检测重要关键字。
本公开的实施例可以确定在至少一个文件中检测出的字的相对重要性,以及将用户定义关键字的权重应用于检测出的字的相对重要性以找到重要关键字。
本公开的实施例可以提供至少一个关键字列表,所述至少一个关键字列表包括基于在至少一个文件中检测出的字的重要性而确定出的重要关键字。
附图说明
图1是说明根据本公开的一个实施例的重要关键字提取系统的框图。
图2是说明根据本公开的一个实施例的重要关键字提取服务器的框图。
图3是说明根据本公开的一个实施例的重要关键字提取过程的流程图。
图4说明用于用户定义关键字的权重。
图5A和图5B说明词素的相对重要性。
图6说明所计算出的词素的重要性。
图7A至图7C说明关键字列表。
图8说明根据本公开的一个实施例的重要关键字提取服务器的简化视图。
具体实施方式
实施例的说明提供了对各种特征的结构或功能的解释,所以本公开的范围不应当被解释为局限于本文中所述的实施例。即,由于在不脱离实施例的特点的情况下可以用若干形式来实施实施例,所以应当理解的是,描述的实施例不受在前描述的任何细节所限,除非另外说明,而应该在所附权利要求中限定的范围内广义地解释。因此,落入权利要求范围内的各种变化和修改或该范围的等同形式旨在包含在所附权利要求中。
在本公开中描述的术语可以被理解如下。在本公开中的单数形式(例如,“一个”)旨在也包括复数形式,除非上下文另有明确指示。还将理解的是,诸如“包括”或“具有”等的术语旨在表示在说明书中公开的特征、数目、操作、动作、部件、部分或其组合的存在,并非旨在排除可存在或可增加一个或更多个其他特征、数目、操作、动作、部件、部分或其组合的可能性。
相应步骤或操作中的标识字母(例如,a、b、c等)是用于解释的目的,并非旨在将实施例限制于任何特定的顺序。相应操作的顺序可以从描述的顺序改变,除非上下文明确地指出特定顺序。
在本公开中使用的术语仅用于描述特定的实施例,并非旨在进行限制。除非另有限定,否则本文中使用的所有术语,包括技术或科学术语,都具有与本公开所属技术领域的普通技术人员通常理解的相同含义。如在通用词典中定义的这些术语要被解释成具有与相关技术领域中的语境含义相符的含义,而不被解释成具有不切实际或过分形式的含义,除非在本申请中清楚地指出。
图1是说明根据本公开的一个实施例的重要关键字提取系统的框图。
参见图1,重要关键字提取系统100包括:重要关键字提取服务器110和用户终端120。
重要关键字提取服务器110可以经由在线网络130从用户终端120接收由用户定义的一个或更多个关键字,即用户定义关键字。在本文中,重要关键字提取服务器110可以被实施为多个分布式计算设备或单个计算设备。用户定义关键字可以包括用户输入用以确定哪些字重要的搜索项目。
重要关键字提取服务器110可以在一个或更多个文件中检测字并且确定每个字的重要性,以及可以根据每个检测出的字的重要性来将一个或更多个检测出的字提供至用户终端120。
用户终端120可以经由网络130与重要关键字提取服务器110连接并且与重要关键字提取服务器110通信。用户终端120可以是包括CPU(中央处理单元)、存储设备和输入/输出设备的计算设备,诸如PC(个人计算机)、智能手机、PDA(个人数字助理)或者平板PC。为了便于说明,图1示出单个用户终端。然而,在一些实施例中,多于一个的用户终端可以与一个重要关键字提取服务器110通信。
用户终端120可以从重要关键字提取服务器110接收具有高相对重要性的至少一个字。用户终端120可以将经由输入设备从用户接收的用户的输入提供至重要关键字提取服务器110,以及可以经由输出设备将其响应输出至用户。
图2是说明根据本公开的一个实施例的重要关键字提取服务器110A的框图。
参见图2,重要关键字提取服务器110A包括:相对重要性计算器210、字重要性确定器220、关键字提供器230、字提取器240以及控制器250。
相对重要性计算器210计算在一个或更多个文件中检测出的每个字的相对重要性。
相对重要性计算器210可以经由用户终端120和网络130从用户接收与一个或更多个文件有关的信息。在一个实施例中,所述文件可以对应于在因特网或者其他网络(诸如网页、博客、主页、推特(Twitter)订阅、或者包括广告和与产品有关的信息的其他社交媒体网站等)上可搜索到的记录。本申请可以应用于在数据库中储存的文件。
相对重要性计算器210可以通过对特定的字在特定文件中出现的次数和包含所述一个或更多个特定文件的全部文件中所包括的全部的字的数目执行算术运算,来确定在所述一个或更多个特定文件中检测出的特定的字的初始重要性。例如,可以通过将特定的字在特定文件中出现的次数除以全部文件中所包括的字的总数目所获得的值,来确定在特定文件中检测出的特定的字的初始重要性。因而,在一个实施例中,假设有一组文件,任何给定的字可能仅在特定文件中出现,而不在其他文件中出现。所述字的初始重要性对应于通过将所述字在特定文件中出现的次数除以整组文件(包含不包括所述字的文件)中的字的总数目所获得的值。之后,相对重要性计算器210可以通过对包括特定的字的特定文件的数目和文件的总数目执行算术运算,来确定包括特定的字的特定文件的数目与文件的总数目的比。包括特定的字的特定文件与文件的总数目的比可以对应于通过将特定文件的数目除以文件的总数目所获得的值。
相对重要性计算器210可以通过对与特定的字的初始重要性相对应的值和包括特定的字的特定文件与文件的总数目的比执行算术运算,来计算特定的字的相对重要性。特定的字的相对重要性对应于通过将表示特定的字的初始重要性的值除以与包括特定的字的特定文件的比相对应的值所获得的值。
字重要性确定器220将在一个或更多个文件中检测出的每个字与用户定义关键字进行比较,并且将用于至少一个用户定义关键字的权重应用于至少一个字,来确定字的加权重要性。
字重要性确定器220可以从在一个或更多个文件中检测出的字中检测与至少一个用户定义关键字相似的字,并且将所述相似的字暂时地储存在存储器中。在一个实施例中,存储器储存在一个或更多个文件中检测出的至少一个相似的字,并且在经过特定时间之后删除所述相似的字。在另一个实施例中,存储器储存在一个或更多个文件中检测出的至少一个相似的字,并且在接收到另一组的一个或更多个文件时删除储存在存储器中的所有相似的字。
字重要性确定器220可以基于在一个或更多个文件中检测出的字的缩写来搜索关键字数据库,以将每个字与储存在关键字数据库中的用户定义关键字进行比较。字重要性确定器220可以基于字的缩写来搜索关键字数据库以减少搜索时间。然而,实施例不局限于此。例如,如果字是韩语,则字重要性确定器220可以基于字的辅音来搜索关键字数据库。
在一个实施例中,如果在关键字数据库中没有与在一个或更多个文件中检测出的特定的字相对应的用户定义关键字,则字重要性确定器220可以确定出通过相对重要性计算器210计算出的特定的字的相对重要性是所述特定的字的加权重要性。
如果在关键字数据库中找到与特定的字相对应的用户定义关键字,则字重要性确定器220可以将用于用户定义关键字的权重分配给所述特定的字。在本文中,权重可以被实现为小数。
在一个实施例中,字重要性确定器220可以从用户接收用户定义关键字和用于用户定义关键字的权重,并且按字母顺序将用户定义关键字分类。分类的用户定义关键字和用于用户定义关键字的权重储存在关键字数据库中。
在另一个实施例中,如果仅从用户接收用户定义关键字而不接收其权重,则字重要性确定器220可以分析用户定义关键字的相对重要性以确定用于所述用户定义关键字的权重,然后可以按字母顺序来将用户定义关键字分类,以及将用户定义关键字和用于所述用户定义关键字的权重储存在关键字数据库中。
字重要性确定器220可以设定用于用户定义关键字的权重范围,并且测量用于用户定义关键字的权重是否在所述权重范围内。如果用于用户定义关键字的权重不在所述权重范围内,则字重要性确定器220可以将用户定义关键字的权重调整在所述权重范围内。
在一个实施例中,用户定义关键字可以是由一个关键字组成的单个关键字、或者是由多个关键字组成的一组关键字。例如,单个关键字可以包括单个字,例如,PATENT、JAVA、EVENT或KEYWORD,而一组关键字可以包括至少两个字,例如,CLASSICMUSIC、TEST SCHEDULE或SONG LYRICS。
关键字提供器230为用户提供根据字的加权重要性从在一个或更多个文件中检测出的字中选择的一个或更多个关键字。关键字提供器230可以将包括根据字的加权重要性而确定的一个或更多个关键字的关键字列表提供给用户。在本文中,关键字提供器230可以根据关键字的加权重要性来将一个或更多个关键字分类,并且提供包括分类的关键字的关键字列表作为重要关键字。
关键字提供器230可以从用户接收包括与用户所请求的关键字的数目有关的信息的请求,以及将与用户所请求的关键字的数目相对应的重要关键字提供至用户作为对用户请求的响应。
字提取器240可以分析一个或更多个文件中所包括的字的词素,并且基于词素分析结果来提取包含名词的字。在本文中,名词可以包括普通名词、专有名词和复合名词中的至少一种。
在一个实施例中,字提取器240可以利用词素分析器来分析一个或更多个文件中所包括的字的词素。例如,字提取器240可以基于词法词素和语法词素来分析字的词素。词法词素对应于词典中所列出的单独定义的词素。例如,在“my mother just hates me”中,其词法词素可以被分析为[mother]、[hate]、[just]和[i]。语法词素帮助对特定的字给出含义、对特定的字分配格(诸如主格或宾格)、将特定的字放在修饰名词短语的位置、将动词或形容词变成名词、或者表达过去时态。例如,在“my mother just hates me”中,其语法词素可以被分析为[my]、[-s]和[me]。
字提取器240可以将从一个或更多个文件中提取的字储存在数据库中。可以储存每个提取出的字以关联于与提取出每个字的相应文件有关的信息。数据库可以与关键字数据库在物理上分离或结合。
控制器250可以控制重要关键字提取服务器110A的全部操作。具体地,控制器250可以控制相对重要性计算器210、字重要性确定器220、关键字提供器230和字提取器240之间的信号(例如,命令)流动和/或数据流动。
图3是说明根据一个实施例的重要关键字提取过程的流程图。将参照图2中所示的重要关键字提取服务器110A来描述所述重要关键字提取过程。
参见图3,字提取器240分析在一个或更多个文件中包括的字的词素,并且基于词素分析的结果来提取包括名词的字(S301和S302)。
相对重要性计算器210计算在所述一个或更多个文件中检测出的每个字的相对重要性(S303)。
在一个实施例中,相对重要性计算器210可以通过对特定的字在一个或更多个特定文件中出现的次数和全部文件中所包括的字的总数目执行算术运算,来确定在所述一个或更多个文件的所述一个或更多个特定文件中检测出的特定的字的初始重要性。例如,当[PATENT]在文件1中出现的次数为5且全部的一个或更多个文件中所包括的字的总数目为5125,则在文件1中检测出的[PATENT]的初始重要性可以被确定为大约0.0009756(5/5125)。
相对重要性计算器210可以通过对所述一个或更多个特定文件的数目和所述一个或更多个文件的总数目执行算术运算,来确定包括特定的字的所述一个或更多个特定文件与所述一个或更多个文件的总数目的比。例如,当包括[PATENT]的特定文件的数目为4并且文件的总数目为10时,包括[PATENT]的特定文件与文件的总数目的比可以被确定为0.25(4/10)。
相对重要性计算器210可以通过对与特定的字的初始重要性相对应的值和包括所述特定的字的特定文件的比执行算术操作,来计算在所述一个或更多个文件中检测出的每个字的相对重要性。例如,当与在特定文件中检测出的[PATENT]的初始重要性相对应的值大约为0.0009756,并且包括[PATENT]的特定文件与文件的总数目的比为0.25时,[PATENT]的相对重要性可以被确定为0.003902(0.0009756/0.25)。
图5A说明在每个文件(例如,文件1至文件10)中检测出的[PATENT]、[KEYWORD]、[EVENT]、[MEASUREMENT]、[KOREA]、[JAVA]、[BANK]和[SEOUL]中的每个的相对重要性,图5B说明在全部文件(例如,文件1至文件10)中检测出的[PATENT]、[KEYWORD]、[EVENT]、[MEASUREMENT]、[KOREA]、[JAVA]、[BANK]和[SEOUL]中的每个的相对重要性。相对重要性计算器210可以通过沿着图5A中的方向b而对在文件1至文件10的每个中的[PATENT]的相对重要性的值求和,来计算在所述一组的一个或更多个文件中的[PATENT]的相对重要性。相对重要性计算器210可以通过沿着图5A中的方向b而对在文件1至文件10的每个中的[KEYWORD]的相对重要性的值求和,来计算在所述一组的一个或更多个文件中的[KEYWORD]的相对重要性。相对重要性计算器210可以继续计算关键字相对于全部的一个或更多个文件的相对重要性,直到计算出最后一个关键字(在本实例中,为[SEOUL])的相对重要性为止。图5A中的相对重要性的求和结果在图5B中示出。
再次参见图3,在完成S303的处理之后,字重要性确定器220将具有高相对重要性的每个字与储存在关键字数据库中的用户定义关键字进行比较(S304)。在一个实施例中,如果特定的字具有等于或高于预定值的相对重要性值,则所述特定的字被确定为是具有高相对重要性的字。在另一个实施例中,将具有比其他字更高的相对重要性值的预定数目的特定的字确定为是具有高相对重要性的字。所述预定数目可以对应于用户所请求的关键字的数目。
当至少一个用户定义关键字与具有高相对重要性的至少一个字相匹配时,字重要性确定器220可以将储存在关键字数据库中的用于所述至少一个用户定义关键字的权重应用于匹配的字,因而确定出匹配的字的权重(S305和S306)。
字重要性确定器220可以通过对[PATENT]、[KEYWORD]、[EVENT]、[MEASUREMENT]、[KOREA]、[JAVA]、[BANK]和[SEOUL]的相对重要性和基于储存在关键字数据库中的用于用户定义关键字的权重所获得的用于[PATENT]、[JAVA]、[EVENT]和[KEYWORD]的权重执行算术运算(例如,乘法),来确定[PATENT]、[KEYWORD]、[EVENT]、[MEASUREMENT]、[KOREA]、[JAVA]、[BANK]和[SEOUL]的加权重要性。图6示出作为S305和S306的过程的结果而确定出的[PATENT]、[KEYWORD]、[EVENT]、[MEASUREMENT]、[KOREA]、[JAVA]、[BANK]和[SEOUL]的加权重要性。
在一个实施例中,当从用户接收到用户定义关键字和用于所述用户定义关键字的权重时,重要关键字提取系统100按字母顺序将所述用户定义关键字分类,以及将分类的用户定义关键字及其权重储存在关键字数据库中。例如,当从用户接收到[PATENT,JAVA,EVENT和KEYWORD]和权重[1.3,1.7,1.1和0.7]时,字重要性确定器220按字母顺序将[PATENT,JAVA,EVENT和KEYWORD]分类,以及沿着图4中所示的方向a以[EVENT,JAVA,KEYWORD和PATENT]和权重[1.1,1.7,0.7和1.3]的顺序来将分类的用户定义关键字储存在关键字数据库中。
在另一个实施例中,当从用户接收到用户定义关键字时,重要关键字提取系统100可以分析所述用户定义关键字的相对重要性以确定所述用户定义关键字的权重,然后按字母顺序将所述用户定义关键字分类并且将分类的用户定义关键字及其权重储存在关键字数据库中。在一些实施例中,用户定义关键字的权重可以基于在过去检测出的字的频率或者基于用户的意图来确定。
在一个实施例中,字重要性确定器220可以分析在一个或更多个文件中检测出的字的词法语义,以检测与至少一个用户定义关键字相似的字。例如,当用户定义关键字对应于[KEYWORD]时,字重要性确定器220可以分析在一个或更多个文件中检测出的字的词法语义,并且将与[KEYWORD]相似的[KEY POINT]检测作为与[KEYWORD]相似的字。
字重要性确定器220基于在一个或更多个文件中检测出的字的缩写来搜索关键字数据库,以将储存在关键字数据库中的用户定义关键字与每个字进行比较。例如,当[EVENT]、[JAVA]、[KEYWORD]和[PATENT]储存在关键字数据库中,并且在一个或更多个文件中检测出[PATENT,KEYWORD,EVENT,MEASUREMENT,KOREA,JAVA,BANK和SEOUL]时,字重要性确定器220可以基于[PATENT]的缩写[P]来搜索关键字数据库,以确定在关键字数据库中是否包括字[PATENT]。
再次参见图3,关键字提供器230将根据字的加权重要性确定出的至少一个字提供至用户作为重要关键字(S307)。
关键字提供器230可以从用户接收包括与用户所请求的关键字的数目有关的信息的请求,并且将具有与用户所请求的关键字的数目相对应的关键字提供给用户。例如,如图7A中所示,当用户请求了5个关键字时,关键字提供器230可以提供具有高相对重要性的5个关键字[MEASUREMENT]、[KEYWORD]、[BANK]、[PATENT]和[KOREA]给用户。如图7B中所示,当关键字列表中的设置在关键字[MEASUREMENT]右侧的三角形指示器被用户触发时,关键字提供器230可以利用组合框710来提供与[MEASUREMENT]相似的字[MENSURATION]、[OBSERVATION]和[SURVEY]。在本文中,由附图标记701表示的激活的三角形指示器指示存在相似的字,而由附图标记702表示的未被激活的三角形指示器指示不存在相似的字。在另一个实施例中,如图7C中所示,当关键字列表中的设置在字[MEASUREMENT]右侧的激活的三角形指示器被用户触发时,关键字提供器230可以利用组合框720提供与[MEASUREMENT]被检测到的文件有关的信息。在另一个实施例中,在关键字附近可以设置两个不同的指示器。在本实施例中,如果两个指示器都被激活,则一个指示器在触发时指示相似的字,而另一个指示器在触发时指示关键字出现的文件。
图8说明根据本公开的一个实施例的重要关键字提取服务器110B的简化视图。
重要关键字提取服务器110B包括处理器或CPU 821,其通过总线822与各种其他的部件通信。重要关键字提取服务器110B中的这些其他的部件包括,但是不限于:作为存储器823的非暂存性计算机可读存储媒介,包括只读存储器(ROM)824和随机存取存储器(RAM)825,以及还有用作本地数据库的更高容量的非暂存性计算机可读存储媒介826。
重要关键字提取服务器110B可以利用这些部件中的一个或更多个,以储存包括用于提取重要关键字的指令的计算机代码。
重要关键字提取服务器110B还包括网络接口元件827。该网络接口元件827被配置成允许信息在重要关键字提取服务器110B和网络130之间通信。这种信息可以包括能够在重要关键字提取服务器110B上执行的代码以及来自用户终端120的一个或更多个文件、请求、用户定义关键字以及用于用户定义关键字的权重等。
处理器821可以配合图8中所示的其他部件,根据诸如参照图2至图7C所述的实施例来执行方法。
根据本公开的实施例,前述方法可以被实施为计算机可读代码,所述计算机可读代码可以通过计算机来读取和执行并且储存在非暂存性计算机可读媒介上。计算机可读媒介可以包括任何类型的记录设备,在所述记录设备中储存有能够通过计算系统读取的数据。计算机可读记录媒介的实例包括:只读存储器(ROM)、随机存取存储器(RAM)、光盘-只读存储器(CD-ROM)、磁带、软盘和光学数据储存器。计算机可读媒介可以分布在与网络耦接的计算机系统之上,使得计算机可读代码可以采用分布式来储存和执行。
在另一个实施例中,重要关键字提取服务器110B可以使用诸如输入/输出设备的一个或更多个其他的部件。
尽管本文件提供了本发明的实施例的描述,但本领域的技术人员将理解的是,在不脱离所附权利要求所限定的技术原理和范围的情况下,可以采用各种方式来修改或改变实施例。
Claims (20)
1.一种通过重要关键字提取服务器来提取重要关键字的方法,所述方法包括:
从网络接收一组的一个或更多个文件;
从用户终端接收一个或更多个用户定义关键字;
通过所述服务器来计算在所述一组文件中检测出的每个字的相对重要性值;
通过所述服务器基于所述一个或更多个用户定义关键字来确定用于所述每个字的权重;
通过所述服务器将用于所述每个字的权重应用于所述每个字的相对重要性值;
通过所述服务器,基于应用了所述权重的所述相对重要性值,来将至少一个字确定为所述重要关键字;以及
通过所述服务器来将所述重要关键字传送至所述用户终端。
2.如权利要求1所述的方法,其中,计算所述相对重要性值包括:通过对特定的字在一个或更多个特定文件中出现的次数和包含所述一个或更多个特定文件的所述一个或更多个文件中所包括的全部的字的数目执行算术运算,来确定在所述一个或更多个特定文件中检测出的所述特定的字的初始重要性值。
3.如权利要求2所述的方法,其中,计算所述相对重要性值还包括:确定包括所述特定的字的所述一个或更多个特定文件的数目与所述一个或更多个文件的总数目的比;以及
其中,通过对所述特定的字的所述初始重要性值和所述比执行算术运算,来计算所述相对重要性值。
4.如权利要求1所述的方法,其中,确定用于所述每个字的权重还包括:
将来自所述用户终端的所述一个或更多个用户定义关键字和用于所述一个或更多个用户定义关键字的相应权重储存在数据库中;
在所述一组文件中搜索与至少一个用户定义关键字相匹配的至少一个字;
搜索用于与所述至少一个字相匹配的所述至少一个用户定义关键字的相应权重;以及
基于用于所述至少一个用户定义关键字的相应权重来确定用于所述每个字的权重。
5.如权利要求4所述的方法,其中,搜索所述至少一个字包括:基于在所述一组文件中检测出的字的缩写来搜索所述至少一个字。
6.如权利要求1所述的方法,还包括:
通过所述服务器来分析所述一个或更多个文件中的字的词素;以及
通过所述服务器基于所述词素分析的结果来检测包括名词的字。
7.如权利要求6所述的方法,其中,所述名词包括普通名词、专有名词和复合名词。
8.如权利要求1所述的方法,其中,所述一个或更多个用户定义关键字包括由多个关键字组成的一组关键字。
9.如权利要求1所述的方法,还包括:
从所述用户终端接收用于所述一个或更多个用户定义关键字的权重;以及
将所述一个或更多个用户定义关键字和用于所述一个或更多个用户定义关键字的权重储存在数据库中。
10.如权利要求1所述的方法,还包括:
通过所述服务器来计算所述一个或更多个用户定义关键字的相对重要性值;
通过所述服务器,基于所述一个或更多个用户定义关键字的计算出的相对重要性值,来确定用于所述一个或更多个用户定义关键字的权重;以及
将所述一个或更多个用户定义关键字和用于所述一个或更多个用户定义关键字的权重储存在数据库中。
11.如权利要求1所述的方法,还包括:
通过所述服务器从在所述一组文件中检测出的字中检测与所述一个或更多个用户定义关键字相似的字;以及
将所述相似的字储存在存储器中。
12.如权利要求1所述的方法,其中,将所述至少一个字确定成所述重要关键字还包括:
将具有等于或高于预定值的加权相对重要性值的至少一个字确定为所述重要关键字。
13.如权利要求1所述的方法,还包括从所述用户终端接收包括与用户所请求的关键字的数目有关的信息的请求,
其中,传送所述重要关键字包括将与关键字的数目相对应的重要关键字传送至所述用户终端。
14.一种系统,包括:
处理器;以及
非暂存性计算机可读媒介,所述非暂存性计算机可读媒介在其上储存有指令,当执行所述指令时,使所述处理器执行如下方法,所述方法包括:
计算在一个或更多个文件中检测出的每个字的相对重要性值;
将所述每个字与一个或更多个用户定义关键字进行比较;
如果至少一个字与至少一个用户定义关键字相匹配,则将用于所述至少一个用户定义关键字的权重应用于所述至少一个字的相对重要性值;
将具有高重要性值的至少一个字确定为重要关键字;以及
将所述重要关键字传送至用户终端。
15.如权利要求14所述的系统,其中,计算所述相对重要性值包括:
通过对特定的字在一个或更多个特定文件中出现的次数和包含所述一个或更多个特定文件的一个或更多个文件中所包括的全部的字的数目执行算术运算,来确定在所述一个或更多个特定文件中检测出的所述特定的字的初始重要性值;
确定所述一个或更多个特定文件的数目与所述一个或更多个文件的数目的比;以及
通过对所述特定的字的所述初始重要性值和所述比执行算术运算,来计算用于所述每个字的相对重要性值。
16.如权利要求14所述的系统,其中,所述方法还包括:
分析所述一个或更多个文件中所包括的字的词素;以及
基于所述词素分析的结果来检测包括名词的字。
17.如权利要求14所述的系统,其中,将所述每个字进行比较还包括:
确定在所述一个或更多个文件中检测出的字之中哪些字具有高相对重要性值;以及
将具有所述高相对重要性值的字与所述一个或更多个用户定义关键字进行比较。
18.如权利要求14所述的系统,其中,所述方法还包括从所述用户终端接收包括与用户所请求的关键字的数目有关的信息的请求,以及
其中,传送所述重要关键字包括将与关键字的数目相对应的重要关键字传送至所述用户终端。
19.一种非暂存性计算机可读媒介,所述非暂存性计算机可读媒介在其上储存有计算机可执行指令,当通过处理器执行所述指令时,所述非暂存性计算机可读媒介执行如下方法,所述方法包括:
计算在一个或更多个文件中检测出的每个字的相对重要性值;
将所述每个字与一个或更多个用户定义关键字进行比较,并且如果至少一个字与至少一个用户定义关键字相匹配,则将用于所述至少一个用户定义关键字的权重应用于所述至少一个字的相对重要性值,以确定所述至少一个字的重要性值;
将具有高重要性值的至少一个字确定为重要关键字;以及
将所述重要关键字传送至用户终端。
20.如权利要求19所述的非暂存性计算机可读媒介,其中,计算所述相对重要性值包括:
通过对特定的字在一个或更多个特定文件中出现的次数和包含所述一个或更多个特定文件的所述一个或更多个文件中所包括的全部的字的数目执行算术运算,来确定在所述一个或更多个特定文件中检测出的所述特定的字的初始重要性值;
确定所述一个或更多个特定文件的数目与所述一个或更多个文件的数目的比;以及
通过对所述特定的字的所述初始重要性值和所述比执行算术运算,来计算所述每个字的相对重要性值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130136564A KR101541306B1 (ko) | 2013-11-11 | 2013-11-11 | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 |
KR10-2013-0136564 | 2013-11-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104636415A true CN104636415A (zh) | 2015-05-20 |
CN104636415B CN104636415B (zh) | 2019-04-05 |
Family
ID=53044706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410642592.7A Active CN104636415B (zh) | 2013-11-11 | 2014-11-07 | 提取重要关键字的方法和执行所述方法的服务器 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10055408B2 (zh) |
KR (1) | KR101541306B1 (zh) |
CN (1) | CN104636415B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213850A (zh) * | 2017-07-06 | 2019-01-15 | 卡巴斯基实验室股份制公司 | 确定包含机密数据的文本的系统和方法 |
CN110516048A (zh) * | 2019-09-02 | 2019-11-29 | 苏州朗动网络科技有限公司 | pdf文档中表格数据的提取方法、设备和存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10592541B2 (en) * | 2015-05-29 | 2020-03-17 | Intel Corporation | Technologies for dynamic automated content discovery |
KR101873494B1 (ko) * | 2017-06-13 | 2018-07-31 | 계원예술대학교 산학협력단 | 종이 겹침 효과의 표현이 가능한 웹 문서 표시 장치 |
CN107330023B (zh) * | 2017-06-21 | 2021-02-12 | 北京百度网讯科技有限公司 | 基于关注点的文本内容推荐方法和装置 |
CN109101574B (zh) * | 2018-07-18 | 2020-09-25 | 北京明朝万达科技股份有限公司 | 一种数据防泄漏系统的任务审批方法和系统 |
CN117540747B (zh) * | 2024-01-09 | 2024-04-16 | 《全国新书目》杂志有限责任公司 | 一种基于人工智能的图书出版智慧选题系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6212517B1 (en) * | 1997-07-02 | 2001-04-03 | Matsushita Electric Industrial Co., Ltd. | Keyword extracting system and text retrieval system using the same |
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN101499091A (zh) * | 2009-03-17 | 2009-08-05 | 辽宁般若网络科技有限公司 | 网页代表词推荐方法 |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139553A (ja) * | 2002-08-19 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 文書検索システムおよび質問応答システム |
CN1629833A (zh) * | 2003-12-17 | 2005-06-22 | 国际商业机器公司 | 实现问与答功能和计算机辅助写作的方法及装置 |
JP2007058605A (ja) * | 2005-08-24 | 2007-03-08 | Ricoh Co Ltd | 文書管理システム |
US9177124B2 (en) * | 2006-03-01 | 2015-11-03 | Oracle International Corporation | Flexible authentication framework |
US8200695B2 (en) * | 2006-04-13 | 2012-06-12 | Lg Electronics Inc. | Database for uploading, storing, and retrieving similar documents |
US8200663B2 (en) * | 2007-04-25 | 2012-06-12 | Chacha Search, Inc. | Method and system for improvement of relevance of search results |
JP2010003015A (ja) * | 2008-06-18 | 2010-01-07 | Hitachi Software Eng Co Ltd | 文書検索システム |
KR101117173B1 (ko) | 2008-11-26 | 2012-03-07 | 엔에이치엔비즈니스플랫폼 주식회사 | 사용자 단말 장치로부터 순차적으로 수신되는 다수의 검색 키워드에 기초하여 연관 검색 키워드를 추출, 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
US8244711B2 (en) * | 2009-09-28 | 2012-08-14 | Chin Lung Fong | System, method and apparatus for information retrieval and data representation |
JP5156047B2 (ja) * | 2010-03-31 | 2013-03-06 | 株式会社東芝 | キーワード提示装置、方法及びプログラム |
US20110295612A1 (en) * | 2010-05-28 | 2011-12-01 | Thierry Donneau-Golencer | Method and apparatus for user modelization |
US20140046976A1 (en) * | 2012-08-11 | 2014-02-13 | Guangsheng Zhang | Systems, methods, and user interface for effectively presenting information |
-
2013
- 2013-11-11 KR KR1020130136564A patent/KR101541306B1/ko active IP Right Grant
-
2014
- 2014-10-16 US US14/516,449 patent/US10055408B2/en active Active
- 2014-11-07 CN CN201410642592.7A patent/CN104636415B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6212517B1 (en) * | 1997-07-02 | 2001-04-03 | Matsushita Electric Industrial Co., Ltd. | Keyword extracting system and text retrieval system using the same |
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN101499091A (zh) * | 2009-03-17 | 2009-08-05 | 辽宁般若网络科技有限公司 | 网页代表词推荐方法 |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213850A (zh) * | 2017-07-06 | 2019-01-15 | 卡巴斯基实验室股份制公司 | 确定包含机密数据的文本的系统和方法 |
CN110516048A (zh) * | 2019-09-02 | 2019-11-29 | 苏州朗动网络科技有限公司 | pdf文档中表格数据的提取方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20150134652A1 (en) | 2015-05-14 |
KR20150054300A (ko) | 2015-05-20 |
CN104636415B (zh) | 2019-04-05 |
KR101541306B1 (ko) | 2015-08-04 |
US10055408B2 (en) | 2018-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145219B (zh) | 基于互联网文本挖掘的兴趣点有效性判断方法和装置 | |
CN104636415A (zh) | 提取重要关键字的方法和执行所述方法的服务器 | |
US20190155918A1 (en) | Real-time classification of evolving dictionaries | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN107908616B (zh) | 预测趋势词的方法和装置 | |
KR101491627B1 (ko) | 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템 | |
US11068479B2 (en) | Method and system for analytic based connections among user types in an online platform | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
Hossny et al. | Feature selection methods for event detection in Twitter: a text mining approach | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN107085568A (zh) | 一种文本相似度判别方法及装置 | |
Rathan et al. | Every post matters: a survey on applications of sentiment analysis in social media | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
KR102299525B1 (ko) | 제품 평가 마이닝 방법 및 이를 수행하는 장치 | |
CN107944589A (zh) | 广告点击率的预测方法和预测装置 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
Little | Recognition of Latin scientific names using artificial neural networks | |
JP2016197332A (ja) | 情報処理システム、情報処理方法、およびコンピュータプログラム | |
Mathews et al. | AH-CID: A tool to automatically detect human-centric issues in app | |
CN114329210A (zh) | 信息推荐方法、装置及电子设备 | |
KR20160032599A (ko) | 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN112148988A (zh) | 用于生成信息的方法、装置、设备以及存储介质 | |
CN114492409B (zh) | 文件内容的评价方法、装置、电子设备及程序产品 | |
US20230385556A1 (en) | Systems and methods for reducing input to and increasing processing speeds of natural language processing models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |