CN104281578A - 数据文件的地域标记方法以及装置 - Google Patents

数据文件的地域标记方法以及装置 Download PDF

Info

Publication number
CN104281578A
CN104281578A CN201310273265.4A CN201310273265A CN104281578A CN 104281578 A CN104281578 A CN 104281578A CN 201310273265 A CN201310273265 A CN 201310273265A CN 104281578 A CN104281578 A CN 104281578A
Authority
CN
China
Prior art keywords
data file
node
title
region
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310273265.4A
Other languages
English (en)
Other versions
CN104281578B (zh
Inventor
张国峰
朱逸斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Via Technologies Inc
Original Assignee
Via Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Via Technologies Inc filed Critical Via Technologies Inc
Priority to CN201310273265.4A priority Critical patent/CN104281578B/zh
Priority to TW102125769A priority patent/TWI599894B/zh
Priority to US14/269,214 priority patent/US20150012543A1/en
Publication of CN104281578A publication Critical patent/CN104281578A/zh
Application granted granted Critical
Publication of CN104281578B publication Critical patent/CN104281578B/zh
Priority to US15/937,879 priority patent/US11093529B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams

Abstract

本发明提供一种数据文件的地域标记方法以及装置,所述地域标记方法包括:获得树状结构,树状结构具备多个节点,多个节点包括多个行政区名称及标志性名称,多个行政区名称及标志性名称之间具有阶层关系;接收数据文件,并从数据文件撷取至少一关键字;比对至少一关键字与多个节点,以找出和至少一关键字匹配的第一节点;以及标记第一节点与第一节点相关的至少一父节点于数据文件。

Description

数据文件的地域标记方法以及装置
技术领域
本发明涉及一种文件的分类技术,特别是涉及一种数据文件的地域标记方法以及装置。
背景技术
藉由科技的发展,网络已成为现代人生活中不可或缺的信息取得媒介,尤其是网络新闻的发展与普及,不仅可取代纸张来符合现今环保的潮流,更可因应瞬息万变的时事而立即更新新闻讯息。
为了让使用者能快速搜寻到所需的网络新闻,对网络新闻进行分类乃是十分重要的工作,特别是有关于网络新闻的地域性分类。其原因在于,使用者经常希望了解位于邻近地点或是特定地点、特定城市的新闻。
然而,一般而言,门户网站对于网络新闻的地域性分类乃是使用较概略性的作法,尤其是对于幅员广大以及人口众多的国家(如中国),其作法例如是仅采用大都市的网络新闻,而较少采用小地方的网络新闻。此外,网络新闻业者通常是藉由编辑来人工进行网络新闻的地域性分类,此举非常费时费力。另外,新闻内容本身乃具有复杂的数据讯息,因此藉由机器来对新闻进行地域性分类的自动化并非一件容易的事情。
发明内容
本发明提供一种数据文件的地域标记方法以及装置,其藉由特定阶层式地域数据来对数据文件进行比对,藉以标记出数据文件的对应地域性特征,从而减轻数据文件编辑者对数据文件进行地域性分类的负担,以及增进数据文件阅读者在搜寻数据文件时的方便性。
本发明提供一种数据文件的地域标记方法,地域标记方法包括:获得树状结构,树状结构具备多个节点,多个节点包括多个行政区名称及标志性名称,多个行政区名称及标志性名称之间具有阶层关系;接收数据文件,并从数据文件撷取至少一关键字;比对至少一关键字与多个节点,以找出和至少一关键字匹配的第一节点;以及标记第一节点与第一节点相关的至少一父节点于数据文件。
本发明提供一种数据文件的地域标记装置,包括分类单元、撷取单元、比对单元、标记单元及储存数据库。分类单元通过网络获得树状结构,树状结构具备多个节点,多个节点包括多个行政区名称及标志性名称,多个地域及标志性名称之间具有阶层关系。撷取单元通过网络接收数据文件,并从数据文件撷取至少一关键字。比对单元耦接于撷取单元,比对单元比对至少一关键字与多个节点,以找出和至少一关键字匹配的第一节点;标记单元耦接于比对单元。标记单元标记第一节点与第一节点相关的至少一父节点于数据文件。储存数据库耦接于分类单元、撷取单元、比对单元与标记单元,储存数据库用以储存树状结构与数据文件。
基于上述,本发明的实施例藉由树状结构中包括有行政区名称及标志性名称的多个节点来比对数据文件中所撷取出的关键字,从而标记所匹配的第一节点与相关的父节点于数据文件中,以使数据文件具有对应的地域性特征。
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并结合附图详细说明如下。
附图说明
图1为根据本发明的多个实施例的电子装置以及伺服器的方块图。
图2为根据本发明的一实施例的讯息通知装置的方块图。
图3为根据本发明的一实施例的讯息通知方法的流程图。
图4为根据本发明的另一实施例的讯息通知方法的流程图。
图5是根据本发明的一实施例的地标数据的显示方法的流程图。
图6是根据本发明的另一实施例的地标数据的显示方法的流程图。
图7为根据本发明的另一实施例的地标数据的显示方法的流程图。
图8为根据本发明的另一实施例的地标数据的显示方法的流程图。
图9为根据本发明的一实施例的数据文件的地域标记装置的方块图。
图10为根据本发明的一实施例的数据文件的地域标记方法的流程图。
图11为根据本发明的一实施例的树状结构的示意图。
图12为根据本发明的另一实施例的数据文件的地域标记方法的流程图。
图13A~图13D为根据本发明的一实施例的树状结构的建构过程的示意图。
图14为根据本发明的一实施例的数据文件的排序方法的流程图。
图15为根据本发明的一实施例的数据文件的排序方法的流程图。
附图符号说明
101:电子装置
103:伺服器
200:讯息通知装置
210:通讯单元
230:储存单元
250:播放单元
270:陀螺仪
290:控制单元
S310~S330:讯息通知方法的步骤
S401、S402、S310~S330:讯息通知方法的步骤
S510~S550、S541~S542、S710~S740、S731~S733:地标数据的显示方法的步骤
900:地域标记装置
910:分类单元
930:撷取单元
950:比对单元
970:标记单元
990:储存数据库
S1010~S1040:地域标记方法的步骤
S1011~S1013、S1021~S1022、S1031~S1033及S1041~S1042:地域标记方法的步骤
1301~1304:第二节点
S1410~S1430、S1440、S1441、S1442及S1450:数据文件的排序方法的步骤
具体实施方式
图1为根据本发明的一实施例的电子装置101以及伺服器103的方块图。伺服器103可以是个人计算机、工作站、主机计算机或是各种其他类型的计算机或处理器。电子装置101可以是笔记型计算机、平板计算机、个人数字助理、智能型手机或是各种其他类型的便携式电子装置。电子装置101可通过网络来与伺服器103通讯。在本实施例的叙述中,将以讯息通知装置200来代表电子装置101的举例。换句话说,电子装置101与讯息通知装置200可为实质上相等同并可互换的装置。
当使用者欲对讯息通知装置200设定所欲关注的信息种类时,使用者可先藉由讯息通知装置200来发出请求信息。例如,"如果有最新的日本核事故新闻,马上告诉我"、"如果我的自选股中有股票涨跌超过2%,就马上通知我"或者是"如果第三十六期彩卷开出来了马上通知我"等。在本发明实施例中,使用者可藉由语音说话的方式来输入请求信息至讯息通知装置200。讯息通知装置200可通过各种类型的自然语言处理模块来判别请求信息的可能意图,或者是可更进一步藉由对储存有大量字词的结构化数据库进行检索以判别所撷取出的关键字词的属性,藉以对此请求信息进行分析与理解后,可得知对应的命令条件,并将此命令条件传送至伺服器103。举例来说,命令条件可以是"有最新的日本核事故新闻产生"、"特定股票涨幅超过2%"或者是"第三十六期彩卷开奖"。伺服器103即可根据此命令条件,来查询是否具备对应的提示讯息,例如,"最新的日本核事故新闻的内容"、"特定股票的股价"或者是"第三十六期彩卷的中奖号码"。在本发明实施例中,可藉由讯息通知装置200来对请求信息进行分析与理解。在本发明的另一实施例中,讯息通知装置200亦可将请求信息传送至伺服器103以藉由伺服器103中的各种类型的自然语言处理模块来判别请求信息的可能意图。或者是,可更进一步藉由对储存有大量字词的结构化数据库进行检索以判别所撷取出的关键字词的属性,藉以对所撷取出的关键字词进行分析及理解。伺服器103在查询是否具备满足命令条件的对应提示讯息之后,若判断有具备满足命令的相关条件时,讯息通知装置200可接着将对应提示讯息下载并储存,接者可将其播放出来。在本发明实施例的概念中,由于是藉由伺服器103来定期(或即时)记录使用者所设定其欲关注的信息种类的最新信息,藉以在接收到命令条件时查询对应的提示讯息,因此,相对于藉由讯息通知装置200来定期(或即时)记录使用者所设定其欲关注的信息种类的最新信息而言,本发明可进一步降低讯息通知装置200的耗电量与工作量。
在本发明实施例中,伺服器103可查询在特定时间间隔内满足命令条件的对应提示讯息。此特定时间间隔可以是使用者设定的某一段时间间隔,也可以是在使用者离开讯息通知装置200其间的时间间隔。举例来说,使用者可因洗澡或忘了带出门等因素,而将讯息通知装置200留在桌上;在经过了特定时间间隔后,使用者又再度回到桌边而拿起了讯息通知装置200。此时,由于在离开讯息通知装置200其间可能有使用者所关注的信息种类的最新消息发生,因此讯息通知装置200可对应此特定时间间隔的起始时间与终止时间,来将其对应的提示讯息从伺服器103下载并储存,并接着播放出来以提醒使用者。下列将对此进一步详述。
图2为根据本发明的一实施例的讯息通知装置的方块图。如图2所示,讯息通知装置200包括通讯单元210、储存单元230、播放单元250、陀螺仪270以及控制单元290。控制单元290耦接于通讯单元210、储存单元230、播放单元250以及陀螺仪270。通讯单元210用以和伺服器103通讯,储存单元230用以储存数据,播放单元250用以播放讯息,陀螺仪270用以检测讯息通知装置200的角速度。通讯单元210可以是无线通讯芯片或模块,或是其他具有网络连线功能的芯片或模块。储存单元230可以是各种类型的数据储存媒介。播放单元250可以是各种类型的数据播放装置,例如扬声器、显示器或是其他的数据输出装置。控制单元290可以是各种类型的功能模块、芯片或微处理器。图3为根据本发明的一实施例的讯息通知方法的流程图。如图3所示,根据本发明实施例的讯息通知方法包括步骤S310~S330。请同时参照图2及图3。
在步骤S310中,控制单元290判断是否具备讯息通知装置200开始进入静止状态的第一时间点(即上述的起始时间)以及终止静止状态的第二时间点(即上述的终止时间)。举例来说,使用者可因洗澡或忘了带出门等因素,而将讯息通知装置200留在桌上,因而讯息通知装置200在第一时间点进入了静止状态,此时,控制单元290可将第一时间点记录于储存单元230中。过了特定时间间隔后,使用者又再度回到桌边而拿起了讯息通知装置200,因而讯息通知装置200在第二时间点终止了静止状态,此时,控制单元290亦可将第二时间点记录于储存单元230中。控制单元290可藉由查询储存单元230来判断是否具备第一时间点与第二时间点。
在步骤S320中,若控制单元290判断其具备第一时间点以及第二时间点,则伺服器103查询是否具备第一时间点至第二时间点之间的至少一提示讯息。举例来说,若控制单元290判断其具备第一时间点以及第二时间点,此即代表使用者可能离开了讯息通知装置200一段时间,此时控制单元290将所得知的第一时间点与第二时间点传送至伺服器103做查询,判断在这段时间内是否有提示讯息产生。例如,若这段时间内使用者有未接来电或是有未读讯息,则其提示讯息可以是"您有一通未接来电"或是"您有一则未读讯息"。所述提示讯息还可以是使用者设定的关注信息,比如,热点新闻、股票或彩券等。
在步骤S330中,若伺服器103具备至少一提示讯息,则讯息通知装置200下载此至少一提示讯息并储存至储存单元230,且通过播放单元250来播放此至少一提示讯息。举例来说,若在使用者所离开的第一时间点以及第二时间点之间,使用者有未接来电或是有未读讯息,或者是有产生了股票、彩券或热点新闻的关注信息,则讯息通知装置200可将提示讯息"您有一通未接来电"或是"您有一则未读讯息",或者是对应所产生的股票、彩券或热点新闻的具体信息下载并储存至储存单元230,并通过播放单元250来播放。在本发明实施例中,播放单元250播放提示讯息的方式可以是播放文字或是播放影像,在此不加以限制。
图4为根据本发明的另一实施例的讯息通知方法的流程图。如图4所示,根据本发明实施例的讯息通知方法包括步骤S401、S402、S410、S420及S430。请同时参照图2及图4。
在步骤S401中,使用者可藉由讯息通知装置200接收请求信息。举例来说,使用者的请求信息可以是"如果有最新的日本核事故新闻,马上告诉我"、"如果我的自选股中有股票涨跌超过2%,就马上通知我"或者是"如果第三十六期彩卷开出来了马上通知我"。如上所述,在本发明实施例中,使用者可藉由语音说话的方式来输入请求信息至讯息通知装置200。在本发明的另一实施例中,使用者亦可藉由特定软件界面或是其他各种方式来输入请求信息,在此不加以限制。
在步骤S402中,撷取请求信息中的至少一关键字词,以判别请求信息的命令条件以及设定阈值。在本发明实施例中,可藉由控制单元290来撷取请求信息中的关键字词以进行分析及理解。在本发明的另一实施例中,亦可将请求信息传送到伺服器103,接着于伺服器103中撷取请求信息中的关键字词以进行分析及理解。关键字词可以是使用者的关注信息的种类、用以表达命令的字词、或是其他可用以分析及理解的预定义字词。在本发明实施例中,控制单元290可通过各种类型的自然语言处理模块来判别请求信息的可能意图,或者是可更进一步藉由对储存有大量字词的结构化数据库进行检索以判别所撷取出的关键字词的属性,藉以对所撷取出的关键字词进行分析及理解,以求得请求信息中的对应的命令条件,例如,是否有最新的日本核事故新闻产生,特定股票涨幅是否超过2%,或者是第三十六期彩卷是否开奖。此外,控制单元290亦可藉由关键字词的分析及理解结果来求得阈值以在步骤S410中使用。
在步骤S410中,控制单元290根据阈值来判断是否具备讯息通知装置200进入静止状态后的第一时间点,以及终止静止状态的第二时间点。阈值可以是时间阈值或是角速度阈值。在本发明实施例中,控制单元290可藉由陀螺仪270来检测讯息通知装置200的角速度,以判别讯息通知装置200是否进入静止状态以及是否终止静止状态,从而取得第一时间点与第二时间点。举例来说,当讯息通知装置200的角速度小于角速度阈值,则控制单元290可判定讯息通知装置200进入静止状态,而当讯息通知装置200的角速度小于角速度阈值且其所持续的时间超过时间阈值,则控制单元290可判定使用者已离开了讯息通知装置200,从而将此时间点设定为第一时间点。若又再过了一段时间,当讯息通知装置200的角速度大于或等于角速度阈值时,则控制单元290可判定讯息通知装置200终止了静止状态(即进入了移动状态),换句话说,控制单元290可判定使用者再度拿起了讯息通知装置200,从而将此时间点设定为第二时间点。如上所述,第一时间点及第二时间点可记录于储存单元230中。在本发明实施例中,若讯息通知装置200本身具有震动模式(例如,在有来电或有简讯时,则讯息通知装置200会进入震动模式),则角速度阈值可大于讯息通知装置200在震动模式下所造成的角速度,藉此,则控制单元290便不会将在震动模式下的讯息通知装置200判定为进入了移动状态。在本发明的另一实施例中,控制单元290可藉由检测讯息通知装置200是否进入休眠模式或者是藉由检测讯息通知装置200是否接收触控输入讯号,来判断讯息通知装置200是否进入或终止了静止状态。
在步骤S420中,若控制单元290判断其具备第一时间点以及第二时间点,则伺服器103查询其是否具备第一时间点至第二时间点之间满足命令条件的至少一提示讯息。举例来说,若在第一时间点与第二时间点之间的特定时间间隔内,发生了"最新的日本核事故新闻产生"、"特定股票涨幅超过2%"或者是"第三十六期彩卷开奖",则伺服器103可具备有提示讯息。在本发明实施例中,提示讯息可以是对应使用者所关注信息种类的最新消息的内容本身,例如,"最新的日本核事故新闻的报导内容"、"特定股票的股价"或者是"第三十六期彩卷的中奖号码"。在本发明的另一实施例中,提示讯息亦可以是用以提示使用者已产生有其所关注信息种类的最新消息内容的讯息,例如,"提醒您,现有最新日本核事故新闻"、"亲爱的使用者,您的XXX股票已大涨"或者是"第三十六期彩卷已经开奖嘞"。
在步骤S430中,若伺服器103具备至少一提示讯息,则讯息通知装置200下载此至少一提示讯息并储存至储存单元230,且通过播放单元250来播放对应此至少一提示讯息的语音。举例来说,若在使用者所离开的第一时间点以及第二时间点之间,控制单元290通过伺服器103来判断其具备有提示讯息"最新的日本核事故新闻的报导内容"、"特定股票的股价"或者是"第三十六期彩卷的中奖号码",则将此提示讯息下载并储存至储存单元230,并通过播放单元250来播放。在本发明实施例中,播放单元250可将提示讯息的内容以语音方式播放出来。
综上所述,本发明可接收使用者以语音方式输入的请求信息,并撷取其关键字词以进行判别命令条件以及设定阈值之用,在使用者离开讯息通知装置其间,可根据此阈值(时间阈值或者角速度阈值)来检测讯息通知装置开始进入静止状态的第一时间点以及终止静止状态的第二时间点,进而在使用者拿回讯息通知装置时,可在伺服器中查询满足命令条件的提示讯息,并将提示讯息下载及储存至讯息通知装置,来藉由语音方式播放提示讯息以提醒使用者,从而减少其忽略重要讯息的机率。
如图1所示,在本发明的另一实施例中,电子装置101以及伺服器103亦可用于执行地标数据的显示方法。
在本发明实施例中,当使用者藉由电子装置101来执行特定地标的搜寻时,可输入地名关键字,而电子装置101便可将所输入的地名关键字传送至伺服器103中,伺服器103对此地名关键字执行搜寻,并接着对所搜寻到的地标数据进行排序,以使较有可能符合使用者的寻找需求的地标数据具有较高的排序顺位。最后,伺服器再将地标数据的排序结果传送回电子装置101来显示,使用者便得以从中找寻最有益的讯息。接着,在本发明实施例中,电子装置101可通过地图应用程序来将排序结果中的地标数据的各自的地标名称显示出来。在本发明的另一实施例中,电子装置101本身即具有对特定地名的搜寻功能以及对所搜寻到的地标数据进行排序的功能,因此电子装置101便无需再通过伺服器103即可对使用者显示出地标数据的排序结果。
地标数据可具有特定的特征化参数。举例来说,不同的地标数据可具有不同的知名度。因此,在地标数据的排序的过程中便可产生对应的顺位关系。因此,在本发明实施例中,在使用者藉由电子装置101输入地名关键字来执行特定地标的搜寻之前,伺服器103可对现有的地标数据进行知名度的计算。下列将对此加以详述。
图5是根据本发明的一实施例的地标数据的显示方法的流程图。表1是根据本发明的一实施例的地标数据的示意图。如图5所示,根据本发明实施例的地标数据的显示方法的步骤包括S510~S550。如表1所示,地标数据可具有地标名称、客观层级类别、地址、地指引用次数以及对应所计算出的知名度。下列请同时参照图5及表1。
[表1]
在步骤S510中,获得多个地标数据。举例来说,伺服器103可藉由数据库或是搜寻引擎来获取多个地标数据,在此不加以限制。所获取的多个地标数据可储存在特定的储存媒介以做为地标数据库。
在步骤S520中,统计多个地标数据各自的地址在因特网上的地址引用次数。举例来说,伺服器103可藉由搜寻引擎来统计出"东方明珠"的地址"上海市浦东新区世纪大道1号"在因特网上一共被引用了852318次。由于地标名称的本身具有高度的随意性,若并非使用地址引用次数做为对应的知名度的特征化参数,反而是使用地标数据的地标名称的引用次数的话,将有可能产生极大的误差。举例来说,在计算地址为"南京市玄武区北京东路31号工艺美术大楼9层"的商家"东方明珠"的知名度的特征化参数时,若选择使用地标名称"东方明珠"的引用次数,则将因为景点"东方明珠"的存在而产生极大的误差。反之,由于地标数据所对应的地址通常是唯一,因而在此步骤中以地址引用次数做为知名度的特征化参数乃是相当客观的标准。
在步骤S530中,搜寻多个地标数据各自的客观层级类别。在本发明实施例中,客观层级类别可以是公认景点评等(例如,1A级~5A级)或是公认店家评等(例如,一星级~六星级)。举例来说,伺服器103搜寻出"上海野生动物园"为"3A级"的景点,"壶口瀑布"为"4A级"的景点,"壶口瀑布大酒店"为"三星级"的店家,以及"俏江南餐饮"为"二星级"的店家。在本发明实施例中,客观层级类别也可以是阶层区分属性。举例来说,"俏江南工业"以及"俏佳人传媒"皆为"商家"的规模,而"北京华联综合超市"则是"商场"的规模;"217"道路是属于"国道","373"是属于"省道","048"是属于"县道"。上述的客观层级类别可以有各种不同的其他客观定义,在此不加以限制。
在步骤S540中,根据多个地标数据各自的客观层级类别以及地址引用次数来计算多个地标数据各自的知名度。根据本发明实施例,地址引用次数越高,则伺服器103所计算出其对应的地标数据的知名度可越高。举例来说,同样为商家的"俏江南装饰设计"与"俏江南工业"的地址引用次数分别为"293"与"531",因此"俏江南工业"所对应计算出的知名度可大于"俏江南装饰设计"。根据本发明实施例,客观层级类别的级别越高,则伺服器103所计算出其对应的地标数据的知名度可越高。举例来说,地址同样为"北京市西城区阜外大街1号四川大厦东塔楼5层515号"以及地址引用次数同样为"5236"的"北京华联综合超市"与"麦当劳",由于"北京华联综合超市"是"商场",而"麦当劳"是此商场中的"商家",因此"北京华联综合超市"所对应计算出的知名度可大于"麦当劳"。同样地,若为道路,则"217国道"的知名度可大于"373省道"以及"048县道"。
在步骤S550中,根据多个地标数据各自知名度,来将多个地标数据显示于电子装置101。举例来说,在伺服器103将地标数据以及对应的知名度计算完成后,可将结果传送回电子装置101,接着电子装置101可再根据知名度的高低顺序来显示出地标数据。
根据本发明的另一实施例,步骤S510~S550可皆执行于电子装置101中,或是步骤S510~S550中的部分步骤可执行于电子装置101中,而其他部分步骤可执行于伺服器103中,其间两者可通过因特网来达成彼此间的通讯及协调,在此不加以限制。
图6是根据本发明的一实施例的地标数据的显示方法的流程图。如图6所示,根据本发明实施例的地标数据的显示方法的步骤包括S510~S530、S541、S542及S550。下列将针对与上述的差异来做说明。下列在计算地标数据的知名度时,可更进一步执行步骤S541及S542。
在步骤S541中,将多个地标数据各自的客观层级类别以及地址引用次数转换为对应的转换值。举例来说,在本发明的实施例中,若客观层级类别是公认景点评等,则"1A级"、"2A级"、"3A级"、"4A级"及"5A级"对应的转换值可以分别为20、40、60、80及100;若客观层级类别是公认店家评等,则"一星级"、"二星级"、"三星级"、"四星级"、"五星级"及"六星级"对应的转换值可以分别为20、40、60、80、100及120。若客观层级类别是阶层区分属性,则"商家"及"商场"对应的转换值可以分别为20及80;"国道"、"省道"及"县道"对应的转换值可以分别为30、60及90。在本发明的实施例中,地址引用次数转换为对应的转换值可藉由自然对数函数(ln x)×10来做运算。举例来说,"4A级"景点"东方明珠"的地址引用次数为852318,则其对应的转换值可以是(ln852318)×10=136.56;若无地址数据,则其对应的转换至可以是0。上述的对应值以及对应值的计算方式可依照各种情况来调整及变动,在此不加以限制。
在步骤S542中,根据客观层级类别以及地址引用次数对应的转换值以及权重值,来计算地标数据的知名度。在本发明的实施例中,客观层级类别对应的权重值可以是0.4,地址引用次数对应的权重值可以是0.6,而地标数据的知名度的计算公式可为:(客观层级类别的转换值)×0.4+(地址引用次数的转换值)×0.6。举例来说,"4A级"景点"东方明珠"的知名度为(80)×0.4+((ln852318)×10)×0.6=113.94,"商家"规模的"俏江南工业"的知名度为(20)×0.4+((ln531)×10)×0.6=45.66。
如上所述,当电子装置101或是伺服器103内的地标数据库建构完成之后,使用者即可执行特定地标的搜寻。下列将对此加以详述。
图7为根据本发明的一实施例的地标数据的显示方法的流程图。如图7所示,根据本发明实施例的地标数据的显示方法包括步骤S710~S740。
在步骤S710中,接收地名关键字。举例来说,当使用者欲搜寻特定地标时,便可藉由电子装置101以语音或手动方式来输入地名关键字。
在步骤S720中,搜寻是否有对应地名关键字的至少一地标数据。举例来说,此时电子装置101可藉由内建的地标数据库来搜寻是否有相关的地标数据,或者是将地名关键字传送至伺服器103来搜寻是否有相关的地标数据。若有搜寻到,则接着执行步骤S730,若未搜寻到,则继续等待接收另一地名关键字。
在步骤S730中,若有搜寻到至少一地标数据,则根据至少一地标数据各自的知名度、匹配度以及距离分数,来排序至少一地标数据。举例来说,当搜寻到相关地标数据时,由于相关地标数据数量可能非常的多,因此为了贴近使用者对于地标的一般感观或是认知习惯,可藉由相关地标数据所对应的特征化参数来做排序,以节省使用者查询所花费的心力。在本发明实施例中,相关地标数据所对应的特征化参数除了上述的知名度(相关于客观层级类别以及在因特网上所统计的地址引用次数),还可更进一步有相关地标数据的匹配度(例如,文字的匹配程度)以及距离分数(例如,地标与使用者的距离远近程度)。然而,在本发明的另一实施例中,地标数据所对应的特征化参数可以是知名度、匹配度及距离分数中的其中之一者,在此不加以限制。
在步骤S740中,将所排序的至少一地标数据显示于电子装置101。此时,使用者可藉由电子装置101来在多个相关于所输入的地名关键字的排序后的地标数据中,查询最有益的地标数据。
图8为根据本发明的另一实施例的地标数据的显示方法的流程图。如图8所示,根据本发明实施例的地标数据的显示方法包括步骤S710、S720、S731~S733及S740。下列将针对与上述的差异来做说明。下列在排序所搜寻出的对应地名关键字的地标数据时,可更进一步执行步骤S731~S733。
在步骤S731中,根据至少一地标数据各自的地标名称以及地名关键字,来计算出至少一地标数据各自的匹配度。换句话说,即根据所搜寻出的地标数据对地名关键字的符合程度来计算其匹配度。举例来说,若使用者输入的地名关键字为"俏江南",则"俏江南餐饮"、"俏江南装饰设计"及"俏江南工业"的匹配度,皆可高于"俏佳人传媒"的匹配度。
在步骤S732中,根据至少一地标数据各自的位置以及电子装置101的位置,来计算出至少一地标数据各自的距离分数。换句话说,即根据所搜寻出的地标数据对电子装置101的相对位置来计算其距离分数。举例来说,若使用者位于北京市而对电子装置101输入地名关键字"俏江南",则位于北京市的"俏江南餐饮"及"俏江南装饰设计"的距离分数,皆可高于位于苏州市的"俏江南工业"的距离分数。
在步骤S733中,根据知名度、匹配度及距离分数以及其对应的权重值,来排序至少一地标数据。举例来说,电子装置101可根据不同的需求,来定义知名度、匹配度及距离分数所对应的权重值,藉以决定知名度、匹配度及距离分数分别对于排序结果的影响程度。
藉此,经特征化后的地标数据可让使用者在查询特定地标时,其显示的搜寻结果是依照使用者的一般感观或是认知习惯来排序,从而节省使用者的查询时间。
综上所述,本发明根据多个地标数据的地址引用次数以及客观层级类别所对应的转换值与权重值来计算其知名度,在接收地名关键字之后,根据所搜寻出的相关地标数据对地名关键字的符合程度来计算其匹配度,根据所搜寻出的相关地标数据对电子装置的相对位置来计算其距离分数,并藉由知名度、匹配度以及距离分数来排序所搜寻到的相关地标数据,以将排序后的相关地标数据显示于电子装置。
如图1所示,在本发明的另一实施例中,电子装置101以及伺服器103亦可用于执行数据文件的地域标记方法。此外,在本实施例的叙述中,将以地域标记装置900来代表电子装置101的举例。换句话说,电子装置101与地域标记装置900可为实质上相等同并可互换的装置。
使用者可藉由地域标记装置900通过网络来与伺服器103通讯,藉以取得数据文件或是用以标记数据文件的参考信息。在本发明实施例中,数据文件可以是网络新闻。举例来说,首先,在网络新闻编辑者取得大量的网络新闻后,对网络新闻进行地域性的分类,接着可对网络新闻进行地域性的标记。在本发明实施例中,网络新闻编辑者可藉由地域标记装置900来从伺服器103获得地域性名称的参考信息以建构出特定树状结构,藉以做为分析网络新闻的内容属性以及对其标记之用。在本发明的另一实施例中,网络新闻编辑者亦可藉由地域标记装置900来直接从伺服器103获得已建构完成的特定树状结构。此树状结构中的各节点即代表各特定地域性名称,而通过此树状结构可得知各特定地域性名称其上所有阶层的行政区名称。地域性名称可包括行政区名称以及标志性名称,而标志性名称所属的节点可以是在树状结构的最末阶层,其中标志性名称可以是地名或景点名称,或是任何具有地域性的人名、社会团体名称或是其他名称等,在此不加以限制。藉此,举例来说,可以得知树状结构中任一景点或社会团体所属的地区为何(即其各父节点)。接着,地域标记装置900可分析各网络新闻是否具有地域性的内容(如地名的关键字),若此地域性内容可符合树状结构中的任一节点,则地域标记装置900可藉由所符合的节点,来对其网络新闻进行标记。换句话说,网络新闻编辑者可藉由地域标记装置900来使具有地域性内容的网络新闻具有对应的地域性特征,以便完成对各网络新闻的标记或地域性分类,例如,某个网络新闻是属于哪个地区的分类。下列将对此来进一步说明。
图9为根据本发明的一实施例的数据文件的地域标记装置的方块图。如图9所示,地域标记装置900包括分类单元910、撷取单元930、比对单元950、标记单元970以及储存数据库990。比对单元950耦接于撷取单元930,标记单元970耦接于比对单元950,储存数据库990耦接于分类单元910、撷取单元930、比对单元950与标记单元970。分类单元910、撷取单元930、比对单元950、标记单元970可以是各种形式的功能模块或微处理器,储存数据库990可以是各种形式的储存媒介。图10为根据本发明的一实施例的数据文件的地域标记方法的流程图。如图10所示,根据本发明实施例的地域标记方法包括步骤S1010~S1040。图11为根据本发明的一实施例的树状结构的示意图。下列请同时参照图9、图10及图11。
在步骤S1010中,分类单元910可通过网络获得树状结构。在本发明实施例中,此树状结构可具备多个节点,此多个节点可包括多个行政区名称及标志性名称,并且此多个行政区名称及标志性名称之间可具有阶层关系,此外,分类单元910可将所获得的树状结构储存于储存数据库990中。举例来说,如图11所示,此树状结构的各节点可包括中国各阶层的行政区名称以及其内的景点名称,而树状结构的上下节点之间可对应其行政区或景点之间的阶层关系,例如,在节点"中国"底下可包括其各省或直辖市(如上海、江苏省以及安徽省等)的子节点,在节点"上海"底下可包括其各分区(如浦东新区、黄埔区以及静安区等)的子节点,在节点"浦东新区"底下可包括其各景点(如世纪公园、东方明珠以及金茂大厦等)的子节点。此外,如上所述,标志性名称可是具有地域性的人名以及社会团体名称,如图11所示,节点"上海"可更进一步包括其职篮球队"上海大鲨鱼"的子节点以及其市长"杨雄"的子节点。
在步骤S1020中,撷取单元930可通过网络接收数据文件,并从数据文件撷取至少一关键字。举例来说,撷取单元930可通过网络以从伺服器103接收大量的网络新闻并储存至储存数据库990,而所接收的网络新闻的内容中可包括各种地域性的关键字,例如"江苏省"或"东方明珠"等,撷取单元930便可分析其内容以将此关键字撷取出来。
在步骤S1030中,比对单元950可比对至少一关键字与多个节点,以找出和至少一关键字匹配的第一节点。举例来说,在上述的树状结构中已包括有已知的中国各阶层的行政区名称以及其内的地名或景点名称,若从网络新闻的内容中撷取出关键字"东方明珠",则接着可对树状结构进行搜寻,并找到了同为"东方明珠"的第一节点。此即代表此关键字"东方明珠"所属的网络新闻对于此树状结构而言,是具有地域性的特征且为可分类的。在本发明实施例中,比对单元950可藉由各种树状结构的演算法来找到符合的第一节点,在此不加以限制。
在步骤S1040中,标记单元970可标记第一节点与第一节点相关的至少一父节点于数据文件。举例来说,若可从树状结构中,搜寻到符合网络新闻中的关键字"东方明珠"的第一节点,则其相关的父节点为"浦东新区"、"上海"及"中国"。因此,关键字"东方明珠"所属的网络新闻除了可标记有第一节点"东方明珠"外,亦可标记有"东方明珠"之上的各阶层的行政区,也就是第一节点"东方明珠"之上的各父节点"浦东新区"、"上海"及"中国"。
图12为根据本发明的另一实施例的数据文件的地域标记方法的流程图。如图12所示,根据本发明实施例的地域标记方法包括步骤S1011~S1013、S1021~S1022、S1031~S1033及S1041~S1042。图13A~图13D为根据本发明的一实施例的树状结构的建构过程的示意图。
在步骤S1011中,分类单元910取得地域性名称。举例来说,分类单元910可通过网络从伺服器103获得有关中国的各阶层行政区以及其内的景点的参考信息,此参考信息可以是以各种分类单元910可辨识的格式来呈现,在此不加以限制。分类单元910可根据此参考信息来逐一取得各地域性名称,如图13A所示,当树状结构中具有节点"中国"时,分类单元910取得了行政区名称"上海"。
在步骤S1012中,分类单元910判断地域性名称是否从属于树状结构中的第二节点。若分类单元910判断为是,则可接着执行步骤S1013。第二节点可以是所取得的地域性名称在树状结构中最小阶层的所属地区的节点。举例来说,如图13A所示,当树状结构中已具有节点"中国"时,分类单元910取得了行政区名称"上海",此时分类单元910可判断行政区名称"上海"所从属的第二节点可以是图13A中的虚线节点1301。
在步骤S1013中,分类单元910将地域性名称加入树状结构。举例来说,如图13A所示,接着分类单元910便可在树状结构中建构出节点"上海"来对应所取得的行政区名称。
在步骤S1014中,分类单元910判断树状结构是否建构完成。若树状结构建构完成,则执行步骤S1021。若树状结构未建构完成,则上述步骤S1011~步骤S1013可以不断的循环执行。举例来说,在图13B中分类单元910可判断出行政区名称"浦东新区"所属的第二节点为虚线节点1302并将其加入,在图13C中分类单元910可判断出景点名称"世纪公园"所属的第二节点为虚线节点1303并将其加入,在图13D中分类单元910可判断出景点名称"东方明珠"所属的第二节点为虚线节点1304并将其加入,上述过程将不断地重复,直到分类单元910将所获得的有关中国的各阶层行政区以及其内的景点的信息,逐一地建构成树状结构中的各节点,如图11所示。上述树状结构的建构过程可藉由各种树状结构的相关演算法来达成,在此不加以限制。如上所述,如图11所示,当树状结构建构完成之后,树状结构的各节点即包括有中国各阶层的行政区名称以及其内的景点名称,而树状结构的上下节点之间可对应其行政区或景点之间的阶层关系。
在步骤S1021中,撷取单元930由数据文件的标题或正文撷取至少一关键字。举例来说,由于网络新闻的内容可包括标题的内容以及正文的内容,因此撷取单元930可从标题的内容以及正文的内容来撷取关键字,藉以做为判别其网络新闻的地域性特征的依据。
在步骤S1022中,撷取单元930由数据文件的来源撷取至少一关键字。在本发明实施例中,数据文件的来源可包括数据文件相关的发生地点和数据文件提供者的所在地点。举例来说,由于网络新闻的标题及正文的内容可不包括有任何的地域性的关键字,因此撷取单元930可进一步从网络新闻的相关的发生地点来撷取出关键字,例如,若网络新闻是发布于特定门户网站的"黄埔区地方新闻"的字段中,则撷取单元930可藉以撷取出关键字"黄埔区",或者是,撷取单元930可进一步从网络新闻提供者的所在地点来撷取出关键字,例如,若网络新闻是由报社"上海日报"所发布,则撷取单元930可藉以撷取出关键字"上海",或者是,若网络新闻是由报社"新民晚报"所发布,而报社"新民晚报"的所在地在上海,因此撷取单元930仍可藉由查表或是根据相关信息,来取得关键字"上海"。
在步骤S1031中,比对单元950分别对至少一关键字定义对应的权重。此权重可代表其对应关键字对于所属的数据文件的地域性特征的影响程度。换句话说,关键字所对应的权重越高,则比对单元950以此关键字来做为判别所属数据文件的地域性特征的可能性就越高。举例来说,如上所述,网络新闻所对应的关键字可以从网络新闻的正文、标题或是根据其相关的发生地点及其提供者的所在地点而取得,而不同出处所取得的关键字可对应不同的权重,例如,若根据网络新闻的发生地点所撷取出的关键字的权重为A,从网络新闻的标题所撷取出的关键字的权重为B,从网络新闻的正文所撷取出的关键字的权重为C,根据网络新闻的提供者的所在地点所撷取的关键字的权重为D,则其相对关系可以是A>B>C>D。然而,上述权重的相对关系可以有其他的安排及变动,在此不加以限制。
在步骤S1032中,比对单元950搜寻树状结构,以比对树状结构中是否存在有第一节点,且其第一节点所包括的行政区名称或标志性名称和至少一关键字的其中之一相同。若比对单元950判断树状结构中存在有第一节点,则接着执行步骤S1033。如在步骤S1031中所述,由于所计算出的权重可代表其对应关键字对于所属的数据文件的地域性特征的影响程度,因而在本发明实施例中,比对单元950可更进一步根据关键字相对应的权重来做为比对关键字与节点的顺位参考。举例来说,如上所述,同一网络新闻可同时具有根据网络新闻的发生地点所撷取出的关键字以及从网络新闻的正文所撷取出的关键字,此时,由于根据网络新闻的发生地点所撷取出的关键字的权重可大于从网络新闻的正文所撷取出的关键字的权重,因此,比对单元950将优先使用根据网络新闻的发生地点所撷取出的关键字,藉以搜寻树状结构。接者,比对单元950可藉由树状结构的搜寻演算法来找到的第一节点,且此第一节点所包括的行政区名称或标志性名称和所优先使用来搜寻的关键字相同。在本发明实施例中,上述树状结构的搜寻演算法可以藉由各种应用来达成,在此不加以限制。
在步骤S1033中,比对单元950找出树状结构中与第一节点相关的至少一父节点。藉由树状结构本身所具有的阶层特性,比对单元950可从第一节点的各上阶层来找其各父节点。举例来说,如图11所示,若第一节点为"东方明珠",则其相关的父节点为"浦东新区"、"上海"及"中国"。
在步骤S1041中,标记单元970根据第一节点与第一节点相关的至少一父节点,建立对应的多个标签。举例来说,当比对单元950找到了包括有关键字"东方明珠"的网络新闻的第一节点,则标记单元970除了可将"东方明珠"设定为此网络新闻的多个标签的其中之一外,可更一步将"浦东新区"、"上海"及"中国"也设定为此网络新闻的标签。建立标签的方式可以是记录其对应第一节点与相关父节点的名称,或者是撷取出其对应第一节点与相关父节点的连结,在此不加以限制。
在步骤S1042中,标记单元970连结多个标签与数据文件以完成标记并储存数据文件于储存数据库990。举例来说,当包括有关键字"东方明珠"的网络新闻的各标签"东方明珠"、"浦东新区"、"上海"及"中国"皆建立完成后,标记单元970则将这些标签连结至对应的网络新闻。连结标签的方式可以是在网络新闻中增加其对应第一节点与相关父节点的名称的内容,或者是在网络新闻中附加其对应第一节点与相关父节点的连结,在此不加以限制。
综上所述,本发明藉由逐一加入对应地域性名称的第二节点来建构出具有多个节点的树状结构,以使多个节点所包括的行政区名称及标志性名称之间具有阶层关系,并且根据数据文件的标题内容、正文内容、相关发生地点以及数据文件提供者的所在地点,来获得地域性的关键字,并在定义各关键字所对应的权重以做为比对关键字与树状结构的顺位参考之后,找出所匹配的第一节点与其父节点来标记于对应的数据文件,以使数据文件具有对应的地域性特征。
如图1所示,在本发明的另一实施例中,电子装置101以及伺服器103亦可用于执行数据文件的排序方法。
在本发明实施例中,当电子装置101中具有未知目前排名的数据文件时,可将未知目前排名的数据文件上传至伺服器103来对其做内容的分析,接着藉由排序演算法来产生出未知目前排名的数据文件的预测排名并排序,最后再将其结果传送回电子装置101中。在本发明实施例中,若未知目前排名的数据文件的预测排名在100名之前,则此数据文件为重要,若未知目前排名的数据文件的预测排名在100名之后,则此数据文件为不重要。在本发明实施例中,在伺服器103接收未知目前排名的数据文件之前,伺服器103可藉由多个已知目前排名的数据文件来产生排序演算法。在本发明的另一实施例中,电子装置101本身可藉由多个已知目前排名的数据文件来产生排序演算法,因此,电子装置101不需要通过伺服器103便可得到未知目前排名的数据文件的预测排名。下列将详述产生排序演算法以及产生数据文件的预测排名的细节。
图14为根据本发明的一实施例的数据文件的排序方法的流程图。如图14所示,根据本发明实施例的数据文件的排序方法的步骤包括S1410~S1450。表2为根据本发明实施例的已知目前排名的数据文件的示意图。表3为根据本发明实施例的未知目前排名的数据文件的示意图。在本发明实施例中,数据文件可以是新闻文件。如表2及表3所示,数据文件的内容可包括标题内容以及正文内容。下列请同时参照图14、表2及表3。
[表2]
[表3]
在步骤S1410中,从多个数据文件的内容中撷取多个关键词。举例来说,可在数据文件1~4的内容中撷取出各自的关键词。例如,在数据文件1的标题内容中可撷取出关键词"两会",以及在,在数据文件1的正文内容中可撷取出关键词"人大"、"政协"、"习近平"、"胡锦涛"及"两岸"。
在步骤S1420中,通过搜寻引擎检索多个关键词所对应的关键词排名。举例来说,通过搜寻引擎在数据文件1的关键词"两会"、"人大"、"政协"、"习近平"、"胡锦涛"及"两岸"所对应的关键词排名可分别为"152"、"96"、"135"、"33"、"47"及"95"。在本发明实施例中,关键词排名可以是藉由google搜寻引擎所查询出的当日、当周或当月的关键词排名,在此不加以限制。
在步骤S1430中,搜寻多个关键词所对应的关键词类别。举例来说,数据文件1的关键词"两会"、"人大"、"政协"、"习近平"、"胡锦涛"及"两岸"所对应搜寻到的关键词类别可分别为"政治会议"、"政治会议"、"政治会议"、"政治人物"、"政治人物"及"国际关系"。在本发明实施例中,可通过百科数据库(例如,维基百科)或是其他具有分类机制的数据库来搜寻其对应的关键词类别,在此不加以限制。
在步骤S1440中,依据多个关键词、多个关键词各自的关键词排名与关键词类别以及多个数据文件各自的目前排名,以产生排序演算法。举例来说,藉由表2中的数据文件1~4各自所具有的关键词、其关键词的关键词排名与关键词类别以及数据文件1~4的目前排名(25、38、67及184),来产生能用以预测另一数据文件的预测排名的排序演算法。在本发明实施例中,可将多个关键词、多个关键词各自的关键词排名与关键词类别设定为排序演算法的输入,并将多个数据文件各自的目前排名设定为排序演算法的输出,以产生排序演算法。由于与数据文件所具有的关键词的关键词排名与数据文件本身的目前排名具有相关性,因此在具有足够数量的数据文件的情况下,即可存在有排序演算法来对应其关系。此外,关键词类别可对应其关键词的权重值,换句话说,可藉由关键词的关键词类别,来决定出关键词对于数据文件的目前排名的影响程度。在本发明实施例中,当产生排序演算法时,可预先定义出关键词类别的类别权重参数以及关键词排名的排名权重参数,并在大量测试结果中,从中调整及改变类别权重参数及排名权重参数,直到排序演算法的输入值及输出值的结果在准确度容许范围内为止。在本发明的另一实施例中,当产生排序演算法时,可藉由曲线拟合方法来推求通过或近似通过有限序列的数据点(例如,排序演算法的输入值及输出值)的模拟函数(例如,解析函数),而曲线拟合方法可以是最小二乘法,在此不加以限制。
在步骤S1450中,藉由排序演算法用来计算另一数据文件的预测排名。举例来说,由于数据文件5的目前排名为未知,当藉由上述的数据文件1~4求得排序演算法后,可接着撷取出数据文件5的关键词以及查询文件5的关键词的关键词排名与关键词类型并输入此排序演算法,即可计算出数据文件5的预测排名为360,并可藉此排序数据文件5。
如上所述,在本发明实施例中,电子装置101可将未知目前排名的数据文件5传送至伺服器103,藉由伺服器103执行步骤S1410~S1440来产生排序演算法以及执行步骤S1450来产生数据文件5的预测排名以对其排序,最后再将其结果传送回电子装置101中。而在本发明的另一实施例中,步骤S1410~S1450皆可执行于电子装置101中,在此不加以限制。
图15为根据本发明的一实施例的数据文件的排序方法的流程图。如图3所示,根据本发明实施例的数据文件的排序方法的步骤包括S1410~S1430、S1441、S1442及S1450。下列将针对与上述的差异来做说明。在本发明实施例中,可更进一步执行步骤S1441、S1442来产生排序演算法。
在步骤S1441中,将多个关键词各自的关键词类别转换为多个关键词类别转换值。举例来说,可藉由查表或是特定公式计算的方式,来将数据文件1的关键词类别"政治会议"、"政治人物"及"国际关系"转换为关键词类别转换值10、20及30,将数据文件2的关键词类别"智能型手机"、"科技公司"、"科技人物"及"国家"转换为关键词类别转换值40、50、60及70,将数据文件3的关键词类别"节目"及"歌手"转换为关键词类别转换值80及90,将数据文件4的关键词类别"球队"、"球员"及"城市"转换为关键词类别转换值100、110及120。上述所举的关键词类别转换值乃是做为说明的用途,在此不加以限制。
在步骤S1442中,将多个关键词各自的关键词排名以及关键词类别转换值设定为模拟函数的定义域,将多个数据文件的目前排名设定为模拟函数的值域,藉以产生用以执行排序演算法的模拟函数。举例来说,若关键词排名对应的变数为x0、x1、x2、x3、x4及x5,关键词类别对应的变数为y0、y1、y2、y3、y4及y5,以及模拟函数为f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5),则对照表1中的数据文件,对于模拟函数f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5)而言,x0定义域分别包括152、21、17及139,x1定义域分别包括96、57、53及87,x2定义域分别包括135、42、66及106,x3定义域分别包括33、108、0及127,x4定义域分别包括47、317、0及0,x5定义域分别包括95、96、0及0,y0定义域分别包括10、40、80及100,y1定义域分别包括10、50、90及110,y2定义域分别包括10、60、90及120,y3定义域分别包括20、60、0及120,y4定义域分别包括20、70、0及0,y5定义域分别包括30、50、0及0,模拟函数f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5)的值域分别包括25、38、67及184,接着可藉由大量的测试结果来产生模拟函数f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5),或是可藉由曲线拟合方法来推求模拟函数f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5)。在本发明实施例中,模拟函数可以是线性函数以及非线性函数的其中之一。
在步骤S1450中,藉由排序演算法用来计算另一数据文件的预测排名。举例来说,如上所述,产生出用以执行排序演算法的模拟函数之后,即可藉以计算出数据文件5的预测排名。例如,先撷取出数据文件5的关键词的关键词排名分别为262、396、137及192(其分别对应x0、x1、x2及x3,而x4=x5=0),再搜寻数据文件5的关键词的关键词类别分别为"科技人物"、"创投公司"、"科技公司"及"科技公司",且其关键词类别对应值分别可为60、130、50及50(其分别对应y0、y1、y2及y3,而y4=y5=0),将其输入上述所求得的模拟函数f(x0,x1,x2,x3,x4,x5,y0,y1,y2,y3,y4,y5)之后,即可求得数据文件5的预测排名为f(262,396,137,192,0,0,60,130,50,50,0,0)=360,并可藉此排序数据文件5。
如上所述,在本发明实施例中,电子装置101可将未知目前排名的数据文件5传送至伺服器103,藉由伺服器103执行步骤S1410~S1430、S1441及S1442来产生排序演算法以及执行步骤S1450来产生数据文件5的预测排名以对其排序,最后再将其结果传送回电子装置101中。而在本发明的另一实施例中,步骤S1410~S1430、S1441~S1442及S1450皆可执行于电子装置101中,在此不加以限制。
综上所述,本发明藉由撷取多个数据文件中的关键词,并将关键词、所检索出的关键词排名以及所搜寻出的关键词类别所对应的转换值设定为模拟函数的定义域,将多个数据文件的已知目前排名设定为模拟函数的值域之后,接着可藉由定义的类别权重参数以及排名权重参数来在大量测试结果中产生模拟函数,或是可藉由曲线拟合方法来推求模拟函数,最后再利用模拟函数执行排序演算法来计算另一数据文件的预测排名,以排序另一数据文件。
虽然本发明已以实施例揭示如上,然其并非用以限定本发明,本领域技术人员在不脱离本发明的精神和范围内,可作些许的更动与润饰,故本发明的保护范围是以本发明的权利要求为准。

Claims (14)

1.一种数据文件的地域标记方法,该地域标记方法包括:
获得一树状结构,该树状结构具备多个节点,这些节点包括多个行政区名称及标志性名称,这些行政区名称及标志性名称之间具有阶层关系;
接收该数据文件,并从该数据文件撷取至少一关键字;
比对该至少一关键字与这些节点,以找出和该至少一关键字匹配的一第一节点;以及
标记该第一节点与该第一节点相关的至少一父节点于该数据文件。
2.如权利要求1所述的地域标记方法,其中获得该树状结构包括下列步骤:
取得一地域性名称;
判断该地域性名称是否从属于该树状结构中的一第二节点;以及
将该地域性名称加入该树状结构,
其中,该地域性名称包括行政区名称及标志性名称。
3.如权利要求1所述的地域标记方法,其中从该数据文件撷取该至少一关键字还包括:
由该数据文件的一标题或一正文撷取该至少一关键字;以及
由该数据文件的一来源撷取该至少一关键字,
其中,该数据文件的该来源包括该数据文件相关的一发生地点和一数据文件提供者所在地点。
4.如权利要求3所述的地域标记方法,其中比对该至少一关键字与这些节点,以找出和该至少一关键字匹配的该第一节点还包括:
分别对该至少一关键字定义对应的一权重。
5.如权利要求4所述的地域标记方法,其中比对该至少一关键字与这些节点,以找出和该至少一关键字匹配的该第一节点还包括:
根据该至少一关键字相对应的该权重作为比对该至少一关键字与这些节点的顺位参考。
6.如权利要求1所述的地域标记方法,其中比对该至少一关键字与这些节点,以找出和该至少一关键字匹配的该第一节点还包括:
搜寻该树状结构以比对该树状结构中是否存在该第一节点,该第一节点所包括的该行政区名称或该标志性名称和该至少一关键字的其中之一相同;以及
找出该树状结构中与该第一节点相关的该至少一父节点。
7.如权利要求1所述的地域标记方法,其中标记该第一节点与该第一节点相关的该至少一父节点于该数据文件还包括:
根据该第一节点与该第一节点相关的该至少一父节点,建立对应的多个标签;以及
连结这些标签与该数据文件以完成标记并储存该数据文件于一储存数据库。
8.一种数据文件的地域标记装置,包括:
一分类单元,通过一网络获得一树状结构,该树状结构具备多个节点,这些节点包括多个行政区名称及标志性名称,这些地域及标志性名称之间具有阶层关系;
一撷取单元,通过该网络接收该数据文件,并从该数据文件撷取至少一关键字;
一比对单元,耦接于该撷取单元,比对该至少一关键字与这些节点,以找出和该至少一关键字匹配的一第一节点;
一标记单元,耦接于该比对单元,标记该第一节点与该第一节点相关的该至少一父节点于该数据文件;以及
一储存数据库,耦接于该分类单元、该撷取单元、该比对单元与该标记单元,用以储存该树状结构与该数据文件。
9.如权利要求8所述的地域标记装置,其中该分类单元获得该树状结构包括下列步骤:
取得一地域性名称;
判断该地域性名称是否从属于该树状结构中的一第二节点;以及
将该地域性名称加入该树状结构,其中
该地域性名称包括行政区名称以及标志性名称。
10.如权利要求8所述的地域标记装置,其中该撷取单元从该数据文件撷取该至少一关键字还包括:
由该数据文件的一标题或一正文撷取该至少一关键字;以及
由该数据文件的一来源撷取该至少一关键字,其中该数据文件的该来源包括该数据文件相关的一发生地点和一数据文件提供者所在地点。
11.如权利要求10所述的地域标记装置,其中该比对单元分别对该至少一关键字定义对应的一权重。
12.如权利要求11所述的地域标记装置,其中该比对单元根据该至少一关键字相对应的该权重作为比对该至少一关键字与这些节点的顺位参考。
13.如权利要求8所述的地域标记装置,其中该比对单元还执行:
搜寻该树状结构以比对该树状结构中是否存在该第一节点,该第一节点所包括的该行政区名称或该标志性名称和该至少一关键字的其中之一相同;以及
找出该树状结构中与该第一节点相关的该至少一父节点。
14.如权利要求8所述的地域标记装置,其中该标记单元还执行:
根据该第一节点与该第一节点相关的该至少一父节点,建立对应的多个标签;以及
连结这些标签与该数据文件以完成标记并储存该数据文件于该储存数据库。
CN201310273265.4A 2013-07-02 2013-07-02 数据文件的地域标记方法以及装置 Active CN104281578B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310273265.4A CN104281578B (zh) 2013-07-02 2013-07-02 数据文件的地域标记方法以及装置
TW102125769A TWI599894B (zh) 2013-07-02 2013-07-18 資料文件的地域標記方法以及裝置
US14/269,214 US20150012543A1 (en) 2013-07-02 2014-05-05 Region labeling method and device of data documents
US15/937,879 US11093529B2 (en) 2013-07-02 2018-03-28 Method for displaying landmark data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310273265.4A CN104281578B (zh) 2013-07-02 2013-07-02 数据文件的地域标记方法以及装置

Publications (2)

Publication Number Publication Date
CN104281578A true CN104281578A (zh) 2015-01-14
CN104281578B CN104281578B (zh) 2017-11-03

Family

ID=52133538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310273265.4A Active CN104281578B (zh) 2013-07-02 2013-07-02 数据文件的地域标记方法以及装置

Country Status (3)

Country Link
US (2) US20150012543A1 (zh)
CN (1) CN104281578B (zh)
TW (1) TWI599894B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021336A (zh) * 2016-05-09 2016-10-12 厦门四方中信科技有限公司 一种对批量地址信息进行自动行政区划划分的方法
CN106886512A (zh) * 2015-12-15 2017-06-23 腾讯科技(深圳)有限公司 文章分类方法和装置
CN113076389A (zh) * 2021-03-16 2021-07-06 百度在线网络技术(北京)有限公司 文章地域识别方法、装置、电子设备及可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275086A1 (en) * 2015-03-17 2016-09-22 NewsByMe, LLC News publishing system and method
CN106610998A (zh) * 2015-10-26 2017-05-03 烽火通信科技股份有限公司 一种新型的网页数据基于地区噪音过滤方法
CN112399943B (zh) * 2018-06-12 2022-12-30 西门子交通有限公司 用于记录与轨道车辆相关的信息的方法和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101317175A (zh) * 2005-10-12 2008-12-03 谷歌公司 分布式地理信息系统中的实体显示优先级
CN100538695C (zh) * 2004-07-22 2009-09-09 国际商业机器公司 构造、维护个性化分类树的方法及系统
US20100174724A1 (en) * 2009-01-08 2010-07-08 David Robert Wallace Interest-group discovery system
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN102999490A (zh) * 2011-09-08 2013-03-27 北京无限讯奇信息技术有限公司 商户文档权重评价方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140053053A1 (en) * 2005-03-31 2014-02-20 Google Inc. Methods and systems for real-time extraction of user-specified information
US7814112B2 (en) * 2006-06-09 2010-10-12 Ebay Inc. Determining relevancy and desirability of terms
US8041730B1 (en) * 2006-10-24 2011-10-18 Google Inc. Using geographic data to identify correlated geographic synonyms
US7792846B1 (en) * 2007-07-27 2010-09-07 Sonicwall, Inc. Training procedure for N-gram-based statistical content classification
US9390136B2 (en) * 2009-02-12 2016-07-12 1020, Inc. System and method of identifying relevance of electronic content to location or place
CN101996215B (zh) * 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
US8285716B1 (en) * 2009-12-21 2012-10-09 Google Inc. Identifying and ranking digital resources relating to places
US8620917B2 (en) * 2011-12-22 2013-12-31 Telefonaktiebolaget L M Ericsson (Publ) Symantic framework for dynamically creating a program guide
US20130218864A1 (en) * 2012-02-18 2013-08-22 Harrison Gregory Hong Real Estate Search Engine
US20140344259A1 (en) * 2013-05-15 2014-11-20 Google Inc. Answering people-related questions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100538695C (zh) * 2004-07-22 2009-09-09 国际商业机器公司 构造、维护个性化分类树的方法及系统
CN101317175A (zh) * 2005-10-12 2008-12-03 谷歌公司 分布式地理信息系统中的实体显示优先级
US20100174724A1 (en) * 2009-01-08 2010-07-08 David Robert Wallace Interest-group discovery system
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN102999490A (zh) * 2011-09-08 2013-03-27 北京无限讯奇信息技术有限公司 商户文档权重评价方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886512A (zh) * 2015-12-15 2017-06-23 腾讯科技(深圳)有限公司 文章分类方法和装置
CN106886512B (zh) * 2015-12-15 2020-11-17 腾讯科技(深圳)有限公司 文章分类方法和装置
CN106021336A (zh) * 2016-05-09 2016-10-12 厦门四方中信科技有限公司 一种对批量地址信息进行自动行政区划划分的方法
CN113076389A (zh) * 2021-03-16 2021-07-06 百度在线网络技术(北京)有限公司 文章地域识别方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
US11093529B2 (en) 2021-08-17
TW201502809A (zh) 2015-01-16
US20150012543A1 (en) 2015-01-08
CN104281578B (zh) 2017-11-03
TWI599894B (zh) 2017-09-21
US20180225305A1 (en) 2018-08-09

Similar Documents

Publication Publication Date Title
CN104854583B (zh) 搜索结果排名和呈现
CN104281578A (zh) 数据文件的地域标记方法以及装置
CN102521253B (zh) 一种可视化的网络用户多媒体管理方法
CN102207948B (zh) 一种事件陈述句素材库的生成方法
US20150269231A1 (en) Clustered search results
CN102024058A (zh) 音乐推荐方法及系统
CN102096705A (zh) 一种文章采集的方法
KR101984937B1 (ko) 전통문화 3d 디지털 연표 표출 시스템
CN106354860A (zh) 基于标签集的信息资源自动贴标签并自动推送的方法
CN103412903B (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
KR20120070256A (ko) 맵 인터페이스와 지식처리를 활용한 지역관련정보 통합검색방법
CN103064880A (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN102194006A (zh) 一种集合团队个性化特征的搜索系统和方法
CN104281577A (zh) 数据文件的排序方法
CN106663113A (zh) 保存并获取对象的位置
CN101477555A (zh) 基于sql数据库的任务树的快速检索及生成显示的方法
CN101763211A (zh) 语意实时分析联想操控系统及方法
US10083241B2 (en) Sorting method of data documents and display method for sorting landmark data
CN104283904A (zh) 讯息通知方法以及装置
CN104281576A (zh) 地标数据的显示方法
CN114996410A (zh) 一种关于环境数据资源自动整合及共享的方法
CN104376041A (zh) 一种基于微博分类的信息抽取方法
CN103455568B (zh) 通过搜索引擎获取通信联系人的方法及终端
CN103092934A (zh) 基于统计次数的行程单关键字获取方法
CN103020206A (zh) 基于知识网络的搜索结果聚焦系统及聚焦方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant