CN108153715B - 比较表格自动产生方法及装置 - Google Patents

比较表格自动产生方法及装置 Download PDF

Info

Publication number
CN108153715B
CN108153715B CN201710066132.8A CN201710066132A CN108153715B CN 108153715 B CN108153715 B CN 108153715B CN 201710066132 A CN201710066132 A CN 201710066132A CN 108153715 B CN108153715 B CN 108153715B
Authority
CN
China
Prior art keywords
article
collected
comparison
words
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710066132.8A
Other languages
English (en)
Other versions
CN108153715A (zh
Inventor
陈棅易
郭台达
曹嬿恒
杨又权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN108153715A publication Critical patent/CN108153715A/zh
Application granted granted Critical
Publication of CN108153715B publication Critical patent/CN108153715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种比较表格自动产生方法及装置。比较表格自动产生方法包含以下步骤:设定比较议题、基础文章及主题和标记段落;计算标记段落的基础文章字词间的相关联性,以产生标记主标签及标记扩增词,以从信息源撷取收集文章和主题;计算收集文章段落的收集文章字词间的相关联性,产生收集文章段落主标签及扩增词,与标记主标签以及标记扩增词进行比对产生近似度,以产生选择段落;建立比较表格,以比较议题、基础文章主题和收集文章主题作为行、列的项目名称,依据比较议题的标记段落及选择段落填入栏位。本发明的技术可用以快速建立不同主题间的比较数据。

Description

比较表格自动产生方法及装置
技术领域
本发明是有关于一种数据处理技术,且特别是有关于一种比较表格自动产生方法及装置。
背景技术
随着网络的发达,使用者可透过网络轻易地存取巨大的信息量。然而,当使用者想要针对一特定的主题进行比较且制作比较表格时,往往需要以人工的方式对网络信息进行检索。举例而言,使用者需要实际观看多篇网络文章并寻找相同的议题以及对应的内容,才能进行比较,然后自行筛选所需数据来制作格。这样以人工进行比较的方式耗时费力,并且效率低落,无法迅速对大量的数据进行快速的整理。
因此,如何设计一个新的比较表格自动产生方法及装置,以解决上述缺陷,乃为此一业界亟待解决的问题。
发明内容
本发明的比较表格自动产生方法及装置可依据欲进行比较的文章主题、比较议题以及与比较议题相关的内容,产生基础文章和收集文章的比较表格,快速建立不同主题间的比较数据。
因此,本发明的一态样是在提供一种比较表格自动产生方法,通过一服务器实施,且比较表格自动产生方法包含以下步骤:于界面单元接收复数个比较议题的设定、基础文章及其基础文章主题和复数个标记段落,其中每一标记段落是由基础文章中选择文章段落且标记其对应的其中的一比较议题;令服务器计算各标记段落所包含的各复数个基础文章字词间的相关联性,以令服务器产生对应各标记段落的至少一标记主标签以及复数个标记扩增词;令服务器依据标记主标签和标记扩增词,从信息源中撷取收集文章和对应的收集文章主题;令服务器计算收集文章的复数收集文章段落所包含的各复数个收集文章字词间的相关联性,以令服务器产生对应各收集文章的各收集文章段落的至少一收集文章段落主标签以及复数个收集文章段落扩增词;令服务器将各收集文章的各收集文章段落的收集文章段落主标签以及收集文章段落扩增词,与各标记段落的标记主标签以及标记扩增词进行比对以产生近似度,以令服务器根据该近似度从各收集文章段落中选择对应每一比较议题的选择段落;以及令服务器建立比较表格,其中比较表格是分别以每一比较议题作为每一行的项目名称,将基础文章主题作为其中一列的项目名称,并令服务器依据基础文章中对应每一比较议题的标记段落填入此列中对应每一比较议题的行的栏位中,以及令服务器将收集文章主题作为另一列的项目名称,并令服务器依据收集文章中对应每一比较议题的选择段落填入此列中对应每一比较议题的行的栏位中。
于本发明一实施例中,比较表格自动产生方法还包含:令服务器对各基础文章字词计算正规化Google距离(normalized Google distance;NGD),以计算各基础文章字词间的相关联性。
于本发明一实施例中,比较表格自动产生方法还包含:在搜寻引擎中,令服务器对各标记扩增词进行搜寻,以令服务器将搜寻结果页中包含的复数个结果字词中,重要性大于重要性门槛值的结果字词归纳为标记扩增词。
于本发明一实施例中,标记主标签以及标记扩增词是由相关联性大于相关联性门槛值的基础文章字词撷取出。
于本发明一实施例中,比较表格自动产生方法还包含:对相关联性大于相关联性门槛值的基础文章字词,令服务器透过k-core演算法或pagerank演算法撷取标记主标签。
于本发明一实施例中,比较表格自动产生方法还包含:令服务器根据收集文章段落主标签与标记主标签计算正规化Google距离,以及令服务器根据收集文章段落扩增词与标记扩增词计算余弦近似度;令服务器根据正规化Google距离以及余弦近似度产生近似度;以及当近似度大于近似度门槛值时,令服务器判断收集文章段落的比较议题与基础文章段落的比较议题相同。
于本发明一实施例中,比较表格自动产生方法还包含:令服务器根据第一权重值以及第二权重值,对正规化Google距离以及余弦近似度进行权重总和的计算,以产生近似度。
于本发明一实施例中,比较表格自动产生方法还包含:令服务器从信息源中撷取多个收集文章并产生对应各个收集文章中对应每一比较议题的选择段落;以及令服务器将多个收集文章的收集文章主题作为比较表格的复数列的项目名称,并令服务器依据各个收集文章中对应每一比较议题的选择段落填入复数列中对应每一比较议题的行的栏位中。
本发明的另一态样是在提供一种比较表格自动产生装置,包含:储存单元以及处理单元。储存单元配置以储存应用程序。处理单元电性耦接于输入单元以及储存单元,处理单元配置以执行应用程序,依据基础文章及时间区间的复数收集文章以自动产生比较表格。其中处理单元提供一界面以设定复数个比较议题、基础文章及其基础文章主题和复数个标记段落,其中该每一标记段落是由该基础文章中选择一文章段落且标记其对应的其中的一所述比较议题;计算各所述标记段落所包含的各复数个基础文章字词间的相关联性,以产生对应各标记段落的至少一标记主标签以及复数个标记扩增词;依据标记主标签和标记扩增词,从信息源中撷取收集文章和对应的收集文章主题;计算收集文章的复数收集文章段落所包含的各复数个收集文章字词间的相关联性,以产生对应各收集文章的各收集文章段落的至少一收集文章段落主标签以及复数个收集文章段落扩增词;将各收集文章的各收集文章段落的收集文章段落主标签以及收集文章段落扩增词,与各标记段落的标记主标签以及标记扩增词进行比对产生近似度,以根据该近似度从各收集文章段落中选择对应每一比较议题的选择段落;以及建立比较表格,其中比较表格是分别以每一比较议题作为每一行的项目名称,将基础文章主题作为其中一列的项目名称,并依据基础文章中对应每一比较议题的标记段落填入此列中对应每一比较议题的行的栏位中,以及将收集文章主题作为另一列的项目名称,并依据收集文章中对应每一比较议题的选择段落填入此列中对应每一比较议题的行的栏位中。
于本发明一实施例中,处理单元更对各基础文章字词计算正规化Google距离,以计算各基础文章字词间的相关联性。
于本发明一实施例中,处理单元更链结至搜寻引擎,对各标记扩增词进行搜寻,以将搜寻结果页中包含的复数个结果字词中,重要性大于重要性门槛值的结果字词归纳为标记扩增词。
于本发明一实施例中,标记主标签以及标记扩增词是由相关联性大于相关联性门槛值的基础文章字词撷取出。
于本发明一实施例中,处理单元更对相关联性大于相关联性门槛值的基础文章字词,透过k-core演算法或pagerank演算法撷取标记主标签。
于本发明一实施例中,处理单元更根据收集文章段落主标签与标记主标签计算正规化Google距离,以及根据收集文章段落扩增词与标记扩增词计算余弦近似度;根据正规化Google距离以及余弦近似度产生近似度;以及当近似度大于近似度门槛值时,判断收集文章段落的比较议题与基础文章段落的比较议题相同。
于本发明一实施例中,处理单元更根据第一权重值以及第二权重值,对正规化Google距离以及余弦近似度进行权重总和的计算,以产生近似度。
于本发明一实施例中,处理单元更从信息源中撷取多个收集文章并产生对应各个收集文章中对应每一比较议题的选择段落;以及将多个收集文章的收集文章主题作为比较表格的复数列的项目名称,并依据各个收集文章中对应每一比较议题的选择段落填入复数列中对应每一比较议题的行的栏位中。
应用本发明的优点在于,本发明的比较表格自动产生装置以及比较表格自动产生方法可以依据基础文章的内容判断欲进行比较的文章主题、比较议题以及与比较议题相关的内容,再自收集文章撷取相关的文章主题以及与比较议题相关的内容,产生基础文章和收集文章的比较表格,快速建立不同主题间的比较数据。
附图说明
图1为本发明一实施例中,一种比较表格自动产生装置的方块图;
图2为本发明一实施例中,一种比较表格自动产生方法的流程图;
图3A为本发明一实施例中,基础文章的示意图;
图3B为本发明一实施例中,基础文章经由比较议题、标记主标签以及标记扩增词的设定后的示意图;
图4A为本发明一实施例中,收集文章的示意图;
图4B为本发明一实施例中,收集文章经由比较议题、标记主标签以及标记扩增词的设定后的示意图;以及
图5为本发明一实施例中,比较表格的示意图。
具体实施方式
请参照图1。图1为本发明一实施例中,一种比较表格自动产生装置1的方块图。比较表格自动产生装置1包含:处理单元10、储存单元12、使用者输入输出界面14以及网络单元16。于一实施例中,比较表格自动产生装置1可为一个电脑主机或是服务器,以由使用者透过操作界面或是远程网络主机存取及操作。
处理单元10耦接储存单元12、使用者输入输出界面14及网络单元16。处理单元10可为各种具有运算能力的处理器,并可透过不同的数据传输路径与上述的单元进行数据传输。储存单元12可包含一或多个不同形式的储存元件,例如但不限于只读记忆体、快闪记忆体、软盘、硬盘、光盘、随身盘、磁带、可由网络存取的数据库或其他类型的记忆体。
于一实施例中,使用者输入输出界面14包含输出的元件,例如,但不限于显示单元,以依据处理单元10的控制产生显示画面。并且,使用者输入输出界面14可包含输入的元件,例如,但不限于鼠标、键盘或其他可用以接收使用者输入11的装置或软件,以在使用者的操作下传送指令至处理单元10。
网络单元16可连接至网络(未绘示),例如但不限于区域网络或是网际网络。处理单元10可通过网络单元16透过网络与其他的远程主机进行通讯。
需注意的是,上述的元件仅为一示例性说明。于其他实施例中,比较表格自动产生装置1亦可包含其他类型的元件。
储存单元12储存有多个计算机可执行的指令120。当指令120由处理单元10执行处理动作时,可作用为多个模块,以执行并提供比较表格自动产生装置1的功能。于一实施例中,处理单元10可通过自使用者输入输出界面14接收使用者输入11来运行比较表格自动产生装置1。以下将就处理单元10执行比较表格自动产生装置1时的处理动作进行说明。
请同时参照图2。图2为本发明一实施例中,一种比较表格自动产生方法200的流程图。比较表格自动产生方法200可应用于如图1所绘示的比较表格自动产生装置1中,或经由其他硬件元件如数据库、一般处理器、计算机、服务器、或其他具特定逻辑电路的独特硬件装置或具特定功能的设备来实作,如将程序码和处理器/晶片整合成独特硬件。此方法可实作为一计算机程序产品,而使计算机程序产品执行比较表格自动产生方法。计算机程序产品可配置于只读记忆体、快闪记忆体、软盘、硬盘、光盘、随身盘、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的储存元件。
比较表格自动产生方法200包含下列步骤(应了解到,在本实施方式中所提及的步骤,除特别叙明其顺序者外,均可依实际需要调整其前后顺序,甚至可同时或部分同时执行)。
于步骤201,于界面单元接收复数个比较议题的设定、基础文章13及其基础文章主题和复数个标记段落。于一实施例中,界面单元可包括上述的使用者输入输出界面14、网络单元16或其组合。基础文章例如可以是一篇网络文章的部分或全部、网络新闻的部分或全部、数据库中一文件的部分或全部、社群网站中的涂鸦墙文字等等。
请参照图3A。图3A为本发明一实施例中,基础文章13的示意图。
于一实施例中,基础文章13是由使用者操作使用者输入输出界面14后,由网络单元16自网络中的信息源或数据库撷取。于本实施例中,基础文章13的内容为和一种第三方支付名牌「欧付宝」相关,并包含此第三方支付名牌的名称、此第三方支付名牌的收款方式、加入会员的方式及型态等。需注意的是,上述的基础文章13的内容仅为一范例。于其他实施例中,基础文章13可包含其他的内容。
于一实施例中,通过使用者输入输出界面14,可设定基础文章13的基础文章主题为「欧付宝」,并设定多个比较议题为例如,但不限于第三方支付名牌、付款方式以及会员类型。
进一步地,每一标记段落是由基础文章13中对文章段落进行选择,且标记其对应的其中的一比较议题。举例而言,图3A中的基础文章13的段落300所叙述的内容为与欧付宝作为电子支付的相关内容,在选择后可标记为「第三方支付名牌」。基础文章13的段落302所叙述的内容为与欧付宝款项收付相关的内容,在选择后可标记为「收款方式」。基础文章13的段落304所叙述的内容为与欧付宝加入会员的方式相关的内容,在选择后可标记为「会员类型」。
于步骤202,处理单元10分别针对每一各标记段落300-304分别计算其所包含的各基础文章字词间的相关联性,以分别产生对应各标记段落的标记主标签以及标记扩增词。
于一实施例中,处理单元10对各基础文章字词计算正规化Google距离(normalized Google distance;NGD),以计算各基础文章字词间的相关联性。
以段落302为例,处理单元10可通过断词技术,从文字撷取出「另外」、「也」、「提供」、「超商缴款」、「信用卡」、「ATM」、「金流服务」等基础文章字词。
处理单元10将透过网络单元16,将这些基础文章字词分别两两进行Google搜寻,以通过正规化Google距离的计算得到基础文章字词间的相关联性。
举例而言,「金流服务」及「另外」的正规化Google距离为0.45、「金流服务」及「也」的正规化Google距离为0.35、「金流服务」及「提供」的正规化Google距离为0.6、「金流服务」及「超商缴款」的正规化Google距离为0.91、「金流服务」及「信用卡」的正规化Google距离为0.98与「金流服务」及「ATM」的正规化Google距离为0.97。上述各组基础文章字词的正规化Google距离,即可作为相关联性高低的判断依据。
因此,段落302中较为重要的基础文章字词,可由相关联性大于相关联性门槛值的基础文章字词撷取出。举例而言,当相关联性门槛值设定为0.7时,「金流服务」及「另外」、「金流服务」及「也」和「金流服务」及「提供」的基础文章字词将被排除。而「金流服务」及「超商缴款」、「金流服务」及「信用卡」与「金流服务」及「ATM」将会被撷取。
对于这些相关联性大于相关联性门槛值的基础文章字词,处理单元10进一步透过k-core演算法或pagerank演算法撷取标记主标签。k-core演算法或pagerank演算法可找寻出上述重要的基础文章字词中,与所有其他基础文章字词的相关联性最高者。
举例而言,「超商缴款」、「信用卡」、「ATM」与「金流服务」间都具有高度相关联性。然而,「金流服务」的与各个基础文章字词间的总相关联性是最高的。因此,「金流服务」将被处理单元10判断为段落302的标记主标签。而「超商缴款」、「信用卡」、「ATM」则将被判断为标记扩增词。
需注意的是,上述判断相关联性的技术仅为一范例。于其他实施例中,亦可能采用其他计算相关联性的技术,而不为上述实施例所限。
于一实施例中,处理单元10可透过网络单元10在搜寻引擎中,根据上述的标记扩增词进行搜寻,以将搜寻结果页中包含的结果字词中,重要性大于重要性门槛值的结果字词归纳为标记扩增词。
更详细地说,处理单元10在根据标记扩增词进行搜寻后,可在例如,但不限于前20个搜寻结果页中的文字进行断词,以计算重要性。于一实施例中,重要性可通过计算各个断词的字词数目和在所有断词的字词数目的比例判断断词的字词的出现频率,来决定重要性。当出现频率大于预设的重要性门槛值时,即将对应的断词字词加入标记扩增词中。
请参照图3B。图3B为本发明一实施例中,基础文章13经由比较议题、标记主标签以及标记扩增词的设定后的示意图。
通过上述的设定,基础文章13的标记段落可简化为图3B所示的表格。其中,段落300对应于「第三方支付名牌」的比较议题,包含「欧付宝」的标记主标签,并具有「电子支付」、「第三方支付」、「线上和线下储值」、「P2P转账」等标记扩增词。段落302对应于「收款方式」的比较议题,包含「金流服务」的标记主标签,并具有「超商缴款」、「信用卡」、「ATM」等标记扩增词。段落304对应于「会员类型」的比较议题,包含「会员申请」的标记主标签,并具有「月缴399元」、「免费」、「注册会员」等标记扩增词。
于步骤203,处理单元10依据标记主标签和标记扩增词,从信息源中撷取在一特定时间区间的收集文章15和对应的收集文章主题。
于一实施例中,信息源可为比较表格自动产生装置1中的储存单元12或是可透过网络单元16存取的网络服务器、数据库等。根据图3B中的标记主标签和标记扩增词,处理单元10可撷取在特定时间区间的收集文章15和对应的收集文章主题。于一实施例中,收集文章主题亦可经由使用者输入输出界面14设定,例如但不限于「Yahoo奇摩」、「PCHome」等与第三方支付相关的主题。
时间区间可由使用者设定长短。举例而言,处理单元10可撷取例如,但不限于在一周内、一个月内或是半年内的文章作为收集文章15。
于步骤204,处理单元10计算收集文章15的收集文章段落所包含的各收集文章字词间的相关联性,以产生对应各收集文章的各收集文章段落的收集文章段落主标签以及收集文章段落扩增词。
请参照图4A。图4A为本发明一实施例中,收集文章15的示意图。
于本实施例中,收集文章15包含段落400以及402,且内容为和「Yahoo奇摩轻松付」、「PCHomePay支付连」的第三方支付名牌相关,并包含此些第三方支付名牌的名称、此第三方支付名牌的收款方式、加入会员的方式及型态等。需注意的是,上述的收集文章15的内容仅为一范例。于其他实施例中,收集文章15可包含其他的内容。
类似于处理单元10对于基础文章13的处理,处理单元10可对每一收集文章15进行断词,并计算文章字词间的相关联性,以产生对应各收集文章的各收集文章段落的收集文章段落主标签以及收集文章段落扩增词。因此,详细的产生过程不再赘述。
请参照图4B。图4B为本发明一实施例中,收集文章15经由收集文章段落主标签以及收集文章段落扩增词的撷取后的示意图。
举例而言,由图4B可知,段落400的收集文章段落主标签为「付款」,对应的收集文章段落扩增词则包含「电子商务平台帐号」以及「银列帐户」。段落402的收集文章段落主标签为「Yahoo奇摩轻松付」,对应的收集文章段落扩增词则包含「第三方金流」「Yahoo奇摩」与「一般会员及商务会员」。另一个收集文章段落主标签为「PCHomePay支付连」,对应的收集文章段落扩增词则包含「露天拍卖金流服务」、「PChome Online」与「一般会员及法人会员」。
于步骤205,处理单元10将各收集文章15的各收集文章段落的收集文章段落主标签以及收集文章段落扩增词,与各标记段落的标记主标签以及标记扩增词进行比对以产生近似度,以根据近似度从各收集文章段落400、402中选择对应每一比较议题的选择段落。
于一实施例中,处理单元10根据图4B中的各个段落400、402的收集文章段落主标签,与图3B中的各个段落300、302、304的标记主标签,两两计算正规化Google距离,以及根据图4B中的各个段落400、402的收集文章段落扩增词,与图3B中的各个段落300、302、304的标记扩增词计算余弦近似度(cosine similarity)。
其中,余弦近似度是信息检索中常用的相似度计算方式,可用来计算文件之间的相似度,也可以计算词汇之间的相似度。于一实施例中,处理单元10将收集文章段落扩增词以及标记扩增词表达为向量,以基础文章13和收集文章15作为向量维度,并以收集文章段落扩增词以及标记扩增词在基础文章13和收集文章15的权重作为维度值计算余弦近似度。
接着,处理单元10根据正规化Google距离以及余弦近似度产生段落400、402以及段落300、302、304间的近似度。于一实施例中,处理单元10是根据预设的第一权重值以及第二权重值,分别对正规化Google距离以及余弦近似度进行权重总和的计算,以产生近似度。举例而言,当收集文章段落主标签和标记主标签的正规化Google距离表示为Simmt、收集文章段落扩增词和标记扩增词的余弦近似度表示为Simew,且第一权重值以及第二权重值分别为α及β时,近似度可表示为Sim=α×Simmt+β×Simew
接着,处理单元10在近似度大于预设的近似度门槛值时,判断收集文章段落的比较议题与基础文章段落的比较议题相同。因此,通过近似度的计算,处理单元10可判断基础文章13和收集文章15间,对应同一比较议题的段落。
举例而言,基础文章13的段落302和收集文章15的段落402都与金流和付款方式高度相关,处理单元10可在进行近似度的计算后,判断段落302和402均对应「收款方式」的比较议题。因此,处理单元10将段落402选择为对应「收款方式」的比较议题的选择段落。
于步骤206,处理单元10建立比较表格17。
请参照图5。图5为本发明一实施例中,比较表格17的示意图。
处理单元10使比较表格17分别以每一比较议题作为每一行的项目名称。如图5所示,比较表格17的各行项目名称分别为「第三方支付名牌」、「收款方式」以及「会员类型」。接着,处理单元10将基础文章主题作为第一列的项目名称。因此,如图5所示,比较表格17的第一列是以「欧付宝」作为项目名称。
进一步地,处理单元10依据基础文章13中对应每一比较议题的标记段落填入第一列中对应每一比较议题的行的栏位中。需注意的是,在不同实施例中,处理单元10可选择性地将标记段落中的所有段落文字、段落中的部分句子或是段落中部分关键的字词(例如标记扩增词)填入栏位中。因此,如图5所示,对应于第一行的比较议题「第三方支付名牌」,处理单元10将在第一列的栏位填入「欧付宝」。对应于第二行的比较议题「收款方式」,处理单元10将在第一列的栏位填入「超商缴款、信用卡、ATM」。对应于第三行的比较议题「会员类型」,处理单元10将在第一列的栏位填入「免费、注册会员」。
处理单元10将收集文章主题作为第二列的项目名称。因此,如图5所示,比较表格17的第二列是以「PChome」作为项目名称。
进一步地,处理单元10依据收集文章中对应每一比较议题的选择段落填入第二列中对应每一比较议题的行的栏位中。
如图5所示,对应于第一行的比较议题「第三方支付名牌」,处理单元10将在第二列的栏位填入「PChomePay支付连」。对应于第二行的比较议题「收款方式」,处理单元10将在第二列的栏位填入「全家OK莱尔富取货付款、邮局快捷货到付款」。对应于第三行的比较议题「会员类型」,处理单元10将在第二列的栏位填入「一般、法人会员」。
由于收集文章中尚包含另一收集文章主题「Yahoo奇摩」。因此,如图5所示,比较表格17的第三列是以「Yahoo奇摩」作为项目名称。
进一步地,处理单元10依据收集文章中对应每一比较议题的选择段落填入第三列中对应每一比较议题的行的栏位中。
如图5所示,对应于第一行的比较议题「第三方支付名牌」,处理单元10将在第三列的栏位填入「Yahoo奇摩轻松付」。对应于第二行的比较议题「收款方式」,处理单元10将在第三列的栏位填入「WebATM转账、ATM转账、信用卡」。对应于第三行的比较议题「会员类型」,处理单元10将在第三列的栏位填入「一般、商务会员」。
需注意的是,上述的实施例仅以一篇收集文章15作为范例进行说明。在其他实施例中,处理单元10可收集多篇收集文章并进行类似的处理,并依序将多个收集文章填入各列的文章主题后,对应各个比较议题填入文章的段落或是字词。并且,上述的实施例是以第三方支付相关的主题作为范例进行说明。在其他实施例中,亦可根据不同的文章主题及比较议题产生比较表格。
需注意的是,上述的步骤中,部分可视实作的需求而调整顺序或增减,不为上述的顺序及内容所限。
因此,本发明的比较表格自动产生装置以及比较表格自动产生方法可以依据基础文章的内容判断欲进行比较的文章主题、比较议题以及与比较议题相关的内容,再自收集文章撷取相关的文章主题以及与比较议题相关的内容,产生基础文章和收集文章的比较表格,快速建立不同主题间的比较数据。
虽然本案内容已以实施方式揭露如上,然其并非配置以限定本案内容,任何熟悉此技艺者,在不脱离本案内容的精神和范围内,当可作各种的更动与润饰,因此本案内容的保护范围当视所附的权利要求书所界定的范围为准。

Claims (14)

1.一种比较表格自动产生方法,通过一服务器实施,其特征在于,该比较表格自动产生方法包含以下步骤:
于一界面单元接收复数个比较议题的设定、一基础文章及其基础文章主题和复数个标记段落,其中每一所述标记段落是由该基础文章中选择一文章段落且标记其对应的其中的一所述比较议题;
令该服务器计算各所述标记段落所包含的各复数个基础文章字词间的相关联性,以令该服务器产生对应各所述标记段落的至少一标记主标签以及复数个标记扩增词;
令该服务器依据所述标记主标签和所述标记扩增词,从一信息源中撷取一收集文章和对应的一收集文章主题;
令该服务器计算该收集文章的复数收集文章段落所包含的各复数个收集文章字词间的相关联性,以令该服务器产生对应各所述收集文章的各所述收集文章段落的至少一收集文章段落主标签以及复数个收集文章段落扩增词;
令该服务器将各所述收集文章的各所述收集文章段落的该收集文章段落主标签以及所述收集文章段落扩增词,与各所述标记段落的该标记主标签以及所述标记扩增词进行比对以产生一近似度,以令该服务器根据该近似度从各所述收集文章段落中选择对应每一所述比较议题的一选择段落;
令该服务器根据该收集文章段落主标签与该标记主标签计算一正规化Google距离,以及令该服务器根据所述收集文章段落扩增词与所述标记扩增词计算一余弦近似度;
令该服务器根据该正规化Google距离以及该余弦近似度产生该近似度;
当一近似度大于一近似度门槛值时,令该服务器判断该收集文章段落的该比较议题与该基础文章段落的该比较议题相同;以及
令该服务器建立一比较表格,其中该比较表格是分别以每一所述比较议题作为每一行的项目名称,将该基础文章主题作为其中一列的项目名称,并令该服务器依据该基础文章中对应每一所述比较议题的所述标记段落填入该列中对应每一所述比较议题的行的栏位中,以及令该服务器将该收集文章主题作为另一列的项目名称,并令该服务器依据该收集文章中对应每一所述比较议题的该选择段落填入该列中对应每一比较议题的行的栏位中。
2.根据权利要求1所述的比较表格自动产生方法,其特征在于,该比较表格自动产生方法还包含:
令该服务器对各所述基础文章字词计算一正规化Google距离,以计算各所述基础文章字词间的相关联性。
3.根据权利要求1所述的比较表格自动产生方法,其特征在于,该比较表格自动产生方法还包含:
在一搜寻引擎中,令该服务器对各所述标记扩增词进行搜寻,以令该服务器将一搜寻结果页中包含的复数个结果字词中,重要性大于一重要性门槛值的所述结果字词归纳为所述标记扩增词。
4.根据权利要求1所述的比较表格自动产生方法,其特征在于,该标记主标签以及所述标记扩增词是由相关联性大于一相关联性门槛值的所述基础文章字词撷取出。
5.根据权利要求4所述的比较表格自动产生方法,其特征在于,该比较表格自动产生方法还包含:
对相关联性大于该相关联性门槛值的所述基础文章字词,令该服务器透过一k-core演算法或一pagerank演算法撷取该标记主标签。
6.根据权利要求1所述的比较表格自动产生方法,其特征在于,该比较表格自动产生方法还包含:
令该服务器根据一第一权重值以及一第二权重值,对该正规化Google距离以及该余弦近似度进行一权重总和的计算,以产生该近似度。
7.根据权利要求1所述的比较表格自动产生方法,其特征在于,该比较表格自动产生方法还包含:
令该服务器从该信息源中撷取多个该收集文章并产生对应各个该收集文章中对应每一所述比较议题的该选择段落;以及
令该服务器将多个该收集文章的该收集文章主题作为该比较表格的复数列的项目名称,并令该服务器依据各个该收集文章中对应每一所述比较议题的该选择段落填入该复数列中对应每一比较议题的行的栏位中。
8.一种比较表格自动产生装置,其特征在于,包含:
一储存单元,配置以储存一应用程序;以及
一处理单元,电性耦接于一输入单元以及该储存单元,该处理单元配置以执行该应用程序,依据一基础文章及一时间区间的复数收集文章以自动产生一比较表格;
其中该处理单元提供一界面以设定复数个比较议题、该基础文章及其基础文章主题和复数个标记段落,其中每一所述标记段落是由该基础文章中选择一文章段落且标记其对应的其中的一所述比较议题;计算各所述标记段落所包含的各复数个基础文章字词间的相关联性,以产生对应各所述标记段落的至少一标记主标签以及复数个标记扩增词;依据所述标记主标签和所述标记扩增词,从一信息源中撷取该收集文章和对应的一收集文章主题;计算该收集文章的复数收集文章段落所包含的各复数个收集文章字词间的相关联性,以产生对应各所述收集文章的各所述收集文章段落的至少一收集文章段落主标签以及复数个收集文章段落扩增词;将各所述收集文章的各所述收集文章段落的该收集文章段落主标签以及所述收集文章段落扩增词,与各所述标记段落的该标记主标签以及所述标记扩增词进行比对产生一近似度,以根据该近似度从各所述收集文章段落中选择对应每一所述比较议题的一选择段落;根据该收集文章段落主标签与该标记主标签计算一正规化Google距离,以及根据所述收集文章段落扩增词与所述标记扩增词计算一余弦近似度;根据该正规化Google距离以及该余弦近似度产生该近似度;当一近似度大于一近似度门槛值时,判断该收集文章段落的该比较议题与该基础文章段落的该比较议题相同;以及建立一比较表格,其中该比较表格是分别以每一所述比较议题作为每一行的项目名称,将该基础文章主题作为其中一列的项目名称,并依据该基础文章中对应每一所述比较议题的所述标记段落填入该列中对应每一所述比较议题的行的栏位中,以及将该收集文章主题作为另一列的项目名称,并依据该收集文章中对应每一所述比较议题的该选择段落填入该列中对应每一比较议题的行的栏位中。
9.根据权利要求8所述的比较表格自动产生装置,其特征在于,该处理单元更对各所述基础文章字词计算一正规化Google距离,以计算各所述基础文章字词间的相关联性。
10.根据权利要求8所述的比较表格自动产生装置,其特征在于,该处理单元更链结至一搜寻引擎,对各所述标记扩增词进行搜寻,以将一搜寻结果页中包含的复数个结果字词中,重要性大于一重要性门槛值的所述结果字词归纳为所述标记扩增词。
11.根据权利要求8所述的比较表格自动产生装置,其特征在于,该标记主标签以及所述标记扩增词是由相关联性大于一相关联性门槛值的所述基础文章字词撷取出。
12.根据权利要求11所述的比较表格自动产生装置,其特征在于,该处理单元更对相关联性大于该相关联性门槛值的所述基础文章字词,透过一k-core演算法或一pagerank演算法撷取该标记主标签。
13.根据权利要求8所述的比较表格自动产生装置,其特征在于,该处理单元更根据一第一权重值以及一第二权重值,对该正规化Google距离以及该余弦近似度进行一权重总和的计算,以产生该近似度。
14.根据权利要求8所述的比较表格自动产生装置,其特征在于,该处理单元更从该信息源中撷取多个该收集文章并产生对应各个该收集文章中对应每一所述比较议题的该选择段落;以及将多个该收集文章的该收集文章主题作为该比较表格的复数列的项目名称,并依据各个该收集文章中对应每一所述比较议题的该选择段落填入该复数列中对应每一比较议题的行的栏位中。
CN201710066132.8A 2016-12-02 2017-02-06 比较表格自动产生方法及装置 Active CN108153715B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW105139987 2016-12-02
TW105139987A TWI621952B (zh) 2016-12-02 2016-12-02 比較表格自動產生方法、裝置及其電腦程式產品

Publications (2)

Publication Number Publication Date
CN108153715A CN108153715A (zh) 2018-06-12
CN108153715B true CN108153715B (zh) 2021-07-06

Family

ID=62243214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710066132.8A Active CN108153715B (zh) 2016-12-02 2017-02-06 比较表格自动产生方法及装置

Country Status (3)

Country Link
US (1) US20180157744A1 (zh)
CN (1) CN108153715B (zh)
TW (1) TWI621952B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6663826B2 (ja) * 2016-09-08 2020-03-13 株式会社日立製作所 計算機及び応答の生成方法
US11586939B2 (en) * 2019-02-28 2023-02-21 Entigenlogic Llc Generating comparison information
CN114298007A (zh) * 2021-12-24 2022-04-08 北京字节跳动网络技术有限公司 一种文本相似度确定方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488124A (zh) * 2008-01-11 2009-07-22 株式会社理光 信息处理设备、信息处理系统及信息处理方法
CN101980196A (zh) * 2010-10-25 2011-02-23 中国农业大学 文章比对方法与装置
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
CN105335416A (zh) * 2014-08-05 2016-02-17 佳能株式会社 内容提取方法、内容提取装置和用于内容提取的系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US20040234995A1 (en) * 2001-11-09 2004-11-25 Musick Eleanor M. System and method for storage and analysis of gene expression data
WO2004107203A1 (ja) * 2003-05-30 2004-12-09 Fujitsu Limited 対訳文対応付け装置
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US8028229B2 (en) * 2007-12-06 2011-09-27 Microsoft Corporation Document merge
US9384175B2 (en) * 2008-02-19 2016-07-05 Adobe Systems Incorporated Determination of differences between electronic documents
US8196030B1 (en) * 2008-06-02 2012-06-05 Pricewaterhousecoopers Llp System and method for comparing and reviewing documents
US8447789B2 (en) * 2009-09-15 2013-05-21 Ilya Geller Systems and methods for creating structured data
US8868621B2 (en) * 2010-10-21 2014-10-21 Rillip, Inc. Data extraction from HTML documents into tables for user comparison
US20120185259A1 (en) * 2011-01-19 2012-07-19 International Business Machines Corporation Topic-based calendar availability
CN102663001A (zh) * 2012-03-15 2012-09-12 华南理工大学 基于支持向量机的博客作者兴趣与性格自动识别方法
TWI484359B (zh) * 2012-10-26 2015-05-11 Inst Information Industry 文章資訊提供方法以及系統
US20160055490A1 (en) * 2013-04-11 2016-02-25 Brandshield Ltd. Device, system, and method of protecting brand names and domain names
US9633062B1 (en) * 2013-04-29 2017-04-25 Amazon Technologies, Inc. Document fingerprints and templates
EP2824586A1 (en) * 2013-07-09 2015-01-14 Universiteit Twente Method and computer server system for receiving and presenting information to a user in a computer network
CN104462083B (zh) * 2013-09-13 2018-11-02 佳能株式会社 用于内容比较的方法、装置和信息处理系统
US9378204B2 (en) * 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
TWI526856B (zh) * 2014-10-22 2016-03-21 財團法人資訊工業策進會 服務需求分析系統、方法與電腦可讀取記錄媒體
EP3262533A1 (en) * 2015-02-25 2018-01-03 Koninklijke Philips N.V. Method and system for context-sensitive assessment of clinical findings
ZA201504892B (en) * 2015-04-10 2016-07-27 Musigma Business Solutions Pvt Ltd Text mining system and tool
US10268747B2 (en) * 2015-06-07 2019-04-23 Apple Inc. Reader application with a personalized feed and method of providing recommendations while maintaining user privacy
WO2017048158A1 (ru) * 2015-09-17 2017-03-23 Арташес Валерьевич ИКОНОМОВ Электронное устройство для подбора товаров
TWI649663B (zh) * 2015-11-09 2019-02-01 財團法人資訊工業策進會 議題顯示系統、議題顯示方法以及電腦可讀取記錄媒體
US20170193074A1 (en) * 2015-12-30 2017-07-06 Yahoo! Inc. Finding Related Articles for a Content Stream Using Iterative Merge-Split Clusters
CN106021226A (zh) * 2016-05-16 2016-10-12 中国建设银行股份有限公司 一种文本摘要生成方法及装置
US11210324B2 (en) * 2016-06-03 2021-12-28 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
US11941344B2 (en) * 2016-09-29 2024-03-26 Dropbox, Inc. Document differences analysis and presentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488124A (zh) * 2008-01-11 2009-07-22 株式会社理光 信息处理设备、信息处理系统及信息处理方法
CN101980196A (zh) * 2010-10-25 2011-02-23 中国农业大学 文章比对方法与装置
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
CN105335416A (zh) * 2014-08-05 2016-02-17 佳能株式会社 内容提取方法、内容提取装置和用于内容提取的系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The Google Similarity Distance;R Cilibrasi;《arxig》;20070530;全文 *
结合编辑距离和Google距离的语义标注方法;张玉芳等;《计算机软件及计算机应用》;20100215;全文 *

Also Published As

Publication number Publication date
US20180157744A1 (en) 2018-06-07
CN108153715A (zh) 2018-06-12
TWI621952B (zh) 2018-04-21
TW201822025A (zh) 2018-06-16

Similar Documents

Publication Publication Date Title
US10346484B2 (en) Combining website characteristics in an automatically generated website
US7689554B2 (en) System and method for identifying related queries for languages with multiple writing systems
Garg et al. Personalized, interactive tag recommendation for flickr
CN107797982B (zh) 用于识别文本类型的方法、装置和设备
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN102289459A (zh) 自动地生成训练数据
CN103838756A (zh) 一种确定推送信息的方法及装置
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN108153715B (zh) 比较表格自动产生方法及装置
TW201401088A (zh) 搜索方法和裝置
JP5552582B2 (ja) コンテンツ検索装置
CN110909120A (zh) 简历搜索/投递方法、装置、系统及电子设备
WO2018013400A1 (en) Contextual based image search results
CN104050243A (zh) 一种将搜索与社交相结合的网络搜索方法及其系统
CN112347147A (zh) 基于用户关联关系的信息推送方法、装置及电子设备
JP2008269069A (ja) 情報処理システム及び情報処理方法
CN111191153A (zh) 一种信息技术咨询服务展示装置
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
CN114066533A (zh) 产品推荐方法、装置、电子设备及存储介质
US11151198B1 (en) Machine-learned disambiguation of user action data
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN116755688A (zh) 组件处理方法、装置、计算机设备及存储介质
CN109284423A (zh) 业务选项卡查找方法及装置
KR20110094563A (ko) 웹 문서의 링크-키워드 관계를 이용한 관련어 검색 방법 및 검색 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant