CN102033880A - 基于结构化数据集合的标注方法和装置 - Google Patents

基于结构化数据集合的标注方法和装置 Download PDF

Info

Publication number
CN102033880A
CN102033880A CN2009101773152A CN200910177315A CN102033880A CN 102033880 A CN102033880 A CN 102033880A CN 2009101773152 A CN2009101773152 A CN 2009101773152A CN 200910177315 A CN200910177315 A CN 200910177315A CN 102033880 A CN102033880 A CN 102033880A
Authority
CN
China
Prior art keywords
node
viewpoint
similarity
structural data
present node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101773152A
Other languages
English (en)
Inventor
马瑞
费奔
陈健
吴贤
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2009101773152A priority Critical patent/CN102033880A/zh
Priority to US12/860,112 priority patent/US8868609B2/en
Publication of CN102033880A publication Critical patent/CN102033880A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种基于结构化数据集合的标注方法和标注装置,该标注方法包括:基于事件的结构化数据集合,建立所述结构化数据集合中各个节点的分类模型;获取公众针对所述事件的观点;以及利用所生成的分类模型,将所述观点标注到所述结构化数据集合的相应节点。本公开的标注方法和装置能够向用户提供针对每个事件具有良好排列、突出重点的公众观点,并且能够表现出公众观点随着时间的进展。

Description

基于结构化数据集合的标注方法和装置
技术领域
本公开涉及基于结构化数据集合的标注方法及其装置。
背景技术
当前,用户通过互联网来分享他们在包括政治、金融、社会生活、教育、娱乐等各个方面的思想、观点和经历,由此,用户在互联网上在线产生的海量数据正以惊人的速度不断增长。无论何时,只要有关事件的新闻报道一出现,不管是官方报道还是声明,人们通常都会关注公众对该事件的观点的每一个细节,以及这些公众观点随着时间的发展。
对观点挖掘技术的研究已经进行了几十年,这种技术从诸如博客、wikis、和论坛等的用户生成的内容中提取有关观点的句子。通过这种技术,可以收集关于任何新闻事件的很多用户的观点和意见。
但是,通过这种技术收集到的都是一些没有规则、简单罗列出来的有关公众观点的句子,使用起来不够方便。
发明内容
本公开提出了一种跟踪标注方法和跟踪标注装置,能够将互联网或者其它非网络媒体上出现的公众观点标注到依据对特定事件的报道而形成的事件树的相应节点上。
根据本公开的一个方面,提供了一种基于结构化数据集合的跟踪标注方法,包括:基于事件的结构化数据集合,建立该结构化数据集合中各个节点的分类模型;获取公众针对该事件的观点;以及利用所生成的分类模型,将该观点标注到该结构化数据集合的相应节点。
根据本公开的另一个方面,还提供了一种基于结构化数据集合的跟踪标注装置,包括:模型生成单元,基于事件的结构化数据集合,建立该结构化数据集合中各个节点的分类模型;和观点标注单元,获取公众针对该事件的观点,并利用所生成的分类模型,将该观点标注到该结构化数据集合的相应节点。
根据本公开的跟踪标注方法和跟踪标注装置能够向用户提供针对每个事件具有良好排列、突出重点的公众观点,并且能够表现出公众观点随着时间的进展。
附图说明
从下面结合附图对本公开的实施例的详细描述中,本公开的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1是示出建立的结构化数据集合的视图。
图2是示出建立的包含时间因素的结构化数据集合的视图。
图3是示出建立的官方报道的事件树和搜索到的公众观点数据的图示。
图4是根据本公开将公众观点数据对应标注到事件树的相应节点的跟踪标注装置的一个实施例的结构图。
图5是根据本公开将公众观点数据对应标注到事件树的相应节点的跟踪标注装置的另一个实施例的结构图。
图6是根据本公开一个实施例的跟踪标注方法的流程图。
图7是根据本公开另一个实施例的跟踪标注方法的流程图。
图8是根据本公开再一个实施例的跟踪标注方法的流程图。
具体实施方式
下面将结合附图详细描述本公开的具体实施例。如果考虑到对某些相关现有技术的详细描述可能会混淆本公开的要点,则不会在这里提供其详细描述。在各个实施例中,相同的附图标记用于表示执行相同功能的元件或单元。
互联网的用户通过在例如计算机、便携式电脑、移动电话、PDA(个人数字助理)等各种电子设备的屏幕上显示不同的网页来浏览互联网的内容。网页中含有各种内容,例如,网页中可以显示诸如凤凰网、和讯网、新浪网等网络媒体对“甲型H1N1流感”的官方报道。在所显示的官方报道中,包括关于“甲型H1N1流感”这个主题的各个副标题,以及在各个副标题下,可以包含以文字、图片、视频、音频等各种形式出现的多种报道消息。
另外,在诸如报纸、杂志等平面媒体上,仍然可以出现上述形式的各种新闻事件的报道。
根据本公开的一个方面,可以针对上述各个媒体所报道的事件,建立结构化数据集合。
图1是示出建立的结构化数据集合的视图。
在图1中,建立的结构化数据集合表现为树型结构的事件树。可以将事件树看作是数据集合。该事件树中的各个节点代表所报道的同一事件的不同方面。例如,该事件树的根节点(一级节点)是“甲型H1N1流感”,根节点选择的关键词是“甲型”、“H1N1”、“流感”等。该事件树的中间节点(二级节点)是例如“焦点新闻”、“中国疫情”、“全球疫情”、“视频报道”、“应对措施”、“防疫指南”、“网友记录”、“媒体评论”等。在每个二级节点之下,再分出若干个更下一级的节点(这里例如是三级节点),以包括该事件的具有更多细节的消息。最末端的节点可以称为叶节点,根节点和叶节点之间的各级节点可以称为中间节点。
图2是示出建立的包含时间因素的结构化数据集合的视图。
在图2中,横轴表示时间,纵轴表示事件分类。从根节点“甲型H1N1流感”中分支出若干个二级节点,这些二级节点中的每个包括若干个三级节点。这些三级节点是以时间顺序排列的,例如,在二级节点“视频报道”(见图1)中,按照时间顺序又包含了三级节点“卫生部:内地确诊24例甲型流感病例”、“北京再确诊两例甲型流感病例”、“甲型流感病例主要分布在珠三角城市”、以及“北京:新增19例甲型流感病例”等。
针对网络媒体对特定事件发布的官方报道建立事件树的方法可以是:例如,利用关键词分析网络媒体的新闻网站报道特定事件的新闻网页,由此来获得官方报道的事件树。更具体地,从根节点到叶节点建立事件树的过程可以按照从粗糙到细致的过程进行,根节点包括最概略的关键词,以便搜索到与特定事件有关的所有相关报道,其使用的关键词可以从例如报道某一事件的标题、副标题中选取。根据前述实施例,根节点的关键词可以选取为“甲型”、“H1N1”、“流感”。中间节点和叶节点强调该事件的一个或者几个方面,可以是对特定事件的官方评论等,其中具有更细节的消息,它们使用的关键词与根节点使用的关键词相互区别。例如,根据前述实施例,中间节点和叶节点的关键词中不再使用上述用于根节点的关键词。
根据本公开的一个实施例,建立对特定事件的官方报道的事件树的过程可以是例如:首先利用最概略的关键词在相关网页上搜索网络媒体对某一事件的官方报道,包括标题新闻以及官方评论等,由此建立事件树的根节点,该根节点包括媒体(官方)发布的关于该事件的最广泛的报道;然后,在搜索到的所有报道消息的范围内,利用反映该事件的一个或者几个方面的关键词进行搜索,并将搜索到的所有报道消息分为多个类别,以建立中间各级节点;最后,利用反映该事件的各个细节的关键词,在已经分类的各级报道消息的范围内进行搜索,以建立各个叶节点。
建立事件树的方法不对本公开的范围构成限制,对于来自非网络媒体的数据,比如报纸、档案中针对某专题的历史报道等,数据集合本身不具有显式可提取的结构特征,需要采用其他方式来建立结构化的事件树,例如,层次聚类方法。层次聚类方法是利用数据的时间、文本等特征,自底向上地(从叶节点到根节点)将数据对象组成一棵聚类的树,从而得到一个树型结构的数据集合。
树型结构的数据集合(事件树)也不对本公开的范围构成限制,本公开的结构化数据集合可以表现为树型结构以外的其它形式,例如数据集合中的各个节点可以是平面网状结构,也可以是三维网状结构等等。
针对各个媒体所报道的各种事件消息,公众可以通过各种平台,例如是博客、论坛、Wikis等,或者是非网络媒体,来发表公众的观点。根据本公开的一个方面,可以利用在建立基于事件的结构化数据集合(事件树)时使用的关键词,在相关的网页上进行搜索,或对非网络媒体的内容进行分析,来获得有关所报道的事件的公众观点数据。获得公众发表的观点的技术可以是本领域技术人员公知的技术,其不对本公开的范围构成限制。
图3是示出建立的事件树和搜索到的公众观点数据的图示。
在图3中,上面部分示出了所建立的事件树,其中包括根节点和根节点的各个下级节点(可以是若干级节点),下面部分则示出了搜索到的公众观点数据的平面结构。
根据本公开的一个方面,提供了将搜索到的公众观点数据标注到事件树的相应节点的跟踪标注方法和跟踪标注装置,其中利用递归匹配的方法为公众观点数据寻找事件树中最匹配的节点。
图4是示出根据本公开的一个实施例将公众观点数据标注到事件树的相应节点的跟踪标注装置的结构图。
如图4所示,根据本公开的跟踪标注装置400包括模型生成单元401和观点标注单元402。另外,可以提供用于存储事件树的数据的存储器405、用于存储大量的公众观点数据的存储器407、以及用于存储被标注了公众观点的事件树的数据的存储器408。存储器405、407和408可以位于跟踪标注装置400的外部,也可以位于跟踪标注装置400的内部。存储器405、407和408也可以实现为同一个存储器,其中事件树的数据、公众观点数据、和被标注了公众观点的事件树的数据可以分别存储在同一个存储器的不同数据库中。
模型生成单元401连接于观点标注单元402,并输出信息给观点标注单元402。模型生成单元401还连接于用于存储事件树的数据的存储器405,并接收从其中输出的事件树的数据;观点标注单元402连接于用于存储公众观点数据的存储器407,并接收从其中输出的公众观点数据;观点标注单元402连接于用于存储标注了公众观点的事件树的数据的存储器408,并将标注了大量的公众观点的事件树的数据输出给存储器408。
跟踪标注装置400的结构中还可以包括对于操作所需要的其它单元或者部件,但是所包括的其它单元或者部件的具体结构不对本公开的范围构成限制。例如,跟踪标注装置400中还可以包括数据处理单元或者控制单元。模型生成单元401也可以与观点标注单元402实现为同一个单元。
根据本公开的一个方面,从媒体的事件报道404生成的事件树的数据被存储在存储器405中,模型生成单元401根据存储器405中存储的事件树的数据,生成基于媒体发布的事件的事件树(结构化数据集合)中各个节点的分类模型,并将生成的分类模型输出给观点标注单元402。从用户生成的内容406中提取的大量公众观点的数据被存储在存储器407中。观点标注单元402根据所生成的分类模型以及存储器407中存储的公众观点数据,将公众针对上述事件所发表的观点标注到事件树中的相应节点,形成被标注了公众观点的事件树,并将被标注了大量公众观点的事件树的数据存储到存储器408。也就是说,模型生成单元401基于事件的结构化数据集合,建立该结构化数据集合中各个节点的分类模型,而观点标注单元402获取存储器407中存储的、公众针对该事件的观点,并利用所生成的分类模型,将该观点标注到该结构化数据集合中的相应节点上。利用所生成的分类模型将该观点标注到该结构化数据集合中的相应节点的具体方式可以是,例如将该观点的数据代入节点的分类模型中,计算该观点与该结构化数据集合中各个节点的相似度,并将该观点标注到具有最大相似度的节点。
图5是根据本公开的另一个实施例将公众观点数据标注到事件树的相应节点的跟踪标注装置的结构图。
如图5所示,根据本公开的跟踪标注装置500包括:模型生成单元401、观点标注单元402和特征提取单元503。另外,可以提供用于存储事件树的数据的存储器405、用于存储公众观点数据的存储器407、以及用于存储被标注了公众观点的事件树的数据的存储器408。存储器405、407和408可以位于跟踪标注装置500的外部,也可以位于跟踪标注装置500的内部。存储器405、407和408也可以实现为同一个存储器,其中事件树数据、公众观点数据、和被标注了公众观点的事件树的数据可以分别存储在同一个存储器的不同数据库中。
模型生成单元401连接于观点标注单元402,并输出信息给观点标注单元402;特征提取单元503分别连接于模型生成单元401和观点标注单元402,并分别输出信息给模型生成单元401和观点标注单元402。特征提取单元503连接于用于存储事件树数据的存储器405,并接收从其中输出的事件树数据,同时特征提取单元503也连接于用于存储公众观点数据的存储器407,并接收从其中输出的大量的公众观点数据。观点标注单元402连接于用于存储标注了公众观点的事件树的数据的存储器408,并将标注了大量的公众观点的事件树的数据输出给存储器408。
跟踪标注装置500的结构中还可以包括对于其操作所需要的其它单元或者部件,但是所包括的其它单元或者部件的具体结构不对本公开的范围构成限制。例如,跟踪标注装置500中还可以包括数据处理单元或者控制单元。模型生成单元401、观点标注单元402和特征提取单元503还可以实现为同一个单元,或者分别两两合并而形成新的单元。
根据本公开的一个方面,根据媒体的事件报道404生成的事件树被存储到存储器405中。特征提取单元503接收从存储器405输出的事件树的数据,并从事件树的各个节点中提取特征信息。具体地,特征提取单元503首先选择事件树的根节点,从根节点及该根节点的各个下级节点中提取诸如内容特征、时间特征、情感特征等中的至少一个的特征信息,并将所提取的这些特征信息输出给模型生成单元401。内容特征是指标题、文章中的短语和字段等;时间特征是指文章的发表时间;情感特征是指利用情感分类器对文本所表达的情感倾向性(正面、负面等)和程度(轻微、中等、严重等)进行判断,用生成的情感数值作为分类特征。
然后,特征提取单元503再选择根节点的下一级节点,从该下一级节点和该下一级节点的各个下级节点中提取诸如内容特征、时间特征、情感特征等的至少一个的特征信息,并将所提取的该下一级节点的这些特征信息输出给模型生成单元401。对事件树的每个节点重复执行上述提取特征信息的操作,直到针对所有节点完成特征信息的提取。
模型生成单元401根据所提取的每个节点的特征信息,对应生成事件树的每个节点的分类模型,并将生成的分类模型输出给观点标注单元402。生成各个节点的分类模型的方法例如可以采用一般性的监督机器学习算法,如支持向量机模型、朴素贝叶斯分类模型等等。具体的说,确定具体的分类模型函数形式后,可以利用每个节点所包含的数据(例如上述特征信息)学习模型的参数,从而建立该分类模型。上述生成分类模型的算法不对本公开的范围构成限制,本领域的技术人员可以采用适当的算法来完成分类模型的构建。
从用户生成的内容(例如是在博客、论坛、wikis、或者其它非网络媒体等上发表的观点、评论等)406中搜索的大量的公众观点的数据被存储在存储器407中。搜索公众观点的方法例如可以通过文本分析技术提取与事件报道有关的评论和观点,并对这些评论和观点进行分析。文本分析技术例如可以采用“信息片段相似性比较”的方法,即比较所要搜索的公众观点或者评论中的信息片段与预先设定的信息片段(例如是语句、关键词、视频片段、音频片段等)的相似度,并且当相似度大于或者等于某一预定阈值时,则提取该公众观点或者评论作为所要选择的公众观点或者评论。上述搜索并获得需要的公众观点的方法不对本公开的范围构成限制,本领域的技术人员可以采用适当的方法来完成公众观点的搜索。
特征提取单元503接收从存储器407输出的公众观点数据,并从所接收的大量公众观点中的每个观点的数据中提取相应的特征信息,例如可以是内容特征、时间特征、情感特征等中的至少一个,并将所提取的特征信息输出给观点标注单元402。内容特征是指标题、文章中的短语和字段等;时间特征是指文章的发表时间;情感特征是指利用情感分类器对文本所表达的情感倾向性(正面、负面等)和程度(轻微、中等、严重等)进行判断,用生成的情感数值作为分类特征。
观点标注单元402基于所建立的上述分类模型与从公众观点中提取的特征信息,将大量公众观点中的各个观点标注到事件树的相应节点,以形成被标注了公众观点的事件树,并将被标注了大量公众观点的事件树的数据存储在存储器408中。
由此,根据本公开的基于结构化数据集合(事件树)的跟踪标注装置的该另一个实施例包括:特征提取单元503,从基于媒体发布的事件所建立的结构化数据集合(事件树)的节点(例如可以设定为从根节点开始)以及该节点的所有下级节点中选取特征信息,将所选取的特征信息提供给模型生成单元401,并且还提取搜索到的公众观点的特征信息,输出给该观点标注单元402;模型生成单元401,根据从特征提取单元503接收的各个节点的特征信息,建立该结构化数据集合中各个节点的分类模型;以及,观点标注单元402,用于利用所生成的分类模型和提取的公众观点的特征信息,将各个公众观点标注到事件树中最匹配的节点。具体地,观点标注单元402比较公众观点与结构化数据集合中各个节点的相似度,并将该观点标注到具有最大相似度的节点。
更具体地,观点标注单元402将该观点的特征信息输入到一当前节点的分类模型中,并从该分类模型输出分类结果,该分类结果以数值方式展示该观点与该当前节点的相似度。其中,如果该当前节点的相似度大于预定阈值,则在例如存储器中记录该当前节点,并将该预定阈值改写为这个相似度的值,并且如果该当前节点还具有下一级节点,则继续比较该公众观点与该当前节点的下一级节点的相似度。其中,如果该当前节点的相似度不大于该预定阈值,或者该当前节点没有下一级节点,则将该公众观点标注到具有最大相似度的节点。如果该当前节点具有多个下一级节点,则将这些下一级节点分别与该公众观点进行比较,并将具有最大相似度的节点设定为新的当前节点。
图6是根据本公开一个实施例的跟踪标注方法的流程图。
如图6所示,在步骤S601,基于例如媒体发布的事件的结构化数据集合,建立该结构化数据集合中各个节点的分类模型。在步骤S602,获得公众针对上述事件发表的观点。在步骤S603,利用所生成的分类模型,将公众发表的上述观点标注到该结构化数据集合的相应节点。
上述步骤S601可以由模型生成单元401来实现,上述步骤S603可以由观点标注单元402来实现。
图7是根据本公开另一个实施例的跟踪标注方法的流程图。
图7示出了图6中的步骤S601的进一步操作的流程图。如图7所示,在步骤S701,选择事件树的当前节点。根据本公开的一个实施例,该当前节点可以是事件树(结构化数据集合)的根节点。在步骤S702,从事件树的该当前节点及该当前节点的各个下级节点中选取特征信息,这里的特征信息可以是如上所述的内容特征、时间特征、情感特征中的至少一个。在步骤S703,根据步骤S702中选取的各个节点的特征信息生成该当前节点的分类模型。在步骤S704,判断该当前节点是否具有下一级节点。如果该当前节点具有下一级节点,进行到步骤S705。在步骤S705中,将各个下一级节点分别选择为当前节点,并重复步骤S702至步骤S704,以分别生成事件树的各个节点的分类模型。如果在步骤S704中判断该当前节点不再具有下一级节点,则进行到步骤S706。在步骤S706中,输出所生成的各个节点的分类模型。
上述步骤S702可以由特征提取单元503来实现,上述步骤S703至步骤S706可以由模型生成单元401来实现。上述步骤S701也可以由特征提取单元503或者模型生成单元401来实现。
图8是根据本公开再一个实施例的跟踪标注方法的流程图。
图8示出了图6中的步骤S604的进一步操作的流程图。如图8所示,在步骤S801,从大量公众观点中的每个公众观点中抽取特征信息。这里的特征信息可以是如上所述的内容特征、时间特征、情感特征等中的至少一个。在步骤S802,在事件树中选择一当前节点(可以从根节点开始),并利用该当前节点的分类模型,比较待匹配的一公众观点与当前节点的相似度。具体来说,是将该公众观点的特征信息输入到该当前节点的分类模型中,并从中输出分类结果,输出的分类结果以数值方式展示该公众观点与该当前节点的匹配程度,这里可以被称为“相似度”。在步骤S803,判断该当前节点与该公众观点的相似度是否大于一预定阈值。当判断结果是该当前节点与该公众观点的相似度大于该预定阈值时,进行到步骤S804,否则,当判断结果是该当前节点与该公众观点的相似度不大于该预定阈值时,跳过步骤S804,直接进行到步骤S807,即输出具有最大相似度的节点做为最终匹配的节点,并将该公众观点标注到该最终匹配的节点。该预定阈值的设计是为了控制递归匹配的过程停止在某个中间节点,即公众观点不与某个具体特定事件匹配,而是与某类概要事件匹配,这在实际中是有意义的。该预定阈值可以根据使用者的具体要求来设置,其值的大小不对本公开的范围构成限制。
在步骤S804,记录该当前节点,并将该预定阈值改写为该相似度的值。在步骤S805,判断该当前节点是否具有下一级节点。如果该当前节点具有下一级节点,进行到步骤S806。在步骤S806中,将下一级节点设定为新的当前节点,并重复步骤S802至步骤S805,以寻找具有最大相似度的节点。如果在步骤S806中判断的下一级节点的数量不只一个,而是具有多个下一级节点,则可以先将这些下一级节点分别与该公众观点进行比较,并将具有最大相似度的节点设定为新的当前节点,然后重复步骤S802至步骤S805。
如果在步骤S805中判断该当前节点不再具有下一级节点,则进行到步骤S807。在步骤S807中,输出具有最大相似度的节点做为最终匹配的节点,并将该公众观点标注到该最终匹配的节点。
根据本公开的一个方面,对于每个公众观点遍历事件树,即从事件树的根节点开始,比较该公众观点与该事件树的各个节点的相似度,以找到具有最大相似度的节点。将事件树的根节点设定为开始进行比较时的当前节点。
上述步骤S801可以由特征提取单元503来实现,上述步骤S802至步骤S807可以由观点标注单元402来实现。
根据本公开的上述各个实施例的步骤的执行顺序不对本公开的范围构成限制。由此,根据本公开的跟踪标注方法的步骤还可以描述为:比较公众观点与结构化数据集合的各个节点的相似度(步骤S802-S806);和将该观点标注到具有最大相似度的节点(步骤S807)。其中包括,提取该公众观点的特征信息(步骤S801);将该公众观点的特征信息输入一当前节点的分类模型,并输出分类结果,该分类结果以数值方式展示该观点与该当前节点的相似度(步骤S802)。其中包括,如果该相似度大于预定阈值,则记录该当前节点,并将该预定阈值改写为该相似度的值(步骤S803-S804),如果该当前节点具有下一级节点,则继续比较该公众观点与该当前节点的下一级节点的相似度(步骤S806、S802-S805)。其中包括,如果该当前节点的相似度不大于该预定阈值,或者该当前节点没有下一级节点,则将该观点标注到具有最大相似度的节点(步骤S807)。其中包括,如果该当前节点具有多个下一级节点,则将这些下一级节点分别与该公众观点进行比较,并将相似度最大的节点设定为新的当前节点(步骤S806)。
通过本公开的上述各个实施例,可以自动地、精确地将公众观点标注到网络媒体对事件的官方报道,能够向用户提供相对于每个事件的具有良好排列、突出重点的公众观点,并且能够表现出公众观点随着时间推移而发生的进展。
本申请中的上述各个实施例仅为示例性描述,它们的具体结构和操作不对本公开的范围构成限制,本领域的技术人员可以将上述各个实施例中的不同部分和操作进行组合,产生新的实施方式,同样符合本公开的构思。
本公开的实施例可以通过硬件、软件、固件或它们之间结合的方式来实现,其实现方式不对本公开的范围构成限制。
本公开的实施例中的各个功能元件(单元)相互之间的连接关系不对本公开的范围构成限制,其中的一个或多个功能元件可以包括或连接于其它任意的功能元件。
虽然上面已经结合附图示出并描述了本公开的一些实施例,但是本领域的技术人员应当理解,在不偏离本公开的原则和精神的情况下,可以对这些实施例进行变化和修改,但它们仍然落在本公开的权利要求及其等价物的范围之内。

Claims (17)

1.一种基于结构化数据集合的标注方法,包括:
基于事件的结构化数据集合,建立所述结构化数据集合中各个节点的分类模型;
获取公众针对所述事件的观点;以及
利用所建立的分类模型,将所述观点标注到所述结构化数据集合的相应节点。
2.如权利要求1所述的标注方法,建立所述结构化数据集合中各个节点的分类模型包括:从所述结构化数据集合的当前节点及所述当前节点的下级节点中选取特征信息,根据所述特征信息生成所述当前节点的分类模型。
3.如权利要求1或2所述的标注方法,还包括:
比较所述观点与结构化数据集合的各个节点的相似度;和
将所述观点标注到具有最大相似度的节点。
4.如权利要求3所述的标注方法,比较所述观点与所述结构化数据集合的各个节点的相似度包括:
提取所述观点的特征信息;以及
将所述观点的特征信息输入当前节点的分类模型,并输出分类结果,所述分类结果以数值方式展示所述观点与所述当前节点的相似度。
5.如权利要求2-4中任一项所述的标注方法,所述特征信息包括内容特征、时间特征、情感特征中的至少一个。
6.如权利要求4所述的标注方法,比较所述观点与所述结构化数据集合的各个节点的相似度还包括:
如果所述相似度大于预定阈值,则记录所述当前节点,并将所述预定阈值改写为所述相似度的值;和
如果所述当前节点具有下一级节点,则继续比较所述观点与所述当前节点的下一级节点的相似度。
7.如权利要求4所述的标注方法,比较所述观点与所述结构化数据集合的各个节点的相似度还包括:
如果所述当前节点的相似度不大于所述预定阈值,或者所述当前节点没有下一级节点,则将所述观点标注到具有最大相似度的节点。
8.如权利要求6所述的标注方法,比较所述观点与所述结构化数据集合的各个节点的相似度还包括:
如果所述当前节点具有多个下一级节点,则将这些下一级节点分别与所述观点进行比较,并将相似度最大的节点设定为新的当前节点。
9.如权利要求4所述的标注方法,所述当前节点是所述结构化数据集合的根节点。
10.如权利要求1所述的标注方法,所述结构化数据集合是树型的数据集合。
11.一种基于结构化数据集合的标注装置,包括:
模型生成单元,基于事件的结构化数据集合,建立所述结构化数据集合中各个节点的分类模型;和
观点标注单元,获取公众针对所述事件的观点,并利用所生成的分类模型,将所述观点标注到所述结构化数据集合的相应节点。
12.如权利要求11所述的标注装置,还包括:
特征提取单元,提取所述结构化数据集合中的各个节点及所述各个节点的下级节点的特征信息,
其中,所述模型生成单元基于所提取的各个节点的特征信息建立所述各个节点的分类模型。
13.如权利要求11或12所述的标注装置,其中所述观点标注单元比较所述观点与所述各个节点的相似度,并将所述观点标注到具有最大相似度的节点。
14.如权利要求13所述的标注装置,其中,所述特征提取单元还提取所述观点的特征信息,并且所述观点标注单元将所述观点的特征信息输入当前节点的分类模型,并输出分类结果,所述分类结果以数值方式展示所述观点与所述当前节点的相似度。
15.如权利要求14所述的标注装置,其中,如果所述当前节点的相似度大于预定阈值,则所述观点标注单元记录所述当前节点,并将所述预定阈值改写为所述相似度的值,如果所述当前节点具有下一级节点,则所述观点标注单元继续比较所述观点与所述当前节点的下一级节点的相似度。
16.如权利要求14所述的标注装置,其中如果所述当前节点的相似度不大于所述预定阈值,或者所述当前节点没有下一级节点,则所述观点标注单元将所述观点标注到具有最大相似度的节点。
17.如权利要求15所述的标注装置,其中,如果所述当前节点具有多个下一级节点,则所述观点标注单元将这些下一级节点分别与所述观点进行比较,并将相似度最大的节点设定为新的当前节点。
CN2009101773152A 2009-09-29 2009-09-29 基于结构化数据集合的标注方法和装置 Pending CN102033880A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2009101773152A CN102033880A (zh) 2009-09-29 2009-09-29 基于结构化数据集合的标注方法和装置
US12/860,112 US8868609B2 (en) 2009-09-29 2010-08-20 Tagging method and apparatus based on structured data set

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101773152A CN102033880A (zh) 2009-09-29 2009-09-29 基于结构化数据集合的标注方法和装置

Publications (1)

Publication Number Publication Date
CN102033880A true CN102033880A (zh) 2011-04-27

Family

ID=43781476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101773152A Pending CN102033880A (zh) 2009-09-29 2009-09-29 基于结构化数据集合的标注方法和装置

Country Status (2)

Country Link
US (1) US8868609B2 (zh)
CN (1) CN102033880A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636130A (zh) * 2013-11-08 2015-05-20 国际商业机器公司 用于生成事件树的方法和系统
CN106599076A (zh) * 2016-11-16 2017-04-26 深圳市异度信息产业有限公司 论坛导图的生成方法及装置
CN108229909A (zh) * 2017-12-14 2018-06-29 四川虹慧云商科技有限公司 一种居民事务处理方法
CN109947897A (zh) * 2019-03-15 2019-06-28 南京邮电大学 司法案件事件树构建系统和方法
CN109949185A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于事件树分析的司法案件判别系统和方法
CN111459959A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 用于更新事件集合的方法和装置
CN112036165A (zh) * 2019-05-14 2020-12-04 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN116662645A (zh) * 2023-04-28 2023-08-29 青岛尘元科技信息有限公司 视频事件溯源分析方法和系统、存储介质及电子设备
CN112036165B (zh) * 2019-05-14 2024-10-01 西交利物浦大学 一种新闻特征向量的构建方法及应用

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8539000B2 (en) * 2011-03-10 2013-09-17 Textwise Llc Method and system for information modeling and applications thereof
US8402397B2 (en) * 2011-07-26 2013-03-19 Mentor Graphics Corporation Hotspot detection based on machine learning
US11016702B2 (en) * 2011-07-27 2021-05-25 Pure Storage, Inc. Hierarchical event tree
US8869041B2 (en) 2011-11-11 2014-10-21 Apollo Education Group, Inc. Dynamic and local management of hierarchical discussion thread data
US20130125061A1 (en) * 2011-11-11 2013-05-16 Jongwoo LEE Efficient Navigation Of Hierarchical Data Displayed In A Graphical User Interface
US8966404B2 (en) 2011-11-11 2015-02-24 Apollo Education Group, Inc. Hierarchy-indicating graphical user interface for discussion threads
US20140067370A1 (en) * 2012-08-31 2014-03-06 Xerox Corporation Learning opinion-related patterns for contextual and domain-dependent opinion detection
US20170076339A1 (en) * 2014-06-12 2017-03-16 Nokia Technologies Oy Method, Apparatus, Computer Program Product and System for Reputation Generation
CN104951548B (zh) * 2015-06-24 2018-04-20 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN107229645B (zh) * 2016-03-24 2020-12-04 腾讯科技(深圳)有限公司 信息处理方法、服务平台及客户端
CN110633373B (zh) * 2018-06-20 2023-06-09 上海财经大学 一种基于知识图谱和深度学习的汽车舆情分析方法
US20200394576A1 (en) * 2019-06-11 2020-12-17 At&T Intellectual Property I, L.P. Machine Learning-Enabled Event Tree for Rapid and Accurate Customer Problem Resolution
US11573995B2 (en) * 2019-09-10 2023-02-07 International Business Machines Corporation Analyzing the tone of textual data
US20220067625A1 (en) * 2020-08-28 2022-03-03 Accudiligence Llc Systems and methods for optimizing due diligence

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5018075A (en) * 1989-03-24 1991-05-21 Bull Hn Information Systems Inc. Unknown response processing in a diagnostic expert system
US6709330B1 (en) * 1999-08-20 2004-03-23 Ameritrade Holding Corporation Stock simulation engine for an options trading game
CA2546514C (en) * 2003-11-17 2013-04-30 Bloomberg Lp Legal research system
US7865354B2 (en) * 2003-12-05 2011-01-04 International Business Machines Corporation Extracting and grouping opinions from text documents
US20070203945A1 (en) * 2006-02-28 2007-08-30 Gert Hercules Louw Method for integrated media preview, analysis, purchase, and display
US7720835B2 (en) * 2006-05-05 2010-05-18 Visible Technologies Llc Systems and methods for consumer-generated media reputation management
US8370451B2 (en) * 2006-07-21 2013-02-05 At&T Intellectual Property Ii, L.P. System and method of providing a context-aware personalized blogging agent
US20090049018A1 (en) * 2007-08-14 2009-02-19 John Nicholas Gross Temporal Document Sorter and Method Using Semantic Decoding and Prediction
US20090048823A1 (en) * 2007-08-16 2009-02-19 The Board Of Trustees Of The University Of Illinois System and methods for opinion mining
US8280885B2 (en) * 2007-10-29 2012-10-02 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
US20100153372A1 (en) * 2008-12-17 2010-06-17 Sea Woo Kim 3d visualization system for web survey

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BEI YU ET AL.: "Exploring the Characteristics of Opinion Expressions for Political Opinion Classification", 《THE PROCEEDINGS OF THE 9TH ANNUAL INTERNATIONAL DIGITAL GOVERNMENT RESEARCH CONFERENCE》 *
BO PANG ET AL.: "Thumbs up? Sentiment Classification using Machine Learning Techniques", 《PROCEEDINGS OF THE CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING (EMNLP)》 *
KUSHAL DAVE ET AL.: "Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews", 《PROCEEDING WWW "03 PROCEEDINGS OF THE 12TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636130A (zh) * 2013-11-08 2015-05-20 国际商业机器公司 用于生成事件树的方法和系统
CN104636130B (zh) * 2013-11-08 2017-12-08 国际商业机器公司 用于生成事件树的方法和系统
CN106599076A (zh) * 2016-11-16 2017-04-26 深圳市异度信息产业有限公司 论坛导图的生成方法及装置
CN108229909A (zh) * 2017-12-14 2018-06-29 四川虹慧云商科技有限公司 一种居民事务处理方法
CN109947897A (zh) * 2019-03-15 2019-06-28 南京邮电大学 司法案件事件树构建系统和方法
CN109949185A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于事件树分析的司法案件判别系统和方法
CN112036165A (zh) * 2019-05-14 2020-12-04 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN112036165B (zh) * 2019-05-14 2024-10-01 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN111459959A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 用于更新事件集合的方法和装置
CN111459959B (zh) * 2020-03-31 2023-06-30 北京百度网讯科技有限公司 用于更新事件集合的方法和装置
CN116662645A (zh) * 2023-04-28 2023-08-29 青岛尘元科技信息有限公司 视频事件溯源分析方法和系统、存储介质及电子设备

Also Published As

Publication number Publication date
US20110078206A1 (en) 2011-03-31
US8868609B2 (en) 2014-10-21

Similar Documents

Publication Publication Date Title
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Rangel Pardo et al. Overview of the 3rd Author Profiling Task at PAN 2015
US10217058B2 (en) Predicting interesting things and concepts in content
Agarwal et al. Temporal effects on pre-trained models for language processing tasks
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN105426514A (zh) 个性化的移动应用app推荐方法
Petkos et al. Two-level Message Clustering for Topic Detection in Twitter.
JP5884740B2 (ja) 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
CN109446328A (zh) 一种文本识别方法、装置及其存储介质
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
Chen et al. Doctag2vec: An embedding based multi-label learning approach for document tagging
CN112911326B (zh) 弹幕信息处理方法、装置、电子设备和存储介质
CN104715049A (zh) 基于本体词库的商品评论属性词抽取方法
Faralli et al. Automatic acquisition of a taxonomy of microblogs users’ interests
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
Marujo et al. Hourly traffic prediction of news stories
CN110020132B (zh) 关键词推荐方法、装置、计算设备及存储介质
CN110110218A (zh) 一种身份关联方法及终端
Wei et al. Online education recommendation model based on user behavior data analysis
CN104462083A (zh) 用于内容比较的方法、装置和信息处理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20110427

RJ01 Rejection of invention patent application after publication