CN104750699B - 用于管理意见数据的方法和设备 - Google Patents
用于管理意见数据的方法和设备 Download PDFInfo
- Publication number
- CN104750699B CN104750699B CN201310737050.3A CN201310737050A CN104750699B CN 104750699 B CN104750699 B CN 104750699B CN 201310737050 A CN201310737050 A CN 201310737050A CN 104750699 B CN104750699 B CN 104750699B
- Authority
- CN
- China
- Prior art keywords
- opinion
- sentence
- tuple
- source information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的各实施例提供了一种用于管理意见数据的方法和设备。在一个实施例中,提供了一种用于管理意见数据的方法。所述方法包括:从一个或多个文本源中获取意见语句;基于所述意见语句提取意见元组,所述意见元组至少包含意见词语和意见目标。所述方法还包括:将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储,其中所述源信息与从中获取所述意见语句的文本源相关联。通过采用例如XML的存储格式,将从文本源中获取的意见语句、意见元组以及源信息相关联地存储,从而使得存储的意见数据具有一定的关联性,易于对存储的意见数据进行扩展和修改。
Description
技术领域
本发明的各个实施例总体上涉及决策支持领域,并且更具体地,涉及一种用于管理有助于决策支持的意见数据的方法和设备。
背景技术
随着信息时代的到来,人们能够获取到大量的信息,其中带有用户的意见、情感倾向等的信息一般可以被称为意见数据。商家、广告商等可以利用意见数据来协助决策决定,例如,根据用户对于某个商品的喜爱程度,可以对于该商品的生产、销售或者广告投入等的决策。
由于含有意见数据的文本源多种多样,其中文本源是可以转换为文本的数据源,诸如论文、调研材料、博客、微博和用户评论、以及可以被转换为文本而读取的视频、音频和图像等,并且这些意见数据通常是非结构化的数据,因而难以被全面地进行统计并用于支持决策决定。
存在一种管理意见数据的方法,包括:从不同的文本源中获取意见语句;从意见语句中解析出意见目标、意见持有者,并且根据意见语句计算情感值;将意见目标、意见持有者和情感值作为一个三元组进行存储,从而将不同文本中非结构化数据转换成三元组对应的结构化数据。在使用时,根据意见目标可以查找到对应的情感值,从而能够基于情感值获知某个特定意见目标的意见倾向。
在上述管理意见数据的方法中,由于仅存储了意见目标、意见持有者和情感值,用户仅能够基于情感值的数值大小来了解意见持有者对于意见目标的意见和情感倾向,因而能够获取到用于支持后续决策决定的信息较少。而且,三元组的结构化数据存储方式难以扩展。
发明内容
针对现有技术中存在的技术问题,本发明的多种实施方式提供了用于管理有助于决策支持的意见数据的方法和设备。
根据本发明的第一方面,提供了一种用于管理意见数据的方法。所述方法包括:从一个或多个文本源中获取意见语句;基于所述意见语句提取意见元组,所述意见元组至少包含意见词语和意见目标。所述方法还包括:将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储,其中所述源信息与从中获取所述意见语句的文本源相关联。
根据本发明的可选实施方式,其中从一个或多个文本源中获取意见语句包括以下各项中的一项或多项:从一个或多个文本源中获取与预定义的主题相关联的意见语句;从一个或多个文本源中获取涉及主观内容的意见语句;或者在一个或多个文本源中获取意见语句时,舍弃与先前获取到的意见语句相同的意见语句。
根据本发明的可选实施方式,其中所述意见元组还包含意见持有者和情感值,基于所述意见语句提取意见元组包括:对所述意见语句进行句法解析,得到所述意见语句所包含的所述意见目标、所述意见持有者和所述意见词语;以及基于所述意见词语确定情感值。
根据本发明的可选实施方式,其中基于所述意见词语确定情感值包括:确定每个意见词语对应的情感分值和情感权重;以及根据每个意见词语的情感分值和情感权重计算所述情感值。
根据本发明的可选实施方式,其中所述源信息包括所述意见语句对应的文本源名称、地理位置和时间中的一项或多项。
根据本发明的可选实施方式,其中将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储包括:根据所述意见语句对应的源信息中的一项或多项,对所述意见语句、所述意见元组以及所述源信息进行分类;以及将每类中的意见语句、意见元组以及源信息相关联地存储。
根据本发明的可选实施方式,其中将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储包括:以可扩展标记语言XML格式,存储所述意见语句、所述意见元组以及所述意见语句对应的源信息。
根据本发明的可选实施方式,该方法进一步包括:从存储所述意见语句、所述意见元组以及所述意见语句对应的源信息的数据库中查找包括另一意见目标的意见语句;以及在查找到的意见语句所对应的意见元组中增加所述另一意见目标;其中所述另一意见目标是查找到的意见语句所对应的意见元组中先前包含的意见目标的子集。
根据本发明的可选实施方式,该方法进一步包括:获取用户输入的意见目标;从存储所述意见语句、所述意见元组以及所述意见语句对应的源信息的数据库中查找与所获取的意见目标相对应的意见元组;以及显示查找到的意见元组。
根据本发明的可选实施方式,其中显示查找到的意见元组包括:统计查找到的意见元组中的意见词语或者情感值;以及显示统计的结果。
根据本发明的可选实施方式,该方法进一步包括:在所述查找到的意见元组中筛选对应于用户选择的源信息中的一项或多项的意见元组;其中显示查找到的意见元组包括显示筛选后的意见元组。
根据本发明的可选实施方式,该方法进一步包括:根据用户输入的指示,进一步显示与查找到的意见元组相对应的意见语句和/或源信息中的一项或多项。
根据本发明的第二方面,提供了一种用于管理意见数据的设备。所述设备包括:第一获取装置,用于从一个或多个文本源中获取意见语句;提取装置,用于基于所述意见语句提取意见元组,所述意见元组至少包含意见词语和意见目标。所述设备还包括:存储装置,用于将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储,其中所述源信息与从中获取所述意见语句的文本源相关联。
根据本发明的可选实施方式,其中所述第一获取装置还用于执行以下各项中的一项或多项:从一个或多个文本源中获取与预定义的主题相关联的意见语句;从一个或多个文本源中获取涉及主观内容的意见语句;或者在从一个或多个文本源中获取意见语句时,舍弃与先前获取到的意见语句相同的意见语句。
根据本发明的可选实施方式,其中所述意见元组还包含意见持有者和情感值,所述提取装置还用于对所述意见语句进行句法解析,得到所述意见语句所包含的所述意见目标、所述意见持有者和所述意见词语;以及基于所述意见词语确定情感值。
根据本发明的可选实施方式,其中所述提取装置还用于确定每个意见词语对应的情感分值和情感权重;以及根据每个意见词语的情感分值和情感权重计算所述情感值。
根据本发明的可选实施方式,其中所述源信息包括所述意见语句对应的文本源名称、地理位置和时间中的一项或多项。
根据本发明的可选实施方式,其中所述存储装置还用于根据所述意见语句对应的源信息中的一项或多项,对所述意见语句、所述意见元组以及所述源信息进行分类;以及将每类中的意见语句、意见元组以及源信息相关联地存储。
根据本发明的可选实施方式,其中所述存储装置还用于以可扩展标记语言XML格式,存储所述意见语句、所述意见元组以及所述意见语句对应的源信息。
根据本发明的可选实施方式,该设备进一步包括:从存储所述意见语句、所述意见元组以及所述意见语句对应的源信息的数据库中查找包括另一意见目标的意见语句;以及在查找到的意见语句所对应的意见元组中增加所述另一意见目标;其中所述另一意见目标是查找到的意见语句所对应的意见元组中先前包含的意见目标的子集。
根据本发明的可选实施方式,该设备进一步包括:第二获取装置,用于获取用户输入的意见目标;查找装置,用于从存储所述意见语句、所述意见元组以及所述意见语句对应的源信息的数据库中查找与所获取的意见目标相对应的意见元组;以及第一显示装置,用于显示查找到的意见元组。
根据本发明的可选实施方式,其中所述第一显示装置还用于统计查找到的意见元组中的意见词语或者情感值;以及显示统计的结果。
根据本发明的可选实施方式,该设备进一步包括:筛选装置,用于在所述查找到的意见元组中筛选对应于用户选择的源信息中的一项或多项的意见元组;其中所述第一显示装置还用于显示筛选后的意见元组。
根据本发明的可选实施方式,该设备进一步包括:第二显示装置,用于根据用户输入的指示,进一步显示与查找到的意见元组相对应的意见语句和/或源信息中的一项或多项。
根据本发明的第二方面,提供了一种用于管理意见数据的装置,包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器,其中所述至少一个存储器和所述计算机程序代码配置用于利用所述至少一个处理器使得所述装置执行如上文的任一方法。
根据本发明的第三方面,还提供了一种计算机程序产品,包括计算机可读介质,所述计算机可读介质承载包含于其中的用于与计算机一起使用的程序指令,使得至少一个处理器执行如上文的任一方法。
通过根据本发明多个方面和实施方式的方法和设备,将从文本源中获取的意见语句、意见元组以及源信息相关联地存储,使得存储的意见数据具有一定的关联性,并且易于对存储的意见数据进行扩展和修改。另外,由于存储了较多能够可用于支持决策决定的意见数据,使得用户不仅能够获知意见元组中的意见词语或情感值,而且能够根据需要继续向下钻取得到意见元组对应的原始意见语句以及相应的源信息,因而实现了方便并且全面的意见数据提供。
附图说明
图1是图示根据本发明的实施例的用于管理意见数据的方法的流程图;
图2图示了用于执行本发明的实施例的系统架构图;
图3是图示根据本发明的实施例的用于管理意见数据的方法的流程图;
图4是图示根据本发明的实施例的显示查找到的意见元组的意见分布图;
图5是图示根据本发明的实施例的用于管理意见数据的设备的框图;以及
图6是图示用于执行本发明的实施例的示例性计算机系统的框图。
应当注意,附图中的流程图和框图,图示了按照本发明各种实施方式的方法、设备和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个装置、程序段、或代码的一部分,所述装置、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
具体实施方式
下面将参考附图中示出的若干示例性实施方式来描述本发明的原理和精神。应当理解,描述这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
图1是图示根据本发明的实施方式的用于管理意见数据的方法100的流程图。应理解的是,方法100中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。方法100还可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
方法100开始之后,在步骤S101处,从一个或多个文本源中获取意见语句。其中,文本源是可以转换为文本的数据源,诸如论文、调研材料、博客、微博、论坛、用户评论以及可以被转换为文本而读取的视频、音频和图像等。可以根据需要预先确定将从其中获取意见语句的一个或多个文本源,本发明的实施例对文本源的数量不进行具体限定。在一个示例,可以采用爬行器从不同的文本源中爬取意见语句。在一个示例中,获取到的意见语句可以有一个或多个。
根据本发明的实施例,从一个或多个文本源中获取意见语句包括以下(i)至(iii)中的一项或多项:
(i)从一个或多个文本源中获取与预定义的主题相关联的意见语句。其中,可以根据需要预定义一个或多个主题,以便获取与预定义的主题相关联的意见语句,从而可以使得获取到的意见语句在需要的范围内。在一个示例中,可以将预定义的一个或多个主题提交给爬行器,由爬行器爬取与预定义的主题相关联的意见语句。例如,可以预定义一个主题为“汽车”,从而获取与主题“汽车”相关联的意见语句。
(ii)从一个或多个文本源中获取涉及主观内容的意见语句。其中,由于意见语句通常具有用户的主观意见,因而在获取意见语句时,还可以确定文本源的各个语句是否涉及主观内容。
(iii)在从一个或多个文本源中获取意见语句时,舍弃与先前获取到的意见语句相同的意见语句。由于在不同文本源中或者在同一文本源的不同部分中,可能存在相同的意见语句,当从多个文本源中获取意见语句时,舍弃重复的文本内容。在一个示例中,可以确定本次获取到的意见语句与先前获取的意见语句是否相同。如果相同,则将本次获取到的意见语句舍弃。需要注意的是,确定意见语句相同可以不必要意见语句中的每个词语以及语序均相同,而是可以根据自然语言规则,判断意见语句中所包含的语义相同即可。
根据本发明的一些示例实施例,从一个或多个文本源中获取意见语句可以包括上述(i)-(iii)项中的一项或者多项的组合。例如,可以从一个或多个文本源中获取与预定义的主题相关联并且涉及主观内容的意见语句,并且在获取意见语句时,还舍弃与先前获取到的意见语句相同的意见语句。
根据其他示例实施例,还可以根据需要设定从一个或多个文本源中获取的意见语句需要满足的其他条件。例如,在一个示例中,可以从一个或多个文本源中获取包含特定意见目标的意见语句。
接下来,方法100行进到步骤S102,基于意见语句提取意见元组,该意见元组至少包含意见词语和意见目标。其中,意见词语是用户对于特定目标所持有的意见或情感倾向等,意见目标是意见词语所针对的对象。
根据本发明的实施例,意见元组还可以包括意见持有者。其中,意见持有者是持有所述意见词语的一方。根据本发明的其他实施例,意见元组也可以不必要包括意见持有者。进一步地,意见元组还可以包括情感值。其中,情感值能够用于表示意见词语所表达的情感,从而可以从数值上获知意见持有者对于意见目标的情感强度。
根据本发明的实施例,步骤S102中基于所述意见语句提取意见元组的步骤可以包括:对意见语句进行句法解析,得到意见语句所包含的意见目标、意见持有者和意见词语;以及基于意见词语确定情感值。
根据进一步的实施例,可以通过自然语言处理(Nature Language Processing,NLP)模型来解析文本源中的每个意见语句,以便从中提取意见目标、意见持有者和意见词语。在一个示例中,还可以基于领域本体来更智能地解析每个意见语句。
根据进一步的实施例,基于意见词语确定情感值可以包括:确定每个意见词语对应的情感分值和情感权重;以及根据每个意见词语的情感分值和情感权重计算情感值。
其中,每个意见词语的情感分值和情感权重可以是预先定义的。在一个示例中,根据意见语句所属领域以及所采用的语言,可以分别预先定义每个意见词语的情感分值和情感权重。通常,可以为词性为名词、动词或形容词的意见词语预先设定对应的情感分值。例如,可以将意见词语“excellent”的情感分值设定为3,而将意见词语“good”的情感分值设定为2。在一个示例中,带有负面情感的意见词语的情感分值可以被设定为负数,而带有正面情感的意见词语的情感分值可以被设定为非负数。
当然,在其他示例中,还可以将带有负面情感的意见词语的情感分值设定为非负数,而将带有正面情感的意见词语的情感分值设定为负数;或者将带有正面情感和带有负面情感的意见词语的情感分值均设定为负数或者均设定为非负数,只要能够从情感分值上区分出意见词语的情感强度即可。
另外,有些意见词语通常带着连词或副词,这会对该意见词语的情感强度产生影响,因而还可以为影响到意见词语的情感强度的连词或副词等设定情感权重。例如,副词“very”在形容词之前时,会对该形容词起到强化作用,可以为副词“very”设定情感权重1.5;而连词“but”也会对其后的词语产生影响,可以为连词“but”设定情感权重1.2。而且,根据意见词语的构成,一个意见词语可以对应有多个权重,例如,意见词语“but veryexpensive”有两个权重,“but”的权重1.2以及“very”的权重1.5。
在预先定义的情感分值和情感权重的基础上,一个意见语句对应的情感值可以采用如下公式(1)进行计算:
公式(1)
Sentiment是情感值,n表示该意见语句中意见词语的数量,Wk表示该意见语句中第k个意见词语的值,Wk由第k个意见词语的情感分值和情感权重决定,C表示第k个意见词语的情感分值,m表示第k个意见词语所对应的权重的数量,Mi表示第k个意见词语所对应的第i个权重。
例如,以在步骤S101中获取到意见语句“Lucy says Lexus GS is nice andexpensive”为例,通过对该意见语句进行句法解析,可以确定该意见语句中的名词“Lucy”、“Lexus GS”以及形容词“nice and expensive”之间的关系。进而,可以确定意见目标为“Lexus GS”、意见持有者为“Lucy”,意见词语为“nice”和“and expensive”。
然后,确定意见词语“nice”的情感分值为3,情感权重为1;并且确定意见词语“andexpensive”中的形容词“expensive”情感分值为-2,连词“and”情感权重为1,从而根据每个意见词语的情感分值和情感权重计算得到情感值为1。因而,得到的意见元组为<Lexus GS,nice and expensive,1,Lucy>。
在提取出意见元组之后,方法100行进到步骤S103,将意见语句、意见元组以及意见语句对应的源信息相关联地存储。其中源信息与从中获取意见语句的文本源相关联,源信息可以包括意见语句对应的文本源名称、地理位置和时间中的一项或多项。文本源名称例如网站名称、期刊名称等,地理位置可以是获取到的意见语句所针对的地理区域,时间可以是意见语句发表的时间。这些信息均可以从文本源中获取到。应当知道,上述给出的源信息仅是示例性的,备选地或者附加地,源信息还可以包括其他信息,本发明的实施例对源信息所包括的内容不进行具体限定。例如,在一个示例中,源信息还包括作者等。另外,源信息也不必要与从中获取意见语句的文本源相关联,而是希望存储的任何信息。
在本发明的实施例中,不仅存储在步骤S102中提取到的意见元组,而且还存储意见语句和意见语句对应的源信息,以便于后续对这些意见数据的进一步使用。
根据本发明的一个实施例,将意见语句、意见元组以及意见语句对应的源信息相关联地存储包括:根据意见语句对应的源信息中的一项或多项,对意见语句、意见元组以及源信息进行分类;以及将每类中的意见语句、意见元组以及源信息相关联地存储。
由于意见语句是从不同的文本源中被获取的,在步骤S101中可能没有考虑到获取到的意见语句的分类。为了后续使用方便,还可以根据源信息中的文本源名称、地理位置和时间等信息对意见语句以及意见语句对应的意见元组和源信息进行分类。例如,可以根据源信息中的文本源名称进行分类,从而使得每类中的意见语句、意见元组以及源信息均对应于同一文本源。
根据本发明的一个实施例,将意见语句、意见元组以及意见语句对应的源信息相关联地存储包括:以XML(Extensible Makeup Language,可扩展)格式,存储意见语句、意见元组以及意见语句对应的源信息。XML格式可以使得存储的数据具有一定的相互关系,能够将意见语句、意见元组以及意见语句对应的源信息相关联地存储。相比于结构化存储的存储方法,XML格式的数据库具有使用灵活、易于扩展的特点。
例如,采用XML格式存储的意见语句、意见元组以及源信息如下:
需要注意的是,还可以采用其他格式来存储意见语句、意见元组以及意见语句对应的源信息,本发明的实施例对此不进行限定,只要能够将意见语句、意见元组以及意见语句对应的源信息相关联地进行存储即可。
在本发明的一些实施例中,可以根据需要不断地执行方法100,以便于不断地将新的意见数据存储到数据库中。
根据本发明进一步的实施例,还可以对存储的意见数据进行修改。在一个示例中,可以修改意见元组中的意见目标。如果先前在基于意见语句提取意见元组时,根据句法解析所得到的意见目标是比较上位的概念,并且如果后续需要对该意见元组中的意见目标进行细分,则本发明的实施例还包括:从存储意见语句、意见元组以及意见语句对应的源信息的数据库中查找包括另一意见目标的意见语句;以及在查找到的意见语句所对应的意见元组中增加另一意见目标。其中另一意见目标是查找到的意见语句所对应的意见元组中先前包含的意见目标的子集,即是先前的意见目标的下位概念。例如,“Lexus GS”是“Lexus”的下位概念,“iOS”是“Phone”的下位概念等。
在将另一意见目标增加到对应的意见元组中之后,可以保留先前的意见目标,也可以将先前的意见目标删除,本发明的实施例对此不进行具体限定。
根据本发明的实施例,在修改意见目标或者增加意见目标时,如果新的意见目标存在于先前存储的意见语句中,采用上述方式,则不需要将新的意见目标所对应的意见数据(例如,意见元组、意见语句以及源信息等)重新存储,而只需要修改先前存储的意见数据。
举例来说,对于意见语句“Lucy says Lexus GS is nice and expensive”,如果先前基于该意见语句所提取的意见元组中的意见目标为“Lexus”,后续为了细化意见目标,可以在存储意见语句、意见元组以及意见语句对应的源信息的数据库中查找包括“LexusGS”的意见语句。然后,在查找到的意见语句所对应的意见元组中增加另一意见目标。那么如果采用XML各项进行存储,数据库中先前存储的<statement>如下:
经过对意见目标进行修改后,数据库中存储的</source>没有变化,对</statement>的修改如下:
因此,采用XML格式存储意见数据,诸如意见元组、意见语句以及源信息,可以进一步地方便对存储的意见数据进行修改,并且避免存储的意见数据的重复。
在一个示例中,如果上述意见数据在存储时采用了XML格式,在查找时,可以采用与XML格式的存储方法相对应的查询方法XQuery。在其他示例中,还可以采用其他查询方法,只要能够在所存储的意见数据中进行查找即可。
以上描述了对意见数据,诸如意见元组、意见语句以及源信息等进行存储的方法。参见图2,其图示了根据本发明的实施例的系统架构图。其中,爬行器用于从文本源1至文本源n中爬取内容,意见挖掘装置用于对爬行器所爬取的内容进行数据挖掘,获取意见语句,并从意见语句中提取意见元组。XML数据库用于以XML格式存储意见语句、意见元组以及源信息等。
接下来,可以对存储的意见数据,诸如意见元组、意见语句以及源信息等进行查询,以便于利用查询结果支持用户的决策决定。图3是图示根据本发明的实施方式的用于管理意见数据的方法300的流程图。应理解的是,方法300中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。方法300还可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
在方法300开始之后,在步骤S301,获取用户输入的意见目标。通常,如果用户需要针对某个意见目标进行决策决定并且需要利用对应的意见数据支持该决策决定,则可以提供期望的意见目标。
接下来,方法300行进至步骤S302。在步骤S302中,从存储意见语句、意见元组以及意见语句对应的源信息的数据库中查找与所获取的意见目标相对应的意见元组。
如以上所提及的,可以基于这些意见数据的存储格式而采用适合的查找方法。在一个示例中,如果上述意见数据在存储时采用了XML格式,在查找时,可以采用与XML格式的存储方法相对应的查询方法XQuery。
接下来,方法300行进至步骤S303。在步骤S303中,显示查找到的意见元组。根据本发明的一个实施例,显示查找到的意见元组包括:统计查找到的意见元组中的意见词语或者情感值;以及显示统计的结果。在一个示例中,显示查找到的意见元组也可以由XQuery语言实现。
例如,为了查找意见目标“Lexus GS”对应的意见元组,统计查找到的意见元组中意见词语以及显示统计结果,可以采用以下的XQuery模板:
统计结果可以采用多种形式进行显示,诸如表格或者图形等形式。在一个示例中,可以采用通用XSLT(Extensible Stylesheet Language Transformation,扩展样式表转换语言),将统计结果显示为HTML(HyperText Markup Language,超文本标记语言)表格或者SVG(Scalable Vector Graphics,可缩放矢量图形)图。用户从意见元组的统计结果的显示中可以获知
例如,对于查找到的意见元组中的意见词语的统计结果,可以采用如图4所示的图形对统计结果进行显示。此外,还可以采用如下表1对统计结果进行显示:
表1
意见词语 | 数量 |
nice and expensive | 16 |
good | 14 |
bad | 3 |
not good | 1 |
由于在存储意见数据时,不仅存储了意见元组,还存储了与意见元组相对应的意见语句和源信息。其中,源信息可以用于帮助对查找到的意见元组进行筛选,以便从查找到的意见元组中筛选出更有益于支持用户的决策决定的意见元组。因此,本发明的实施例还包括:在查找到的意见元组中筛选对应于用户选择的源信息中的一项或多项的意见元组。源信息包括文本源名称、地理位置、时间等,则可以用文本源信息中的一项或多项对查找到的意见元组进行筛选,以便获得与特定的文本源、特定的地理位置和/或特定的时间对应的意见元组。
例如,如果仅希望获取来自文本源twitter的意见数据,则可以从查找到的意见元组中筛选其源信息包含文本源名称“twitter”的意见元组。
根据本发明的又一实施例,还可以首先在数据库中筛选对应于用户选择的源信息中的一项或多项的意见元组,然后再从筛选出的意见元组中查找与所获取的意见目标相对应的意见元组。
此外,根据本发明进一步的实施例,还可以根据源信息中的时间为用户提供对于特定意见目标的意见和情感倾向的趋势。例如,通过查找并且统计在若干时间点中一个意见目标对应的意见词语或情感值,可以得到意见持有者对于该意见目标的意见和情感倾向的趋势。
根据本发明的其他实施例,由于采用XML格式的存储方式便于扩展,因而在存储意见语句时,还可以根据需要基于意见语句或者获取意见语句的文本源,确定并且存储意见持有者的性别、年龄等。然后,在后续为用户提供意见数据时,在查找到与用户期望的意见目标相对应的意见元组之后,还可以基于意见元组中的意见持有者的性别、年龄等因素为用户显示统计结果。例如,统计并且为用户显示不同性别的意见持有者对于特定意见目标的意见和情感倾向。
根据本发明进一步的实施例,当将所存储的意见数据用于决策支持时,不仅可以显示查找到的与所期望的意见目标相对应的意见元组,用户根据需要还可以向下钻取到进一步的信息。在一个示例中,可以根据用户输入的指示,进一步显示与查找到的意见元组相对应的意见语句和/或源信息中的一项或多项。
通过对查找到的意见元组相对应的意见语句和/或源信息中的一项或多项的显示,可以为用户提供决策决定所需要的更准确的原始信息。
仍然参见图2,其中决策支持装置可以用于查询存储有意见数据(诸如意见语句、意见元组以及源信息等)的XML数据库,然后获取与用户期望的意见目标有关的意见元组,并将获取到的意见元组以适当的方式呈现给用户。该决策支持装置还能够根据用户需要继续从XML数据库中向下钻取意见语句以及源信息等更多意见数据。
上文已经结合若干具体实施方式阐释了本发明的精神和原理。通过上述本发明的多种实施方式,将从文本源中获取的意见语句、意见元组以及源信息相关联地存储,使得存储的意见数据具有一定的关联性,并且易于对存储的意见数据进行扩展和修改。另外,由于存储了较多能够可用于支持决策决定的意见数据,使得用户不仅能够获知意见元组中的意见词语或情感值,而且能够根据需要继续向下钻取得到意见元组对应的原始意见语句以及相应的源信息,因而实现了方便并且全面的意见数据提供。
需要注意的是,虽然本发明的实施例是在意见数据的环境中进行描述的,上述方法还可以应用于其他类型的数据管理。术语“意见数据”仅是一般性的概念,而并不用于限制本发明。
图5是图示根据本发明的实施方式的用于管理意见数据的设备500的框图。如图5中所示,设备500包括第一获取装置501,用于从一个或多个文本源中获取意见语句;提取装置502,用于基于所述意见语句提取意见元组,所述意见元组至少包含意见词语和意见目标。设备500还包括存储装置503,用于将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储,其中所述源信息与从中获取所述意见语句的文本源相关联。
可以看出,图5的设备500可以实现如图1中所示的方法,并且尽管未进一步示出,设备500可以包括更多的功能单元以实现结合图1的方法100和图3的方法300所描述的多个实施方式。
进一步,设备500可以将从文本源中获取的意见语句、意见元组以及源信息相关联地存储,使得存储的意见数据具有一定的关联性,易于对存储的意见数据进行扩展和修改。
根据本发明的实施例,还提供了一种用于管理意见数据的装置,包括至少一个存储器和至少一个处理器,至少一个处理器;以及包括计算机程序代码的至少一个存储器,其中至少一个存储器和所述计算机程序代码配置用于利用至少一个处理器使得该装置至少执行从一个或多个文本源中获取意见语句;基于所述意见语句提取意见元组,所述意见元组至少包含意见词语和意见目标;以及将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储,其中所述源信息与从中获取所述意见语句的文本源相关联。进一步地,至少一个存储器和所述计算机程序代码配置用于利用至少一个处理器使得该装置实现结合图1的方法100和图3的方法300所描述的多个实施方式。
图6是图示了适于用来执行本发明的实施方式的示例性计算机系统12的框图。图6显示的计算机系统12仅仅是一个示例,不应对本发明实施方式的功能和使用范围带来任何限制。
如图6所示,计算机系统12以通用计算设备的形式表现。设备可以包括但不限于:移动电话、笔记本电脑、台式计算机、便携式计算机、个人数字助理(PDA)、平板电脑等。计算机系统12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如存储器30和/或缓存器32。计算机系统12可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施方式的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施方式中的功能和/或方法。
根据需要,计算机系统12也可以与一个或多个外部设备(例如显示设备24、外部数据库14等)通信,还可与一个或者多个使得用户能与该计算机系统12交互的设备通信,和/或与使得该计算机系统12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统12的其他模块通信。应当明白,尽管图中未示出,可以结合计算机系统12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,图6中仅仅示意性示出了可以实现本发明的计算机系统12的框图,本领域技术人员还可以采用其他计算机系统或设备来实现本发明的各个实施方式。
特别地,除硬件实施方式之外,本发明的实施方式可以通过计算机程序产品的形式实现。例如,参考图1描述的方法100可以通过计算机程序产品来实现。该计算机程序产品可以存储在例如图6所示的RAM、缓存器、存储器和/或任何适当的存储介质中,或者通过网络从适当的位置下载到计算机系统上。计算机程序产品可以包括计算机代码部分,其包括可由适当的处理设备(例如,图6中示出的处理单元)执行的程序指令。所述程序指令至少可以包括:从一个或多个文本源中获取意见语句;基于所述意见语句提取意见元组,所述意见元组至少包含意见词语和意见目标;以及将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储,其中所述源信息与从中获取所述意见语句的文本源相关联。
应当注意的是,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当注意的是,尽管在上文详细描述中提及了设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤规约为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明,但是应该理解,本发明并不限于所公开的具体实施方式。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (22)
1.一种用于管理意见数据的方法,包括:
从一个或多个文本源中获取意见语句;
基于所述意见语句提取意见元组,所述意见元组至少包含意见词语和意见目标;
确定所述意见语句与先前存储的意见语句是否语义相同;以及
在所述意见语句不与所述先前存储的意见语句语义相同的情况下,以可扩展的格式将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储,其中所述源信息与从中获取所述意见语句的文本源相关联;
其中将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储包括:
根据所述意见语句对应的源信息中的一项或多项,对所述意见语句、所述意见元组以及所述源信息进行分类;以及
将每类中的意见语句、意见元组以及源信息相关联地存储。
2.根据权利要求1所述的方法,其中从一个或多个文本源中获取意见语句还包括:
从一个或多个文本源中获取与预定义的主题相关联的意见语句。
3.根据权利要求1所述的方法,其中所述意见元组还包含意见持有者和情感值,基于所述意见语句提取意见元组包括:
对所述意见语句进行句法解析,得到所述意见语句所包含的所述意见目标、所述意见持有者和所述意见词语;以及
基于所述意见词语确定情感值。
4.根据权利要求3所述的方法,其中基于所述意见词语确定情感值包括:
确定每个意见词语对应的情感分值和情感权重,其中所述情感权重影响用于所述情感分值的值;以及
根据每个意见词语的情感分值和情感权重计算所述情感值。
5.根据权利要求1所述的方法,其中所述源信息包括所述意见语句对应的文本源名称、地理位置和时间中的一项或多项。
6.根据权利要求1所述的方法,其中将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储包括:
以可扩展标记语言XML格式,存储所述意见语句、所述意见元组以及所述意见语句对应的源信息。
7.根据权利要求1至6中任一项所述的方法,进一步包括:
从存储所述意见语句、所述意见元组以及所述意见语句对应的源信息的数据库中查找包括另一意见目标的意见语句;以及
在查找到的意见语句所对应的意见元组中增加所述另一意见目标;
其中所述另一意见目标是查找到的意见语句所对应的意见元组中先前包含的意见目标的子集。
8.根据权利要求1至6中任一项所述的方法,进一步包括:
获取用户输入的意见目标;
从存储所述意见语句、所述意见元组以及所述意见语句对应的源信息的数据库中查找与所获取的意见目标相对应的意见元组;以及
显示查找到的意见元组。
9.根据权利要求8所述的方法,其中显示查找到的意见元组包括:
统计查找到的意见元组中的意见词语或者情感值;以及
显示统计的结果。
10.根据权利要求8所述的方法,进一步包括:
在所述查找到的意见元组中筛选对应于用户选择的源信息中的一项或多项的意见元组;
其中显示查找到的意见元组包括显示筛选后的意见元组。
11.根据权利要求8所述的方法,进一步包括:
根据用户输入的指示,进一步显示与查找到的意见元组相对应的意见语句和/或源信息中的一项或多项。
12.一种用于管理意见数据的设备,包括:
第一获取装置,用于从一个或多个文本源中获取意见语句,并且用于确定所述意见语句与先前存储的意见语句是否语义相同;
提取装置,用于基于所述意见语句提取意见元组,所述意见元组至少包含意见词语和意见目标;以及
存储装置,用于在所述意见语句不与所述先前存储的意见语句语义相同的情况下,以可扩展的格式将所述意见语句、所述意见元组以及所述意见语句对应的源信息相关联地存储,其中所述源信息与从中获取所述意见语句的文本源相关联;
其中所述存储装置还用于根据所述意见语句对应的源信息中的一项或多项,对所述意见语句、所述意见元组以及所述源信息进行分类;以及将每类中的意见语句、意见元组以及源信息相关联地存储。
13.根据权利要求12所述的设备,其中所述第一获取装置还用于:
从一个或多个文本源中获取与预定义的主题相关联的意见语句。
14.根据权利要求12所述的设备,其中所述意见元组还包含意见持有者和情感值,所述提取装置还用于对所述意见语句进行句法解析,得到所述意见语句所包含的所述意见目标、所述意见持有者和所述意见词语;以及基于所述意见词语确定情感值。
15.根据权利要求14所述的设备,其中所述提取装置还用于确定每个意见词语对应的情感分值和情感权重,其中所述情感权重影响用于所述情感分值的值;以及根据每个意见词语的情感分值和情感权重计算所述情感值。
16.根据权利要求12所述的设备,其中所述源信息包括所述意见语句对应的文本源名称、地理位置和时间中的一项或多项。
17.根据权利要求12所述的设备,其中所述存储装置还用于以可扩展标记语言XML格式,存储所述意见语句、所述意见元组以及所述意见语句对应的源信息。
18.根据权利要求12至17中任一项所述的设备,进一步包括:
从存储所述意见语句、所述意见元组以及所述意见语句对应的源信息的数据库中查找包括另一意见目标的意见语句;以及
在查找到的意见语句所对应的意见元组中增加所述另一意见目标;
其中所述另一意见目标是查找到的意见语句所对应的意见元组中先前包含的意见目标的子集。
19.根据权利要求12至17中任一项所述的设备,进一步包括:
第二获取装置,用于获取用户输入的意见目标;
查找装置,用于从存储所述意见语句、所述意见元组以及所述意见语句对应的源信息的数据库中查找与所获取的意见目标相对应的意见元组;以及
第一显示装置,用于显示查找到的意见元组。
20.根据权利要求19所述的设备,其中所述第一显示装置还用于统计查找到的意见元组中的意见词语或者情感值;以及显示统计的结果。
21.根据权利要求19所述的设备,进一步包括:
筛选装置,用于在所述查找到的意见元组中筛选对应于用户选择的源信息中的一项或多项的意见元组;
其中所述第一显示装置还用于显示筛选后的意见元组。
22.根据权利要求19所述的设备,进一步包括:
第二显示装置,用于根据用户输入的指示,进一步显示与查找到的意见元组相对应的意见语句和/或源信息中的一项或多项。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310737050.3A CN104750699B (zh) | 2013-12-25 | 2013-12-25 | 用于管理意见数据的方法和设备 |
US14/572,059 US10614089B2 (en) | 2013-12-25 | 2014-12-16 | Managing opinion data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310737050.3A CN104750699B (zh) | 2013-12-25 | 2013-12-25 | 用于管理意见数据的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104750699A CN104750699A (zh) | 2015-07-01 |
CN104750699B true CN104750699B (zh) | 2019-05-03 |
Family
ID=53400272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310737050.3A Active CN104750699B (zh) | 2013-12-25 | 2013-12-25 | 用于管理意见数据的方法和设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10614089B2 (zh) |
CN (1) | CN104750699B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255803B (zh) * | 2016-12-29 | 2022-03-01 | 北京国双科技有限公司 | 文档情感的判断方法和装置 |
CN110378704B (zh) * | 2019-07-23 | 2021-10-22 | 珠海格力电器股份有限公司 | 基于模糊识别的意见反馈的方法、存储介质和终端设备 |
US11544466B2 (en) * | 2020-03-02 | 2023-01-03 | International Business Machines Corporation | Optimized document score system using sentence structure analysis function |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN102929863A (zh) * | 2012-11-06 | 2013-02-13 | 苏州两江科技有限公司 | 通过计算机智能分析汉语文字情感倾向的方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7013311B2 (en) * | 2003-09-05 | 2006-03-14 | International Business Machines Corporation | Providing XML cursor support on an XML repository built on top of a relational database system |
US8417713B1 (en) * | 2007-12-05 | 2013-04-09 | Google Inc. | Sentiment detection as a ranking signal for reviewable entities |
EP2354967A1 (en) * | 2010-01-29 | 2011-08-10 | British Telecommunications public limited company | Semantic textual analysis |
US8620849B2 (en) * | 2010-03-10 | 2013-12-31 | Lockheed Martin Corporation | Systems and methods for facilitating open source intelligence gathering |
US9600566B2 (en) * | 2010-05-14 | 2017-03-21 | Microsoft Technology Licensing, Llc | Identifying entity synonyms |
CN101901212A (zh) * | 2010-07-23 | 2010-12-01 | 北京航空航天大学 | 一种基于认知评价理论的汉语文本情感识别方法 |
CN102385579B (zh) * | 2010-08-30 | 2018-06-15 | 深圳市世纪光速信息技术有限公司 | 互联网信息分类方法和系统 |
US9690775B2 (en) * | 2012-12-27 | 2017-06-27 | International Business Machines Corporation | Real-time sentiment analysis for synchronous communication |
-
2013
- 2013-12-25 CN CN201310737050.3A patent/CN104750699B/zh active Active
-
2014
- 2014-12-16 US US14/572,059 patent/US10614089B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN102929863A (zh) * | 2012-11-06 | 2013-02-13 | 苏州两江科技有限公司 | 通过计算机智能分析汉语文字情感倾向的方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US10614089B2 (en) | 2020-04-07 |
CN104750699A (zh) | 2015-07-01 |
US20150178360A1 (en) | 2015-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10546005B2 (en) | Perspective data analysis and management | |
US10990631B2 (en) | Linking documents using citations | |
US10698964B2 (en) | System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources | |
Schroeder et al. | childLex: A lexical database of German read by children | |
US8868558B2 (en) | Quote-based search | |
CN110457439B (zh) | 一站式智能写作辅助方法、装置和系统 | |
CA2832909C (en) | System and method for matching comment data to text data | |
Le et al. | Unsupervised keyphrase extraction: Introducing new kinds of words to keyphrases | |
US20140195884A1 (en) | System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources | |
CN104572625A (zh) | 命名实体的识别方法 | |
CN103544321A (zh) | 用于微博情感信息的数据处理方法和装置 | |
Krstajić et al. | Story tracker: Incremental visual text analytics of news story development | |
US10055478B2 (en) | Perspective data analysis and management | |
US11216161B2 (en) | Generating presentations based upon articles | |
CN104750699B (zh) | 用于管理意见数据的方法和设备 | |
Tamper et al. | Using biographical texts as linked data for prosopographical research and applications | |
Saleiro et al. | Timemachine: Entity-centric search and visualization of news archives | |
Rahul et al. | Social media sentiment analysis for Malayalam | |
CN107943965A (zh) | 相似文章检索方法及装置 | |
Cong | A Zipfian approach to words in contexts: The cases of Modern English and Chinese | |
Ung et al. | Combination of features for vietnamese news multi-document summarization | |
Hu et al. | Evaluation of Ancient Chinese Natural Language Understanding in Large Language Models Based on ACHNLU | |
Luong et al. | Trees and after: The concept of text topology. Some applications to verb-form distributions in language corpora | |
Schwiertz | Online presentation and accessibility of endangered languages data: The General Portal to the DoBeS Archive | |
Gu | A corpus-based comparative study on the superlative forms in British English and Singapore Colloquial English |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200410 Address after: Massachusetts, USA Patentee after: EMC IP Holding Company LLC Address before: Massachusetts, USA Patentee before: EMC Corp. |