CN104462363B - 评论点的展现方法和装置 - Google Patents

评论点的展现方法和装置 Download PDF

Info

Publication number
CN104462363B
CN104462363B CN201410743444.4A CN201410743444A CN104462363B CN 104462363 B CN104462363 B CN 104462363B CN 201410743444 A CN201410743444 A CN 201410743444A CN 104462363 B CN104462363 B CN 104462363B
Authority
CN
China
Prior art keywords
comment
viewpoint
sentence
module
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410743444.4A
Other languages
English (en)
Other versions
CN104462363A (zh
Inventor
魏安军
李大任
卿权
余艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410743444.4A priority Critical patent/CN104462363B/zh
Publication of CN104462363A publication Critical patent/CN104462363A/zh
Application granted granted Critical
Publication of CN104462363B publication Critical patent/CN104462363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种评论点的展现方法和装置,该评论点的展现方法包括:从评论数据中解析出评论观点句,并确定评论观点句的情感倾向和评论维度;计算上述评论观点句之间的评论相似性;根据评论相似性,对评论观点进行聚合,得到评论观点相似句簇;从评论观点相似句簇中提取中心句,从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。本发明以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。

Description

评论点的展现方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种评论点的展现方法和装置。
背景技术
在这样一个信息爆炸的年代,一个商品的评论有时会有成百上千条。这给用户的消费决策带来了很大的困难。购物搜索的商品评论聚合项目的目标就是从商品在商对客(Business to Customer;以下简称:B2C)电商网站上的评论中抽取评论标签(Tag),并将语义相似的评论Tag进行合并,从而展现给用户,以达到节省用户阅读大量评论的时间和精力的目的。
现有技术中与评论Tag抽取比较相近的研究叫评论点抽取(Aspect Extraction)。所谓评论点,就是评论句评价的目标(Target)。例如:“小米2的电池续航时间太短”,这句话的评论点就是“电池续航时间”,而“太短”是评价词或情感词。现有的评论点的抽取方法有四种:根据出现频次高的名词或名词短语抽取、根据观点和评价对象之间的关系抽取、使用有监督的机器学习方法进行抽取、使用话题模型(Topic Model)进行抽取。
但是,现有技术对于评论观点的抽取都局限在词语或者短语级别,在直观上给用户的感觉很机械,不灵活,提供的信息量也不是很丰富。而且,多个词语或者短语评论Tag罗列的方式在阅读上不连贯,容易出现观点语义上的重复,例如:“外观漂亮”和“样子不错”,会带来糟糕的用户体验。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种评论点的展现方法。通过该方法,以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。
本发明的第二个目的在于提出一种评论点的展现装置。
为了实现上述实施例,本发明第一方面实施例的评论点的展现方法,包括:从评论数据中解析出评论观点句,并确定所述评论观点句的情感倾向和评论维度;根据所述情感倾向和所述评论维度通过评论观点相似性模型计算所述评论观点句之间的评论相似性;根据所述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;从所述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,从所述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。
本发明实施例的评论点的展现方法,从评论数据中解析出评论观点句,确定上述评论观点句的情感倾向和评论维度,然后根据情感倾向和评论维度通过评论观点相似性模型计算评论观点句之间的评论相似性,根据上述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,最后再从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现,从而可以实现以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。
为了实现上述实施例,本发明第二方面实施例的评论点的展现装置,包括:解析模块,用于从评论数据中解析出评论观点句;确定模块,用于确定所述评论观点句的情感倾向和评论维度;计算模块,用于根据所述情感倾向和所述评论维度通过评论观点相似性模型计算所述评论观点句之间的评论相似性;聚合模块,用于根据所述计算模块计算获得的所述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;提取模块,用于从所述聚合模块获得的评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句;筛选模块,用于从所述提取模块提取的中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。
本发明实施例的评论点的展现装置,解析模块从评论数据中解析出评论观点句,确定模块确定上述评论观点句的情感倾向和评论维度,然后计算模块根据情感倾向和评论维度通过评论观点相似性模型计算评论观点句之间的评论相似性,聚合模块根据上述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;提取模块从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,最后筛选模块再从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现,从而可以实现以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明评论点的展现方法一个实施例的流程图;
图2为本发明评论点的展现方法一个应用场景的示意图;
图3为本发明评论点的展现方法另一个应用场景的示意图;
图4为本发明评论点的展现装置一个实施例的结构示意图;
图5为本发明评论点的展现装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明评论点的展现方法一个实施例的流程图,如图1所示,该评论点的展现方法可以包括:
步骤101,从评论数据中解析出评论观点句,并确定上述评论观点句的情感倾向和评论维度。
本实施例中,评论句是指一段短中长度的文本,可以是B2C网站上的评论,也可以是知道的问题和回答,而评论观点句是从上述文本中分句得到的。一般来说,评论观点句以空格、中英文逗号或者中英文句号分割的居多,然而针对评论观点句,主要需要考虑句子长度、句子有效的表达内容(实意中文字符的比例)和/或特殊分割符号附近文本的处理,例如:英文句号“.”在作为小数点的时候便不能作为分句符号。
例如,输入文本为“外观时尚前卫,老婆十分满意外观,7.8万的车能做到这个样子满足了”,解析出的评论观点句包括“外观时尚前卫”,“老婆十分满意外观”,以及“7.8万的车能做到这个样子满足了”。
其中,确定上述评论观点句的评论维度可以为确定上述评论观点句评价对象所属的维度类别,例如:汽车评论中,“方向盘指向非常精确”的评论维度为“操控”。
步骤102,根据上述情感倾向和上述评论维度通过评论观点相似性模型计算上述评论观点句之间的评论相似性。
进一步地,根据上述情感倾向和上述评论维度通过评论观点相似性模型计算上述评论观点句之间的评论相似性之前,还可以基于评论观点底层资源,通过评论观点主干分析和相似度计算,提取上述评论观点句之间的语义相似类特征、统计相似类特征和情感相似类特征作为评论观点的相似性特征;然后利用多分档的人工标注数据在评论观点的相似性特征空间训练出机器学习模型,作为评论观点相似性模型。
其中,评论观点底层资源挖掘包含了评论短语Tag词典(属性词+评价词的方式,例如:“性价比_不错”或者“外观_漂亮”)、评论维度Topic Model(结合全局文档和局部句子的Topic Model)、不同评论维度下评论的共现词词典和基于评论数据训练得到的词向量模型。
对于汽车评论中的“空间”评论维度,若“个头”和“空间”在一条评论中共现了,则加入到“空间”维度的共现词典中。词向量即为用多维向量来表示一个字,例如“淘宝={-0.218361,-0.161067,0.393835,-0.127615,0.15469,0.0753922…}”
本实施例中,上述评论观点主干分析可以为:从上述评论观点句中分析出能够表现用户主观观点的部分,作为评论观点主干。
例如,对于评论观点句“新速腾的皮质座椅设计的不错”,其表达的观点为“新速腾皮质座椅不错”,这里的“新速腾皮质座椅不错”即为评论观点主干。
步骤103,根据上述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇。
举例来说,根据评论观点句之间的评论相似性,在汽车迈腾的评论中,能够将“低速时很轻,方向慢速很轻,低速迈腾,低速轻盈,方向盘低速时很轻盈,方向低速轻盈,低速方向轻盈,方向很轻”聚合到一块。
步骤104,从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。
例如,对于句簇“四道杠的前脸很霸气,车头霸气,前面很霸气,霸气的前脸,前脸看起霸气,霸气的前脸和干净利落的车尾,前脸很霸气”中,能够提取“前脸很霸气”作为中心句。
然后,再从提取好的中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。加以不同情感倾向的区分,能够让用户更好的了解某一主题下大家所关注的典型好评观点和差评观点。
例如,在汽车评论中,关于雅阁车型的中心句“外观很稳重霸气”和“最满意就是外观了”,后一句给用户的感觉很宽泛,没有提供具体的描述,而前一句则说除了特点。所以说,通过筛选能够增强句子级别的评论点展现的形式。
本实施例中,从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句之后,还可以从上述中心句中选择表达丰富和观点意义表达不矛盾的句子,根据选择的句子的情感倾向和评论维度,利用自然语言生成技术拼接成评论摘要。
例如,对于挑选出的两个评论维度下的中心句“杭州的人民真幸福,推荐租自行车骑行,就是太多游客了”和“湖水清凉美丽,水面垃圾偏多,夏天的荷花很漂亮”,拼接后分别得到“杭州的人民真幸福,推荐租自行车骑行,但就是太多游客了”和“湖水清凉美丽,夏天的荷花很漂亮,但是水面垃圾偏多”,最后直接连接得到完整的评论摘要。
上述实施例中,从评论数据中解析出评论观点句,确定上述评论观点句的情感倾向和评论维度,然后根据情感倾向和评论维度通过评论观点相似性模型计算评论观点句之间的评论相似性,根据上述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,最后再从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现,从而可以实现以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。
本发明提供的评论点的展现方法可以应用在多种场景,例如:百度网页搜索结果页中的特型卡片,百度旅游的目的地指南页和行程展现页等等,本发明对上述评论点的展现方法的应用场景不作限定。
图2为本发明评论点的展现方法一个应用场景的示意图,图2为百度网页搜索结果页特型卡片的一个示例,如图2所示,该特型卡片为汽车口碑详情卡片,其中标签“全部评论”下的优缺点句子为利用本发明提供的方法从汽车之家网站的评论中抽取得到的。且卡片具有不同的评论维度,方便用户查阅自己感兴趣维度下的优缺点。这种展现形式能够满足用户对于评论口碑的需求,明显降低此类口碑查询的换查询词的比例,提升了百度网页搜索的用户体验。
图3为本发明评论点的展现方法另一个应用场景的示意图,图3为百度旅游的目的地指南页的一个示例,图3中的“大家印象”便是利用本发明提供的方法从百度旅游以及其它旅游垂直站点的评论数据中抽取出来的。该种观点展现形式非常贴近日常表达,可以概括性地展现出用户一系列典型的观点,能够让用户在很短的时间内了解一个景点的特色。
图4为本发明评论点的展现装置一个实施例的结构示意图,本实施例中的评论点的展现装置可以实现本发明图1所示实施例的流程,如图4所示,该评论点的展现装置可以包括:解析模块41、确定模块42、计算模块43、聚合模块44、提取模块45和筛选模块46;
其中,解析模块41,用于从评论数据中解析出评论观点句。本实施例中,评论句是指一段短中长度的文本,可以是B2C网站上的评论,也可以是知道的问题和回答,而评论观点句是从上述文本中分句得到的。一般来说,评论观点句以空格、中英文逗号或者中英文句号分割的居多,然而针对评论观点句,主要需要考虑句子长度、句子有效的表达内容(实意中文字符的比例)和/或特殊分割符号附近文本的处理,例如:英文句号“.”在作为小数点的时候便不能作为分句符号。
例如,输入文本为“外观时尚前卫,老婆十分满意外观,7.8万的车能做到这个样子满足了”,解析模块41解析出的评论观点句包括“外观时尚前卫”,“老婆十分满意外观”,以及“7.8万的车能做到这个样子满足了”。
确定模块42,用于确定上述评论观点句的情感倾向和评论维度;其中,确定上述评论观点句的评论维度可以为确定模块42确定上述评论观点句评价对象所属的维度类别,例如:汽车评论中,“方向盘指向非常精确”的评论维度为“操控”。
计算模块43,用于根据上述情感倾向和上述评论维度通过评论观点相似性模型计算上述评论观点句之间的评论相似性。
聚合模块44,用于根据计算模块43计算获得的上述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;例如,根据评论观点句之间的评论相似性,在汽车迈腾的评论中,能够将“低速时很轻,方向慢速很轻,低速迈腾,低速轻盈,方向盘低速时很轻盈,方向低速轻盈,低速方向轻盈,方向很轻”聚合到一块。
提取模块45,用于从聚合模块44获得的评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句;例如,对于句簇“四道杠的前脸很霸气,车头霸气,前面很霸气,霸气的前脸,前脸看起霸气,霸气的前脸和干净利落的车尾,前脸很霸气”中,提取模块45能够提取“前脸很霸气”作为中心句。
筛选模块46,用于从提取模块45提取的中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。具体地,筛选模块46从提取好的中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。加以不同情感倾向的区分,能够让用户更好的了解某一主题下大家所关注的典型好评观点和差评观点。
例如,在汽车评论中,关于雅阁车型的中心句“外观很稳重霸气”和“最满意就是外观了”,后一句给用户的感觉很宽泛,没有提供具体的描述,而前一句则说除了特点。所以说,通过筛选模块46进行筛选能够增强句子级别的评论点展现的形式。
上述评论点的展现装置中,解析模块41从评论数据中解析出评论观点句,确定模块42确定上述评论观点句的情感倾向和评论维度,然后计算模块43根据情感倾向和评论维度通过评论观点相似性模型计算评论观点句之间的评论相似性,聚合模块44根据上述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;提取模块45从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,最后筛选模块46再从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现,从而可以实现以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。
图5为本发明评论点的展现装置另一个实施例的结构示意图,与图4所示的评论点的展现装置相比,不同之处在于,上述评论点的展现装置还可以包括:选择模块47和生成模块48;
选择模块47,用于在提取模块45从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句之后,从上述中心句中选择表达丰富和观点意义表达不矛盾的句子;
生成模块48,用于根据选择模块47选择的句子的情感倾向和评论维度,利用自然语言生成技术拼接成评论摘要。
例如,对于挑选出的两个评论维度下的中心句“杭州的人民真幸福,推荐租自行车骑行,就是太多游客了”和“湖水清凉美丽,水面垃圾偏多,夏天的荷花很漂亮”,拼接后分别得到“杭州的人民真幸福,推荐租自行车骑行,但就是太多游客了”和“湖水清凉美丽,夏天的荷花很漂亮,但是水面垃圾偏多”,最后直接连接得到完整的评论摘要。
进一步地,上述评论点的展现装置还可以包括:训练模块49;
提取模块45,还用于在计算模块43计算上述评论观点句之间的评论相似性之前,基于评论观点底层资源,通过评论观点主干分析和相似度计算,提取评论观点句之间的语义相似类特征、统计相似类特征和情感相似类特征作为评论观点的相似性特征;
训练模块49,用于利用多分档的人工标注数据在评论观点的相似性特征空间训练出机器学习模型,作为评论观点相似性模型。
其中,评论观点底层资源挖掘包含了评论短语Tag词典(属性词+评价词的方式,例如:“性价比_不错”或者“外观_漂亮”)、评论维度Topic Model(结合全局文档和局部句子的Topic Model)、不同评论维度下评论的共现词词典和基于评论数据训练得到的词向量模型。
对于汽车评论中的“空间”评论维度,若“个头”和“空间”在一条评论中共现了,则加入到“空间”维度的共现词典中。词向量即为用多维向量来表示一个字,例如“淘宝={-0.218361,-0.161067,0.393835,-0.127615,0.15469,0.0753922…}”
本实施例中,上述评论观点主干分析可以为:从上述评论观点句中分析出能够表现用户主观观点的部分,作为评论观点主干。
例如,对于评论观点句“新速腾的皮质座椅设计的不错”,其表达的观点为“新速腾皮质座椅不错”,这里的“新速腾皮质座椅不错”即为评论观点主干。
上述评论点的展现装置可以实现以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种评论点的展现方法,其特征在于,包括:
从评论数据中解析出评论观点句,并确定所述评论观点句的情感倾向和评论维度;
根据所述情感倾向和所述评论维度通过评论观点相似性模型计算所述评论观点句之间的评论相似性;
根据所述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;
从所述评论观点相似句簇中提取能够代表句簇观点的中心句,从所述中心句中筛选出具有代表性观点的中心句,作为句子级别的评论点进行展现;
所述根据所述情感倾向和所述评论维度通过评论观点相似性模型计算所述评论观点句之间的评论相似性之前,还包括:
基于评论观点底层资源,通过评论观点主干分析和相似度计算,提取所述评论观点句之间的语义相似类特征、统计相似类特征和情感相似类特征作为评论观点的相似性特征;
利用多分档的人工标注数据在评论观点的相似性特征空间训练出机器学习模型,作为评论观点相似性模型;
所述评论观点主干分析包括:
从所述评论观点句中分析出能够表现用户主观观点的部分,作为评论观点主干。
2.根据权利要求1所述的方法,其特征在于,所述从所述评论观点相似句簇中提取能够代表句簇观点的中心句之后,还包括:
从所述中心句中选择观点意义表达不矛盾的句子,根据选择的句子的情感倾向和评论维度,利用自然语言生成技术拼接成评论摘要。
3.一种评论点的展现装置,其特征在于,包括:
解析模块,用于从评论数据中解析出评论观点句;
确定模块,用于确定所述评论观点句的情感倾向和评论维度;
计算模块,用于根据所述情感倾向和所述评论维度通过评论观点相似性模型计算所述评论观点句之间的评论相似性;
聚合模块,用于根据所述计算模块计算获得的所述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;
提取模块,用于从所述聚合模块获得的评论观点相似句簇中提取能够代表句簇观点的中心句;
筛选模块,用于从所述提取模块提取的中心句中筛选出具有代表性观点的中心句,作为句子级别的评论点进行展现;
所述评论点的展现装置还包括:训练模块;
所述提取模块,还用于在所述计算模块计算所述评论观点句之间的评论相似性之前,基于评论观点底层资源,通过评论观点主干分析和相似度计算,提取所述评论观点句之间的语义相似类特征、统计相似类特征和情感相似类特征作为评论观点的相似性特征;
所述训练模块,用于利用多分档的人工标注数据在评论观点的相似性特征空间训练出机器学习模型,作为评论观点相似性模型。
4.根据权利要求3所述的装置,其特征在于,还包括:
选择模块,用于在所述提取模块从所述评论观点相似句簇中提取能够代表句簇观点的中心句之后,从所述中心句中选择观点意义表达不矛盾的句子;
生成模块,用于根据所述选择模块选择的句子的情感倾向和评论维度,利用自然语言生成技术拼接成评论摘要。
CN201410743444.4A 2014-12-08 2014-12-08 评论点的展现方法和装置 Active CN104462363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410743444.4A CN104462363B (zh) 2014-12-08 2014-12-08 评论点的展现方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410743444.4A CN104462363B (zh) 2014-12-08 2014-12-08 评论点的展现方法和装置

Publications (2)

Publication Number Publication Date
CN104462363A CN104462363A (zh) 2015-03-25
CN104462363B true CN104462363B (zh) 2018-10-23

Family

ID=52908398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410743444.4A Active CN104462363B (zh) 2014-12-08 2014-12-08 评论点的展现方法和装置

Country Status (1)

Country Link
CN (1) CN104462363B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294373B (zh) * 2015-05-15 2020-03-10 阿里巴巴集团控股有限公司 评论信息回复方法及装置
WO2016191913A1 (en) 2015-05-29 2016-12-08 Microsoft Technology Licensing, Llc Systems and methods for providing a comment-centered news reader
CN104866592B (zh) * 2015-05-29 2018-09-07 百度在线网络技术(北京)有限公司 搜索引擎中摘要的展现方法和装置
CN105357586B (zh) * 2015-09-28 2018-12-14 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN106372208B (zh) * 2016-09-05 2019-07-12 东南大学 一种基于语句相似度的话题观点聚类方法
CN107807933A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 一种针对提问的回复方法和装置
CN106777236B (zh) * 2016-12-27 2020-11-03 北京百度网讯科技有限公司 基于深度问答的查询结果的展现方法和装置
CN107220352B (zh) 2017-05-31 2020-12-08 北京百度网讯科技有限公司 基于人工智能构建评论图谱的方法和装置
JP6622430B2 (ja) * 2017-06-16 2019-12-18 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
CN107609960A (zh) * 2017-10-18 2018-01-19 口碑(上海)信息技术有限公司 推荐理由生成方法及装置
CN107967260B (zh) * 2017-12-07 2021-09-14 东软集团股份有限公司 一种数据处理方法、设备、系统及计算机可读介质
CN110738046B (zh) * 2018-07-03 2023-06-06 百度在线网络技术(北京)有限公司 观点抽取方法及装置
CN108959643B (zh) * 2018-07-27 2021-09-17 北京创鑫旅程网络技术有限公司 生成标签的方法、装置、服务器和存储介质
CN109508370B (zh) * 2018-09-28 2022-07-08 北京百度网讯科技有限公司 评论抽取方法、设备和存储介质
CN109461037B (zh) * 2018-12-17 2022-10-28 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN109413484B (zh) * 2018-12-29 2022-05-10 咪咕文化科技有限公司 一种弹幕展示方法、装置及存储介质
CN111339295A (zh) * 2020-02-19 2020-06-26 北京字节跳动网络技术有限公司 用于展示信息的方法、装置、电子设备和计算机可读介质
CN111523923B (zh) * 2020-04-06 2023-09-29 北京三快在线科技有限公司 商家评论管理系统、方法、服务器及存储介质
CN112488087B (zh) * 2020-12-31 2021-08-17 上海德吾信息科技有限公司 一种基于增强现实的图像识别方法、云平台服务器及介质
CN113079244B (zh) * 2021-03-23 2022-09-09 北京字跳网络技术有限公司 应用程序的热点事件展示方法和电子设备
CN114880498B (zh) * 2022-07-11 2022-11-29 北京百度网讯科技有限公司 事件信息展示方法及装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN103365867A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统
CN103577452A (zh) * 2012-07-31 2014-02-12 国际商业机器公司 用于丰富网站内容的方法和装置、网站服务器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140250196A1 (en) * 2013-03-01 2014-09-04 Raymond Anthony Joao Apparatus and method for providing and/or for processing information regarding, relating to, or involving, defamatory, derogatory, harrassing, bullying, or other negative or offensive, comments, statements, or postings
CN104063497B (zh) * 2014-07-04 2018-03-06 百度在线网络技术(北京)有限公司 观点处理方法和装置以及搜索方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN103365867A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN103577452A (zh) * 2012-07-31 2014-02-12 国际商业机器公司 用于丰富网站内容的方法和装置、网站服务器
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统

Also Published As

Publication number Publication date
CN104462363A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462363B (zh) 评论点的展现方法和装置
CN104794212B (zh) 基于用户评论文本的上下文情感分类方法及分类系统
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN111783468B (zh) 文本处理方法、装置、设备和介质
CN112667940B (zh) 基于深度学习的网页正文抽取方法
CN106021572B (zh) 二元特征词典的构建方法和装置
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
CN107967258B (zh) 文本信息的情感分析方法和系统
Alsaqer et al. Movie review summarization and sentiment analysis using rapidminer
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN105975639B (zh) 搜索结果排序方法和装置
CN105574156B (zh) 文本聚类方法、装置及计算设备
CN109800418B (zh) 文本处理方法、装置和存储介质
CN109117470B (zh) 一种评价文本信息的评价关系提取方法及装置
Reganti et al. Modeling satire in English text for automatic detection
CN111177462B (zh) 视频分发时效的确定方法和装置
CN106569996B (zh) 一种面向中文微博的情感倾向分析方法
JP2021047817A (ja) 出力装置、及び出力プログラム
Selamat et al. Word-length algorithm for language identification of under-resourced languages
JP5373998B1 (ja) 辞書生成装置、方法、及びプログラム
CN104035955B (zh) 搜索方法和装置
Marujo et al. Hourly traffic prediction of news stories
CN111859962A (zh) 一种提取汽车口碑词云所需数据的方法及装置
CN111832313B (zh) 文本中情感搭配集合的生成方法、装置、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant