CN106021234A - 标签提取方法及系统 - Google Patents

标签提取方法及系统 Download PDF

Info

Publication number
CN106021234A
CN106021234A CN201610373301.8A CN201610373301A CN106021234A CN 106021234 A CN106021234 A CN 106021234A CN 201610373301 A CN201610373301 A CN 201610373301A CN 106021234 A CN106021234 A CN 106021234A
Authority
CN
China
Prior art keywords
word
adjective
comment
phrase
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610373301.8A
Other languages
English (en)
Inventor
徐子涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610373301.8A priority Critical patent/CN106021234A/zh
Publication of CN106021234A publication Critical patent/CN106021234A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种标签提取方法及系统,属于语言识别技术领域,能够实现更为准确的标签提取。该标签提取方法包括:从数据库中获取评论;标注所述评论中词语的词性;根据词性标注结果,提取每条评论中的关键词;基于所提取的关键词,生成包含该关键词的短语。本发明实施例可应用于复杂度较高的音乐、商品等事物的标签提取。

Description

标签提取方法及系统
技术领域
本发明涉及语言识别技术领域,具体而言,涉及一种标签提取方法及系统。
背景技术
随着信息技术的不断发展,各个类型的文本信息都开始以计算机可读的形式存在,许多领域的信息都呈现出爆炸式增长,因此如何在海量的信息当中,快速并准确的提取对用户有用的信息是一个重要的问题。标签提取就是一种解决上述问题的有效手段,标签是对文章、音乐、商品等事物信息的精炼,使用户能够方便、快捷的了解事物的重要信息,从而提高信息访问的效率。
目前,关于标签提取的技术主要包括关键词提取技术和情感分析技术。其中,关键词提取技术主要包括机器学习、词频计算、建立词关系树等;情感分析的方法分为基于统计分类和基于规则分类两种。
关键词提取技术主要应用于广告推荐、新闻阅读、论文索引等,适合进行大数据量文本的关键词提取,所提取出的关键词通常都是单独的词语。但很少涉及到提取短语级别的关键词,所以并不能解决复杂度较高的音乐、商品等事物中的标签提取问题。
情感分析依赖于构建情感词典,然而音乐、商品等事物的评论具有多样性,既可能包括情感词,也会包括其他无关情感的词汇。因此,情感分析由于其自身的局限性,也无法确保准提取出的标签的准确性。
发明内容
有鉴于此,本发明的目的在于提供一种标签提取方法及系统,能够实现更为准确的标签提取。
第一方面,本发明实施例提供了一种标签提取方法,包括:
从数据库中获取评论;
标注所述评论中词语的词性;
根据词性标注结果,提取每条评论中的关键词;
基于所提取的关键词,生成包含该关键词的短语。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述提取每条评论中的关键词,具体为:
对于每条评论,提取其中所有的形容词,作为关键词。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述基于所提取的关键词,生成包含该关键词的短语,具体包括:
提取形容词所在的字符串内的名词;
将所提取的名词与对应的形容词进行组合,生成短语。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基于所提取的关键词,生成包含该关键词的短语,具体包括:
提取形容词所在的字符串内的所有副词;
删除其中的多余副词;
将未删除的副词与对应的形容词进行组合,生成短语。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,该方法还包括:
将所生成的短语作为标签存入数据库中。
第二方面,本发明实施例还提供一种标签提取系统,包括:
获取模块,用于从数据库中获取评论;
标注模块,用于标注所述评论中词语的词性;
提取模块,用于根据词性标注结果,提取每条评论中的关键词;
生成模块,用于基于所提取的关键词,生成包含该关键词的短语。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述提取模块具体用于:
对于每条评论,根据词性标注结果,提取其中所有的形容词,作为关键词。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述生成模块具体用于:
提取形容词所在的字符串内的名词;
将所提取的名词与对应的形容词进行组合,生成短语。
结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述生成模块具体用于:
提取形容词所在的字符串内的所有副词;
删除其中的多余副词;
将未删除的副词与对应的形容词进行组合,生成短语。
结合第二方面,本发明实施例提供了第二方面的第四种可能的实施方式,其中,该系统还包括存入模块,用于将所生成的短语作为标签存入数据库中。
本发明带来了以下有益效果:本发明实施例提供的技术方案中,首先从数据库中获取对目标事物的全部评论,然后标注评论中每个词的词性。再根据词性标注的结果,提取每条评论中的关键词,通常是以其中的形容词作为关键词。最后,基于所提取出的形容词,生成包含有该形容词的短语,并以该短语作为目标事物的标签。综上所述,通过采用本发明实施例提供的技术方案,能够提取出短语形式的标签,因此对于复杂度较高的音乐、商品等事物,能够实现更为准确的标签提取。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的标签提取方法的流程图;
图2示出了本发明实施例所提供的标签提取系统的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的一种标签提取方法及系统,可以应用于复杂度较高的事物的标签提取,以实现更为准确的标签提取。
实施例一:
本发明实施例提供了一种标签提取方法,可应用于复杂度较高的音乐、商品等事物的标签提取。
本实施例中以音乐作为标签提取的目标。目前,基于已知音乐关键词的检索方法已不能满足数字化多媒体信息检索的需要,而基于内容的多媒体检索技术对设备及用户本身的要求又比较高,所以基于音乐情感的检索技术应运而生。论坛中带交互性的音乐评论是典型的音乐情感表达形式。从海量网络信息中得到音乐的情感等属性,并将结果合理地返回给依据情感搜索的用户是一个创新性的解决方案。
当然,在其他实施方式中,也可以将其他事物作为标签提取的目标。
如图1所示,该标签提取方法包括以下步骤:
S1:从数据库中获取评论。
针对标签提取的目标,也就是某一首乐曲,在数据库中获取关于该乐曲的所有评论。
上述的数据库可以仅仅是某一个交互性的评论平台的数据库。例如某一个音乐论坛中对于该乐曲的所有交互性的评论,或者某一个音乐播放器平台中对于该乐曲的所有交互性的评论。
此外,上述的数据库也可以包括多个交互性的评论平台中的数据库的汇总,或者说全网范围内所能访问的所有数据库。
S2:标注评论中词语的词性。
具体的,可以利用复旦自然语言处理模型包,标注所获取的评论中的词语的词性,将各个词语区分为名词、动词、形容词、副词等。
自然语言处理(Natural Language Processing,简称NLP)是计算机科学领域与人工智能领域中的一项重要技术,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一项融语言学、计算机科学、数学于一体的科学技术。因此,这一技术领域的研究涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般的对自然语言进行处理,而在于研制能有效实现自然语言通信的计算机系统,特别是其中的软件系统。
本实施例中采用的复旦自然语言处理模型包,主要是为中文自然语言处理而开发的工具包,也包含为实现以下功能的机器学习算法和数据集。复旦自然语言处理模型包能够实现的功能主要有:信息检索,包括文本分类、新闻聚类;中文处理,包括中文分词、词性标注、实体名识别、关键词抽取、依存句法分析、时间短语识别;结构化学习,包括在线学习、层次分类、聚类、精确推理,等等。
S3:根据词性标注结果,提取每条评论中的关键词。
具体的,对于每条评论,提取其中所有的形容词,作为关键词。
由于形容词在标签中占主导地位,所以本步骤中提取出形容词作为关键词。提取评论中的所有形容词,能够完整的提取出整条评论中的标签信息。
另外,还可以通过提取形容词来初步划分评论字符串,也就是以形容词作为划分评论字符串的基准,比如一个形容词与前一个形容词之间的文字即作为一个划分区域。
例如,在评论“买下了整张专辑,画质清晰,不过音效不好。”中,就可以提取并划分出“画质清晰”和“音效不好”两个划分区域。
S4:基于所提取的关键词,生成包含该关键词的短语。
具有代表性的短语标签,主要包括以下几种情况:①形容词,如“好听”;②一个或多个副词+形容词,如“不清晰”和“不太清晰”;③名词+形容词,如“旋律柔和”;④名词+一个或多个副词+形容词,如“音质很好”。其中,后三种情况都属于短语标签。
因此,在生成包含形容词的短语过程中,大部分情况是需要提取与形容词相关的名词和副词。
当需要提取名词时,本步骤中的提取方式如下:
首先提取形容词所在的评论字符串(划分区域)内的名词,一般情况下都是提取形容词之前的名词。同时,还要注意就近原则,也就是提取距离形容词最近的名词。然后将所提取的名词与对应的形容词进行组合,生成包含名词和形容词的短语。
例如,在评论“一直觉得他的歌很好听。”中,按照就近原则就可以提取并生成短语“歌很好听”,而避免生成短语“他很好听”的情况。
当需要提取副词时,本步骤中的提取方式如下:
首先提取形容词所在的字符串(划分区域)内的所有副词。对于副词的提取,包含多重副词和多余副词两种情况。对于多重副词的情况,由于词性标注工具的局限性,否定副词无法进行特殊判断,因此形容词前的副词需要重复多次提取出来,以区分“太好听”与“不太好听”这样的评论。
然后,针对多余副词的情况,删除其中的多余副词。多余副词主要是指转折副词、时间副词等,比如在评论“音质比较流畅,不过画面不太清晰。”中,就应通过判断副词“不过”的语义及其与形容词的相对位置,从而将其删除,不应当将其加入短语“画面不太清晰”中。
最后,将未删除的副词与对应的形容词进行组合,即可生成包含形容词和副词的短语。
以上只是描述了常见的提取与形容词相关的名词和副词的情况,但生成短语的过程中并不仅限于提取名词和副词,还有可能需要提取动词、数量词等其他词性的词语,其具体的提取方法与提取名词和副词的方法类似,此处不作赘述。
进一步的是,本发明实施例提供的标签提取方法还包括:
S5:将所生成的短语作为标签存入数据库中。
上述步骤S4中生成的短语即可作为标签存入数据库中,以便于用户根据标签提供的信息搜索音乐。
此外,在将标签存入数据库时,还需要注意重复标签的问题。具体的,可以通过字符串匹配的方式,避免添加重复的标签。
本发明实施例提供的标签提取方法中,首先从数据库中获取对目标乐曲的全部交互性的评论,然后标注评论中每个词的词性。再根据词性标注的结果,提取每条评论中的形容词,作为关键词,并初步划分评论字符串。然后基于所提取出的形容词,提取与该形容词相关的名词、副词等其他词性的词语。最后,将形容词和其他词性的词语进行组合或重组,生成包含有该形容词的短语,并以该短语作为目标乐曲的标签,存入数据库中。
综上所述,通过采用本发明实施例提供的标签提取方法,能够提取出短语形式的标签,因此对于复杂度较高的音乐、商品等事物,能够实现更为准确的标签提取。
实施例二:
本发明实施例还提供一种标签提取系统,可应用于复杂度较高的音乐、商品等事物的标签提取。本实施例中以音乐作为标签提取的目标,在其他实施方式中,也可以将其他事物作为标签提取的目标。
如图2所示,该标签提取系统包括获取模块1、标注模块2、提取模块3和生成模块4。
其中,获取模块1用于从数据库中获取评论。获取模块1针对标签提取的目标,也就是某一首乐曲,在数据库中获取关于该乐曲的所有交互性的评论。
标注模块2用于标注评论中词语的词性。具体的,可以在标注模块2中添加复旦自然语言处理模型包,并利用复旦自然语言处理模型包标注所获取的评论中的词语的词性,将各个词语区分为名词、动词、形容词、副词等。
本实施例中采用的复旦自然语言处理模型包,主要是为中文自然语言处理而开发的工具包,也包含为实现以下功能的机器学习算法和数据集。复旦自然语言处理模型包能够实现的功能主要有:信息检索,包括文本分类、新闻聚类;中文处理,包括中文分词、词性标注、实体名识别、关键词抽取、依存句法分析、时间短语识别;结构化学习,包括在线学习、层次分类、聚类、精确推理,等等。
提取模块3用于根据词性标注结果,提取每条评论中的关键词。具体的,提取模块3对于每条评论,提取其中所有的形容词,作为关键词。
由于形容词在标签中占主导地位,所以提取模块3提取出形容词作为关键词。提取评论中的所有形容词,能够完整的提取出整条评论中的标签信息。
另外,提取模块3还可以通过提取形容词来初步划分评论字符串,也就是以形容词作为划分评论字符串的基准,比如一个形容词与前一个形容词之间的文字即作为一个划分区域。
例如,在评论“买下了整张专辑,画质清晰,不过音效不好。”中,就可以提取并划分出“画质清晰”和“音效不好”两个划分区域。
生成模块4用于基于所提取的关键词,生成包含该关键词的短语。
具有代表性的短语标签,主要包括以下几种情况:①形容词,如“好听”;②一个或多个副词+形容词,如“不清晰”和“不太清晰”;③名词+形容词,如“旋律柔和”;④名词+一个或多个副词+形容词,如“音质很好”。其中,后三种情况都属于短语标签。
因此,在生成模块4生成包含形容词的短语过程中,大部分情况是需要提取与形容词相关的名词和副词。
当需要提取名词时,生成模块4的提取方式如下:
生成模块4首先提取形容词所在的评论字符串(划分区域)内的名词,一般情况下都是提取形容词之前的名词。同时,还要注意就近原则,也就是提取距离形容词最近的名词。然后生成模块4将所提取的名词与对应的形容词进行组合,生成包含名词和形容词的短语。
例如,在评论“一直觉得他的歌很好听。”中,按照就近原则就可以提取并生成短语“歌很好听”,而避免生成短语“他很好听”的情况。
当需要提取副词时,生成模块4的提取方式如下:
生成模块4首先提取形容词所在的字符串(划分区域)内的所有副词。对于副词的提取,包含多重副词和多余副词两种情况。对于多重副词的情况,由于词性标注工具的局限性,否定副词无法进行特殊判断,因此形容词前的副词需要重复多次提取出来,以区分“太好听”与“不太好听”这样的评论。
然后,针对多余副词的情况,删除其中的多余副词。多余副词主要是指转折副词、时间副词等,比如在评论“音质比较流畅,不过画面不太清晰。”中,就应通过判断副词“不过”的语义及其与形容词的相对位置,从而将其删除,不应当将其加入短语“画面不太清晰”中。
最后,生成模块4将未删除的副词与对应的形容词进行组合,即可生成包含形容词和副词的短语。
以上只是描述了常见的提取与形容词相关的名词和副词的情况,但生成短语的过程中并不仅限于提取名词和副词,还有可能需要提取动词、数量词等其他词性的词语,其具体的提取方法与提取名词和副词的方法类似,此处不作赘述。
进一步的是,本发明实施例提供的标签提取系统中还包括存入模块5,用于将所生成的短语作为标签存入数据库中。
生成模块4生成的短语即可作为标签,并由存入模块5存入数据库中,以便于用户根据标签提供的信息搜索音乐。
此外,在将标签存入数据库时,还需要注意重复标签的问题。具体的,存入模块5可以通过字符串匹配的方式,避免添加重复的标签。
本发明实施例提供的标签提取系统中,首先由获取模块1从数据库中获取对目标事物的全部交互性的评论,然后由标注模块2标注评论中每个词的词性。再由提取模块3根据词性标注的结果,提取每条评论中的形容词,作为关键词,并初步划分评论字符串。然后由生成模块4基于所提取出的形容词,提取与该形容词相关的名词、副词等其他词性的词语。最后,将形容词和其他词性的词语进行组合或重组,生成包含有该形容词的短语,并以该短语作为目标乐曲的标签,通过存入模块5存入数据库中。
综上所述,采用本发明实施例提供的标签提取系统,能够提取出短语形式的标签,因此对于复杂度较高的音乐、商品等事物,能够实现更为准确的标签提取。
本发明实施例中描述的功能,如果以软件功能单元的形式实现,并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种标签提取方法,其特征在于,包括:
从数据库中获取评论;
标注所述评论中词语的词性;
根据词性标注结果,提取每条评论中的关键词;
基于所提取的关键词,生成包含该关键词的短语。
2.根据权利要求1所述的标签提取方法,其特征在于,所述提取每条评论中的关键词,具体为:
对于每条评论,提取其中所有的形容词,作为关键词。
3.根据权利要求2所述的标签提取方法,其特征在于,所述基于所提取的关键词,生成包含该关键词的短语,具体包括:
提取形容词所在的字符串内的名词;
将所提取的名词与对应的形容词进行组合,生成短语。
4.根据权利要求2所述的标签提取方法,其特征在于,所述基于所提取的关键词,生成包含该关键词的短语,具体包括:
提取形容词所在的字符串内的所有副词;
删除其中的多余副词;
将未删除的副词与对应的形容词进行组合,生成短语。
5.根据权利要求1所述的标签提取方法,其特征在于,还包括:
将所生成的短语作为标签存入数据库中。
6.一种标签提取系统,其特征在于,包括:
获取模块,用于从数据库中获取评论;
标注模块,用于标注所述评论中词语的词性;
提取模块,用于根据词性标注结果,提取每条评论中的关键词;
生成模块,用于基于所提取的关键词,生成包含该关键词的短语。
7.根据权利要求6所述的标签提取系统,其特征在于,所述提取模块具体用于:
对于每条评论,根据词性标注结果,提取其中所有的形容词,作为关键词。
8.根据权利要求7所述的标签提取系统,其特征在于,所述生成模块具体用于:
提取形容词所在的字符串内的名词;
将所提取的名词与对应的形容词进行组合,生成短语。
9.根据权利要求7所述的标签提取系统,其特征在于,所述生成模块具体用于:
提取形容词所在的字符串内的所有副词;
删除其中的多余副词;
将未删除的副词与对应的形容词进行组合,生成短语。
10.根据权利要求6所述的标签提取系统,其特征在于,还包括存入模块,用于将所生成的短语作为标签存入数据库中。
CN201610373301.8A 2016-05-31 2016-05-31 标签提取方法及系统 Pending CN106021234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610373301.8A CN106021234A (zh) 2016-05-31 2016-05-31 标签提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610373301.8A CN106021234A (zh) 2016-05-31 2016-05-31 标签提取方法及系统

Publications (1)

Publication Number Publication Date
CN106021234A true CN106021234A (zh) 2016-10-12

Family

ID=57091580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610373301.8A Pending CN106021234A (zh) 2016-05-31 2016-05-31 标签提取方法及系统

Country Status (1)

Country Link
CN (1) CN106021234A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357777A (zh) * 2017-06-16 2017-11-17 北京神州泰岳软件股份有限公司 提取标签信息的方法和装置
CN109299460A (zh) * 2018-09-18 2019-02-01 北京三快在线科技有限公司 分析店铺的评价数据的方法、装置、电子设备及存储介质
CN109325121A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于确定文本的关键词的方法和装置
CN110188356A (zh) * 2019-05-30 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN111611461A (zh) * 2019-05-14 2020-09-01 北京精准沟通传媒科技股份有限公司 一种数据处理方法和装置
CN114936551A (zh) * 2022-04-28 2022-08-23 北京明朝万达科技股份有限公司 一种基于词义相似度的智能数据治理方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004164079A (ja) * 2002-11-11 2004-06-10 Just Syst Corp データ分析装置及び方法、並びにプログラム
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102591914A (zh) * 2010-12-03 2012-07-18 微软公司 标识文档内的关键短语
CN102714709A (zh) * 2010-01-21 2012-10-03 爱立信电视公司 通过媒体内容的上下文对准目标的广告
CN103268311A (zh) * 2012-11-07 2013-08-28 上海大学 基于事件结构的中文语句分析方法
CN104050156A (zh) * 2013-03-15 2014-09-17 富士通株式会社 用于提取最大名词短语的装置、方法以及电子设备
CN105069647A (zh) * 2015-07-30 2015-11-18 齐鲁工业大学 一种改进的抽取中文商品评论中评价对象的方法
CN105528410A (zh) * 2015-12-05 2016-04-27 浙江大学 一种对医院的在线评论进行归纳和分类的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004164079A (ja) * 2002-11-11 2004-06-10 Just Syst Corp データ分析装置及び方法、並びにプログラム
CN102714709A (zh) * 2010-01-21 2012-10-03 爱立信电视公司 通过媒体内容的上下文对准目标的广告
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102591914A (zh) * 2010-12-03 2012-07-18 微软公司 标识文档内的关键短语
CN103268311A (zh) * 2012-11-07 2013-08-28 上海大学 基于事件结构的中文语句分析方法
CN104050156A (zh) * 2013-03-15 2014-09-17 富士通株式会社 用于提取最大名词短语的装置、方法以及电子设备
CN105069647A (zh) * 2015-07-30 2015-11-18 齐鲁工业大学 一种改进的抽取中文商品评论中评价对象的方法
CN105528410A (zh) * 2015-12-05 2016-04-27 浙江大学 一种对医院的在线评论进行归纳和分类的方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357777A (zh) * 2017-06-16 2017-11-17 北京神州泰岳软件股份有限公司 提取标签信息的方法和装置
CN107357777B (zh) * 2017-06-16 2020-07-07 中科鼎富(北京)科技发展有限公司 提取标签信息的方法和装置
CN109325121A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于确定文本的关键词的方法和装置
CN109299460A (zh) * 2018-09-18 2019-02-01 北京三快在线科技有限公司 分析店铺的评价数据的方法、装置、电子设备及存储介质
CN111611461A (zh) * 2019-05-14 2020-09-01 北京精准沟通传媒科技股份有限公司 一种数据处理方法和装置
CN110188356A (zh) * 2019-05-30 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置
CN110188356B (zh) * 2019-05-30 2023-05-19 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN114936551A (zh) * 2022-04-28 2022-08-23 北京明朝万达科技股份有限公司 一种基于词义相似度的智能数据治理方法和系统

Similar Documents

Publication Publication Date Title
Kumar et al. Sentiment analysis of multimodal twitter data
Perone et al. Evaluation of sentence embeddings in downstream and linguistic probing tasks
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
Poria et al. Fusing audio, visual and textual clues for sentiment analysis from multimodal content
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN106021234A (zh) 标签提取方法及系统
CN104252533B (zh) 搜索方法和搜索装置
CN102880645B (zh) 语义化的智能搜索方法
Malandrakis et al. Distributional semantic models for affective text analysis
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN109376309A (zh) 基于语义标签的文档推荐方法和装置
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN112364624B (zh) 基于深度学习语言模型融合语义特征的关键词提取方法
Mukund et al. A vector space model for subjectivity classification in Urdu aided by co-training
Houjeij et al. A novel approach for emotion classification based on fusion of text and speech
CN116484808A (zh) 一种公文用可控文本生成方法及装置
Dey et al. Emotion extraction from real time chat messenger
Kong et al. Semantic analysis and organization of spoken documents based on parameters derived from latent topics
Das et al. Sentiment analysis: what is the end user's requirement?
CN111046168B (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
Jain et al. TexEmo: Conveying emotion from text-the study
CN102982072B (zh) 一种可视化概念检测器及构造语义场的方法
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication