CN103902619B - 一种网络舆情监控方法及系统 - Google Patents

一种网络舆情监控方法及系统 Download PDF

Info

Publication number
CN103902619B
CN103902619B CN201210586811.5A CN201210586811A CN103902619B CN 103902619 B CN103902619 B CN 103902619B CN 201210586811 A CN201210586811 A CN 201210586811A CN 103902619 B CN103902619 B CN 103902619B
Authority
CN
China
Prior art keywords
text
translation
analyzed
languages
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210586811.5A
Other languages
English (en)
Other versions
CN103902619A (zh
Inventor
韩金宇
孙少陵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201210586811.5A priority Critical patent/CN103902619B/zh
Publication of CN103902619A publication Critical patent/CN103902619A/zh
Application granted granted Critical
Publication of CN103902619B publication Critical patent/CN103902619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种网络舆情监控方法及系统,该方法包括:采集待分析文本;检测所述待分析文本的语种,提取所述待分析文本的特征词;根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度,从而得到与基准语言热点舆情相关的其他语种的网络舆情信息,使得网络舆情监控的范围不再局限于基准语言的范围,提高网络舆情监控的有效性和广泛性。

Description

一种网络舆情监控方法及系统
技术领域
本发明涉及通信网络技术领域,尤其涉及一种网络舆情监控方法及系统。
背景技术
随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的第四媒体,互联网成为反映社会舆情的主要载体之一。网络舆情是指,因各种事件的刺激而产生的,通过互联网传播的,人们对于该事件的所有认知、态度、情感和行为倾向的集合。网络舆情表达快捷、信息多元、形成迅速,方式互动,具备传统媒体无法比拟的优势,且对社会影响巨大。互联网环境下的舆情信息的主要来源有:新闻评论、BBS(BulletinBoard System,电子公告牌系统)、博客、聚合新闻(RSS)。
由于互联网具有“下情上达”的特点,一方面为人们获取信息提供了快捷的途径,但随之带来的是对政治安全和文化安全的严重威胁。传统的网络舆情监控方案通常是对本国家语言的舆情监控,具有局限性,无法获知其他国家对热点舆情的相关信息,使得网络舆情监控的效果大打折扣。也无法获知涉及国际事件的热点舆情在相关国家的舆情信息,不能为管理决策提供更有效的参考依据。
因此,亟需一种网络舆情监控方案出现,用以解决上述技术问题。
发明内容
本发明实施例提供了一种网络舆情监控方法及系统,用以获取与基准语言热点舆情相关的其他语种语言的舆情信息,提高网络舆情监控的有效性和广泛性。
为了实现上述目的,本发明实施例采用以下技术手段:
本发明实施例提供一种网络舆情监控方法,所述方法包括:
采集待分析文本;
检测所述待分析文本的语种,提取所述待分析文本的特征词;
根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;
计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度。
本发明实施例还提供一种网络舆情监控系统,包括:
采集模块,用于采集待分析文本;
语种检测模块,用于检测所述待分析文本的语种;
特征词提取模块,用于提取所述待分析文本的特征词;
翻译模块,用于根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言的语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;
舆情分析模块,用于计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度。
与现有技术相比,本发明的上述实施例具有以下有益技术效果:
本发明实施例提供的网络舆情监控方案,在采集待分析文本后,检测待分析文本的语种,提取待分析文本的特征词,查询相应的翻译词典获得待分析文本的特征词在基准语言中的译文,并计算基准语言热点舆情与待分析文本的特征词在基准语言中的译文的相似度,确定待分析文本与基准语言热点舆情的相关度,从而得到与基准语言热点舆情相关的其他语种的网络舆情信息,使得网络舆情监控的范围不再局限于基准语言的范围,提高网络舆情监控的有效性和广泛性。
附图说明
图1为本发明实施例提供的网络舆情监控流程示意图;
图2为本发明实施例提供的提取特征词的流程示意图;
图3为本发明实施例提供的网络舆情监控系统的结构示意图。
具体实施方式
针对现有技术存在的上述问题,本发明实施例提供了一种网络舆情监控方案,用以获取与基准语言热点舆情相关的其他语种语言的舆情信息,提高网络舆情监控的有效性和广泛性。下面结合附图对本发明实施例进行详细描述。
在本发明实施例提供的网络舆情监控系统中存储有翻译词典,翻译词典用于存储词条与该词条在不同语种中的译文之间的对应关系。翻译词典可以为提取的待分析文本特征词提供对应的基准语种的译文,作为与基准热点舆情相似度计算和判断的依据。
以下结合图1,详细说明网络舆情监控流程,如图所示,该流程包括以下步骤:
步骤101,网络舆情监控系统采集待分析文本。
具体的,网络舆情监控系统可以通过普通网页、动态网页、论坛评论、搜索引擎等渠道,采集网络文本,网络文本的采集获取方式属于现有技术,在此不再赘述。
进一步的,网络舆情监控系统还可以确定网络文本的类别,并判断所采集到的网络文本的类别与基准语言热点舆情的类别是否相同,若相同,则将该网络文本确定为待分析文本。
网络舆情监控系统可以根据文本内容对网络文本进行分类,确定出网络文本的类别。例如,网络文本的类别可以包括:军事、健康、政治、文化等。网络舆情监控系统可以采用SVM(Support Vector Machine,支持向量机)算法,对网络文本进行分类,确定出网络文本的类别。网络文本类别的确定也可以采用其他能够实现文本分类目的其他方式实现,上述确定网络文本类别的具体实现方式属于现有技术,在此不再赘述。
基准语言热点舆情是网络舆情监控系统利用现有技术获取的,在此不再赘述。
通过上述处理,网络舆情监控系统可以获取与基准语言热点舆情分类相同的网络文本,作为待分析文本,将不相关类别的网络文本排除,避免对不相关网络文本进行相关度的判断,避免网络舆情监控系统资源浪费,提高网络舆情监控的处理速度。
步骤102,网络舆情监控系统检测待分析文本的语种。
具体的,网络舆情监控系统可通过识别待分析文本的字符编码,检测出文本的语种。文本语种检测的实现方式属于现有技术,在此不再赘述。
步骤103,网络舆情监控系统提取待分析文本的特征词。
特征词用以表征文本的主要信息,网络舆情监控系统可以在检测出待分析文本的语种之后,按照相应语种语言的语法,对待分析文本进本特征词的提取。提取特征词的流程会在后续做进一步详细说明。
步骤104,网络舆情监控系统根据待分析文本的特征词,查询待分析文本的语种到基准语言的语种的翻译词典,得到待分析文本的特征词在基准语言中的译文。
具体的,网络舆情监控系统可以根据待分析文本的语种,确定出待分析文本的语种到基准语言的语种的翻译词典,并根据待分析文本的特征词,查询确定出的翻译词典,得到待分析文本的特征词在基准语言中的译文。通过双语的翻译词典,对待分析文本特征词进行直译,以获得同一语言序列,其直译过程为一一对应的直接映射。
步骤105,网络舆情监控系统计算基准语言热点舆情与待分析文本的特征词在基准语言中的译文的相似度。
具体的,同一语言序列的基础上,网络舆情监控系统对待分析文本的特征词的相应译文和基准语言热点舆情进行相似度计算,相似度计算可以采用现有算法实现,在此不再赘述。
相似度可以依据网络舆情监控系统中的同义词表、上下位词表、领域词表等进行判断。
步骤106,网络舆情监控系统根据计算出的相似度,确定待分析文本与基准语言热点舆情的相关度。
具体的,待分析文本与基准语言热点舆情的相关度可以通过(0,1)内的浮点数表示,并将该浮点数大于等于预设阈值的待分析文本确定为与热点舆情相关的文本。
需要指出的是,在上述络舆情监控流程中,步骤102与步骤103的顺序不限。
在上述流程的步骤103中,网络舆情监控系统提取网络文本特征词的流程如图2所示,可以包括以下步骤:
步骤201,网络舆情监控系统对待分析文本断句,并对断句生成的句子分词,得到词串。
步骤202,网络舆情监控系统根据词串的词频、词长、词性权重、在文本中的段落分布,计算词串权重。
具体的,网络舆情监控系统可根据以下公式计算词串权重:
词串权重=词串的词频*词串的词长*词串分布的段落数量*词串的词性权重;
其中,词串的词频为该词串在文本中出现的次数,由至少2个词所组成的词串的词频,根据各个词的词频和词串的词频加权计算获得。例如,词串“中国南海”由“中国”和“南海”2个词组成,“中国”的词频为8次,“南海”的词频为6次,加权计算得到“中国南海”的词频为4次,作为词串“中国南海”的词频。虽然词串“中国南海”的词频为比“中国”和“南海”出现的频次要少很多,但比单独的词更能体现待分析文本的主要信息和主题。
词串的词长为去除禁用词后的词串包含的字数,禁用词为禁用词表中包含的词,禁用词表可预先配置于网络舆情监控系统中。
词串的词性权重根据该词串所包含词的词性权重相关,可以对词串所包含词的词性权重加权获得,或者,将词串所包含词的词性权重的最大值作为该词串的词性权重。
步骤203,网络舆情监控系统将词串权重高于预设阈值的词串确定为待分析文本的特征词。
由于待分析文本的特征词在基准语言中的译文,是确定待分析文本与基准语言热点舆情相关度的基础,为了保证确定出的网络舆情信息的准确性,需要完善和更新翻译词典。本发明实施例提供的网络舆情监控方法还包括翻译词典的更新流程,该流程可按照设定周期执行,也可根据指令执行。该流程包括以下步骤:
网络舆情监控系统对第一语种的网络文本进行N元文法分词,得到词串,并统计各词串的词频。
网络舆情监控系统将词频低于预设阈值的词串过滤掉,并将剩余词串中存在于过滤词表中的词串过滤掉,得到新词候选词。具体的,网络舆情监控系统将得到的词串词频与预设阈值相比较,过滤掉低于该阈值的词串,将词频大于或等于阈值的词串保留之后,利用过滤词表进行过滤,并将经过过滤词表过滤的词串作为新词候选词串。
优选的,在得到新词候选词串之后,还可以由人工筛查新词候选词,将不符合规则的词串放入过滤词表中,以便后续根据该过滤此表过滤文本词串。所述规则可以包括:词串构成规则、禁用词规则、词串词性规则等,其中,词串构成规则用于规定组成词串开头、结尾的词的类型;禁用词规则通过设置禁用词表实现,禁用词表用于规定词串的开头和结尾的禁用词。
网络舆情监控系统在各翻译词典中查找新词候选词串的译文,如果在第一语种到第二语种的翻译词典中未查找到译文,但在第一语种到第三语种的翻译词典中查找到译文,则根据第三语种到第二语种的翻译词典查找该译文的在第二语种中的译文,将所述在第二语种中的译文与第一语种的所述词串,作为新的词条添加到第一语种到第二语种的翻译词典中。
例如,第一语种为中文,第二语种为英文,第三语种为日文,当网络舆情监控系统对中文网页进行分词得到中文词串,经过词频过滤以及过滤词表的过滤之后,得到中文词串a,作为新词候选词串。若在中-英翻译词典中未查找到对应的英文译文,但在中-日翻译词典中查找到对应的日文译文a’,则根据日文译文a’在日-英翻译词典中查找,若查找到对应的英文译文a”,则将英文译文a”作为词串a的译文(新的词条),添加到中-英翻译词典中。
网络舆情监控系统通过翻译词典的更新流程可以发现并获取新词和实效性词,并将某一语种的新词,扩展到其他语种当中,为跨语言的网络舆情监控提供完善的后台数据,提高跨语言网络舆情监控的正确性和广泛性。
通过上述网络舆情监控流程可以看出,本发明实施例提供的网络舆情监控方案,在采集待分析文本后,检测待分析文本的语种,提取待分析文本的特征词,查询相应的翻译词典获得待分析文本的特征词在基准语言中的译文,并计算基准语言热点舆情与待分析文本的特征词在基准语言中的译文的相似度,确定待分析文本与基准语言热点舆情的相关度,从而得到与基准语言热点舆情相关的其他语种的网络舆情信息,使得网络舆情监控的范围不再局限于基准语言的范围,提高网络舆情监控的有效性和广泛性。
基于相同的技术构思,本发明实施例还提供了一种网络舆情监控系统,如图3所示,该系统包括:
采集模块31,用于采集待分析文本。
语种检测模块32,用于检测所述待分析文本的语种。
特征词提取模块33,用于提取所述待分析文本的特征词。
翻译模块34,用于根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言的语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文。
舆情分析模块35,用于计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度。
采集模块31具体用于,采集网络文本,确定所述网络文本的类别,并判断所述网络文本的类别与基准语言热点舆情的类别是否相同,若相同,则将所述网络文本确定为待分析文本。
特征词提取模块33具体用于,对所述待分析文本进行分词,得到词串,根据所述词串的词频、词长、词性权重、在文本中的段落分布,计算词串权重,并将词串权重高于预设阈值的词串确定为所述待分析文本的特征词。
特征词提取模块33具体用于,根据以下公式计算词串权重:
词串权重=词串的词频*词串的词长*词串分布的段落数量*词串的词性权重。
该网络舆情监控系统还包括词典更新模块36,词典更新模块36用于,对第一语种的文本进行分词,得到词串,统计各词串的词频;将词频低于预设阈值的词串过滤掉,并将剩余词串中存在于过滤词表中的词串过滤掉,得到新词候选词串;对于每个新词候选词串执行以下操作:在各翻译词典中查找该词串的译文,如果在第一语种到第二语种的翻译词典中未查找到译文,但在第一语种到第三语种的翻译词典中查找到译文,则根据第三语种到第二语种的翻译词典查找该译文的在第二语种中的译文,将所述在第二语种中的译文与第一语种的所述词串,作为新的词条添加到第一语种到第二语种的翻译词典中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (6)

1.一种网络舆情监控方法,其特征在于,包括:
采集待分析文本;
检测所述待分析文本的语种,提取所述待分析文本的特征词;
根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;
计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度;其中,所述采集待分析文本,具体包括:
采集网络文本,确定所述网络文本的类别;
判断所述网络文本的类别与基准语言热点舆情的类别是否相同,若相同,则将所述网络文本确定为待分析文本;
所述网络文本是通过普通网页、动态网页、论坛评论、搜索引擎渠道中采集得到;提取所述待分析文本的特征词,具体包括:
对所述待分析文本进行分词,得到词串;
根据所述词串的词频、词长、词性权重、在文本中的段落分布,计算词串权重;
将词串权重高于预设阈值的词串确定为所述待分析文本的特征词;
所述词串是从待分析文本断句中生成的句子分词,且词串至少由2个词所组成。
2.如权利要求1所述的方法,其特征在于,根据以下公式计算词串权重:
词串权重=词串的词频*词串的词长*词串分布的段落数量*词串的词性权重。
3.如权利要求1-2任一项所述的方法,其特征在于,该方法还包括更新翻译词典的步骤,更新翻译词典的步骤包括:
对第一语种的文本进行分词,得到词串,统计各词串的词频;
将词频低于预设阈值的词串过滤掉,并将剩余词串中存在于过滤词表中的词串过滤掉,得到新词候选词串;
对于每个新词候选词串执行以下操作:在各翻译词典中查找该词串的译文;如果在第一语种到第二语种的翻译词典中未查找到译文,但在第一语种到第三语种的翻译词典中查找到译文,则根据第三语种到第二语种的翻译词典查找该译文的在第二语种中的译文,将所述在第二语种中的译文与第一语种的所述词串,作为新的词条添加到第一语种到第二语种的翻译词典中。
4.一种网络舆情监控系统,其特征在于,包括:
采集模块,用于采集待分析文本;
语种检测模块,用于检测所述待分析文本的语种;
特征词提取模块,用于提取所述待分析文本的特征词;
翻译模块,用于根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言的语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;
舆情分析模块,用于计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度;
其中,所述采集模块具体用于,采集网络文本,确定所述网络文本的类别,并判断所述网络文本的类别与基准语言热点舆情的类别是否相同,若相同,则将所述网络文本确定为待分析文本;
所述网络文本是通过普通网页、动态网页、论坛评论、搜索引擎渠道中采集得到;所述特征词提取模块具体用于,对所述待分析文本进行分词,得到词串,根据所述词串的词频、词长、词性权重、在文本中的段落分布,计算词串权重,并将词串权重高于预设阈值的词串确定为所述待分析文本的特征词;
所述词串是从待分析文本断句中生成的句子分词,且词串至少由2个词所组成。
5.如权利要求4所述的系统,其特征在于,所述特征词提取模块具体用于,根据以下公式计算词串权重:
词串权重=词串的词频*词串的词长*词串分布的段落数量*词串的词性权重。
6.如权利要求4-5任一项所述的系统,其特征在于,还包括:词典更新模块;所述词典更新模块用于,对第一语种的文本进行分词,得到词串,统计各词串的词频;将词频低于预设阈值的词串过滤掉,并将剩余词串中存在于过滤词表中的词串过滤掉,得到新词候选词串;对于每个新词候选词串执行以下操作:在各翻译词典中查找该词串的译文,如果在第一语种到第二语种的翻译词典中未查找到译文,但在第一语种到第三语种的翻译词典中查找到译文,则根据第三语种到第二语种的翻译词典查找该译文的在第二语种中的译文,将所述在第二语种中的译文与第一语种的所述词串,作为新的词条添加到第一语种到第二语种的翻译词典中。
CN201210586811.5A 2012-12-28 2012-12-28 一种网络舆情监控方法及系统 Active CN103902619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210586811.5A CN103902619B (zh) 2012-12-28 2012-12-28 一种网络舆情监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210586811.5A CN103902619B (zh) 2012-12-28 2012-12-28 一种网络舆情监控方法及系统

Publications (2)

Publication Number Publication Date
CN103902619A CN103902619A (zh) 2014-07-02
CN103902619B true CN103902619B (zh) 2018-10-23

Family

ID=50993947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210586811.5A Active CN103902619B (zh) 2012-12-28 2012-12-28 一种网络舆情监控方法及系统

Country Status (1)

Country Link
CN (1) CN103902619B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133631B (zh) * 2014-07-28 2017-09-05 步步高教育电子有限公司 一种从锁屏界面快速开启应用的方法和装置
CN105893368A (zh) * 2014-11-19 2016-08-24 北京航天长峰科技工业集团有限公司 多语种网络舆情分析方法
CN106227772A (zh) * 2016-07-15 2016-12-14 合肥指南针电子科技有限责任公司 一种基于语义分析的舆情监控系统
CN107632986B (zh) * 2016-07-18 2021-04-06 阿里巴巴集团控股有限公司 搜索方法及装置
CN109582801A (zh) * 2018-11-30 2019-04-05 武汉推杰网络科技有限公司 一种基于情感分析在线热点事件跟踪及分析的方法
CN110196910B (zh) * 2019-05-30 2022-02-15 珠海天燕科技有限公司 一种语料分类的方法及装置
CN111046650A (zh) * 2019-12-09 2020-04-21 中国传媒大学 基于元素共现的网络舆情自动识别技术
CN113743131A (zh) * 2020-05-28 2021-12-03 腾讯科技(深圳)有限公司 电子邮件的翻译方法、装置和计算机设备
CN113392195B (zh) * 2021-02-25 2023-07-28 中国人民解放军战略支援部队信息工程大学 舆情监测方法及装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN102117339A (zh) * 2011-03-30 2011-07-06 曹晓晶 针对不安全网页文本的过滤监管方法
CN102253973A (zh) * 2011-06-14 2011-11-23 清华大学 汉英跨语言新闻话题检测方法及系统
CN102521402A (zh) * 2011-12-23 2012-06-27 上海电机学院 文本过滤系统及方法
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN102117339A (zh) * 2011-03-30 2011-07-06 曹晓晶 针对不安全网页文本的过滤监管方法
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN102253973A (zh) * 2011-06-14 2011-11-23 清华大学 汉英跨语言新闻话题检测方法及系统
CN102521402A (zh) * 2011-12-23 2012-06-27 上海电机学院 文本过滤系统及方法

Also Published As

Publication number Publication date
CN103902619A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103902619B (zh) 一种网络舆情监控方法及系统
CN107451126B (zh) 一种近义词筛选方法及系统
KR101737887B1 (ko) 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
CN104504150B (zh) 新闻舆情监测系统
CN107291783B (zh) 一种语义匹配方法及智能设备
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN107491435B (zh) 基于计算机自动识别用户情感的方法及装置
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和系统
CN104881458B (zh) 一种网页主题的标注方法和装置
CN103313248B (zh) 一种识别垃圾信息的方法和装置
JP2005085285A5 (zh)
CN103150432A (zh) 一种网络舆情分析方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN102737039A (zh) 索引建立方法、搜索方法和搜索结果排序方法及对应装置
CN108038099B (zh) 基于词聚类的低频关键词识别方法
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN102855317A (zh) 一种基于演示视频的多模式索引方法及系统
CN110825998A (zh) 一种网站识别方法及可读存储介质
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN110399606A (zh) 一种无监督电力文档主题生成方法及系统
CN109471932A (zh) 基于学习模型的谣言检测方法、系统及存储介质
CN104281694A (zh) 一种文本情感倾向分析系统
CN109634436A (zh) 输入法的联想方法、装置、设备及可读存储介质
CN107506349A (zh) 一种基于网络日志的用户负面情绪预测方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant