CN103853746A - 词库生成方法及其系统、输入法及输入系统 - Google Patents

词库生成方法及其系统、输入法及输入系统 Download PDF

Info

Publication number
CN103853746A
CN103853746A CN201210503507.XA CN201210503507A CN103853746A CN 103853746 A CN103853746 A CN 103853746A CN 201210503507 A CN201210503507 A CN 201210503507A CN 103853746 A CN103853746 A CN 103853746A
Authority
CN
China
Prior art keywords
word
network
finder
vocabulary
boom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210503507.XA
Other languages
English (en)
Inventor
文能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feixun Data Communication Technology Co Ltd
Original Assignee
Shanghai Feixun Data Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feixun Data Communication Technology Co Ltd filed Critical Shanghai Feixun Data Communication Technology Co Ltd
Priority to CN201210503507.XA priority Critical patent/CN103853746A/zh
Publication of CN103853746A publication Critical patent/CN103853746A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了词库生成方法及其系统、输入法及输入系统。词库生成方法,包括:a)获取第一词汇集,第一词汇集具有至少一个常用词汇;b)获取第二词汇集,第二词汇集具有至少一个网络热词;c)将第二词汇集中的网络热词与第一词汇集中的常用词汇进行共现分析;以及d)根据共现分析结果将网络热词归类于相应的常用词汇中以生成第三词汇集。本发明所提出的词库生成方法及其系统、输入法及输入系统,可以提供输入网络热词的体验,从而增加了个性化。

Description

词库生成方法及其系统、输入法及输入系统
技术领域
本发明涉及文字输入领域,特别是涉及词库生成方法及其系统、输入法及输入系统。
背景技术
当前,为了体现输入法(如拼音输入法)的个性化,某些输入法中通过输入拼音,会对应显示相关的联想词汇或者符号,比如,通过搜狗拼音输入法输入“hehe”,会出现“呵呵”、“喝喝”、“赫赫”与“O(∩_∩)O~”,目前所出现的联想词汇通常是同音的词汇,如“呵呵”、“喝喝”、“赫赫”,或者符号,如“O(∩_∩)O~”。
热词,即热门词汇,一种词汇现象,反映了一个国家、一个地区在一个时期人们普遍关注的问题和事物,并具有时代特征,反映一个时期的热点话题及民生问题。而网络热词就是指网络上一个时期人们普遍关注的问题和事物形成的词汇,如“给力”、“杯具”、“我爸是李刚”等,伴随着互联网的发展,网络热词越来越流行,尤其受到当前的青年一代的喜好。
但是,目前的输入法,还未出现输入网络热词的相关体验。
发明内容
鉴于上述,有必要针对现有的未出现输入网络热词的相关体验的问题提出一种词库生成方法及其系统、输入法及输入系统。
本发明的一方面提出了一种词库生成方法,包括:
a)获取第一词汇集,所述第一词汇集具有至少一个常用词汇;
b)获取第二词汇集,所述第二词汇集具有至少一个网络热词;
c)将所述第二词汇集中的网络热词与所述第一词汇集中的常用词汇进行共现分析;以及
d)根据共现分析结果将所述网络热词归类于相应的所述常用词汇中以生成第三词汇集。
在其中一个实施方式中,步骤a)包括:
a1)按照第一预设周期搜集用户所使用的词汇;
a2)利用停用词表除去停用词汇以得到所述常用词汇;以及
a3)对所述常用词汇进行分类以形成所述第一词汇集。
在其中一个实施方式中,在步骤a2)后包括:
利用情感词汇表对所述常用词汇进行筛选以获取情感词汇;
判断所述情感词汇使用频率是否大于第一使用频率;
当所述情感词汇的使用频率大于第一使用频率时,则所述情感词汇为常用情感词汇;以及
对所述情感词汇进行分类。
在其中一个实施方式中,所述步骤b)包括:
b1)按照第二预设周期从用户生成内容(UGC)网站搜集文本;
b2)利用分词工具对所述文本进行分词;
b3)利用停用词表除去停用词汇以得到网络词汇;
b4)判断所述网络词汇使用频率是否大于第二使用频率;以及
b5)当所述网络词汇的使用频率大于第二使用频率时,则所述网络词汇为网络热词,并形成所述第二词汇集。
在其中一个实施方式中,所述步骤c)包括:
通过确定所述网络热词与所述常用词汇的共现指数来实现对所述网络热词与所述常用词汇的共现分析。
在其中一个实施方式中,所述步骤d)包括:
根据所述共现指数将所述网络热词归类于所述常用词汇中,并建立语义对应关系。
在其中一个实施方式中,所述步骤d)还包括:
将归类于同一常用词汇的所述网络热词按照所述共现指数高低进行排序。
在其中一个实施方式中,所述词库生成方法还包括步骤e):
实时扩展网络热词,以生成第四词汇集,所述第四词汇集具有至少一个实时网络热词,并将所述实时网络热词归类于所述第三词汇集中。
在其中一个实施方式中,所述步骤e)包括:
e1)按照第三预设周期搜集网络文本语料;
e2)从所述网络文本语料里随机抽取语料作为训练语料;
e3)对所述训练语料进行模型训练;
e4)生成模型文件;
e5)通过所述模型文件自动识别所述网络文本语料里除所述训练语料外的语料并生成所述第四词汇集;以及
e6)根据所述语义对应关系将所述第四词汇集中的实时网络热词归类于所述第三词汇集中。
在其中一个实施方式中,其中,所述模型训练的特征集包括所述语义对应关系、词性。
本发明的另一方面提出了一种词库生成系统,包括:
第一词汇集,具有至少一个常用词汇;
第二词汇集,具有至少一个网络热词;
词库生成模块,包括第三词汇集;
其中,所述词库生成模块,用以对所述网络热词与所述常用词汇进行共现分析,并根据共现分析结果将所述网络热词归类于相应的所述常用词汇中以生成第三词汇集。
在其中一个实施方式中,还包括实时网络热词扩展模块,用以实时扩展网络热词,包括:
训练模型,对从网络文本语料里随机抽取的训练语料进行训以生成模型文件;
第四词汇集,通过所述模型文件自动识别所述网络文本语料里除所述训练语料外的语料并生成所述第四词汇集。
在其中一个实施方式中,所述词库生成系统还包括:
词汇推送模块,用以对所述第三词汇集中的词汇进行推送。
本发明的又一方面提出了一种输入法,包括:
用户输入常用词汇;
根据用户所输入的常用词汇搜索相应的网络热词;
对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示;以及
选择所需网络热词。
本发明的再一方面提出了一种输入系统,包括:
输入模块,用以用户输入常用词汇;
搜索模块,用以根据用户所输入的常用词汇搜索相应的网络热词;
交互模块,用以对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示,并接收用户指令选择所需网络热词。
由上可知,本发明所提出的词库生成方法及其系统、输入法及输入系统,可以提供输入网络热词的体验,从而增加了个性化。
附图说明
图1绘示了本发明一实施方式的词库生成系统的框图;
图2绘示了本发明的另一实施方式的词库生成方法的示意图;
图3绘示了共现指数示意图;
图4绘示了本发明的又一实施方式的输入系统的框图;
图5绘示了本发明的再一实施方式的输入法的流程图。
 
具体实施方式
为了使本领域相关技术人员更好地理解本发明的技术方案,下面将结合本发明实施方式的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。
参照图1,图1绘示了本发明一实施方式的词库生成系统的框图。
如图1所示,词库生成系统100包括第一词汇集110、第二词汇集120、词库生成模块130、实时网络热词扩展模块140、词汇推送模块150。
第一词汇集110,具有至少一个常用词汇,这里的常用词汇可以是直接来源于词典,也可以来源于用户之前所使用的词汇。
第二词汇集120,具有至少一个网络热词。
词库生成模块130,包括第三词汇集132,其中,词库生成模块130,用以对网络热词与常用词汇进行共现分析,并根据共现分析结果将网络热词归类于相应的常用词汇中以生成第三词汇集132。
实时网络热词扩展模块140,用以实时扩展网络热词,包括训练模型142、第四词汇集144。
训练模型142,对从网络文本语料里随机抽取的训练语料进行训以生成模型文件;第四词汇集144,通过模型文件自动识别网络文本语料里除训练语料外的语料并生成第四词汇集144,并且,可以将第四词汇集144中的实时网络热词加载在第三词汇集132中。
词汇推送模块150,用以对第三词汇集132中的词汇进行推送,比如,推送至用户编辑文字的窗口。
参照图2,图2绘示了本发明的另一实施方式的词库生成方法的示意图。
下面结合图1、图2来对词库生成过程进行详细描述。
首先,获取第一词汇集110,第一词汇集110具有至少一个常用词汇,即获取用户的常用词汇,此常用词汇可以是直接来源于词典,也可以是来源于用户之前所使用的词汇记录里,并且可以对常用词汇进行分类。具体而言,按照第一预设周期,如一个月,搜集用户所使用的词汇;利用停用词表除去停用词汇以得到常用词汇;以及对常用词汇进行分类,比如按照感情色彩分类,从而形成第一词汇集110。
进一步地,当第一词汇集110包括的词汇是常用情感词汇时,则可以利用情感词汇表对常用词汇进行筛选以获取情感词汇(如高兴、带劲、激动、媲美、出众、郁闷、悲伤、差强人意等);判断情感词汇使用频率是否大于第一使用频率;当情感词汇的使用频率大于第一使用频率时,则情感词汇为常用情感词汇;以及对情感词汇进行分类,从而可以获得用户常用情感词汇分类集Mij(i=1,2,……,n;j=1,2,……,n)。
然后,获取第二词汇集120,第二词汇集120具有至少一个网络热词。
具体而言,按照第二预设周期,如一个月或一周,从用户生成内容(User Generated Content,UGC)网站搜集文本,如图2中的种子网络UGC,这里的种子网络UGC可以选择微博、论坛等;利用分词工具对文本进行分词;利用停用词表除去停用词汇以得到网络词汇;判断网络词汇使用频率是否大于第二使用频率;以及当网络词汇的使用频率大于第二使用频率时,则网络词汇为网络热词(如欧克、给力、白富美、高富帅、杯具、伤不起等),并形成网络热词集Nk(k=1,2,……,n)。
之后,将第二词汇集120中的网络热词与第一词汇集110中的常用词汇进行共现分析,通过确定网络热词与常用词汇的共现指数来实现对网络热词与常用词汇的共现分析。
如图3所示,网络热词N1,与常用词汇W11、W12、W13…W1n的共现指数分别为P1、P2、P3…Pn、关于共现指数的获取途径可参考下午中的例1。
继而,根据共现分析结果将网络热词归类于相应的常用词汇中以生成第三词汇集132,并建立语义对应关系,具体可参考下述。
微博,如新浪微博,作为时下最盛行最能够表达网友关注内容网络风向标媒体,其上发表的热点话题热点词汇等直接影响了人们对日常事物的抽象表达。因此,下面将以微博中的搜索为载体,将网络热词与用户常用情感词进行组合在微博中进行搜索,目的在于分析两个词汇出现在同一文本中的概率,将搜索得到的返回结果数作为两个词汇的共现指数,表示两个出现在同一文本中的文本数。
例1:
在微博中搜索后,网络热词“给力”、“杯具”、“伤不起”与用户常用词汇“高兴”、“郁闷”、“悲伤”的共现指数见下表:
高兴 郁闷 悲伤
给力 2,170,367 1,362,388 1,710,898
杯具 255,631 412,267 134,032
伤不起 350,571 653,471 600,153
表一
由表一可知,网络热词“给力”与“高兴”的共现指数最高,则将“给力”一词划分到“高兴”所在类别中;“杯具”、“伤不起”与“郁闷”的共现指数最高,则将“杯具”、“伤不起”划分到“郁闷”所在类别中。
将网络热词归类在相应的常用词汇中后,并建立语义对应关系,如建立“给力”与“高兴”的语义对应关系,并生成新的词库,即第三词汇集132,此时的第三词汇集不仅包括第一词汇集110中的用户常用词“高兴”,还包括与其相匹配的第二词汇集120中的网络热词“给力”,由于“高兴”与“给力”间具有相应的语义对应关系,则第三词汇集132也可以称之为语义对应关系词库。
需说明的是,上面主要叙述了通过在微博中搜索来确定网络热词与常用词汇间的共现指数,但并不以此为限,也可以在其它UGC网站,如社交网络Facebook、人人网等,比如论坛百度贴吧、天涯社区等。
此外,还可以将归类于同一常用词汇的网络热词按照共现指数高低进行排序,比如,“杯具”与“伤不起”都归类于“郁闷”中,但是 “伤不起”与“郁闷”的共现指数相对于“杯具”与“郁闷”的共现指数较高,因此,则可以将“杯具”排在前面,“伤不起”排在后面。
在本实施方式中,还可以实时扩展网络热词,以生成第四词汇集144,第四词汇集具有至少一个实时网络热词,并将实时网络热词归类于所述第三词汇集中。
如图2所示,按照第三预设周期,如每天或每周,搜集网络文本语料,从而形成网络文本语料集;从网络文本语料里随机抽取语料作为训练语料;对训练语料进行模型训练,如条件随机域(Conditional Random Fields,CRFs)模型训练;生成模型文件;通过模型文件自动识别网络文本语料里除训练语料外的语料并生成第四词汇集144,可以通过模型文件自动标注剩下的语料中的网络热词;并且,可根据语义对应关系将第四词汇集144中的实时网络热词归类于第三词汇集132中。
比如,当前,网络热词“给力”已经不流行了,网络上已经多使用其它网络热词,则此时可以通过模型训练获得该词,并将该词归类于“高兴”中。
在上述的模型训练的特征集可以是从语义对应关系词库中提供的语义对应关系,还可以是词性、如褒、贬、中性。
关于第四词汇集144,其相对于第二词汇集120,不仅可以包括实时的网络热词,并且,由于其来源的语料相对于第二词汇集120来源的语料多,如图2中所示,种子网络UGC仅为网络文本语料集的部分,而第四词库集144的语料来源是整个网络文本语料集,因此,第四词汇集144可以获取更多的网络热词,,从而达成了扩展网络热词。
参照图4,图4绘示了本发明的又一实施方式的输入系统的框图。
输入系统400,包括输入模块410、搜索模块420、交互模块430。
输入模块410,用以用户输入常用词汇,比如,用户输入“高兴”或“郁闷”。
搜索模块420,用以根据用户所输入的常用词汇搜索相应的网络热词,比如,根据用户所输入的常用词汇“高兴”,可搜索到网络热词“给力”,比如,根据用户所输入的常用词汇“郁闷”,可搜索到网络热词“杯具”、“伤不起”。
交互模块430,用以对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示,并接收用户指令选择所需网络热词。比如,当输入为“高兴”时,可依次显示“高兴”、“给力”,当输入“郁闷”时,可依次显示“郁闷”、“伤不起”、“杯具”,用户根据所需可选择所需的网络热词,如选择“给力”,以及选择“杯具”。
参照图5,图5绘示了本发明的再一实施方式的输入法的流程图。
首先,在步骤510中,用户输入常用词汇,比如,用户输入“高兴”或“郁闷”。
然后,在步骤520中,根据用户所输入的常用词汇搜索相应的网络热词,比如,根据用户所输入的常用词汇“高兴”,可搜索到网络热词“给力”,比如,根据用户所输入的常用词汇“郁闷”,可搜索到网络热词“杯具”、“伤不起”。
之后,在步骤530中,对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示,比如,当输入为“高兴”时,可依次显示“高兴”、“给力”,当输入“郁闷”时,可依次显示“郁闷”、“伤不起”、“杯具”(因“伤不起”与“郁闷”的共现指数相对于“杯具”与“郁闷”的共现指数较高)。
继而,在步骤540中,选择所需网络热词,比如,选择“给力”,以及选择“杯具”。
需说明的是,上述各实施方式,即词库生成系统、词库生成方法、输入法、输入系统,可以用于各种电子装置中,比如,个人计算机、手机、平板电脑、笔记本电脑,不以此为限,还可以用于其它电子装置中。
由上可知,本发明所提出的词库生成方法及其系统、输入法及输入系统,可以提供输入网络热词的体验,从而增加了个性化。
以上仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1. 一种词库生成方法,其特征在于,包括:
a)获取第一词汇集,所述第一词汇集具有至少一个常用词汇;
b)获取第二词汇集,所述第二词汇集具有至少一个网络热词;
c)将所述第二词汇集中的网络热词与所述第一词汇集中的常用词汇进行共现分析;以及
d)根据共现分析结果将所述网络热词归类于相应的所述常用词汇中以生成第三词汇集。
2. 根据权利要求1所述的词库生成方法,其特征在于,步骤a)包括:
a1)按照第一预设周期搜集用户所使用的词汇;
a2)利用停用词表除去停用词汇以得到所述常用词汇;以及
a3)对所述常用词汇进行分类以形成所述第一词汇集。
3. 根据权利要求2所述的词库生成方法,其特征在于,在步骤a2)后包括:
利用情感词汇表对所述常用词汇进行筛选以获取情感词汇;
判断所述情感词汇使用频率是否大于第一使用频率;
当所述情感词汇的使用频率大于第一使用频率时,则所述情感词汇为常用情感词汇;以及
对所述情感词汇进行分类。
4. 根据权利要求1所述的词库生成方法,其特征在于,所述步骤b)包括:
b1)按照第二预设周期从用户生成内容(UGC)网站搜集文本;
b2)利用分词工具对所述文本进行分词;
b3)利用停用词表除去停用词汇以得到网络词汇;
b4)判断所述网络词汇使用频率是否大于第二使用频率;以及
b5)当所述网络词汇的使用频率大于第二使用频率时,则所述网络词汇为网络热词,并形成所述第二词汇集。
5. 根据权利要求1所述的词库生成方法,其特征在于,所述步骤c)包括:
通过确定所述网络热词与所述常用词汇的共现指数来实现对所述网络热词与所述常用词汇的共现分析。
6. 根据权利要求5所述的词库生成方法,其特征在于,所述步骤d)包括:
根据所述共现指数将所述网络热词归类于所述常用词汇中,并建立语义对应关系。
7. 根据权利要求6所述的词库生成方法,其特征在于,所述步骤d)还包括:
将归类于同一常用词汇的所述网络热词按照所述共现指数高低进行排序。
8. 根据权利要求6所述的词库生成方法,其特征在于,还包括步骤e):
实时扩展网络热词,以生成第四词汇集,所述第四词汇集具有至少一个实时网络热词,并将所述实时网络热词归类于所述第三词汇集中。
9. 根据权利要求8所述的词库生成方法,其特征在于,所述步骤e)包括:
e1)按照第三预设周期搜集网络文本语料;
e2)从所述网络文本语料里随机抽取语料作为训练语料;
e3)对所述训练语料进行模型训练;
e4)生成模型文件;
e5)通过所述模型文件自动识别所述网络文本语料里除所述训练语料外的语料并生成所述第四词汇集;以及
e6)根据所述语义对应关系将所述第四词汇集中的实时网络热词归类于所述第三词汇集中。
10. 根据权利要求9所述的词库生成方法,其特征在于,其中,所述模型训练的特征集包括所述语义对应关系、词性。
11. 一种词库生成系统,其特征在于,包括:
第一词汇集,具有至少一个常用词汇;
第二词汇集,具有至少一个网络热词;
词库生成模块,包括第三词汇集;
其中,所述词库生成模块,用以对所述网络热词与所述常用词汇进行共现分析,并根据共现分析结果将所述网络热词归类于相应的所述常用词汇中以生成第三词汇集。
12. 根据权利要求11所述的词库生成系统,其特征在于,还包括实时网络热词扩展模块,用以实时扩展网络热词,包括:
训练模型,对从网络文本语料里随机抽取的训练语料进行训以生成模型文件;
第四词汇集,通过所述模型文件自动识别所述网络文本语料里除所述训练语料外的语料并生成所述第四词汇集。
13. 根据权利要求11所述的词库生成系统,其特征在于,还包括:
词汇推送模块,用以对所述第三词汇集中的词汇进行推送。
14. 一种输入法,其特征在于,包括:
用户输入常用词汇;
根据用户所输入的常用词汇搜索相应的网络热词;
对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示;以及
选择所需网络热词。
15. 一种输入系统,其特征在于,包括:
输入模块,用以用户输入常用词汇;
搜索模块,用以根据用户所输入的常用词汇搜索相应的网络热词;
交互模块,用以对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示,并接收用户指令选择所需网络热词。
CN201210503507.XA 2012-12-01 2012-12-01 词库生成方法及其系统、输入法及输入系统 Pending CN103853746A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210503507.XA CN103853746A (zh) 2012-12-01 2012-12-01 词库生成方法及其系统、输入法及输入系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210503507.XA CN103853746A (zh) 2012-12-01 2012-12-01 词库生成方法及其系统、输入法及输入系统

Publications (1)

Publication Number Publication Date
CN103853746A true CN103853746A (zh) 2014-06-11

Family

ID=50861413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210503507.XA Pending CN103853746A (zh) 2012-12-01 2012-12-01 词库生成方法及其系统、输入法及输入系统

Country Status (1)

Country Link
CN (1) CN103853746A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408102A (zh) * 2014-11-19 2015-03-11 北京国双科技有限公司 用于网络热词与对象的关联度的数据处理方法和装置
CN105824976A (zh) * 2016-04-20 2016-08-03 努比亚技术有限公司 一种优化分词库的方法和装置
CN106126500A (zh) * 2016-06-22 2016-11-16 广东亿迅科技有限公司 一种关联热词的统计方法
CN107436896A (zh) * 2016-05-26 2017-12-05 北京搜狗科技发展有限公司 一种输入推荐方法、装置及电子设备
CN108874869A (zh) * 2018-04-24 2018-11-23 中国地质大学(武汉) 一种基于数据协同的地质分类词库的建立方法
CN110286775A (zh) * 2018-03-19 2019-09-27 北京搜狗科技发展有限公司 一种词库管理方法及装置
CN111158497A (zh) * 2019-11-15 2020-05-15 西安海的电子科技有限公司 一种输入法的常用词词库识别方法
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕红良: "基于大规模语料库的中文新词识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408102A (zh) * 2014-11-19 2015-03-11 北京国双科技有限公司 用于网络热词与对象的关联度的数据处理方法和装置
CN104408102B (zh) * 2014-11-19 2017-11-21 北京国双科技有限公司 用于网络热词与对象的关联度的数据处理方法和装置
CN105824976A (zh) * 2016-04-20 2016-08-03 努比亚技术有限公司 一种优化分词库的方法和装置
CN107436896A (zh) * 2016-05-26 2017-12-05 北京搜狗科技发展有限公司 一种输入推荐方法、装置及电子设备
CN106126500A (zh) * 2016-06-22 2016-11-16 广东亿迅科技有限公司 一种关联热词的统计方法
CN106126500B (zh) * 2016-06-22 2019-02-22 广东亿迅科技有限公司 一种关联热词的统计方法
CN110286775A (zh) * 2018-03-19 2019-09-27 北京搜狗科技发展有限公司 一种词库管理方法及装置
CN108874869A (zh) * 2018-04-24 2018-11-23 中国地质大学(武汉) 一种基于数据协同的地质分类词库的建立方法
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111309999B (zh) * 2018-12-11 2023-05-16 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111158497A (zh) * 2019-11-15 2020-05-15 西安海的电子科技有限公司 一种输入法的常用词词库识别方法

Similar Documents

Publication Publication Date Title
CN103853746A (zh) 词库生成方法及其系统、输入法及输入系统
Mossie et al. Social network hate speech detection for Amharic language
Sahayak et al. Sentiment analysis on twitter data
Mishra et al. Sentiment analysis of Twitter data: Case study on digital India
Gräbner et al. Classification of customer reviews based on sentiment analysis
CN101599071B (zh) 对话文本主题的自动提取方法
Al-Kabi et al. An opinion analysis tool for colloquial and standard Arabic
CN104933152A (zh) 命名实体识别方法及装置
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
Kaibi et al. A comparative evaluation of word embeddings techniques for twitter sentiment analysis
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN103268313A (zh) 一种自然语言的语义解析方法及装置
CN102279890A (zh) 基于微博的情感词提取收集方法
CN108009297B (zh) 基于自然语言处理的文本情感分析方法与系统
CN104794161A (zh) 对网络舆情监控的方法
Shekhawat Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach
CN110990587B (zh) 基于主题模型的企业关系发现方法及系统
Ali et al. Banglasenti: A dataset of bangla words for sentiment analysis
Yao et al. Online deception detection refueled by real world data collection
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.
CN103823868A (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
Walha et al. A Lexicon approach to multidimensional analysis of tweets opinion
Sharma et al. Lexicon a linguistic approach for sentiment classification
Kaur et al. Sentiment detection from Punjabi text using support vector machine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140611

RJ01 Rejection of invention patent application after publication