CN109783649B - 一种领域词典生成方法及装置 - Google Patents

一种领域词典生成方法及装置 Download PDF

Info

Publication number
CN109783649B
CN109783649B CN201910002132.0A CN201910002132A CN109783649B CN 109783649 B CN109783649 B CN 109783649B CN 201910002132 A CN201910002132 A CN 201910002132A CN 109783649 B CN109783649 B CN 109783649B
Authority
CN
China
Prior art keywords
character
dictionary
queue
text
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910002132.0A
Other languages
English (en)
Other versions
CN109783649A (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910002132.0A priority Critical patent/CN109783649B/zh
Publication of CN109783649A publication Critical patent/CN109783649A/zh
Application granted granted Critical
Publication of CN109783649B publication Critical patent/CN109783649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种领域词典生成方法及装置,所述方法包括获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。本发明基于互相关度和贡献度的计算得到的目标词典与所述目标领域具有高度相关性。

Description

一种领域词典生成方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种领域词典生成方法及装置。
背景技术
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等;这些互联网产业的兴起与繁荣离不开大量的数据信息分析;大数据分析中自然语言处理占据重要的地位;其中,在自然语言处理分析中基于词典的分析方法具有重要的应用;具体是以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法进行针对性的分析和挖掘;不同的领域所采取的词典也有很大的不同。
其中,词典大致分成两大类:一是通用词典,二是领域词典;在具体任务上,领域词典的应用更广。现有的用于生成领域词典的方案多种多样,但都离不开专家知识,即人工选出某个领域的词作为种子词;然后再基于这些专家知识训练模型识别更多的领域词;该种方法具有很大的偏差和狭隘性。
因此,需要提供一种能够高效准确生成领域词典的技术方案。
发明内容
为了解决现有技术中的问题,本发明提供了一种领域词典生成方法及装置,具体地:
一方面提供了一种领域词典生成方法,所述方法包括:
获取目标领域的相关文本;
根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;
获取每个字符单元的互相关度以得到所述目标领域的原始词典;
计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。
另一方方面提供了一种领域词典生成装置,所述装置包括:
相关文本获取模块,用于获取目标领域的相关文本;
字符单元得到模块,用于根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;
原始词典得到模块,用于获取每个字符单元的互相关度以得到所述目标领域的原始词典;
目标词典得到模块,用于计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。
本发明提供的一种领域词典生成方法及装置,具有的有益效果为:
本发明通过获取目标领域的相关文本;根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到所述目标领域的原始词典;计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典;本发明具有广泛的适用性;得到的目标词典与所述目标领域具有高度相关性;能够为相关的文本分析提供更加准确的资源数据;方便了行业内信息的集成和共享。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本说明书实施例提供的一种领域词典生成方法流程图;
图2是本说明书实施例提供的获取每个字符单元的互相关度以得到所述目标领域的原始词典的步骤流程图;
图3是本说明书实施例提供的得到所述目标领域的目标词典的步骤流程图;
图4是本说明书实施例提供的计算所述原始词典中每个字符单元对所述目标领域的贡献度的步骤流程图;
图5是本说明书实施例提供的一种领域词典生成的步骤流程图;
图6是本说明书实施例提供的根据所述历史词典对所述原始词典进行更新的步骤流程图;
图7是本说明书实施例提供的根据所述历史词典对所述第二队列进行更新的步骤流程图;
图8是本说明书实施例提供的一种领域词典生成的步骤流程图;
图9是本说明书实施例提供的一种领域词典生成装置框图;
图10是本说明书实施例提供的原始词典得到模块的组成框图;
图11是本说明书实施例提供的目标词典得到模块的组成框图;
图12是本说明书实施例提供的领域词典生成设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有的生成领域词典的方案中,对于采用专家知识的方式需要耗费巨大人力;并且,不同专家对同一领域的词的理解可能存在偏差,导致人工结果不那么准确,从而训练出来的模型会有偏差;相比实际应用中遇到的海量文本,专家知识的覆盖率很小,训练出来的模型也会比较狭隘;中文文本的识别需要分词,而分词的准确性不能得到保证,因而影响领域词典的生成。
因此,本说明书提出了一种自动地且具有较好容错性的生成领域词典的技术方案;其中本方案无需分词,直接通过字符组合的方式挖掘出词、短语等的组合;通过引入领域无关文本信息,得到不同字符组合对目标领域的贡献度,生成的词典与目标领域具有高度相关性。具体地:
本说明书实施例提供了一种领域词典生成方法,如图1所示,所述方法包括:
S202.获取目标领域的相关文本;
具体地,可以通过搜集的方式得到所述目标领域的大规模的相关文本;比如以新闻领域为例,可以从网上采集带有『体育』、『娱乐』、『经济』等标签的新闻文本,得到领域相关的文本数据集。
其中,获取相关文本的方式可以是通过爬虫的方式得到,或是基于有领域标签的文本训练分类模型,通过相关文本的领域标记的方式得到;或是综合运用上述方法得到。
给与说明的是,得到领域相关文本并不限定于上述方式,还可以是能够实现相同功能的其他方式。并且,所述相关文本的数量可以根据需要进行灵活设定,并不限定于某一固定的数值。
S204.根据所述相关文本得到字符单元集合;所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;
其中,所述字符单元集合可以是多个相关文本构成的文本数据集;具体地,将每个相关文本中的连续字符进行字符组合以得到多个字符单元;这里的连续字符可以是以多种不同的数目进行组合,例如可以是两个连续字符的组合形式、三个连续字符的组合形式或四个连续字符的组合形式等等;比如在娱乐领域中,会挖掘出王者、荣耀、王者荣、王者荣耀等词组或短语构成的字符单元。
需要给与说明的是,本实施例中的字符可以是中文或英文;对应地,在字符为中文汉字时,构成的字符单元可以是中文词语或是中文短语;在字符为英文单词时,构成的字符单元也可以是英文词语或英文短语;并且,在字符为单个英文字母时,构成的字符单元可以是某个英文单词。
S206.获取每个字符单元的互相关度以得到所述目标领域的原始词典;
其中,所述互相关度PMI(pointwise-mutual information),用于衡量字符单元中字符与字符的搭配强度;PMI值越大,则说明字符单元中的字符与字符之间搭配的吸引力越强。比如字符单元『王者荣』的PMI值小于字符单元『王者荣耀』的PMI值;相比较『王者荣』来说,『王者荣耀』是一个更准确的词组,更常用的词组。
具体地,所述互相关度PMI的计算公式,如公式(1):
Figure GDA0003966396560000061
公式(1)中的x、y表示两个相互共现的字符,P(x)与P(y)分别表示字符在语料库中出现的概率;F(x)与F(y)分别表示字符在语料库中出现的频率,F(x,y)表示具有x和y的字符单元在语料库中出现的频数;N表示语料库中的总的字符单元的数目。
一种可行的实施方式,步骤S206获取每个字符单元的互相关度以得到所述目标领域的原始词典,如图2所示,可以包括:
S2062.获取每个字符单元的互相关度;
S2064.根据所述互相关度对所述字符单元集合中的字符单元进行排序,得到第一队列;
具体地,每个字符单元具有一个用于表征该字符组合准确性的互相关性;由所述互相关性对所有的字符单元进行排序,进而由排序后的所有字符组合得到所述第一队列。
比如,按照互相关度排序得到的第一队列为A1、A2、A3、A4、A5、A6、A7……,其中的A1、A2、A3、A4、A5、A6、A7等等均为字符单元,对应的概率值分别为P11、P12、P13、P14、P15、P16、P17……。
S2066.从所述第一队列中截取第一预设数量的字符单元;其中,所述第一预设数量的字符单元的互相关度均大于所述第一队列中其余字符单元的互相关度;
S2068.由所述第一预设数量的字符单元构成所述原始词典。
比如,若上述的第一队列包括一万个字符单元,则截取六千个字符单元作为第一预设数量,由该六千个字符单元构成所述原始词典。其中该六千个字符单元的互相关度均大于其余四千个字符单元的互相关度。
在实际应用中,截取的第一预设数量可以根据需求进行选择设置,并不限定于上述数值或某一数值。
需要说明的是,本实施例中可以通过互相关度PMI的计算,挖掘出常用的字符单元(词组或短语),以得到目标领域的原始词典;对于挖掘常用字符单元的内容,还可以是通过统计字符单元的频率的方式进行排序实现,或是通过最大熵模型进行字符单元的挖掘。总之,本实施例中得到原始词典的方式并不限定于上述给出的实现方式,还可以是其他能够实现常用字符单元挖掘的方式。
S208.计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。
一种可行的实施方式,步骤S208计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典,如图3所示,可以包括:
S402.计算所述原始词典中每个字符单元对所述目标领域的贡献度,
S404.根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列;
比如,按照上述的举例,得到的原始词典中字符单元的数量为六千个;按照贡献度排序得到的第二队列为B1、B2、B3、B4、B5、B6……B3000,其中的B1、B2、B3、B4、B5、B6等等均为字符单元,对应的概率值分别为P21、P22、P23、P24、P25、P26……P3000。
S406.从所述第二队列中截取第二预设数量的字符单元;其中,所述第二预设数量的字符单元的贡献度均大于所述第二队列中其余字符单元的贡献度;
S408.由所述第二预设数量的字符单元构成所述目标词典。
比如,从上述的第二队列中截取1千个字符单元作为第二预设数量,由该一千个字符单元构成所述目标词典;即B1、B2、B3……B1000。其中该一千个字符单元的互相关度均大于其余两千个字符单元的互相关度。
在实际应用中,所述第二预设数量可以根据需求进行选择设置,并不限定于上述数值或某一数值。
一种具体的实施方式,步骤S402计算所述原始词典中每个字符单元对所述目标领域的贡献度,如图4所示,包括:
S2082.将每个字符单元与所述相关文本进行匹配以得到第一逆文本词频,所述第一逆文本词频为所述字符单元在所述相关文本中的逆文本词频;
S2084.获取所述目标领域的无关文本;
其中,本实施例中的无关文本也属于文本数据集;对于获取无关文本的方式可以是上述给出的获取相关文本的方式或是其他获取方式;并且,无关文本的数量可以根据需求进行设置,并不限定于某一具体数值。
S2086.将每个字符单元与所述无关文本进行匹配以得到第二逆文本词频,所述第二逆文本词频为所述字符单元在所述无关文本中的逆文本词频;
具体地,对于逆文本词频IDF给与说明的是:
逆文本词频IDF(inverse document frequency)用于表征对应字符单元的罕见性,是一个字符单元普遍重要性的度量,它的大小与一个字符单元的常见程度呈反比,计算方法是:对应文本集合(本实施例中的相关文本的集合,或是无关文本的集合)中文本总数除以包含该字符单元的文本数量,再将得到的商取对数;如公式(2)所示:
逆文本词频
Figure GDA0003966396560000081
对应地,本实施例中的第一逆文本词频用于衡量所述字符单元在所述相关文本中的罕见性;第二逆文本词频用于衡量所述字符单元在所述无关文本中的罕见性。
S2088.依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度。
具体地,S2088中依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度,可以包括:
由第一逆文本词频减去所述第二逆文本词频得到所述字符单元对所述目标领域的贡献度。
本实施例中的共享度的数学化的表达是:
贡献度=IDF(w|domain)–IDF(w|non-domain);
其中,w表示所述字符单元;domain表示相关文本,IDF(w|domain)表示第一逆文本词频;non-domain表示无关文本,IDF(w|non-domain)表示第二逆文本词频。
需要给与说明的是,本实施例中得到贡献度的方法不仅可以使用逆文本词频的计算方法,还可以通过其他可行的方式得到字符单元与所述目标领域的相关程度,以表示所述字符单元对所述目标领域的贡献度,进而得到所述目标词典。
如图5所示为本实施例提供的另一种领域词典生成的步骤流程图;具体地,
对领域相关的文本进行字符组合,得到多个字符单元;
计算每个字符单元的PMI值;
根据得到的PMI值对得到的所有的字符单元进行排序,得到领域的原始词典;
将领域的无关文本与相关文本进行匹配;
结合匹配的结果,计算原始词典中的字符单元对该领域的贡献度;
进一步,根据贡献度对原始词典中的字符单元再一次排序,得到所述领域的目标词典。
本说明书中得到领域词典的方法容错率高,即使领域文本中有小部分分类错误(比如『娱乐』新闻被划分到『体育』类),但从大量统计的角度看仍能得到相对准确的结果。
本实施例中,获取目标领域的相关文本,包括:从线下搜集所述目标领域的相关文本,和/或,从线上实时采集所述目标领域的相关文本。
在实际应用中,若所述目标领域的相关文本是从线上实时得到的,则可以进一步通过历史词典对所述相关文本中的字符单元进行过滤,以使所述原始词典中的字符单元更具有实时性,更接近领域中的新词范畴;所以对应地,
步骤S206得到所述目标领域的原始词典,之后还可以包括:
获取目标领域的历史词典;
根据所述历史词典对所述原始词典进行更新;
其中,根据所述历史词典对所述原始词典进行更新的步骤,如图6所示,可以包括:
S602.获取第一待删除字符单元集合;所述第一待删除字符单元集合为所述原始词典中的字符单元与所述历史词典中的字符单元的交集;
具体是将所述原始词典中的字符单元与所述历史词典进行匹配,以得到所述第一待删除字符单元集合。
S604.从所述原始词典中删除所述第一待删除字符单元集合,得到更新后的原始词典。
详细地,在所述原始词典是从线上实时获取的、跟目标领域相关的词库的情况下,通过使用历史词典与所述原始词典进行匹配,确定出历史词典和原始词典具有相同字符单元的部分,该所述第一待删除字符单元集合。
其中,实时地从线上获取到的字符单元,相比较历史词典中存储的字符单元属于对应领域的实时热词。
一种具体的实施方式,步骤S2082根据所述贡献度对所述原始词典中字符单元进行排序,得到第二队列,之后还包括:
获取目标领域的历史词典;
根据所述历史词典对所述第二队列进行更新;
其中,根据所述历史词典对所述第二队列进行更新的步骤,如图7所示,可以包括:
S802.获取第二待删除字符单元集合,所述第二待删除字符单元集合为所述第二队列中的字符单元与所述历史词典中的字符单元的交集;
具体是将所述第二队列中的字符单元与所述历史词典进行匹配,以得到所述第二待删除字符单元集合。
S804.从所述第二队列中删除所述第二待删除字符单元集合;
S806.对第二队列中剩余的字符单元进行重新排序,并从重新排序后得到的第二队列中截取第三预设数量的字符单元;其中,所述第三预设数量的字符单元的贡献度均大于所述重新排序后得到的第二队列中其余字符单元的贡献度;
S808.由所述第三预设数量的字符单元构成更新后的第二队列。
在实际应用中,为了确保得到的目标词典的实时性,还可以通过历史词典对所述第二队列进行更新。具体是通过历史词典与所述第二队列进行匹配,确定出历史词典和第二队列具有相同字符单元的部分,该所述第二待删除字符单元集合。进一步地,从所述第二队列中删除所述第二待删除字符单元集合;从剩余的字符单元中截取第三预设数量的字符单元,以完成对第二队列的更新。进而根据更新后的第二队列得到所述目标领域的目标词典。
如图8所示提供的另一种领域词典生成方法,其中的相关文本为从线上获取的实时文本,其可以在图5的基础上利用历史词典进行原始词典的更新,并进一步可以在图5的基础上利用历史词典对由贡献度得到的队列进行更新,以得到所述目标领域的目标词典;其中对原始词典进行更新的历史词典,与对所述队列进行更新的历史词典可以相同也可以不同,在此并不做限定。
本说明书提供的领域词典生成方法,无需任何人工干预,能够自动化地处理实现;具体地,通过字符的组合以及互相关度的计算,就能够挖掘出目标领域中常用的字符单元(词组或短语),无需提前分词,避免分词阶段的错误;进一步通过字符单元对所述目标领域的贡献度的计算,使得得到的目标词典与所述目标领域具有高度相关性。
需要说明的是,本实施例生成的目标词典具有广泛的应用:
能够用来提高分词工具的准确性;比如,在对特定领域分词时,通过预先加载生成的目标词典,避免将领域词错分、漏分的情况;
能够用来做关键词提取,比如,用领域词典匹配领域新闻,得到新闻的关键词;
能够用来提高实体识别工具的准确性,作为实体识别模型的重要输入特征;比如,在新闻领域的结果展示包括娱乐词典、体育词典、财经词典。
本说明书提供的领域词典生成方法,不仅能够极大地节省领域词典标注所耗费的人力、物力、财力,还能够极大地提高领域词典的质量,并广泛应用到其他自然语言处理的产品中,为实现一些难度较大并且领域特征明显的操作提供了极大的便利,具有很高的应用价值和实际意义;进而方便了行业内信息的集成和共享。
本说明书实施例还提供了一种领域词典生成装置,如图9所示,所述装置包括:
相关文本获取模块202,用于获取目标领域的相关文本;
字符单元得到模块204,用于根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;
原始词典得到模块206,用于获取每个字符单元的互相关度以得到所述目标领域的原始词典;
目标词典得到模块208,用于计算所述原始词典中每个字符单元对所述目标领域的贡献度以得到所述目标领域的目标词典。
一种具体的实施方式中,所述原始词典得到模块206,如图10所述,可以包括:
互相关度得到单元402,获取每个字符单元的互相关度;
第一队列得到单元404,用于根据所述互相关度对所述字符单元集合中的字符单元进行排序,得到第一队列;
第一数量截取单元406,用于从所述第一队列中截取第一预设数量的字符单元;其中,所述第一预设数量的字符单元的互相关度均大于所述第一队列中其余字符单元的互相关度;
原始词典得到单元408,用于由所述第一预设数量的字符单元构成所述原始词典。
一种可行的实施方式中,所述目标词典得到模块208,如图11所示,可以包括:
贡献度得到单元602,用于计算所述原始词典中每个字符单元对所述目标领域的贡献度;
第二队列得到单元604,用于根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列;
第二数量截取单元606,用于从所述第二队列中截取第二预设数量的字符单元;其中,所述第二预设数量的字符单元的贡献度均大于所述第二队列中其余字符单元的贡献度;
目标词典得到单元608,用于由所述第二预设数量的字符单元构成所述目标词典。
一种可行的实施方式中,所述贡献度得到单元,可以包括:
第一逆文本词频得到子单元,用于将每个字符单元与所述相关文本进行匹配以得到第一逆文本词频,所述第一逆文本词频为所述字符单元在所述相关文本中的逆文本词频;
无关文本获取子单元,用于获取所述目标领域的无关文本;
第二逆文本词频得到子单元,用于将每个字符单元与所述无关文本进行匹配以得到第二逆文本词频,所述第二逆文本词频为所述字符单元在所述无关文本中的逆文本词频;
贡献度得到子单元,用于依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度。
一种可行的实施方式中,贡献度得到子单元,包括:
由第一逆文本词频减去所述第二逆文本词频得到所述字符单元对所述目标领域的贡献度。
所述装置还包括原始词典更新模块,所述原始词典更新模块包括:
第一历史词典获取单元,用于获取目标领域的历史词典;
原始词典更新单元,用于根据所述历史词典对所述原始词典进行更新;
其中,所述原始词典更新单元,可以包括:
第一待删除集合获取子单元,用于获取第一待删除字符单元集合;所述第一待删除字符单元集合为所述原始词典中的字符单元与所述历史词典中的字符单元的交集;
原始词典更新子单元,用于从所述原始词典中删除所述第一待删除字符单元集合,得到更新后的原始词典。
一种可行的实施方式中,所述装置还包括第二队列更新模块,所述第二队列更新模块包括:
第二历史词典获取单元,用于获取目标领域的历史词典;
第二队列更新单元,用于根据所述历史词典对所述第二队列进行更新;
其中,所述第二队列更新单元,可以包括:
第二待删除集合获取子单元,用于获取第二待删除字符单元集合,所述第二待删除字符单元集合为所述第二队列中的字符单元与所述历史词典中的字符单元的交集;
字符单元删除子单元,用于从所述第二队列中删除所述第二待删除字符单元集合;
重新排序子单元,用于对所述第二队列中的字符单元按照贡献度进行重新排序;
第三数量截取单元,用于从重新排序后得到的第二队列中截取第三预设数量的字符单元;其中,所述第三预设数量的字符单元的贡献度均大于所述重新排序后得到的第二队列中其余字符单元的贡献度;
第二队列更新子单元,用于由所述第三预设数量的字符单元构成更新后的第二队列。
需要说明的是,本实施例中的装置实施例与上述方法实施例具有相同的发明构思。
本说明书实施例提供了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方法实施例所述的领域词典生成方法。
其中,本说明书实施例提供的一种领域词典生成设备的结构示意图,请参考图12。该服务器用于实施上述实施例中提供的领域词典生成方法。
具体来讲:
所述服务器2000包括中央处理单元(CPU)2001、包括随机存取存储器(RAM)2002和只读存储器(ROM)2003的系统存储器2004,以及连接系统存储器2004和中央处理单元2001的系统总线2005。所述服务器2000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)2006,和用于存储操作系统2013、应用程序2014和其他程序模块2015的大容量存储设备2007。
所述基本输入/输出系统2006包括有用于显示信息的显示器2008和用于用户输入信息的诸如鼠标、键盘之类的输入设备2009。其中所述显示器2008和输入设备2009都通过连接到系统总线2005的输入输出控制器2010连接到中央处理单元2001。所述基本输入/输出系统2006还可以包括输入输出控制器2010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器2010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备2007通过连接到系统总线2005的大容量存储控制器(未示出)连接到中央处理单元2001。所述大容量存储设备2007及其相关联的计算机可读介质为服务器2000提供非易失性存储。也就是说,所述大容量存储设备2007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器2004和大容量存储设备2007可以统称为存储器。
根据本发明的各种实施例,所述服务器2000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器2000可以通过连接在所述系统总线2005上的网络接口单元2011连接到网络2012,或者说,也可以使用网络接口单元2011来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行;上述一个或者一个以上程序包含用于执行上述后台服务器侧的领域词典生成方法的指令。
本发明的实施例还提供了一种计算机存储介质,所述存储介质可设置于客户端之中以保存用于实现方法实施例中一种领域词典生成方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的领域词典生成方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本说明书实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中加载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种领域词典生成方法,其特征在于,所述方法包括:
获取目标领域的相关文本;
根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;
获取每个字符单元的互相关度以得到所述目标领域的原始词典;
将每个字符单元与所述相关文本进行匹配以得到第一逆文本词频,所述第一逆文本词频为所述字符单元在所述相关文本中的逆文本词频;
获取所述目标领域的无关文本;
将每个字符单元与所述无关文本进行匹配以得到第二逆文本词频,所述第二逆文本词频为所述字符单元在所述无关文本中的逆文本词频;
依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度;
根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列;
从所述第二队列中截取第二预设数量的字符单元;其中,所述第二预设数量的字符单元的贡献度均大于所述第二队列中其余字符单元的贡献度;
由所述第二预设数量的字符单元构成所述目标领域的目标词典。
2.根据权利要求1所述的领域词典生成方法,其特征在于,所述获取每个字符单元的互相关度以得到所述目标领域的原始词典,包括:
获取每个字符单元的互相关度;
根据所述互相关度对所述字符单元集合中的字符单元进行排序,得到第一队列;
从所述第一队列中截取第一预设数量的字符单元;其中,所述第一预设数量的字符单元的互相关度均大于所述第一队列中其余字符单元的互相关度;
由所述第一预设数量的字符单元构成所述原始词典。
3.根据权利要求1所述的领域词典生成方法,其特征在于,依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度,包括:
由第一逆文本词频减去所述第二逆文本词频得到所述字符单元对所述目标领域的贡献度。
4.根据权利要求1或2所述的领域词典生成方法,其特征在于,所述得到所述目标领域的原始词典,之后还包括:
获取目标领域的历史词典;
根据所述历史词典对所述原始词典进行更新;
其中,所述根据所述历史词典对所述原始词典进行更新,包括:
获取第一待删除字符单元集合;所述第一待删除字符单元集合为所述原始词典中的字符单元与所述历史词典中的字符单元的交集;
从所述原始词典中删除所述第一待删除字符单元集合,得到更新后的原始词典。
5.根据权利要求1所述的领域词典生成方法,其特征在于,所述根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列,之后还包括:
获取目标领域的历史词典;
根据所述历史词典对所述第二队列进行更新;
其中,所述根据所述历史词典对所述第二队列进行更新,包括:
获取第二待删除字符单元集合,所述第二待删除字符单元集合为所述第二队列中的字符单元与所述历史词典中的字符单元的交集;
从所述第二队列中删除所述第二待删除字符单元集合;
对所述第二队列中的字符单元按照贡献度进行重新排序;
从重新排序后得到的第二队列中截取第三预设数量的字符单元;其中,所述第三预设数量的字符单元的贡献度均大于所述重新排序后得到的第二队列中其余字符单元的贡献度;
由所述第三预设数量的字符单元构成更新后的第二队列。
6.一种领域词典生成装置,其特征在于,所述装置包括:
相关文本获取模块,用于获取目标领域的相关文本;
字符单元得到模块,用于根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;
原始词典得到模块,用于获取每个字符单元的互相关度以得到所述目标领域的原始词典;
目标词典得到模块,用于将每个字符单元与所述相关文本进行匹配以得到第一逆文本词频,所述第一逆文本词频为所述字符单元在所述相关文本中的逆文本词频;获取所述目标领域的无关文本;将每个字符单元与所述无关文本进行匹配以得到第二逆文本词频,所述第二逆文本词频为所述字符单元在所述无关文本中的逆文本词频;依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度;根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列;从所述第二队列中截取第二预设数量的字符单元;其中,所述第二预设数量的字符单元的贡献度均大于所述第二队列中其余字符单元的贡献度;由所述第二预设数量的字符单元构成所述目标领域的目标词典。
7.根据权利要求6所述的领域词典生成装置,其特征在于,所述原始词典得到模块包括:
互相关度得到单元,获取每个字符单元的互相关度;
第一队列得到单元,用于根据所述互相关度对所述字符单元集合中的字符单元进行排序,得到第一队列;
第一数量截取单元,用于从所述第一队列中截取第一预设数量的字符单元;其中,所述第一预设数量的字符单元的互相关度均大于所述第一队列中其余字符单元的互相关度;
原始词典得到单元,用于由所述第一预设数量的字符单元构成所述原始词典。
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-5中任一项所述的领域词典生成方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-5中任一项所述的领域词典生成方法。
CN201910002132.0A 2019-01-02 2019-01-02 一种领域词典生成方法及装置 Active CN109783649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910002132.0A CN109783649B (zh) 2019-01-02 2019-01-02 一种领域词典生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910002132.0A CN109783649B (zh) 2019-01-02 2019-01-02 一种领域词典生成方法及装置

Publications (2)

Publication Number Publication Date
CN109783649A CN109783649A (zh) 2019-05-21
CN109783649B true CN109783649B (zh) 2023-01-24

Family

ID=66499824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910002132.0A Active CN109783649B (zh) 2019-01-02 2019-01-02 一种领域词典生成方法及装置

Country Status (1)

Country Link
CN (1) CN109783649B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021134524A1 (zh) * 2019-12-31 2021-07-08 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN105096933A (zh) * 2015-05-29 2015-11-25 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及语音合成方法和装置
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
CN108984514A (zh) * 2017-06-05 2018-12-11 中兴通讯股份有限公司 词语的获取方法及装置、存储介质、处理器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN105096933A (zh) * 2015-05-29 2015-11-25 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及语音合成方法和装置
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
CN108984514A (zh) * 2017-06-05 2018-12-11 中兴通讯股份有限公司 词语的获取方法及装置、存储介质、处理器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
On the automatic construction of an Arabic thesaurus;Ghassan Mohsen等;《2018 9th International Conference on Information and Communication Systems (ICICS)》;20180507;243-247 *
中文微博情感分析关键技术研究;林江豪;《中国优秀硕士学位论文全文数据库 (哲学与人文科学辑)》;20141115(第11期);F084-102 *

Also Published As

Publication number Publication date
CN109783649A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
US20180107945A1 (en) Emoji recommendation method and device thereof
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN110968684A (zh) 一种信息处理方法、装置、设备及存储介质
CN106708940A (zh) 用于处理图片的方法和装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112883730B (zh) 相似文本匹配方法、装置、电子设备及存储介质
JP2018010514A (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
CN111522944A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN112084308A (zh) 用于文本类型数据识别的方法、系统及存储介质
CN111625567A (zh) 数据模型匹配方法、装置、计算机系统及可读存储介质
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN114357195A (zh) 基于知识图谱的问答对生成方法、装置、设备及介质
CN111400448A (zh) 对象的关联关系分析方法及装置
CN109783649B (zh) 一种领域词典生成方法及装置
CN112148841B (zh) 一种对象分类以及分类模型构建方法和装置
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN111523019A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN116821299A (zh) 智能问答方法、智能问答装置、设备及存储介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN115510212A (zh) 一种文本事件抽取方法、装置、设备及存储介质
CN115238676A (zh) 招标需求热点识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant