CN108475265B - 获取未登录词的方法与装置 - Google Patents

获取未登录词的方法与装置 Download PDF

Info

Publication number
CN108475265B
CN108475265B CN201580084834.8A CN201580084834A CN108475265B CN 108475265 B CN108475265 B CN 108475265B CN 201580084834 A CN201580084834 A CN 201580084834A CN 108475265 B CN108475265 B CN 108475265B
Authority
CN
China
Prior art keywords
word
words
unknown
segmentation result
file set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580084834.8A
Other languages
English (en)
Other versions
CN108475265A (zh
Inventor
周文礼
林铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN108475265A publication Critical patent/CN108475265A/zh
Application granted granted Critical
Publication of CN108475265B publication Critical patent/CN108475265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及信息检索系统,尤其涉及一种获取未登录词的技术。在一种获取未登录词的方法中,通过在历史搜索日志中获取与更新的文件关联程度高的历史查询语句,从该历史查询语句中提取未登录词并存入词库。由于查询语句是由用户输入的因此含有未登录词的可能性更高,本申请提供的方案从查询语句中提取未登录词也更加有目的性,更加精准,能够提升信息检索系统的检索效率和准确程度。

Description

获取未登录词的方法与装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种运用于信息检索系统的获取未登录词的方法与装置。
背景技术
信息检索系统(英文:information retrieval system),例如搜索引擎或问答(英文:question answering)系统,根据用户的输入检索出用户所需的相关内容。以搜索引擎为例,搜索引擎获取文件后为各个文件分配标识(英文:identify,简称:ID)并建立倒排索引(英文:inverted index),倒排索引记录了各个词所在的文件ID。搜索引擎获取了用户输入的查询语句后,需要对查询语句分词(英文:word segmentation),去掉分词的结果中的停用词(英文:stop word),将剩下的词与倒排索引进行匹配,然后根据匹配结果,获取与查询语句匹配的文件ID。如果获取到一个文件ID,将该文件ID对应的文件提供给用户。如果获取到多个文件ID,在根据各个文件的匹配程度排序后,将排序后的文件提供给用户。其中的停用词指语句中对语句表述不构成直接影响的或影响微小的词汇。
对查询语句分词对于信息检索系统返回给用户的文件的准确程度有着较大影响。以中文为例,例如用户输入查询语句“韩寒一个”。如果将“韩寒”(人名,发音为xan(35)xan(35))与“一个”(中文中原始的意思是一,发音为i(35)kγ(51))分为两个词,那么信息检索系统将会用“韩寒”与“一个”分别匹配文件。然而,“一个”也是名叫“韩寒”的人监制的一款阅读应用的产品名称。用户输入“韩寒一个”,很可能是想要检索该阅读应用的信息。因此用“韩寒”与“一个”分别匹配倒排索引,耗费的时间长,并且对倒排索引中匹配到的多个文件的排序结果也不够精确。影响分词的准确与否的一个重要因素是词库的及时更新。由于互联网俚语(英文:Internet slang)的快速增加,信息检索系统需要即时更新词库,以提高分词精度来达到提高搜索速度和改进搜索结果精确度的目的。
传统技术方案中,信息检索系统通过对语料(英文:corpus)的分析来识别未登录词(英文:unknown word)以更新词库。语料可以是互联网的网页集合,也可以是专业领域的文件集,该方法识别出来的未登录词准确率不高。
发明内容
本申请描述了一种获取未登录词的方法、装置和设备,以提升未登录词识别的精度。
本申请的第一方面提供了一种获取未登录词的方法。方法包括获取新文件集合,并为新文件集合中的每个文件分配ID;从历史搜索日志中获取第一历史查询语句,第一历史查询语句为历史搜索日志中与新文件集合的匹配度程度高的历史查询语句,也即第一历史查询语句匹配的文件与新文件的匹配程度高;对第一历史查询语句进行分割获取第一分割结果,从第一分割结果中获取第一未登录词,第一未登录词为去除所述第一分割结果中的已登录词后余下的词;将未登录词存入词库,以更新词库。对第一历史查询语句的分割包括对第一历史查询语句的分词,还包括按照其他操作对第一历史查询语句进行分割,具体的操作参考图2对应的实施例中的步骤206。
本申请提供的方案通过在更新的文件相关联的查询语句中提取未登录词,提升了未登录词的识别精度。
结合第一方面,在第一方面的第一种实现中,还获取了第一未登录词的统计特征;然后,对文件集合中的文件进行分割获取第二分割结果;去除第二分割结果中的已登录词后,获取第二分割结果中的字串;获取字串的统计特征,将第一未登录词的统计特征作为正样本输入并将字串的统计特征作为负样本输入对识别模型进行训练;对文件集合中的文件全切分以获得全切分结果;将排除全切分结果中的已登录词后获得的词的统计特征输入识别模型,以获取第二未登录词并将第二未登录词存入词库,第二未登录词为排除全切分结果中的已登录词后获得的词中被识别模型识别为正样本的词。
通过提取第一未登录词和字串的统计特征来对识别模型进行训练,能够使得识别模型的识别精度提升,再将信息检索系统的文件的分割结果中非已登录词的词的统计特征作为识别模型的输入,能够获取更多的未登录词以丰富词库,提升信息检索系统的处理效率与精度。
结合第一方面的第一种实现,在第一方面的第二种实现中,还包括获取第一未登录词的目录分类,并获取字串的目录分类;则上述正样本输入中还包括第一未登录词的目录分类,负样本输入还包括字串的目录分类;输入识别模型的还包括排除全切分结果中的已登录词后获得的词的目录分类。由于词的目录分类往往也对于该词是否为未登录词的判断有较大的影响,例如新闻、电影、歌曲、娱乐等目录分类下的未登录词概率较高,因此将第一未登录词和字串的目录分类也作为识别模型学习特征能够进一步提升识别模型训练的效率和精度,同时识别模型识别未登录词时也将考虑输入词的目录分类,提升了识别模型的识别精度。
本申请的第二方面提供了一种获取未登录词的装置,该装置具有实现上述方法的功能,该装置可以为软件模块,该装置运用于信息检索系统,该装置包括获取模块和处理模块。
本申请的第三方面提供了一种计算设备,包括处理器、存储器、通信接口。该计算设备可以为信息检索系统的服务器或者构成信息检索系统的服务器的一部分。该计算设备运行时能够执行上述方法。
本申请的第四方面提供了一种存储介质,该存储介质中存储有计算机程序或指令,当该计算机程序或指令被计算机执行时,该计算机执行上述方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作以简单地介绍,显而易见的,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为倒排索引的示意图;
图2为本发明实施例所应用的获取未登录词的方法的流程示意图;
图3为本发明实施例所应用的获取未登录词的装置的组织结构示意图;
图4为本发明设备实施例所应用的计算设备的组织结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本申请中,未登录词指信息检索系统的词库中未收录的词,包括新词(英文:newword)和已有词的组合且该组合未被词库收录。其中新词指新出现的词。本申请中信息检索系统的词库中已经收录的词被称为已登录词。
本申请中,目录分类指各个文件所属的目录。目录分类用于指示该文件的领域。最常见的目录分类为开放目录项目(英文:open directory project,简称:ODP)。ODP为互联网上的分类检索系统,其通过人工编辑将各个文件归属于不同目录分类下,例如艺术(英文:arts),食物(英文:food),科学等。文件的目录分类一般存储于单独的数据库或文件中。
本申请中,统计特征包括出现频率,凝固程度,自由程度,词长,词在一个句子中出现的位置等。统计特征还可以包括词在文件中的其他统计参数,例如词在不同时间更新的语料中出现频率的变化率,各个词的统计特征一般存储于词库中。其中出现频率为词在文件中出现的次数。凝固程度用于指示词内部的字串间的紧密程度,字串由连续的字符(英文:character)构成。比如“电影院”的凝固程度等于X与Y中的较小值:X=“电影院”一词在语料中的出现概率/(“电”在语料中的出现概率*“影院”在语料中的出现概率),Y=“电影院”一词在语料中的出现概率/(“电影”在语料中的出现概率*“院”在语料中的出现概率),出现概率是字串的出现频率除以文件的总字符数。如果“电影院”一词在语料中的出现概率远大于“电”在语料中的出现概率与“影院”在语料中的出现概率之积,则说明了“电影”和“院”之间的凝固程度高。自由程度用于表征词与周围的词,或字符与周围的词的关联程度,为前邻词熵和后邻词熵中的较小值。比如中文字串“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”中有5个词,分别为“吃”(意思是吃,发音为t
Figure GDA0002929454010000031
(55)),“葡萄”(意思是葡萄,发音为p′u(35)t′u(35)),“不”(意思是不,发音为pu(51)),“吐”(意思是吐,发音为t′u(214)),“皮”(意思是皮,发音为p′i(35)),“倒”(意思是但是,发音为tu(51))。其中“葡萄”一词出现了四次,其前邻字符分别为{吃,吐,吃,吐},后邻字符分别为{不,皮,倒,皮},“葡萄”一词的前邻字符的熵为(-1/2)*ln(1/2)+(-1/2)*ln(1/2)≈0.693纳特,其后邻字符的熵则为(-1/2)*ln(1/2)+(-1/4)*ln(1/4)+(-1/4)*ln(1/4)≈1.04纳特。
传统的信息检索系统中,用户通过向信息检索系统发送一个查询语句后,信息检索系统根据该查询语句进行检索以给用户提供对应的检索结果。问答系统是信息检索系统的一种,问答系统与搜索引擎类似,均需要分析(例如分词、去除停词等)用户输入的查询语句,然后根据分析的结果在问答系统的文件库中搜寻与查询语句匹配的文件。与搜索引擎不同的是,问答系统一般提供给用户一个最为匹配的文件。问答系统与搜索引擎或其他的信息检索系统对于查询语句的分析过程类似。
信息检索系统获取了查询语句后,首先对该查询语句进行分词,分词的结果可以有多种。信息检索系统通过词库识别查询语句的各个分词结果中哪个分词结果最为合适。分词结果中包括的词中的一部分可能为停用词。为了保证检索结果的准确程度,接下来过滤切分结果中包括的词中的停用词。将过滤后的词输入信息检索系统的倒排索引,以获取该过滤后的词匹配的各个文件,并对匹配的文件进行评分,将评分最高的一定数量的文件提供给用户。
信息检索系统一般周期性的更新文件,获取更新的文件后,首先需要建立文件的倒排索引,如图1,倒排索引中记录了各个词所在的文件ID。因此信息检索系统获取了待匹配的词后,查询倒排索引即可获得各个词匹配的文件。文件建立倒排索引的过程也依赖于词库中词的准确度。词库中未收录的词,倒排索引中也无法为该词建立索引。
信息检索系统输出的检索结果的准确度,依赖于分词的准确性以及为文件建立倒排索引的准确性。其中分词无论用的是机械分词还是隐马尔科夫模型(英文:hiddenMarkov model,简称:HMM)或条件随机场CRF(英文:conditional random field,简称:CRF)方法,均基于已有的词库来进行分词处理。分词的准确性依赖于词库中词的丰富与准确,尤其是未登录词的识别。综上所述,未登录词的识别对于信息检索系统的性能很重要。
本发明实施例提供了获取未登录词的方法,该方法运用于信息检索系统,该方法的流程示意图如图2所示。
步骤202,获取新文件集合。
可选的,步骤202中还为新文件集合中的每个文件分配ID。
信息检索系统一般周期性更新其能够检索到的文件并将这些文件存储于文件库,或每积累一定数量的文件后执行一轮文件更新,将这些文件存储于文件库。新文件集合包括信息检索系统最近一个或多个周期中更新的文件,或信息检索系统最近一轮或多轮中更新的文件。信息检索系统能够检索到的文件包括互联网的网页、用户本地存储的文档等,获取新文件后,信息检索系统为各个文件分配ID并建立索引,常见的索引包括倒排索引(英文:inverted index),如表1所示,倒排索引中记录了各个词所在的文件ID。
步骤204,从历史搜索日志中获取第一历史查询语句,第一历史查询语句为历史搜索日志中与新文件的匹配度程度高的历史查询语句。
第一历史查询语句为历史搜索日志中与新文件的匹配度程度高,即第一历史查询语句匹配的至少一个文件ID中属于新文件集合中的文件ID的数量大于第一阈值,或第一历史查询语句匹配的至少一个文件ID中属于新文件集合的文件ID的数量与第一历史查询语句匹配的全部文件的数量的比值大于第二阈值。
历史搜索日志包括多个历史查询语句和多个历史查询语句中各个历史查询语句各自匹配的文件ID。
信息检索系统读取历史搜索日志,历史搜索日志中包括用户的历史查询语句以及各个历史查询语句各自的搜索中间结果日志。每一历史查询语句对应的搜索中间结果日志包括:该历史查询语句匹配上的文件ID。可选的,每一历史查询语句对应的搜索中间结果日志还可以包括该历史查询语句匹配上的各个文件的目录分类。可选的,每一历史查询语句对应的搜索中间结果日志还可以包括该历史查询语句分词后各个词的统计特征。
如果任一历史查询语句匹配的文件ID中属于新文件集合中的文件ID的文件ID的数量大于第一阈值,或第一历史查询语句匹配的文件ID中属于新文件集合中的文件ID的文件ID的数量与第一历史查询语句匹配的全部文件的数量的比值大于第二阈值,则说明该历史查询语句与新文件有较强的关联,该历史查询语句即第一历史查询语句。
由于历史搜索日志记录了每一条历史查询语句匹配上的文件的ID,例如历史查询语句1匹配上了文件1至文件100,而新文件为文件50至文件450,因此历史查询语句1匹配上的文件ID中属于本周期更新的文件ID的文件ID数量为50个,历史查询语句1匹配上的文件ID中属于本周期更新的文件ID的文件ID的数量与历史查询语句1匹配上的文件ID的数量的比值为0.5。
步骤206,对第一历史查询语句进行分割获取第一分割结果,从第一分割结果中获取第一未登录词,第一未登录词为去除所述第一分割结果中的已登录词后余下的词;将第一未登录词存入词库。
对第一历史查询语句进行分割包括以下操作之任一或以下操作中任意两个或两个以上操作的结合:第一操作:对第一历史查询语句进行分词;第二操作:第一历史查询语句内引号内低于预设长度(例如2或3个字符)的字串直接作为一个词;第三操作:第一历史查询语句内用空格隔开的低于预设长度(例如2或3个字符)的字串直接作为一个词;第四操作:第一历史查询语句中出现次数超过阈值的字串作为一个词。获取第一分割结果后,与词库中的词进行对比,剔除掉第一分割结果中的已有词,则余下的词可以被识别为未登录词并存入词库。
可选的,在获取第一未登录词后,还可以执行如下步骤:
步骤208,获取第一未登录词的统计特征;对文件集合中的文件进行分割获取第二分割结果;去除第二分割结果中的已登录词后,获取第二分割结果中的字串;获取字串的统计特征。
上述文件集合可以为新文件集合。上述文件集合也可以为信息检索系统在获取新文件集合之前的文件集合。对文件集合中的文件进行分割的操作包括步骤206中对第一历史查询语句进行的分割,获取第二分割结果后,由于第二分割结果中包括已登录词和部分无法解析的字串,例如一文件包括ZXCVBNM这7个字符,第二分割结果为ZX、NM和CVB,且ZX、NM为已登录词,词库中未收录CVB通过将第二分割结果中的各个词与词库进行对比以去除第二分割结果中的已登录词,因此字串包括CVB。
可选的,第二分割结果还可以包括对文件集合中的文件进行分词获取分词结果后,去除分词结果中的已登录词后余下的字串的全切分结果,对字串进行全切分即一定字符长度对字串进行切分,例如去除第二分词结果中的已登录词后余下的字串为CVB,以两个字符长度对CVB进行全切分,获得CV和VB,则步骤208中的字串还可以为CV或VB。
可选的,第二分割结果还可以包括对文件集合中的文件进行全切分后获取的全切分结果。从该全切分结果中可以获取更多的字串,有助于后续步骤中对识别模型的训练。
例如文件包括ABCDEF6个字符,分词后分为AB,CDE,EF三个词,其中AB,EF均为已登录词,则字串包括CDE。以两个字符的长度进行全切分,则ABCDEF的全切分结果包括AB,BC,CD,DE,EF5个字串,去除其中的AB和EF后,则步骤208中的字串还包括BC,CD,DE。
信息检索系统用未登录词和字串的统计特征来对识别模型进行训练,能够进一步提升识别模型的识别准确率,同时步骤208中提及的各种获取字串的方法,提供了更多的识别模型的训练数据。
步骤210,获取第一未登录词的目录分类,并获取字串的目录分类。
其中,词或字串的目录分类指包括上述多个历史查询语句中该词或字串对应的历史查询语句匹配上的文件最多的目录分类,或包括最多包括该词或字串的文件的目录分类,例如词A所在的查询语句匹配上的文件中,目录分类为“视频”的有1000个文件,目录分类为“娱乐”的有200个文件,目录分类为“人文”的有5个文件,那么词A的目录分类为“视频”。再例如包括词B一词的文件中,“视频”的有1000个文件,目录分类为“娱乐”的有200个文件,目录分类为“人文”的有5个文件,那么词B的目录分类为“视频”。
本可选方案中,获取未登录词的目录分类,获取字串的目录分类可以在步骤208之前或之后执行,或与步骤208同步执行。
除了词的统计特征,词的目录分类往往也对于该词是否为未登录词的判断有较大的影响,例如新闻、电影、歌曲、娱乐等目录分类下的未登录词概率较高,因此在获取了未登录词和字串后,还可以将未登录词和字串的目录分类也作为识别模型学习特征之一供其学习,以提升识别模型的精度。由于目录分类本身为一个字符串,在输入识别模型之前还需为不同目录分类进行赋值等预处理过程。
步骤212,将第一未登录词的统计特征作为正样本输入并将字串的统计特征作为负样本输入对识别模型进行训练。
步骤206中获取第一未登录词后,可以直接将第一未登录词存入词库,由于通过步骤202至步骤206识别出的第一未登录词的比例和准确程度都较高,因此在对识别模型进行训练时,适合将第一未登录词的统计特征作为正样本输入用于对识别模型进行训练。
将步骤206获取的第一未登录词存入词库对于信息检索系统已经有了较好的提升,但步骤202至步骤206仅仅能够从历史查询语句中提取出第一未登录词,提取出的第一未登录词的精度虽高但数量可能不足,因此采用第一未登录词的统计特征作为正样本输入、字串的统计特征作为负样本输入对识别模型进行训练,并通过信息检索系统的文件和该识别模型识别出更多的未登录词。将第一未登录词的统计特征作为正样本输入并将字串的统计特征作为负样本输入对识别模型进行训练,使得识别模型后续根据词的输入特征识别出的正样本词也即被归类为未登录词的词。
如果步骤212之前还包括步骤210,则步骤210中正样本输入还包括第一未登录词的目录分类,负样本输入还包括字串的目录分类。
根据正样本输入和负样本输入对识别模型进行训练。识别模型有很多种,例如识别模型可以在识别某一词是否为未登录词时,将该词的统计特征值加权后求和,如果求和结果小于阈值,则说明该词为未登录词,该识别模型进行训练时则根据正样本输入和负样本输入对各个统计特征的权值进行训练;识别模型还可以为决策树,神经网络,支持向量机(英文:support vector machine)等。
步骤214,对文件集合中的文件全切分获得全切分结果,将排除全切分结果中的已登录词后获得的词的统计特征输入识别模型,获取第二未登录词并将其存入词库,第二未登录词为排除所述全切分结果中的已登录词后获得的词中被识别模型识别为正样本的词。
可选的,步骤212中正样本输入还包括第一未登录词的目录分类,负样本输入还包括字串的目录分类的情况下,步骤214中输入识别模型的还包括排除全切分结果中的已登录词后获得的词的目录分类。
信息检索系统获取对文件进行全切分,例如文件包括ABCDEF6个字符,其中AB,EF均为已登录词,以两个字符的长度进行全切分,则ABCDEF被切分为AB,BC,CD,DE,EF5个字串,去除其中的AB和EF后,则剩余BC,CD,DE。将BC,CD,DE的统计特征输入识别模型,识别模型识别BC,CD,DE各自是否为正样本,并将被识别为正样本的词存入词库。如果步骤212中正样本输入的还包括词的目录分类,负样本输入还包括字串的目录分类的情况下,则还将BC,CD,DE的目录分类一并输入识别模型,识别模型根据BC,CD,DE的统计特征和目录分类识别BC,CD,DE各自是否为正样本。如果某一字串没有对应的目录分类,则可以将该字串的目录分类设置为一缺省值以供识别模型进行处理。
由于采用了正样本输入和负样本输入对识别模型进行训练,因此该识别模型接受的是有监督的学习(英文:supervised learning),也即该识别模型输出的结果是带有标签的,该标签指示被识别的词归类为正样本或归类为负样本。例如,识别模型在学习过程中,如果正样本对应于识别结果为1,负样本对应于识别结果为0,则该识别模型在识别过程中,输入了一个待识别的词的统计特征以及该词的目录分类后,如果输出的识别结果为1,则说明该待识别的词被识别模型识别为正样本,也即未登录词,如果输出的识别结果为0,则说明该待识别的词被识别模型识别为负样本词,也即不是未登录词。
文件的全切分结果中包括了已登录词、未登录词以及一些没有具体含义的字串,通过将排除全切分结果中的已登录词后获得的词输入识别模型,识别模型能够将其中的未登录词识别出来,避免了将没有具体含义的字串也识别为未登录词对于信息检索系统造成的负面影响,提升了信息检索系统的工作效率与检索精度。
本实施例通过从查询语句中提取未登录词,相较于传统方法中从更新的文件或者其他语料中提取未登录词,查询语句是由用户输入的因此含有未登录词的可能性更高,从查询语句中提取未登录词也更加有目的性,更加精准,信息检索系统的检索效率和准确程度也会提升。
本发明实施例提供了获取未登录词的装置400,该装置运用于信息检索系统,该装置的组织结构示意图如图3所示,包括:获取模块402和处理模块404,获取模块402与文件库之间建立通信链接,可以从文件库中获取新文件,处理模块404与文件库、历史搜索日志、词库建立通信链接。
获取模块402的实施细节参考图2所示的实施例的步骤202及其可选方案。
处理模块404的实施细节参考图2所示的实施例的步骤204至步骤214及其各种可选方案。处理模块404使用的识别模型如图2所示的实施例中所述,一般为一段代码或函数,处理模块404对识别模型进行训练,或将统计特征和目录分类输入识别模型以识别未登录词时,调用该段代码或函数。
本实施例提供的获取未登录词的装置能够运用于信息检索系统,通过从查询语句中提取未登录词,相较于传统方法中从更新的文件或者其他语料中提取未登录词,查询语句是由用户输入的因此含有未登录词的可能性更高,从查询语句中提取未登录词也更加有目的性,更加精准,该装置的使用能够使得信息检索系统的检索效率和准确程度也会提升。
本发明实施例提供一种计算设备600,其组织结构示意图如图4所示,计算设备600常用于信息检索系统的服务器,包括处理器602、存储器604、通信接口606和总线608。
其中,处理器602、存储器604和通信接口606可以通过总线608实现彼此之间的通信连接,也可以通过无线传输等其他手段实现通信。
计算设备600通过通信接口606获取更新的文件并存储于存储器中,通信接口606包括输入输出接口和网络接口,也即计算设备600可以通过输入输出设备和网络来获取更新的文件。
处理器602可以为中央处理器(英文:central processing unit,简称:CPU),硬件芯片或CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logicdevice,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complexprogrammable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic array logic,缩写:GAL)或其任意组合。处理器602用于实现图2对应的实施例所提供的技术方案。如果处理器602包括CPU或其他可执行程序代码或函数的芯片,处理器602使用的识别模型如图2所示的实施例中所述,可以为一段程序代码或函数,程序代码或函数可以存储于存储器604中。处理器602对识别模型进行训练,或将统计特征和目录分类输入识别模型以识别未登录词时,调用该段代码或函数即可。
存储器604存储器可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器还可以包括上述种类的存储器的组合。存储器604中存储有历史搜索日志、词库以及文件库。在通过软件来实现本发明实施例提供的技术方案时,用于实现本发明图2对应的实施例提供的技术方案的程序代码可以保存在存储器604中,并由处理器602来执行。
本实施例提供的计算设备运行时能够从查询语句中提取未登录词,相较于传统方法中从更新的文件或者其他语料中提取未登录词,查询语句是由用户输入的因此含有未登录词的可能性更高,从查询语句中提取未登录词也更加有目的性,更加精准,提升信息检索系统的检索效率和准确程度。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
结合本发明公开内容所描述的方法可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM、快闪存储器、ROM、可擦除可编程只读存储器(英文:erasable programmable read only memory,缩写:EPROM)、电可擦可编程只读存储器(英文:electrically erasable programmable read only memory,缩写:EEPROM)、硬盘、光盘或者本领域熟知的任何其它形式的存储介质中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件或软件来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种信息检索系统中获取未登录词的方法,其特征在于,包括:
获取新文件集合;
从历史搜索日志中获取第一历史查询语句,第一历史查询语句为所述历史搜索日志中与所述新文件集合的匹配度程度高于阈值的历史查询语句;
对所述第一历史查询语句进行分割获取第一分割结果,从所述第一分割结果中获取第一未登录词,所述第一未登录词为去除所述第一分割结果中的已登录词后余下的词;
将所述未登录词存入词库。
2.如权利要求1所述的方法,其特征在于,还包括:
获取所述第一未登录词的统计特征;
对文件集合中的文件进行分割获取第二分割结果,其中,所述文件集合包括所述新文件集合,或所述信息检索系统在获取所述新文件集合之前获取的文件集合;
去除所述第二分割结果中的已登录词后,获取所述第二分割结果中的字串;
获取所述字串的统计特征;
将所述第一未登录词的统计特征作为正样本输入并将所述字串的统计特征作为负样本输入对识别模型进行训练;
对所述文件集合中的文件全切分以获得全切分结果;
将排除所述全切分结果中的已登录词后获得的词的统计特征输入所述识别模型,以获取第二未登录词并将所述第二未登录词存入词库,所述第二未登录词为排除所述全切分结果中的已登录词后获得的词中被所述识别模型识别为正样本的词。
3.如权利要求2所述的方法,其特征在于,还包括:
获取所述第一未登录词的目录分类,并获取所述字串的目录分类;
所述正样本输入还包括所述第一未登录词的目录分类,所述负样本输入还包括所述字串的目录分类;
输入所述识别模型的还包括排除所述全切分结果中的已登录词后获得的词的目录分类。
4.一种获取未登录词的装置,其特征在于,所述获取未登录词的装置用于信息检索系统,包括:
获取模块,用于获取新文件集合;
处理模块,用于从历史搜索日志中获取第一历史查询语句,第一历史查询语句为所述历史搜索日志中与所述新文件集合的匹配度程度高于阈值的历史查询语句;还用于对所述第一历史查询语句进行分割获取第一分割结果,从所述第一分割结果中获取第一未登录词,所述第一未登录词为去除所述第一分割结果中的已登录词后余下的词;还用于将所述未登录词存入词库。
5.如权利要求4所述的装置,其特征在于,所述处理模块还用于获取所述第一未登录词的统计特征;还用于对文件集合中的文件进行分割获取第二分割结果,其中,所述文件集合包括所述新文件集合,或所述信息检索系统在获取所述新文件集合之前获取的文件集合;还用于去除所述第二分割结果中的已登录词后,获取所述第二分割结果中的字串;还用于获取所述字串的统计特征;还用于将所述第一未登录词的统计特征作为正样本输入并将所述字串的统计特征作为负样本输入对识别模型进行训练;还用于对所述文件集合中的文件全切分以获得全切分结果;还用于将排除所述全切分结果中的已登录词后获得的词的统计特征输入所述识别模型,以获取第二未登录词并将所述第二未登录词存入词库,所述第二未登录词为排除所述全切分结果中的已登录词后获得的词中被所述识别模型识别为正样本的词。
6.如权利要求5所述的装置,其特征在于,所述处理模块还用于,获取所述第一未登录词的目录分类,并获取所述字串的目录分类;所述正样本输入还包括所述第一未登录词的目录分类,所述负样本输入还包括所述字串的目录分类;
所述处理模块输入所述识别模型的还包括排除所述全切分结果中的已登录词后获得的词的目录分类。
7.一种计算设备,其特征在于,包括处理器、存储器;
所述处理器用于读取所述存储器中的程序执行以下操作:从所述存储器内获取新文件集合,从历史搜索日志中获取第一历史查询语句,第一历史查询语句为所述历史搜索日志中与所述新文件集合的匹配度程度高于阈值的历史查询语句;对所述第一历史查询语句进行分割获取第一分割结果,从所述第一分割结果中获取第一未登录词,所述第一未登录词为去除所述第一分割结果中的已登录词后余下的词;将所述未登录词存入词库。
8.如权利要求7所述的计算设备,其特征在于,还包括:所述处理器还用于获取所述第一未登录词的统计特征;对文件集合中的文件进行分割获取第二分割结果,其中,所述文件集合包括所述新文件集合,或信息检索系统在获取所述新文件集合之前获取的文件集合;去除所述第二分割结果中的已登录词后,获取所述第二分割结果中的字串;获取所述字串的统计特征;将所述第一未登录词的统计特征作为正样本输入并将所述字串的统计特征作为负样本输入对识别模型进行训练;对所述文件集合中的文件全切分以获得全切分结果;将排除所述全切分结果中的已登录词后获得的词的统计特征输入所述识别模型,以获取第二未登录词并将所述第二未登录词存入词库,所述第二未登录词为排除所述全切分结果中的已登录词后获得的词中被所述识别模型识别为正样本的词。
9.如权利要求8所述的计算设备,其特征在于,所述处理器还用于,获取所述第一未登录词的目录分类,并获取所述字串的目录分类;所述正样本输入还包括所述第一未登录词的目录分类,所述负样本输入还包括所述字串的目录分类;输入所述识别模型的还包括排除所述全切分结果中的已登录词后获得的词的目录分类。
10.一种非易失性的存储介质,其特征在于,用于存储程序代码,所述程序代码被计算设备执行时,所述计算设备执行如权利要求1至3任一所述的方法。
CN201580084834.8A 2015-11-25 2015-11-25 获取未登录词的方法与装置 Active CN108475265B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/095554 WO2017088126A1 (zh) 2015-11-25 2015-11-25 获取未登录词的方法与装置

Publications (2)

Publication Number Publication Date
CN108475265A CN108475265A (zh) 2018-08-31
CN108475265B true CN108475265B (zh) 2021-03-30

Family

ID=58762832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580084834.8A Active CN108475265B (zh) 2015-11-25 2015-11-25 获取未登录词的方法与装置

Country Status (2)

Country Link
CN (1) CN108475265B (zh)
WO (1) WO2017088126A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161861A (zh) * 2019-12-31 2020-05-15 南京天溯自动化控制系统有限公司 用于医院后勤运维的短文本数据处理方法、装置
CN111666448B (zh) * 2020-04-21 2024-01-26 北京奇艺世纪科技有限公司 搜索方法、装置、电子设备及计算机可读存储介质
CN117473983B (zh) * 2023-12-27 2024-03-19 苏州元脑智能科技有限公司 一种基于模糊匹配和互信息的未登录词收集方法、装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154226A (zh) * 2006-09-27 2008-04-02 腾讯科技(深圳)有限公司 在输入法词库中添加未登录词的方法及文字输入装置
CN101751386A (zh) * 2009-12-28 2010-06-23 华建机器翻译有限公司 一种未登录词的识别方法
CN101763403A (zh) * 2009-12-31 2010-06-30 哈尔滨工业大学 面向多语言信息检索系统的查询翻译方法
US8170873B1 (en) * 2003-07-23 2012-05-01 Nexidia Inc. Comparing events in word spotting
CN102955812A (zh) * 2011-08-29 2013-03-06 阿里巴巴集团控股有限公司 一种构建索引库的方法、装置及查询方法和装置
CN103942190A (zh) * 2014-04-16 2014-07-23 安徽科大讯飞信息科技股份有限公司 文本分词方法及系统
CN104239321A (zh) * 2013-06-14 2014-12-24 高德软件有限公司 一种面向搜索引擎的数据处理方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263332B1 (en) * 1998-08-14 2001-07-17 Vignette Corporation System and method for query processing of structured documents
CN101042692B (zh) * 2006-03-24 2010-09-22 富士通株式会社 基于语义预测的译文获取方法和设备
CN102999534A (zh) * 2011-09-19 2013-03-27 北京金和软件股份有限公司 一种基于逆向最大匹配的中文分词算法
CN104281698B (zh) * 2014-10-15 2017-07-07 国云科技股份有限公司 一种高效的大数据查询方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8170873B1 (en) * 2003-07-23 2012-05-01 Nexidia Inc. Comparing events in word spotting
CN101154226A (zh) * 2006-09-27 2008-04-02 腾讯科技(深圳)有限公司 在输入法词库中添加未登录词的方法及文字输入装置
CN101751386A (zh) * 2009-12-28 2010-06-23 华建机器翻译有限公司 一种未登录词的识别方法
CN101763403A (zh) * 2009-12-31 2010-06-30 哈尔滨工业大学 面向多语言信息检索系统的查询翻译方法
CN102955812A (zh) * 2011-08-29 2013-03-06 阿里巴巴集团控股有限公司 一种构建索引库的方法、装置及查询方法和装置
CN104239321A (zh) * 2013-06-14 2014-12-24 高德软件有限公司 一种面向搜索引擎的数据处理方法及装置
CN103942190A (zh) * 2014-04-16 2014-07-23 安徽科大讯飞信息科技股份有限公司 文本分词方法及系统

Also Published As

Publication number Publication date
CN108475265A (zh) 2018-08-31
WO2017088126A1 (zh) 2017-06-01

Similar Documents

Publication Publication Date Title
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
JP7164701B2 (ja) セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN112417863B (zh) 基于预训练词向量模型与随机森林算法的中文文本分类方法
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN108027814B (zh) 停用词识别方法与装置
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN111241824B (zh) 一种用于中文隐喻信息识别的方法
CN109657064A (zh) 一种文本分类方法及装置
CN108491512A (zh) 新闻标题的摘要方法及装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置
CN108475265B (zh) 获取未登录词的方法与装置
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN113157857B (zh) 面向新闻的热点话题检测方法、装置及设备
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220224

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.