CN109933216B - 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质 - Google Patents

一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质 Download PDF

Info

Publication number
CN109933216B
CN109933216B CN201910157621.3A CN201910157621A CN109933216B CN 109933216 B CN109933216 B CN 109933216B CN 201910157621 A CN201910157621 A CN 201910157621A CN 109933216 B CN109933216 B CN 109933216B
Authority
CN
China
Prior art keywords
word
words
topic
input
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910157621.3A
Other languages
English (en)
Other versions
CN109933216A (zh
Inventor
郑敏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910157621.3A priority Critical patent/CN109933216B/zh
Publication of CN109933216A publication Critical patent/CN109933216A/zh
Application granted granted Critical
Publication of CN109933216B publication Critical patent/CN109933216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质。通过本发明创造,提供了一种能够将Word2Vec模型和LDA主题模型两种理论共同引入搜索智能联想输入引擎的新方法,通过使用Word2Vec模型和LDA主题模型共同进行候选词推荐,可避免传统搜索输入只能根据前一个或两个词预测搜索候选词的问题,实现了对智能联想输入提示的功能,使得候选词具有语义联想效果,能够为用户提供启发性思维,从而可以有效提高推荐召回率、检索效率和检索准确性。

Description

一种用于智能输入的词语联想提示方法、装置、设备以及计算 机存储介质
技术领域
本发明属于计算机技术领域,具体涉及一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质。
背景技术
搜索提示作为人机交互最基本的交互工具,其重要性不言而喻。搜索提示的工作原理,是首先将用户的输入文字信息传入搜索服务器,搜索服务器引擎会通过计算给出最佳的搜索提示词列表,并通过搜索引擎的界面展示给用户,供用户进行选择确定。当前搜索输入框内的关键词变化时,系统为用户推荐最符合语言环境的候选搜索词提示信息。是否能够快速的为用户提供正确的提示词语,是否能够洞察用户真实的搜索意图,给出正确智能的提示词语,成为衡量搜索提示最重要的一个指标。例如,召回率(RecallRate,也叫查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。
现有的各种搜索输入系统均是基于输入的关键词本身去生成语义关联候选词,其没有体现知识(关键词)本身是具有领域性的高度相互关联的复杂网络这一本质特征,和被搜索的内容没有强语义关联,因而启发性不足,智能联想功能很有限,导致召回率较低。即传统的搜索提示功能,通常是根据用户输入的关键词的前几个词语进行相似性匹配,继而提示开头和输入词语相似的短语作为提示信息,而没有将搜索关键词看成是复杂网络结构语义空间中的一个节点,网络中的每个节点都有其邻近节点与其最关联,所以其联想功能很有限。例如当用户输入“大数”的时候,提示框下会提示“大数据”、“大数字”和“大数定律”等词语,而这些词语都是以“大数”两个字作为开头,不具备语义功能,只做到了字面上的相似,联想功能有限。又例如航天领域的专业术语“系留”,当输入词语“系留”时,会提示“系留气球”、“系留飞艇”、“系留角”、“系留系统”、“系留锁”、“系留汽艇”和“系留平台”等等,这些提示词对用户帮助理解“系留”的含义及应用背景非常有限。
发明内容
为了解决现有搜索提示召回率较低和不具有语义联想功能的问题,本发明目的在于提供一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质。
本发明所采用的技术方案为:
一种用于智能输入的词语联想提示方法,包括如下步骤:
S101.获取包含海量文档的语料库;
S102.对所述语料库中各个文档的词语集合进行数值化处理,然后分别同步执行步骤S1031和步骤S1032;
S1031.将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量,然后根据所述词向量获取各个词语的相关词语集合;
S1032.将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵,然后根据所述主题-词语矩阵获取各个主题的特征词语集合,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率;
S104.在获取输入词语后,查找到所述输入词语的相关词语集合,以及查找到在特征词语集合中包含所述输入词语的所有候选主题,然后将位于所述输入词语的相关词语集合和所有候选主题的特征词语集合中的词语作为所述输入词语的联想提示词语;
S105.输出展示所述联想提示词语。
优化的,在所述步骤S102中,按照如下步骤对各个文档的词语集合进行数值化处理:
S201.对语料库中的所有文档进行切词处理,获取不同的词语,得到所述语料库的总词语集合和各个文档的词语集合;
S202.对所述总词语集合中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;
S203.根据所述词典将文档词语集合中的词语转换为对应的数字唯一标识。
进一步优化的,在所述步骤S201中,按照如下方式对文档进行切词处理:
应用正向最大匹配法进行中文分词,和/或构建数据结构字典树并结合正向最大匹配法进行英文词组识别。
优化的,在所述步骤S1031中,按照如下步骤获取各个词语的相关词语集合:
针对每个词语,分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角,然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语,得到相关词语集合,其中,N为介于1~100之间的自然数。
优化的,在所述步骤S1032中,按照如下方式获取各个主题的特征词语集合:
针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,其中,M为介于1~100之间的自然数。
优化的,在所述步骤S105中,在所述联想提示词语的提示首页显示位于相关词语集合中的所有词语,在所述联想提示词语的提示后续页分别显示各个候选主题的特征词语集合中的词语。
进一步优化的,在所述联想提示词语的各个提示页面中,所有词语按照其与所述输入词语的欧式距离计算结果或向量夹角计算结果进行降序排列,使欧式距离最近或向量夹角最小的词语最靠前布置。
本发明所采用的另一种技术方案为:
一种用于智能输入的词语联想提示装置,包括依次通信相连的获取模块、处理模块、训练模块、查找模块和输出模块,其中,所述训练模块包括Word2Vec模型训练子模块和LDA主题模型训练子模块;
所述获取模块,用于获取包含海量文档的语料库;
所述处理模块,用于对所述语料库中各个文档的词语集合进行数值化处理;
所述Word2Vec模型训练子模块,用于将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量,然后根据所述词向量获取各个词语的相关词语集合;
所述LDA主题模型训练子模块,用于将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵,然后根据所述主题-词语矩阵获取各个主题的特征词语集合,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率;
所述查找模块,用于在获取输入词语后,查找到所述输入词语的相关词语集合,以及查找到在特征词语集合中包含所述输入词语的所有候选主题,然后将位于所述输入词语的相关词语集合和所有候选主题的特征词语集合中的词语作为所述输入词语的联想提示词语;
所述输出模块,用于输出展示所述联想提示词语。
本发明所采用的另一种技术方案为:
一种用于智能输入的词语联想提示设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如前所述用于智能输入的词语联想提示方法的步骤。
本发明所采用的另一种技术方案为:
一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述用于智能输入的词语联想提示方法的步骤。
本发明的有益效果为:
(1)本发明创造提供了一种能够将Word2Vec模型和LDA主题模型两种理论共同引入搜索智能联想输入引擎的新方法,通过使用Word2Vec模型和LDA主题模型共同进行候选词推荐,可避免传统搜索输入只能根据前一个或两个词预测搜索候选词的问题,实现了对智能联想输入提示的功能,使得候选词具有语义联想效果,能够为用户提供启发性思维,从而可以有效提高推荐召回率、检索效率和检索准确性;
(2)可具有更好的启发性和直观性,即当用户在进行搜索时,虽然用户能想到的且较精确关键词是有限的,但是通过本实施例提供的新方法,可使众多语义相近、相关或主题相关的关键词自动实时展示,极大地方便用户迅速准确找到搜索入口,提供查全率;
(3)可具有智能的学习功能,即能让用户了解当前关键词的语义场景和语用环境,特别是一些用户不熟悉或新的领域专业术语,在搜索前就能了解当前词的上下文应用背景和关联内容等,从而理解当前输入词的基本含义;
(4)可极大改善用户体验,即提升用户界面的友好性,使用户每输入一个词就会有语义相关和主题相关的相关词就会自动弹出,帮助提醒用户,使得用户和系统关系变得亲近、自然和流畅,提高了系统的粘性;
(5)可提升搜索系统的交互性,即用户可以在自动弹出的候选系列词中,进行交互或快速浏览,找到更准确的关键词,提高搜索效率,提升查全率和查准率;
(6)可具有广泛的适应性,与语种无关;
(7)可具有广泛的应用场景,除去应用于搜索,还可以通过迁移学习训练特定领域语料,生成相应的知识图谱和主题图谱,从而定制成各种特定场景的智能输入系统,大大提高输入效率和质量;
(8)实施简单,可以无缝集成嵌入到用户的各种应用系统中,是一种非侵入式的且对现有应用系统进行增强智能和改善使用友好性的有益补充。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的词语联想提示方法的流程示意图。
图2是本发明提供的当输入词语为“查全率”的词语联想提示首页示例图。
图3是本发明提供的当输入词语为“查全率”的词语联想提示后续页示例图。
图4是本发明提供的当输入词语为“查准率”的词语联想提示首页示例图。
图5是本发明提供的当输入词语为“查准率”的词语联想提示后续页示例图。
图6是本发明提供的当输入词语为“软件测试”的词语联想提示首页示例图。
图7是本发明提供的当输入词语为“软件测试”的词语联想提示后续页示例图。
图8是本发明提供的词语联想提示装置的结构示意图。
图9是本发明提供的词语联想提示设备的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,在本文描述的一些流程中,包含了按照特定顺序出现的多个操作,但是这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S101、S102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作同样按顺序执行或并行执行。
应当理解,尽管本文可以使用术语第一、第二等等来描述各种单元,这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
应当理解,当将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,当将单元称作与另一个单元“直接相连”或“直接耦合”时,不存在中间单元。应当以类似方式来解释用于描述单元之间关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
本文使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。如本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解术语“包括”、“包括了”、“包含”和/或“包含了”在本文中使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以不必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
实施例一
如图1~7所示,本实施例提供的所述用于智能输入的词语联想提示方法,可以但不限于包括如下步骤。
S101.获取包含海量文档的语料库。
在所述步骤S101中,所述语料库用于为LDA主题模型的训练进程提供足量的训练语料,所述训练语料可由用户提供的或由现有采集软件采集的各种文档数据构成,每篇文档可以但不限于由标题、摘要、关键词、正文、附件名目、附件内容和作者信息等中的一部分字段或几部分字段构成。此外,所述海量文档一般是在万篇文档以上,例如选取十万篇文档构成所述语料库。
S102.对所述语料库中各个文档的词语集合进行数值化处理,然后分别同步执行步骤S1031和步骤S1032。
在所述步骤S102中,考虑后续Word2Vec模型和LDA主题模型的训练算法是无法处理词语(本文中的所述词语可以但不限于包括单词、字符串和/或它们的组合)的输入和输出,因此需要把文档中的词语转换为对应的数字唯一标识,即实现训练样本数值化,方便进行后续的Word2Vec模型训练和LDA主题模型训练。优化的,可以但不限于按照如下步骤对各个文档的词语集合进行数值化处理:S201.对语料库中的所有文档进行切词处理,获取不同的词语,得到所述语料库的总词语集合和各个文档的词语集合;S202.对所述总词语集合中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;S203.根据所述词典将文档词语集合中的词语转换为对应的数字唯一标识。
在所述步骤S201中,为了表达更好的语义效果,特别需要现有的中文分词技术和/或英文词组识别技术进行技术支撑,例如对于“飞机设计研究院”或“bigdata”等,需要将这些词语分别识别为一个独立词语,这样可以使得搜索提示出来的词语表达出更好的语义效果。在所述步骤S202中,对所述总词语集合中的所有词语进行唯一编码的具体方式可以但不限于如下:统计所述总词语集的词语总数为S,然后针对所述总词语集中的各个词语,逐一地按照排列顺序赋予数字编号介于0~S-1之间的整数。进一步优化的,可以但不限于按照如下方式对文档进行切词处理:应用正向最大匹配法进行中文分词,和/或构建数据结构字典树并结合正向最大匹配法进行英文词组识别。
所述正向最大匹配法为现有常用的中文分词方法,其算法原理一般是从左到右将待分词文本(等同于文档)中的几个连续字符与词表(由成千上万个常用的且已经分好的词语组成)中的所有词语逐一匹配,如果匹配上,则切分出一个词语,为了做到最大匹配,并不是第一次匹配到就可以切分的,即从第一个字符开始,当扫描到第二个字符的时候,发现第一个字符已经在词表中了,但还不能切分出来,因为不知道后面的词语能不能组成更长的词(即最大匹配),因此需要扫描迭代,使最大匹配出的词语必须保证下一个扫描不是词表中的词语或词语的前缀才可以结束。英文词组的识别扫描与中文相同,需要将英文空格转换为“|”或者其他具有表征意义的字符,能够表示为一个词组即可。此外,中文分词和英文词组的识别均是采用正向最大匹配算法,为了加快英文词组的识别速度,还可以采用特定的数据结构字典树(又称单词查找树或Trie树,是一种树形结构和一种哈希树的变种,其典型应用是用于统计、排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计,其主要优点是可利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高)来辅助英文词组的识别。
S1031.将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量,然后根据所述词向量获取各个词语的相关词语集合。
在所述步骤S1031中,所述Word2Vec模型的技术解释和训练过程可参见现有技术文献(例如http://www.dataguru.cn/article-13488-1.html和https://blog.csdn.net/u011630575/article/details/81054810),其一般过程为在导入一系列文档的数值化样本和进行参数设置后,选择两种不同训练模式中任何一种:CBOW(ContinuousBag-of-WordsModel)和Skip-gram(ContinuousSkip-gramModel);以及选择两种加速方法中的任何一种:NegativeSample和HierarchicalSoftmax;以及通过训练可导出各个词语的词向量。本实施例可举例选用Skip-Gram训练模型和Hierarchical Softmax加速方法。此外,诸如迭代次数Epoch、向量维度Vectorsize以及学习率Learningrate等参数,都可以根据训练和测试结果进行选取,例如,在本实施例中,迭代次数Epoch的选取范围介于10~25之间,向量维度Vectorsize的选取范围介于45~100之间,学习率Learningrate的选取范围介于0.001-0.03之间(推荐使用默认数值0.025),并使用大数据开源框架SPARK(其为大规模数据处理而设计的快速通用的计算引擎)进行训练。
在所述步骤S1031中,优化的,可以但不限于按照如下步骤获取各个词语的相关词语集合:针对每个词语,分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角,然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语,得到相关词语集合,其中,N为介于1~100之间的自然数,一般可默认为30。
S1032.将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵,然后根据所述主题-词语矩阵获取各个主题的特征词语集合,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率。
在所述步骤S1031中,所述LDA主题模型的技术解释和训练过程可参见现有技术文献(例如https://blog.csdn.net/huagong_adu/article/details/7937616和https://blog.csdn.net/u010159842/article/details/80332030),其一般过程为在导入一系列文档的数值化样本和进行参数设置后,通过计算各个文档中每个词语的词频,得到所述主题-词语矩阵和文档-主题矩阵,其中,所述文档-主题矩阵表示每个文档中出现每个主题的概率。本申请认为文档中的主题是彼此相互关联的复杂语义关联网络,每个主题就是网络中的一个节点,每个文档均被解析表示成出现概率最大的X(一般取值为1~10之间)个主题按照所占百分比的组成,由于自然语言的稀疏性,每个文档的实际包含主题数是远远小于总主题数的,诸如主题预设总数等参数可以根据训练和测试结果进行选取,例如,主题预设总数的范围可在10~1000000之间进行设置。此外,优化的,可以但不限于按照如下方式获取各个主题的特征词语集合:针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,其中,M为介于1~100之间的自然数,一般可默认为30。
S104.在获取输入词语后,查找到所述输入词语的相关词语集合,以及查找到在特征词语集合中包含所述输入词语的所有候选主题,然后将位于所述输入词语的相关词语集合和所有候选主题的特征词语集合中的词语作为所述输入词语的联想提示词语。
在所述步骤S104中,所述输入词语可以但不限于通过用户输入得到。
S105.输出展示所述联想提示词语。
在所述步骤S105中,优化的,可以但不限于按照如下方式进行词语展示:在所述联想提示词语的提示首页显示位于相关词语集合中的所有词语,在所述联想提示词语的提示后续页分别显示各个候选主题的特征词语集合中的词语。因此如果找到5个候选主题,将会有1+5个提示页。进一步优化的,为了体现词语间的语义关联优先性,在所述联想提示词语的各个提示页面中,所有词语按照其与所述输入词语的欧式距离计算结果或向量夹角计算结果进行降序排列,使欧式距离最近或向量夹角最小的词语最靠前布置。此外,为了提升相关词语的提示优先等级,在所述联想提示词语的提示后续页中,可以根据各个候选主题的主题总现占比值对所有候选主题进行降序显示,使主题总现占比值最大的候选主题先显示,或者根据各个候选主题的特征词语集合中所有词语分别与所述输入词语的欧式距离计算总和或向量夹角计算总和进行降序显示,使欧式距离计算总和或向量夹角计算总和的候选主题先显示。
如图2~7所示的且针对三种不同输入词语(即“查全率”、“查准率”和“软件测试”)的提示首页及后续页的词语联想提示结果,可以将所有与输入词语相语义关联的候选词提供给用户,以供用户选择。前述步骤S101~105的技术思想是基于知识是基于特定领域的相互关联的复杂的语义关联网络,每个关键词都是语义空间的一个节点,都有其最邻近且强语义关联的节点,因此先对要搜索的内容进行统一的机器学习,使所有原本孤立的词语被重新组织关联,形成多维的、相互关联、立体的和多层次的语义关联网络,每个词语均有其语义相近、语义相关和主题相近的候选相关词语,在关键词输入时,可以通过查找自动地实时弹出,实现智能联想和提示。同样以专业术语“系留”为例,当输入词语为“系留”时,本实施例技术会提示“投放实验”、“挂飞”、“弹道飞行”、“模拟弹”、“发射架”、“发射箱”和“机动再入飞行器”等语义相关词语,能够帮助用户理解“系留”的具体含义和实际应用背景,具有良好的专业性、启发性和自导性,可实现真正的智能推荐。
由此通过前述步骤S101~S105所描述的词语联想提示方法,可以将Word2Vec模型和LDA主题模型两种理论共同引入搜索智能联想输入引擎,并使用Word2Vec模型和LDA主题模型共同进行候选词推荐,进而可避免传统搜索输入只能根据前一个或两个词预测搜索候选词的问题,实现了对智能联想输入提示的功能,使得候选词具有语义联想效果,能够为用户提供启发性思维,从而可以有效提高推荐召回率、检索效率和检索准确性。总之,本实施例技术的核心创新是将基于机器学习而生成的知识图谱和主题图谱前置集成到搜索入口,从而实现了以前搜索输入法从未达到过的启发性,知识性和专业性,大大提升了输入的智能性,改善了用户体验,使得系统变得更人机友好,更具粘性。
综上,采用本实施例所提供的用于智能输入的词语联想提示方法,具有如下技术效果:
(1)本实施例提供了一种能够将Word2Vec模型和LDA主题模型两种理论共同引入搜索智能联想输入引擎的新方法,通过使用Word2Vec模型和LDA主题模型共同进行候选词推荐,可避免传统搜索输入只能根据前一个或两个词预测搜索候选词的问题,实现了对智能联想输入提示的功能,使得候选词具有语义联想效果,能够为用户提供启发性思维,从而可以有效提高推荐召回率、检索效率和检索准确性;
(2)可具有更好的启发性和直观性,即当用户在进行搜索时,虽然用户能想到的且较精确关键词是有限的,但是通过本实施例提供的新方法,可使众多语义相近、相关或主题相关的关键词自动实时展示,极大地方便用户迅速准确找到搜索入口,提供查全率;
(3)可具有智能的学习功能,即能让用户了解当前关键词的语义场景和语用环境,特别是一些用户不熟悉或新的领域专业术语,在搜索前就能了解当前词的上下文应用背景和关联内容等,从而理解当前输入词的基本含义;
(4)可极大改善用户体验,即提升用户界面的友好性,使用户每输入一个词就会有语义相关和主题相关的相关词就会自动弹出,帮助提醒用户,使得用户和系统关系变得亲近、自然和流畅,提高了系统的粘性;
(5)可提升搜索系统的交互性,即用户可以在自动弹出的候选系列词中,进行交互或快速浏览,找到更准确的关键词,提高搜索效率,提升查全率和查准率;
(6)可具有广泛的适应性,与语种无关;
(7)可具有广泛的应用场景,除去应用于搜索,还可以通过迁移学习训练特定领域语料,生成相应的知识图谱和主题图谱,从而定制成各种特定场景的智能输入系统,大大提高输入效率和质量;
(8)实施简单,可以无缝集成嵌入到用户的各种应用系统中,是一种非侵入式的且对现有应用系统进行增强智能和改善使用友好性的有益补充。
实施例二
如图8所示,本实施例提供了一种实现实施例一所述用于智能输入的词语联想提示方法的硬件装置,包括依次通信相连的获取模块、处理模块、训练模块、查找模块和输出模块,其中,所述训练模块包括Word2Vec模型训练子模块和LDA主题模型训练子模块;所述获取模块,用于获取包含海量文档的语料库;所述处理模块,用于对所述语料库中各个文档的词语集合进行数值化处理;所述Word2Vec模型训练子模块,用于将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量,然后根据所述词向量获取各个词语的相关词语集合;所述LDA主题模型训练子模块,用于将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵,然后根据所述主题-词语矩阵获取各个主题的特征词语集合,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率;所述查找模块,用于在获取输入词语后,查找到所述输入词语的相关词语集合,以及查找到在特征词语集合中包含所述输入词语的所有候选主题,然后将位于所述输入词语的相关词语集合和所有候选主题的特征词语集合中的词语作为所述输入词语的联想提示词语;所述输出模块,用于输出展示所述联想提示词语。
本实施例提供的词语联想提示装置的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
实施例三
如图9所示,本实施例提供了一种实现实施例一所述用于智能输入的词语联想提示方法的硬件设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如实施例一所述用于智能输入的词语联想提示方法的步骤。
本实施例提供的词语联想提示设备的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
实施例四
本实施例提供了一种存储包含实施例一所述用于智能输入的词语联想提示方法的计算机程序的计算机存储介质,即在所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述用于智能输入的词语联想提示方法的步骤。其中,计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置,也可以是移动智能设备(如智能手机、PAD或ipad等)。
本实施例提供的计算机存储介质的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
以上所描述的多个实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (9)

1.一种用于智能输入的词语联想提示方法,其特征在于,包括如下步骤:
S101.获取包含海量文档的语料库;
S102.对所述语料库中各个文档的词语集合进行数值化处理,然后分别同步执行步骤S1031和步骤S1032;
S1031.将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量,然后根据所述词向量获取各个词语的相关词语集合;
S1032.将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵,然后根据所述主题-词语矩阵获取各个主题的特征词语集合,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率;
S104.在获取输入词语后,查找到所述输入词语的相关词语集合,以及查找到在特征词语集合中包含所述输入词语的所有候选主题,然后将位于所述输入词语的相关词语集合和所有候选主题的特征词语集合中的词语作为所述输入词语的联想提示词语;
S105.输出展示所述联想提示词语;
在所述步骤S105中,在所述联想提示词语的提示首页显示位于相关词语集合中的所有词语,在所述联想提示词语的提示后续页分别显示各个候选主题的特征词语集合中的词语,并根据各个候选主题的主题总现占比值对所有候选主题进行降序显示,使主题总现占比值最大的候选主题先显示,或者根据各个候选主题的特征词语集合中所有词语分别与所述输入词语的欧式距离计算总和或向量夹角计算总和进行降序显示,使欧式距离计算总和或向量夹角计算总和的候选主题先显示。
2.如权利要求1所述的一种用于智能输入的词语联想提示方法,其特征在于,在所述步骤S102中,按照如下步骤对各个文档的词语集合进行数值化处理:
S201.对语料库中的所有文档进行切词处理,获取不同的词语,得到所述语料库的总词语集合和各个文档的词语集合;
S202.对所述总词语集合中的所有词语进行唯一编码,得到包含有所有词语和与各个词语对应的数字唯一标识的词典;
S203.根据所述词典将文档词语集合中的词语转换为对应的数字唯一标识。
3.如权利要求2所述的一种用于智能输入的词语联想提示方法,其特征在于,在所述步骤S201中,按照如下方式对文档进行切词处理:
应用正向最大匹配法进行中文分词,和/或构建数据结构字典树并结合正向最大匹配法进行英文词组识别。
4.如权利要求1所述的一种用于智能输入的词语联想提示方法,其特征在于,在所述步骤S1031中,按照如下步骤获取各个词语的相关词语集合:
针对每个词语,分别根据词向量计算该词语与其它各个词语的欧式距离或向量夹角,然后根据计算结果选取欧式距离最近或向量夹角最小的前N个其它词语作为相关词语,得到相关词语集合,其中,N为介于1~100之间的自然数。
5.如权利要求1所述的一种用于智能输入的词语联想提示方法,其特征在于,在所述步骤S1032中,按照如下方式获取各个主题的特征词语集合:
针对所述主题-词语矩阵中的各个主题,选取在对应主题中出现概率最大的前M个词语作为特征词语,得到特征词语集合,其中,M为介于1~100之间的自然数。
6.如权利要求1所述的一种用于智能输入的词语联想提示方法,其特征在于,在所述联想提示词语的各个提示页面中,所有词语按照其与所述输入词语的欧式距离计算结果或向量夹角计算结果进行降序排列,使欧式距离最近或向量夹角最小的词语最靠前布置。
7.一种用于智能输入的词语联想提示装置,其特征在于,包括依次通信相连的获取模块、处理模块、训练模块、查找模块和输出模块,其中,所述训练模块包括Word2Vec模型训练子模块和LDA主题模型训练子模块;
所述获取模块,用于获取包含海量文档的语料库;
所述处理模块,用于对所述语料库中各个文档的词语集合进行数值化处理;
所述Word2Vec模型训练子模块,用于将数值化处理结果作为训练样本导入Word2Vec模型进行训练,得到各个词语的词向量,然后根据所述词向量获取各个词语的相关词语集合;
所述LDA主题模型训练子模块,用于将数值化处理结果作为训练样本导入LDA主题模型进行训练,得到主题-词语矩阵,然后根据所述主题-词语矩阵获取各个主题的特征词语集合,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率;
所述查找模块,用于在获取输入词语后,查找到所述输入词语的相关词语集合,以及查找到在特征词语集合中包含所述输入词语的所有候选主题,然后将位于所述输入词语的相关词语集合和所有候选主题的特征词语集合中的词语作为所述输入词语的联想提示词语;
所述输出模块,用于按照如下方式输出展示所述联想提示词语:在所述联想提示词语的提示首页显示位于相关词语集合中的所有词语,在所述联想提示词语的提示后续页分别显示各个候选主题的特征词语集合中的词语,并根据各个候选主题的主题总现占比值对所有候选主题进行降序显示,使主题总现占比值最大的候选主题先显示,或者根据各个候选主题的特征词语集合中所有词语分别与所述输入词语的欧式距离计算总和或向量夹角计算总和进行降序显示,使欧式距离计算总和或向量夹角计算总和的候选主题先显示。
8.一种用于智能输入的词语联想提示设备,其特征在于,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如权利要求1~6任意一项所述用于智能输入的词语联想提示方法的步骤。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~6任意一项所述用于智能输入的词语联想提示方法的步骤。
CN201910157621.3A 2019-03-01 2019-03-01 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质 Active CN109933216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910157621.3A CN109933216B (zh) 2019-03-01 2019-03-01 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910157621.3A CN109933216B (zh) 2019-03-01 2019-03-01 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质

Publications (2)

Publication Number Publication Date
CN109933216A CN109933216A (zh) 2019-06-25
CN109933216B true CN109933216B (zh) 2020-03-06

Family

ID=66986146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910157621.3A Active CN109933216B (zh) 2019-03-01 2019-03-01 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109933216B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112748809B (zh) * 2019-10-16 2024-08-16 北京搜狗科技发展有限公司 输入法词条的展现方法及装置
CN111737482B (zh) * 2020-04-17 2021-02-19 郑敏杰 一种适用于数据挖掘的全景可视化图谱生成方法及装置
CN113625884B (zh) * 2020-05-07 2024-07-16 顺丰科技有限公司 一种输入词推荐方法、装置、服务器及存储介质
CN115204123B (zh) * 2022-07-29 2023-02-17 北京知元创通信息技术有限公司 协同编辑文档的分析方法、分析装置以及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634905B (zh) * 2009-07-01 2011-07-06 广东国笔科技股份有限公司 一种智能联想输入系统及方法
CN109074171B (zh) * 2017-05-16 2021-03-30 华为技术有限公司 输入方法及电子设备
CN108227955A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种基于用户历史搜索推荐输入联想的方法及装置

Also Published As

Publication number Publication date
CN109933216A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109933216B (zh) 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN109902302B (zh) 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质
CN110134760A (zh) 一种搜索方法、装置、设备及介质
CN109829104A (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN116304066B (zh) 一种基于提示学习的异质信息网络节点分类方法
CN113127672B (zh) 量化图像检索模型的生成方法、检索方法、介质及终端
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN111881264A (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN115168537A (zh) 语义检索模型的训练方法、装置、电子设备及存储介质
CN118210889A (zh) 基于知识图谱的向量相似性搜索的提示词生成方法及装置
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112698831B (zh) 一种代码自动生成质量评估方法
CN113722436A (zh) 文本信息提取方法、装置、计算机设备及存储介质
CN114003706A (zh) 关键词组合生成模型训练方法及装置
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
CN113128210B (zh) 一种基于同义词发现的网页表格信息解析方法
CN114676775A (zh) 样本信息标注方法、装置、设备、程序以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant