CN107544982A - 文本信息处理方法、装置及终端 - Google Patents

文本信息处理方法、装置及终端 Download PDF

Info

Publication number
CN107544982A
CN107544982A CN201610475728.9A CN201610475728A CN107544982A CN 107544982 A CN107544982 A CN 107544982A CN 201610475728 A CN201610475728 A CN 201610475728A CN 107544982 A CN107544982 A CN 107544982A
Authority
CN
China
Prior art keywords
keyword
search term
crucial phrase
term
text message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610475728.9A
Other languages
English (en)
Other versions
CN107544982B (zh
Inventor
许林
尚国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201610475728.9A priority Critical patent/CN107544982B/zh
Priority to PCT/CN2017/075213 priority patent/WO2017219696A1/zh
Publication of CN107544982A publication Critical patent/CN107544982A/zh
Application granted granted Critical
Publication of CN107544982B publication Critical patent/CN107544982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本信息处理方法、装置及终端,其中,该方法包括:确定与获取的搜索词对应的关键词组;根据所述搜索词与确定的所述关键词组中的各个关键词之间的相似关系,获得与所述搜索词对应的预定个数的关键词;根据预定个数的所述关键词,确定包含所述预定个数的关键词中的一个或多个的文本信息。通过本发明,解决了相关技术中终端设备的搜索功能存在过于机械的问题,进而达到了提高文本信息搜索效率的效果。

Description

文本信息处理方法、装置及终端
技术领域
本发明涉及通信领域,具体而言,涉及一种文本信息处理方法、装置及终端。
背景技术
目前终端设备上都有对文本短信的搜索功能,通过输入搜索词,能查找出终端上包含有搜索词的所有短信,也就是检索词查找定位检索词所在的句子或文本。但是,若不能准确记住待搜索的词语时,往往则需要输入多次才能搜索到自己想要搜集的信息。
因此,相关技术中终端设备的搜索功能存在过于机械的问题。
发明内容
本发明实施例提供了一种文本信息处理方法、装置及终端,以至少解决相关技术中终端设备的搜索功能存在过于机械的问题。
根据本发明的一个实施例,提供了一种文本信息处理方法,包括:确定与获取的搜索词对应的关键词组;根据所述搜索词与确定的所述关键词组中的各个关键词之间的相似关系,获得与所述搜索词对应的预定个数的关键词;根据预定个数的所述关键词,确定包含所述预定个数的关键词中的一个或多个的文本信息。
可选地,在确定与所述搜索词对应的所述关键词组之前,还包括:检测到文本信息;根据检测到的所述文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个所述关键词组中的关键词。
可选地,根据检测到的所述文本信息中包含的关键词,与关键词组中的关键词之间的相似关系,更新所述关键词组中的关键词之后,还包括,保存更新后的所述关键词组中的关键词,与所述文本信息之间的对应关系;根据预定个数的所述关键词,以及保存的关键词与文本信息的对应关系,确定包含所述预定个数的关键词的一个或多个的文本信息。
可选地,在所述关键词组为多个的情况下,确定与所述搜索词对应的关键词组包括:确定所述搜索词对应的词向量;确定多个所述关键词组的用于表征关键词组的中心词向量,与所述搜索词对应的词向量之间的相似度的顺序;根据确定的所述中心词向量与所述搜索词对应的所述词向量之间的所述相似度的顺序,确定与所述搜索词相似度最高的所述中心词向量对应的关键词组为所述搜索词对应的关键词组。
可选地,根据所述搜索词与所述关键词组中的关键词之间的相似关系,获得与所述搜索词对应的预定个数的所述关键词包括:根据所述搜索词对应的词向量,与所述关键词组中各个关键词对应的词向量之间的相似度,确定所述搜索词与所述关键词组中各个关键词之间的相似顺序;根据确定的所述搜索词与所述关键词组中各个关键词之间的相似顺序,获得与所述搜索词对应的预定个数的所述关键词。
根据本发明的另一个实施例,提供了一种文本信息处理装置,包括:第一确定模块,用于确定与获取的搜索词对应的关键词组;获得模块,用于根据所述搜索词与确定的所述关键词组中的各个关键词之间的相似关系,获得与所述搜索词对应的预定个数的关键词;第二确定模块,用于根据预定个数的所述关键词,确定包含所述预定个数的关键词中的一个或多个的文本信息。
可选地,所述装置还包括:检测模块,用于检测到文本信息;更新模块,用于根据检测到的所述文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个所述关键词组中的关键词。
可选地,所述装置还包括:保存模块,用于保存更新后的所述关键词组中的关键词,与所述文本信息之间的对应关系;第三确定模块,用于根据预定个数的所述关键词,以及保存的关键词与文本信息的对应关系,确定包含所述预定个数的关键词的一个或多个的文本信息。
可选地,所述第一确定模块包括:第一确定单元,用于在所述关键词组为多个的情况下,确定所述搜索词对应的词向量;第二确定单元,用于确定多个所述关键词组的用于表征关键词组的中心词向量,与所述搜索词对应的词向量之间的相似度的顺序;第三确定单元,用于根据确定的所述中心词向量与所述搜索词对应的所述词向量之间的所述相似度的顺序,确定与所述搜索词相似度最高的所述中心词向量对应的关键词组为所述搜索词对应的关键词组。
可选地,所述获得模块包括:第四确定单元,用于根据所述搜索词对应的词向量,与所述关键词组中各个关键词对应的词向量之间的相似度,确定所述搜索词与所述关键词组中各个关键词之间的相似顺序;获得单元,用于根据确定的所述搜索词与所述关键词组中各个关键词之间的相似顺序,获得与所述搜索词对应的预定个数的所述关键词。
根据本发明的又一个实施例,还提供了一种终端,该终端包括上述任一项所述的文本信息处理装置。
根据本发明的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:确定与获取的搜索词对应的关键词组;根据所述搜索词与确定的所述关键词组中的各个关键词之间的相似关系,获得与所述搜索词对应的预定个数的关键词;根据预定个数的所述关键词,确定包含所述预定个数的关键词中的一个或多个的文本信息。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:检测到文本信息;根据检测到的所述文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个所述关键词组中的关键词。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:根据检测到的所述文本信息中包含的关键词,与关键词组中的关键词之间的相似关系,更新所述关键词组中的关键词之后,还包括,保存更新后的所述关键词组中的关键词,与所述文本信息之间的对应关系;根据预定个数的所述关键词,以及保存的关键词与文本信息的对应关系,确定包含所述预定个数的关键词的一个或多个的文本信息。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:在所述关键词组为多个的情况下,确定与所述搜索词对应的关键词组包括:确定所述搜索词对应的词向量;确定多个所述关键词组的用于表征关键词组的中心词向量,与所述搜索词对应的词向量之间的相似度的顺序;根据确定的所述中心词向量与所述搜索词对应的所述词向量之间的所述相似度的顺序,确定与所述搜索词相似度最高的所述中心词向量对应的关键词组为所述搜索词对应的关键词组。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:根据所述搜索词与所述关键词组中的关键词之间的相似关系,获得与所述搜索词对应的预定个数的所述关键词包括:根据所述搜索词对应的词向量,与所述关键词组中各个关键词对应的词向量之间的相似度,确定所述搜索词与所述关键词组中各个关键词之间的相似顺序;根据确定的所述搜索词与所述关键词组中各个关键词之间的相似顺序,获得与所述搜索词对应的预定个数的所述关键词。
通过本发明,根据搜索词获得与搜索词相似的一个或多个关键词,根据关键词确定包含关键词中一个或多个的文本信息,由于在搜索文本信息时考虑了与搜索词相似的多个关键词,对单词搜索的范围进行了合理扩展,可以解决相关技术中终端设备的搜索功能存在过于机械的问题,达到提高文本信息搜索效率的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种文本信息处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的文本信息处理方法的流程图;
图3是根据本发明优选实施例的文本信息处理方法的参数学习的流程图;
图4是根据本发明优选实施例的文本信息处理方法的搜索的流程图;
图5是根据本发明实施例的文本信息处理装置的结构框图一;
图6是根据本发明实施例的文本信息处理装置的结构框图二;
图7是根据本发明实施例的文本信息处理装置的结构框图三;
图8是根据本发明实施例的文本信息处理装置的第一确定模块52的结构框图;
图9是根据本发明实施例的文本信息处理装置的获得模块54的结构框图;
图10是根据本发明实施例的终端的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
相关技术中,终端设备上对文本信息的检索主要是通过将检索词在现有的文本中一一匹配,从而准确的查找到检索词所在的句子或文本。然而,若不能准确记住待搜索的词语时,往往则需要输入多次才能搜索到自己想要搜集的信息。为了减少搜索输入的次数,对单次搜索的范围进行扩展显得很有必要。
在互联网搜索中,可以通过将搜索词上传至服务器,然后在服务器查找词向量并计算相近的词,而在终端设备上,受存储能力和计算能力的制约,现有方法在终端设备上不太可行。
实施例1
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种文本信息处理方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本信息处理方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的文本信息处理方法,图2是根据本发明实施例的文本信息处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,确定与获取的搜索词对应的关键词组;
步骤S204,根据搜索词与确定的关键词组中的各个关键词之间的相似关系,获得与搜索词对应的预定个数的关键词;
步骤S206,根据预定个数的关键词,确定包含预定个数的关键词中的一个或多个的文本信息。
通过上述步骤,根据搜索词获得与搜索词相似的一个或多个关键词,根据关键词确定包含关键词中一个或多个的文本信息,由于在搜索文本信息时考虑了与搜索词相似的多个关键词,对单词搜索的范围进行了合理扩展,解决了相关技术中终端设备的搜索功能存在过于机械的问题,提高了文本信息搜索效率。
可选地,在步骤S202之前,可以采用多种方式获得关键词组,例如,可以直接设定关键词组中包含的关键词,设定的关键词可以是根据经验设定的。又例如,也可以在检测到文本信息的情况下,根据检测到的文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个关键词组中的关键词。对于一个关键词组的情况,也可以直接将文本信息中包含的关键词添加到关键词组中。
通过本发明实施例的上述技术方案,通过检测到的文本信息中包含的关键词更新关键词组中的关键词,可以灵活设置关键词组的关键词。同时,由于关键词组中包含的关键词为已检测到的文本信息中的关键词,提高了关键词组中关键词的有效性。
可选地,可以采用多种方式由关键词确定包含预定个数的关键词的一个或多个的文本信息。例如,可以根据预定个数的关键词分别检索终端中的文本信息。又例如,也可以在根据检测到的文本信息中包含的关键词,与关键词组中的关键词之间的相似关系,更新关键词组中的关键词之后,保存更新后的关键词组中的关键词与文本信息之间的对应关系;在获得与搜索词对应的预定个数的关键词后,即可由获得的关键词以及关键词与文本信息的对应关系,得到对应的文本信息。由于关键词与文本信息的对应关系是在检索前确定的,因此,可以提高文本信息检索的效率。
通过本发明实施例的上述技术方案,通过关键词与文本信息的对应关系,确定包含预定个数的关键词的一个或多个的文本信息,提高了文本信息检索检索的效率。
可选地,在终端中包含的关键词组为多个情况下,可以采用如下方式确定与所述搜索词对应的关键词组:确定搜索词对应的词向量,确定多个关键词组的用于表征关键词组的中心词向量,与搜索词对应的词向量之间的相似度的顺序,根据确定的中心词向量与搜索词对应的词向量之间的相似度的顺序,确定与搜索词相似度最高的中心词向量对应的关键词组为搜索词对应的关键词组。确定各个词对应的词向量可以根据相关技术中提供的训练好的词向量,也可以采用词向量训练工具(如,word2Vec工具)进行训练得到常用词的词向量。关键词组的中心词向量可以为关键词组中具有代表性的关键词对应的词向量,也可以是根据关键词组中的各个关键词的词向量通过统计计算(如,平均值、加权平均值、均方值等)得到关键词组对应的中心词向量。
通过本发明实施例的上述技术方案,通过计算得到搜索词的词向量与各个关键词组的中心词向量的相似度的顺序,根据得到的相似度的顺序,确定与搜索词对应的关键词组,由于将关键词划分为不同的分组,降低了根据搜索词与确定的关键词组中的各个关键词之间的相似关系,获得与搜索词对应的预定个数的关键词时对系统资源的占用,提高了文本信息确定的效率。
可选地,根据搜索词与关键词组中的关键词之间的相似关系,获得与搜索词对应的预定个数的关键词可以采用如下方式:根据搜索词对应的词向量,与关键词组中各个关键词对应的词向量之间的相似度,确定搜索词与关键词组中各个关键词之间的相似顺序;根据确定的搜索词与关键词组中各个关键词之间的相似顺序,获得与搜索词对应的预定个数的关键词。当然,也可以通过预先设定不同关键词之间的相似关系,保存到对应的关键词的相似度数据表中,通过查找相似度数据表确定搜索词与关键词组中的关键词之间的相似关系。而不同词之间的相似关系,可以根据词对应的词向量之间相似度确定,或者根据其他用于表征词的特征参数之间的相似度确定,也可以通过人为设定不同词之间的相似性。
通过本发明实施例的上述技术方案,根据搜索词的词向量与关键词组中关键词的词向量之间的相似顺序确定获得与搜索词对应的预定个数的关键词,提高了获取与搜索词对应的关键词的准确性。
基于上述实施例及可选实施方式,为说明方案的整个流程交互,在本优选实施例中,提供了一种文本信息处理方法。该文本处理方法包括了参数学习和检索两部分,下面分别对两部分进行说明。
对于参数学习部分,图3是根据本发明优选实施例的文本信息处理方法的参数学习的流程图,如图3所示,该流程包括以下步骤:
步骤S302,将在服务器端训练好的词向量下载至终端设备中。
首先,将在服务器端训练好的词向量下载至终端设备中。可以采用如Word2Vec等工具进行训练得到生活常用词的词向量。词向量采用多维的实值向量表示,例如:[0.572,-0.743,-0.508,0.352,-0.863,...],也就是普通的向量表示形式。在本优选实施例中,采用50维的向量进行表示。
然后确定要将短信中信息分为多少个类别。将生活中的常见短信分成N类,N的范围可以为3-10。比如划分为银行类,聚会类,行程类等。并对每一类确定具有代表性的关键词及其词向量,以作为分类算法中该类别中心向量的一个初始点。并对每个类别确定一到两个具有代表性的词,在本优选实施例中,将信息分为账单、行程、科技、通知、日常问候、营销等六类。对于账单类短信,代表性词为“账户”,其余类的代表性词可以进行类似的设定。分别查找得到各类的代表性词对应的词向量。
步骤S304,检测是否有新的文本信息,如果有,执行步骤S306。
步骤S306,分词。
确定好几类信息和对应的代表词之后,当设备上接收到新的文本信息后,对其进行分词处理。在本优选实施例中,考虑到运算时间的要求,采用基于字符串匹配的分词方法进行分词,其他可以对文本进行分词的方法或者工具,只要可以将文本信息进行分词都可以用来进行分词操作。
步骤S308,查找词向量。
在得到分词结果后,在词向量字典中查找搜索词分词后得到的词对应的词向量。
步骤S3010,判断是否能找到词向量,如果是,执行步骤S3012,否则,执行步骤S3014。
步骤S3012,聚类,更新每一类的中心向量。
利用聚类算法将每个词分类到不同的聚类中去。由于设备中的短信会越来越多,因此其聚类结果也会随着短信的变化而变化。而且这里是在后台完成,无需时效性要求,因此,采用如K-menas对词向量进行分类。分类完成后,重新计算每一类别的中心坐标向量。
具体而言,每一词向量可以作为多维空间中的一个点,在这个空间上的词向量之间的距离度量可以表示对应的两个词之间的“距离”。通常采用两向量夹角之间的余弦值来度量,即通过计算每两个词向量的内积除以两者模的乘积得到。所谓两个词之间的“距离”,就是这两个词之间的语法,语义之间的相似性。引入距离后,便可以采用K-means算法将所有词划分到不同的类别中。因为K-means算法是一种无监督的分类方法,需要输入分类数和每一类的初始点,因此,可以将之前所选代表词的词向量作为初始点,类别个数作为分类数。分类完成后,将每一类里所有词的词向量按维度相加并求平均,得到每一类的中心向量。
步骤S3014,划到未登录词类。
对于一些未找到词向量表示的词,则单独划分到一类。这是由于终端设备存储能力的限制,只付诸了部分词的词向量,因此,一些词可能会找不到对应的词向量,对于这些未找到词向量表示的词,则单独划分到一类,如OOV类中。
步骤S3016,存储词、词向量、对应的类别、类的中心坐标向量、以及所属的文本的编号。
将每一类别中的词,词向量,及其所来源于的句子,以及类的中心向量保存下来。对于每个词分别存储其词、词向量、对应的类别、类的中心坐标向量、以及所属的文本的编号。
对于搜索部分,图4是根据本发明优选实施例的文本信息处理方法的搜索的流程图,如图4所示,该流程包括以下步骤:
步骤S402,获取输入的检索词。
步骤S404,查找词向量。
当用户输入搜索词进行检索时,先查找搜索词所对应的词向量。
步骤S406,判断是否能找到对应的词向量,如果是,执行步骤S408,否则,执行步骤S4014。
判断是否能找到搜索词对应的词向量,
步骤S408,计算到每个类中心的距离。
步骤S4010,在距离最近的一类中查找相近词。
步骤S4012,返回相近词所在的句子。
步骤S4014,分词。
如未找到搜索词对应的词向量,则对搜索词进行分词处理,再分别查找每一个子词的词向量。
步骤S4016,判断是否能找到子词的词向量,如果是执行步骤S408,否则执行步骤S4018。
判断是否能找到搜索词分词后的子词对应的词向量。得到这些词向量后,然后分别计算到每一类中心坐标的距离,并将其划分到最近的一类中,然后计算与该类中每一个词向量的距离,选出距离最近的几个词向量及其距离分数,然后分别返回这些查找到的词向量所从属的文本,最后依据距离分数由高到低,显示这些句子。
步骤S4018,判断是否能在为登录类中查找到子词,如果是,执行步骤S4012,否则,执行步骤S4020。
若分词处理后搜索词的子词还是未找到其对应的词向量,则将输入的检索词在未登录词类别中进行匹配查找,若找到相同的词则返回其对应的句子。
步骤S4020,返回结果为空。
若在未登录词类别中进行匹配查找后仍未找到,则返回搜索结果为空。
例如,当用户打开搜索框进行搜索时,例如输入“浙江农村银行”,本方法在词向量字典中查找相应的词向量表示,如找到对应的词向量,则分别计算到每一类中心向量的距离,将该词划分到距离最近的一类别中去,然后计算与该类别中所有词向量的距离,依据距离由近及远进行排序,返回最近几个词所来源于的句子。在本实施例中,若在词向量字典中未找到“浙江农村银行”对应的词向量,则对其进行分词处理,分词得到“浙江”、“农村”、和“银行”三个词,然后分别查找对应的词向量,分别计算到每一类中心向量的距离,将该词划分到距离最近的一类别中去,然后计算与该类别中所有词向量的距离,依据距离由近及远进行排序,返回最近几个词所来源于的句子。最后返回得到关于“浙江农村信用社”相关的信息。若分词后所有的子词还是未能找到对应的词向量,则在其OOV类中,进行匹配查找,如能找到,则返回其所在的文本,若不能找到,则返回搜索结果为空。
相对于相关技术中搜索都是基于字符串匹配,必须要输入完全一致的待搜索词才能得到想要的结果的限制,本优选实施例的上述技术方案则无需此要求,在用户对终端设备上的文本信息进行搜索时,能对输入的搜索词进行扩展搜索,使用户能够得到更多的搜索结果,提高搜索的命中率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种文本信息处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的文本信息处理装置的结构框图一,如图5所示,该装置包括:第一确定模块52、获得模块54、第二确定模块56。下面对该装置进行说明。
第一确定模块52,用于确定与获取的搜索词对应的关键词组;
获得模块54,与上述第一确定模块52相连,用于根据搜索词与确定的关键词组中的各个关键词之间的相似关系,获得与搜索词对应的预定个数的关键词;
第二确定模块56,与上述获得模块54相连,用于根据预定个数的关键词,确定包含预定个数的关键词中的一个或多个的文本信息。
图6是根据本发明实施例的文本信息处理装置的结构框图二,如图6所示,该装置除包括图5所示的所有模块外,还包括:检测模块62、更新模块64。下面对该装置进行说明。
检测模块62,用于检测到文本信息;
更新模块64,与上述检测模块62相连,用于根据检测到的文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个关键词组中的关键词。
图7是根据本发明实施例的文本信息处理装置的结构框图三,如图7所示,该装置除包括图6所示的所有模块外,还包括:保存模块72、第三确定模块74。下面对该装置进行说明。
保存模块72,用于保存更新后的关键词组中的关键词,与文本信息之间的对应关系;
第三确定模块74,与上述保存模块72相连,用于根据预定个数的关键词,以及保存的关键词与文本信息的对应关系,确定包含一个或多个预定个数的关键词的文本信息。
图8是根据本发明实施例的文本信息处理装置的第一确定模块52的结构框图,如图8所示,该第一确定模块52包括:第一确定单元82、第二确定单元84、第三确定单元86。下面对该第一确定模块52进行说明。
第一确定单元82,用于在关键词组为多个的情况下,确定搜索词对应的词向量;
第二确定单元84,与上述第一确定单元82相连,用于确定多个关键词组的用于表征关键词组的中心词向量,与搜索词对应的词向量之间的相似度的顺序;
第三确定单元86,与上述第二确定单元84相连,用于根据确定的中心词向量与搜索词对应的词向量之间的相似度的顺序,确定与搜索词相似度最高的中心词向量对应的关键词组为搜索词对应的关键词组。
图9是根据本发明实施例的文本信息处理装置的获得模块54的结构框图,如图9所示,该获得模块54包括:第四确定单元92、获得单元94。下面对该获得模块54进行说明。
第四确定单元92,用于根据搜索词对应的词向量,与关键词组中各个关键词对应的词向量之间的相似度,确定搜索词与关键词组中各个关键词之间的相似顺序;
获得单元94,与上述第四确定单元92相连,用于根据确定的搜索词与关键词组中各个关键词之间的相似顺序,获得与搜索词对应的预定个数的关键词。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
在本实施例中还提供了一种终端,图10是根据本发明实施例的终端的结构框图,如图10所示,该终端包括以及上述实施例中的文本信息处理装置1002。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,确定与获取的搜索词对应的关键词组;
S2,根据搜索词与确定的关键词组中的各个关键词之间的相似关系,获得与搜索词对应的预定个数的关键词;
S3,根据预定个数的关键词,确定包含预定个数的关键词中的一个或多个的文本信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
在确定与搜索词对应的关键词组之前,还包括:
S4,检测到文本信息;
S5,根据检测到的文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个关键词组中的关键词。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
根据检测到的文本信息中包含的关键词,与关键词组中的关键词之间的相似关系,更新关键词组中的关键词之后,还包括,
S6,保存更新后的关键词组中的关键词,与文本信息之间的对应关系;
S7,根据预定个数的关键词,以及保存的关键词与文本信息的对应关系,确定包含预定个数的关键词的一个或多个的文本信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
在关键词组为多个的情况下,确定与搜索词对应的关键词组包括:
S8,确定搜索词对应的词向量;
S9,确定多个关键词组的用于表征关键词组的中心词向量,与搜索词对应的词向量之间的相似度的顺序;
S10,根据确定的中心词向量与搜索词对应的词向量之间的相似度的顺序,确定与搜索词相似度最高的中心词向量对应的关键词组为搜索词对应的关键词组。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
根据搜索词与关键词组中的关键词之间的相似关系,获得与搜索词对应的预定个数的关键词包括:
S11,根据搜索词对应的词向量,与关键词组中各个关键词对应的词向量之间的相似度,确定搜索词与关键词组中各个关键词之间的相似顺序;
S12,根据确定的搜索词与关键词组中各个关键词之间的相似顺序,获得与搜索词对应的预定个数的关键词。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:确定与获取的搜索词对应的关键词组;根据搜索词与确定的关键词组中的各个关键词之间的相似关系,获得与搜索词对应的预定个数的关键词;根据预定个数的关键词,确定包含预定个数的关键词中的一个或多个的文本信息。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:在确定与搜索词对应的关键词组之前,还包括:检测到文本信息;根据检测到的文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个关键词组中的关键词。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:根据检测到的文本信息中包含的关键词,与关键词组中的关键词之间的相似关系,更新关键词组中的关键词之后,还包括,保存更新后的关键词组中的关键词,与文本信息之间的对应关系;根据预定个数的关键词,以及保存的关键词与文本信息的对应关系,确定预定个数的关键词的一个或多个的文本信息。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:在关键词组为多个的情况下,确定与搜索词对应的关键词组包括:确定搜索词对应的词向量;确定多个关键词组的用于表征关键词组的中心词向量,与搜索词对应的词向量之间的相似度的顺序;根据确定的中心词向量与搜索词对应的词向量之间的相似度的顺序,确定与搜索词相似度最高的中心词向量对应的关键词组为搜索词对应的关键词组。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:根据搜索词与关键词组中的关键词之间的相似关系,获得与搜索词对应的预定个数的关键词包括:根据搜索词对应的词向量,与关键词组中各个关键词对应的词向量之间的相似度,确定搜索词与关键词组中各个关键词之间的相似顺序;根据确定的搜索词与关键词组中各个关键词之间的相似顺序,获得与搜索词对应的预定个数的关键词。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种文本信息处理方法,其特征在于,包括:
确定与获取的搜索词对应的关键词组;
根据所述搜索词与确定的所述关键词组中的各个关键词之间的相似关系,获得与所述搜索词对应的预定个数的关键词;
根据预定个数的所述关键词,确定包含所述预定个数的关键词中的一个或多个的文本信息。
2.根据权利要求1所述的方法,其特征在于,在确定与所述搜索词对应的所述关键词组之前,还包括:
检测到文本信息;
根据检测到的所述文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个所述关键词组中的关键词。
3.根据权利要求2所述的方法,其特征在于,根据检测到的所述文本信息中包含的关键词,与关键词组中的关键词之间的相似关系,更新所述关键词组中的关键词之后,还包括,
保存更新后的所述关键词组中的关键词,与所述文本信息之间的对应关系;
根据预定个数的所述关键词,以及保存的关键词与文本信息的对应关系,确定包含所述预定个数的关键词的一个或多个的文本信息。
4.根据权利要求1所述的方法,其特征在于,在所述关键词组为多个的情况下,确定与所述搜索词对应的关键词组包括:
确定所述搜索词对应的词向量;
确定多个所述关键词组的用于表征关键词组的中心词向量,与所述搜索词对应的词向量之间的相似度的顺序;
根据确定的所述中心词向量与所述搜索词对应的所述词向量之间的所述相似度的顺序,确定与所述搜索词相似度最高的所述中心词向量对应的关键词组为所述搜索词对应的关键词组。
5.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述搜索词与所述关键词组中的关键词之间的相似关系,获得与所述搜索词对应的预定个数的所述关键词包括:
根据所述搜索词对应的词向量,与所述关键词组中各个关键词对应的词向量之间的相似度,确定所述搜索词与所述关键词组中各个关键词之间的相似顺序;
根据确定的所述搜索词与所述关键词组中各个关键词之间的相似顺序,获得与所述搜索词对应的预定个数的所述关键词。
6.一种文本信息处理装置,其特征在于,包括:
第一确定模块,用于确定与获取的搜索词对应的关键词组;
获得模块,用于根据所述搜索词与确定的所述关键词组中的各个关键词之间的相似关系,获得与所述搜索词对应的预定个数的关键词;
第二确定模块,用于根据预定个数的所述关键词,确定包含所述预定个数的关键词中的一个或多个的文本信息。
7.根据权利要求6所述的装置,其特征在于,还包括:
检测模块,用于检测到文本信息;
更新模块,用于根据检测到的所述文本信息中包含的关键词,与一个或多个关键词组中的关键词之间的相似关系,更新一个或多个所述关键词组中的关键词。
8.根据权利要求7所述的装置,其特征在于,还包括,
保存模块,用于保存更新后的所述关键词组中的关键词,与所述文本信息之间的对应关系;
第三确定模块,用于根据预定个数的所述关键词,以及保存的关键词与文本信息的对应关系,确定包含所述预定个数的关键词的一个或多个的文本信息。
9.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括:
第一确定单元,用于在所述关键词组为多个的情况下,确定所述搜索词对应的词向量;
第二确定单元,用于确定多个所述关键词组的用于表征关键词组的中心词向量,与所述搜索词对应的词向量之间的相似度的顺序;
第三确定单元,用于根据确定的所述中心词向量与所述搜索词对应的所述词向量之间的所述相似度的顺序,确定与所述搜索词相似度最高的所述中心词向量对应的关键词组为所述搜索词对应的关键词组。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述获得模块包括:
第四确定单元,用于根据所述搜索词对应的词向量,与所述关键词组中各个关键词对应的词向量之间的相似度,确定所述搜索词与所述关键词组中各个关键词之间的相似顺序;
获得单元,用于根据确定的所述搜索词与所述关键词组中各个关键词之间的相似顺序,获得与所述搜索词对应的预定个数的所述关键词。
11.一种终端,其特征在于,包括权利要求6至9中任一项所述的装置。
CN201610475728.9A 2016-06-24 2016-06-24 文本信息处理方法、装置及终端 Active CN107544982B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610475728.9A CN107544982B (zh) 2016-06-24 2016-06-24 文本信息处理方法、装置及终端
PCT/CN2017/075213 WO2017219696A1 (zh) 2016-06-24 2017-02-28 文本信息处理方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610475728.9A CN107544982B (zh) 2016-06-24 2016-06-24 文本信息处理方法、装置及终端

Publications (2)

Publication Number Publication Date
CN107544982A true CN107544982A (zh) 2018-01-05
CN107544982B CN107544982B (zh) 2022-12-02

Family

ID=60783758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610475728.9A Active CN107544982B (zh) 2016-06-24 2016-06-24 文本信息处理方法、装置及终端

Country Status (2)

Country Link
CN (1) CN107544982B (zh)
WO (1) WO2017219696A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN110309278A (zh) * 2019-05-23 2019-10-08 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110442704A (zh) * 2019-08-13 2019-11-12 重庆誉存大数据科技有限公司 一种企业新闻筛选方法及系统
WO2020052061A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
WO2020052059A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN111291214A (zh) * 2020-01-15 2020-06-16 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本的识别方法、装置及存储介质
CN111597296A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 商品数据的处理方法、装置和系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781365B (zh) * 2018-07-13 2023-04-28 阿里巴巴集团控股有限公司 商品搜索方法、装置、系统及电子设备
CN109710898B (zh) * 2018-12-07 2023-02-03 网智天元科技集团股份有限公司 文本的查重方法、装置、电子设备及存储介质
CN111353016B (zh) * 2018-12-24 2023-04-18 阿里巴巴集团控股有限公司 文本处理方法及装置
CN110609950B (zh) * 2019-08-02 2022-09-16 济南大学 一种舆情系统搜索词推荐方法及系统
CN113255337B (zh) * 2021-05-21 2024-02-02 广州欢聚时代信息科技有限公司 词表构建方法、机器翻译方法及其装置、设备与介质
CN114222000B (zh) * 2021-12-13 2024-02-02 中国平安财产保险股份有限公司 信息推送方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325104A (ja) * 2000-05-12 2001-11-22 Mitsubishi Electric Corp 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
JP2002108888A (ja) * 2000-09-29 2002-04-12 Nippon Telegraph & Telephone East Corp ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP2003281186A (ja) * 2001-11-13 2003-10-03 Posco 類似性判断のための例題ベース検索方法及び検索システム
JP2005301856A (ja) * 2004-04-15 2005-10-27 Hitachi Ltd 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2005310094A (ja) * 2003-10-06 2005-11-04 Nippon Telegr & Teleph Corp <Ntt> キーワード拡張装置と方法およびコンテンツ検索システムならびにコンテンツ情報提供システムと方法およびグループ化条件決定装置と方法ならびにプログラム
CN102654879A (zh) * 2011-03-04 2012-09-05 中兴通讯股份有限公司 搜索方法及装置
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN103970748A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种相关关键词推荐方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321448B2 (en) * 2007-02-22 2012-11-27 Microsoft Corporation Click-through log mining
CN103377226B (zh) * 2012-04-25 2016-08-03 中国移动通信集团公司 一种智能检索方法及其系统
CN103544267B (zh) * 2013-10-16 2017-05-03 北京奇虎科技有限公司 一种基于搜索建议词进行搜索的方法以及装置
CN104462272B (zh) * 2014-11-25 2018-05-04 百度在线网络技术(北京)有限公司 搜索需求分析方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325104A (ja) * 2000-05-12 2001-11-22 Mitsubishi Electric Corp 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
JP2002108888A (ja) * 2000-09-29 2002-04-12 Nippon Telegraph & Telephone East Corp ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP2003281186A (ja) * 2001-11-13 2003-10-03 Posco 類似性判断のための例題ベース検索方法及び検索システム
JP2005310094A (ja) * 2003-10-06 2005-11-04 Nippon Telegr & Teleph Corp <Ntt> キーワード拡張装置と方法およびコンテンツ検索システムならびにコンテンツ情報提供システムと方法およびグループ化条件決定装置と方法ならびにプログラム
JP2005301856A (ja) * 2004-04-15 2005-10-27 Hitachi Ltd 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN102654879A (zh) * 2011-03-04 2012-09-05 中兴通讯股份有限公司 搜索方法及装置
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN103970748A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种相关关键词推荐方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN108776901B (zh) * 2018-04-27 2021-01-15 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
WO2020052061A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
WO2020052059A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN111597296A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 商品数据的处理方法、装置和系统
CN110309278A (zh) * 2019-05-23 2019-10-08 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110309278B (zh) * 2019-05-23 2021-11-16 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110442704A (zh) * 2019-08-13 2019-11-12 重庆誉存大数据科技有限公司 一种企业新闻筛选方法及系统
CN111291214A (zh) * 2020-01-15 2020-06-16 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本的识别方法、装置及存储介质
CN111291214B (zh) * 2020-01-15 2023-09-12 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本的识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN107544982B (zh) 2022-12-02
WO2017219696A1 (zh) 2017-12-28

Similar Documents

Publication Publication Date Title
CN107544982A (zh) 文本信息处理方法、装置及终端
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN104408191B (zh) 关键词的关联关键词的获取方法和装置
CN106815192B (zh) 模型训练方法及装置和语句情感识别方法及装置
CN105608179B (zh) 确定用户标识的关联性的方法和装置
CN105912716B (zh) 一种短文本分类方法及装置
CN108628971A (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN106033416A (zh) 一种字符串处理方法及装置
CN104915327A (zh) 一种文本信息的处理方法及装置
CN108038208B (zh) 上下文信息识别模型的训练方法、装置和存储介质
CN109885688A (zh) 文本分类方法、装置、计算机可读存储介质和电子设备
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN109325106A (zh) 一种医美聊天机器人意图识别方法及装置
CN106156120B (zh) 对字符串进行分类的方法和装置
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN111159404B (zh) 文本的分类方法及装置
CN110287311B (zh) 文本分类方法及装置、存储介质、计算机设备
CN110287318B (zh) 业务操作的检测方法及装置、存储介质、电子装置
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN109189892A (zh) 一种基于文章评论的推荐方法及装置
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN111339248A (zh) 数据属性填充方法、装置、设备及计算机可读存储介质
CN110096572A (zh) 一种样本生成方法、装置及计算机可读介质
CN112966072A (zh) 案件的预判方法、装置、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant