CN110175273B - 文本处理方法、装置、计算机可读存储介质和计算机设备 - Google Patents
文本处理方法、装置、计算机可读存储介质和计算机设备 Download PDFInfo
- Publication number
- CN110175273B CN110175273B CN201910427138.2A CN201910427138A CN110175273B CN 110175273 B CN110175273 B CN 110175273B CN 201910427138 A CN201910427138 A CN 201910427138A CN 110175273 B CN110175273 B CN 110175273B
- Authority
- CN
- China
- Prior art keywords
- character
- word
- input text
- probability
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims description 104
- 239000011159 matrix material Substances 0.000 claims description 47
- 230000007704 transition Effects 0.000 claims description 29
- 238000003066 decision tree Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 101000779615 Homo sapiens ALX homeobox protein 1 Proteins 0.000 description 1
- 101000830933 Homo sapiens TNF receptor-associated factor 4 Proteins 0.000 description 1
- 102100024809 TNF receptor-associated factor 4 Human genes 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本处理方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取输入文本;将输入文本中的字符分别转化为相应的字向量;根据字向量确定输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率;获取基于文本语料统计的输入文本对应的统计特征;根据末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征进行分类,得到输入文本对应的完整程度。本申请提供的方案可以提高搜索效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本处理方法、装置、计算机可读存储介质和计算机设备。
背景技术
搜索引擎(Search Engine)不仅可以从互联网上搜集信息,还可以对收集的信息进行组织和处理后,根据用户在搜索输入框中输入的文本为用户提供准确的搜索服务,并将与用户输入的文本相关的搜索结果展示给用户。
提供精准搜索服务的前提是能够准确理解用户的搜索意图,目前的搜索引擎通常的处理方式是,根据用户输入的文本提供能够确定用户搜索意图的推荐联想词,然后根据用户选取的推荐联想词返回相应的搜索结果。然而,这种方式每次都要用户选取某个推荐联想词,导致搜索效率比较低。
发明内容
基于此,有必要针对现有的搜索引擎搜索效率较低的技术问题,提供一种文本处理方法、装置、计算机可读存储介质和计算机设备。
一种文本处理方法,包括:
获取输入文本;
将所述输入文本中的字符分别转化为相应的字向量;
根据所述字向量确定所述输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率;
获取基于文本语料统计的所述输入文本对应的统计特征;
根据所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征进行分类,得到所述输入文本对应的完整程度。
一种文本处理装置,所述装置包括:
输入文本获取模块,用于获取输入文本;
字向量生成模块,用于将所述输入文本中的字符分别转化为相应的字向量;
概率确定模块,用于根据所述字向量确定所述输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率;
统计特征获取模块,用于获取基于文本语料统计的所述输入文本对应的统计特征;
分类预测模块,用于根据所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征进行分类,得到所述输入文本对应的完整程度。
一种文本处理方法,包括:
获取输入文本并将所述输入文本发送至服务器;
获取所述服务器在所述输入文本对应的完整程度大于预设阈值时所直接返回的与所述输入文本对应的搜索结果,并展示所述搜索结果;或者,
获取所述服务器在所述输入文本对应的完整程度小于或等于预设阈值时所返回的与所述输入文本匹配的推荐联想词,并在获取到从所述推荐联想词中选取的任一推荐联想词时,获取所述服务器返回与选取的所述推荐联想词对应的搜索结果,并展示所述搜索结果;
所述完整程度,是通过所述服务器将所述输入文本中的字符分别转化为相应的字向量,根据所述字向量确定所述输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率,获取基于文本语料统计的所述输入文本对应的统计特征,根据所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征进行分类后得到的。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述文本处理方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述文本处理方法的步骤。
上述文本处理方法、装置、计算机可读存储介质和计算机设备,结合输入文本中末尾字符的词中位置标注状态预估特征与输入文本对应的统计特征,实现对输入文本对应的完整程度的预测,为确定输入文本的搜索意图提供了新的依据,通过对输入文本的完整程度进行预测,可以在输入文本完整程度较高的情况下,直接返回与输入文本相应的搜索结果,为用户提供一种“即输即得”的搜索体验,不需要提供相应的推荐联想词,从而提高搜索效率。另外,在输入文本完整程度较低的情况下,可以屏蔽与输入文本相应的搜索结果,节省用户端的运行资源。
附图说明
图1为一个实施例中文本处理方法的应用环境图;
图2为一个实施例中文本处理方法的流程示意图;
图3为一个实施例中输入文本的完整程度随着用户的输入而曲折变化的示意图;
图4为一个实施例中根据所述字向量确定所述输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率的步骤的流程示意图;
图5为一个实施例中末尾字符预估网络对应的网络结构示意图;
图6为一个实施例中完整性预测模型的结构示意图;
图7为一个实施例中获取基于文本语料统计的所述输入文本对应的统计特征的步骤的流程示意图;
图8为一个具体的实施例中文本处理方法的流程示意图;
图9为一个实施例中文本处理装置的结构框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中文本处理方法的应用环境图。参照图1,该文本处理方法应用于文本处理系统。该文本处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
终端110上可安装和运行有支持搜索功能的搜索引擎(搜索应用程序)。当终端110运行该搜索应用程序时,终端110上运行的搜索应用程序可以在终端屏幕上显示搜索输入框,用户可在搜索输入框中输入文本,以搜索相应的内容。
终端110可以获取输入文本并将输入文本发送至服务器120,获取服务器120在输入文本对应的完整程度大于预设阈值时所直接返回的与输入文本对应的搜索结果,并展示搜索结果;或者,终端110可以获取服务器120在输入文本对应的完整程度小于或等于预设阈值时所返回的与输入文本匹配的推荐联想词,并在获取到从推荐联想词中选取的任一推荐联想词时,获取服务器120返回与选取的推荐联想词对应的搜索结果,并展示搜索结果。
服务器120用于为实现搜索功能的搜索应用程序提供后台服务。服务器120可以获取终端110发送的输入文本,该输入文本可以是用户在搜索应用程序的搜索输入框中输入的,服务器120可以通过预训练的完整性预测模型对输入文本进行处理,具体地可以将输入文本中的字符分别转化为相应的字向量,并根据字向量确定输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率;服务器120还可以获取基于文本语料统计的输入文本对应的统计特征,根据末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征进行分类,得到输入文本对应的完整程度。
如图2所示,在一个实施例中,提供了一种文本处理方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该文本处理方法具体包括如下步骤:
S202,获取输入文本。
其中,输入文本可以是用户在搜索引擎中输入的用于搜索相应信息的文本。搜索引擎可以是通用搜索引擎,用于搜索图片、新闻等信息的搜索引擎,也可以是专业搜索引擎,比如购物搜索引擎。
具体地,终端可以获取用户在搜索引擎的搜索输入框中录入的输入文本,并生成携带该输入文本的搜索请求后将该搜索请求发送至服务器,服务器是为该搜索引擎提供后台服务的服务器,服务器可以从该搜索请求中获取相应的输入文本。搜索输入框可以是用于输入网址的输入框,也可以是搜索引擎界面中用于输入搜索词条的输入框。
对于在搜索引擎中录入输入文本的不同用户而言,录入的输入文本可以是完整的文本,也可以是不完整的文本。比如,用户在搜索引擎中录入的“深圳暴雨”,可以相对明确用户的搜索意图,因此是一个完整程度相对较高的文本,而录入的“暴雨”则由于不能判定用户的搜索意图,因此是一个完整程度相对较低的文本。在用户在搜索引擎中录入输入文本的过程中,输入文本的完整程度会随着用户输入动态波动,呈现出曲折变化后趋于完整的特点,实际上这一过程也反映了用户的搜索意图逐渐明确的过程。
如图3所示,为一个实施例中输入文本的完整程度随着用户的输入而曲折变化的示意图。参照图3,输入文本为“国家棚改政策”,完整程度的取值区间为[0,1],在用户输入过程中,完整程度随着输入的文本不断波动,比如,输入文本为“国家”时,完整程度趋于1,输入文本为“国家棚”时,完整程度趋于0.3,而在用户输入最后一个字符“策”之后,输入文本为“国家棚改政策”,完成程度又逼近1。
S204,将输入文本中的字符分别转化为相应的字向量。
其中,字符可以是字母、数字、汉字和标点符号中的至少一种。输入文本中的字符是输入文本中对应的单个字符。比如,输入文本为“深圳暴雨”,输入文本中包括4个字符,依次为“深”、“圳”、“暴”、“雨”。
字向量是用于将输入文本中的各个字符以数学向量形式进行表达的数据。具体地,服务器可以将输入文本中的字符分别转化为相应的字向量,将字符转换为字向量的过程也叫字嵌入(word embedding),这样就可以将对输入文本的处理转换为对输入文本中的每个字符对应的字向量进行运算。每个字符对应的字向量的维数可以根据需要来进行设定,比如若需要字符对应的字向量能够携带包括50维特征的表达,则该字向量可以是50维的。
输入文本中每个字符对应的字向量可以反映该字符在每个特征维度上的字符特征,字符特征包括该字符单独的字符特征,比如该字符在输入文本中的标注位置,还包括该字符与输入文本中其它字符之间的关联特征,比如输入文本中的该字符在给定该字符的前一字符时出现的概率以及该字符在给定该字符后一字符时出现的概率。
在一个实施例中,将输入文本中的字符分别转化为相应的字向量包括:将输入文本输入已训练的完整性预测模型;在完整性预测模型的末尾字符预估网络中,按照字符特征参数表将输入文本中的字符分别转化为相应的字向量。
其中,完整性预测模型可以通过训练学习到对输入文本中的字符转化为相应的字向量的能力。服务器可以通过文本语料训练完整性预测模型,然后将获取的输入文本输入至训练好的完整性预测模型中,通过完整性预测模型中的末尾字符预估网络中的字符特征参数表,将输入文本中的各个字符分别转化为相应的字向量。
完整性预测模型包括末尾字符预估网络,末尾字符预估网络可以是基于神经网络的用于预估输入文本中末尾字符的词中位置标注状态的网络,完整性预测模型还可以包括特征统计网络,特征统计网络用于按照预设的文本先验特征根据文本语料统计输入文本对应的统计特征。末尾字符预估网络可以基于HMM(Hidden Markov Model,隐马尔科夫模型)、CRF(Conditional Random Field,条件随机场,是一种数学算法)、RNN(Recurrent NeuralNetwork,循环神经网络)、LSTM(Long Short-Term Memory,是长短期记忆网络)或是它们的组合来实现。
字符特征参数表实际上是一个生成字向量所采用的矩阵W0,训练好的完整性预测模型中包括训练好的末尾字符预估网络,末尾字符预估网络中的矩阵W0已经训练完成,可以通过该矩阵W0将输入文本中的字符分别转化为相应的字向量,比如,若输入文本C={C1,C2,Ci,…,Cn}中的字符Ci则W0(Ci)表示是字符Ci对应的字向量。
S206,根据字向量确定输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率。
其中,预设的各词中位置标注状态是预设的字符在所属词中的位置对应的位置标注。比如,位置标注状态B表示该字符位于所属词的开头,位置标注状态M表示该字符位于所属词的中间位置,位置标注状态E表示该字符位于所属词的末尾,位置标注状态S则表示该字符单独成词。
可以理解,在一个词中末尾字符对应的位置标注状态只可能是E或S,首字符对应的位置标注状态只可能是B或S。但是,由于输入文本对应的完整程度是不确定的,也就是不确定用户在录入当前输入文本中的末尾字符之后是否会继续输入,输入文本中末尾字符的位置标注状态也就不确定,当输入文本对应的完整程度相对较高时,输入文本中末尾字符对应的位置标注状态可能是E或S,当输入文本对应的完整程度相对较低时,输入文本中末尾字符对应的位置标注状态可能是B或M。反过来,可以对输入文本中末尾字符属于各词中位置标注状态的概率进行预估,从而判定该输入文本对应的完整程度,同时,还可以根据输入文本中末尾字符属于意图结束字符的概率判定输入文本对应的完整程度。
意图结束字符是指完整程度相对较高的输入文本中的末尾字符,即在用户在输入了该字符后,继续输入的可能性较低。输入文本中末尾字符属于意图结束字符的概率,是输入文本中末尾字符属于位置标注状态E的概率与该末尾字符属于位置标注状态S的概率之和。因此,在得到输入文本中末尾字符属于各词中位置标注状态的概率后,将末尾字符属于位置标注状态E的概率与属于位置标注状态S的概率之和作为该末尾字符属于意图结束字符的概率。
预设的各词中位置标注状态并不仅限于以B、M、E、S来表示,与B、M、E、S对应的预设的词中位置标注状态还可以依次用字母A、B、C、D来表示,一个字母对应一个词中位置标注状态。预设的词中位置标注状态还可以用数字0、1、2、3来表示,以对各个词中位置标注状态进行区分,一个数字对应一个词中位置标注状态。位置标注状态的形式并不限定,只要可以表示该字符在所属词中的位置即可。
具体地,服务器可以通过末尾字符预估网络将输入文本中各字符分别转化为相应的字向量后,基于该字向量进行运算和变换处理,得到输入文本中末尾字符属于各词中标注状态的概率以及属于意图结束字符的概率。通常情况下,末尾字符属于各词中标注状态的概率与输入文本、输入文本中各字符都有关联,运算和变换处理本质是对输入文本中每个字符根据上下文内容进行词中标注状态的分类。
如图4所示,在一个实施例中,根据字向量确定输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率包括:
S402,在完整性预测模型的末尾字符预估网络中,依次对字向量进行线性变换与归一化处理,得到字向量对应的字符属于预设的各词中位置标注状态的发射概率所构成的发射概率矩阵。
其中,线性变换(Linear Transformation)可以将较高维度的字向量压缩成较低维度的向量,能够保留与对应的字符更为贴合的字符特征,线性变换所采用的权重矩阵也是通过训练完整性预测模型得到的,可以通过该权重矩阵对字向量进行线性变换处理。比如,若字符对应的字向量为1*50的向量,即长度为50的一维向量,采用矩阵W1对字向量进行线性变换,其大小为50*4,则通过该矩阵处理后该字符对应的字向量就变换成了1*4的一维向量,其中每一维度的值表达了该字符处于各词中位置状态(4种类别)的可能性。
归一化处理可以将数据转换为概率以进行分类,可以采用sigmoid函数对经线性变换得到的结果继续进行处理,将字符对应的较低维度向量转换为一个[0,1]之间的值,也就是将较低维度向量中的各个数值转化为概率,实际上就是该字符属于预设的各词中位置标注状态的发射概率。输入文本中各个字符属于各词中位置标注状态的发射概率构成了发射概率矩阵(EmitProbMatrix)。发射概率矩阵的大小可以根据词中位置标注状态的类别与输入文本所包括字符的数量确定,比如若输入各个字符属于各词中位置标注状态的发射概率是1*4维的向量,包括4种词中位置状态分别对应的概率,输入文本的长度为5,则发射概率矩阵的大小为5*4.
发射概率是一种条件概率,是在给定某词中位置状态时出现某个字符的概率。若输入文本为C={C1,C2,Ci,...,Cn},词中位置标注状态为status,status表示B、M、E、S中的任一种,则在词中位置标注状态为status时该字符为Ci的概率可以称之为该字符对应词中位置标注状态status的发射概率,可以用P(Ci|status)表示。比如,若输入文本为“深圳暴雨”,词中位置状态为B时字符为“深”的概率通常会大于该字符为“圳”的概率。
S404,获取各词中位置标注状态之间的状态转移概率矩阵。
其中,各个词中位置标注状态之间存在状态转移概率,状态转移概率矩阵(TransProbMatrix)是由各个词中位置标注状态之间的状态转移概率所构成的状态转移概率矩阵。状态转移概率也是一种条件概率,是在给定前一字符Ci-1对应的词中位置标注状态为statusi-1时当前字符Ci对应的词中位置标注状态为statusi的概率,即P(statusi|statusi-1),statusi-1、statusi可以是B、M、E、S中的任一种。
状态转移概率矩阵可以是对大规模文本语料中字符所对应的词中位置状态之间的转移概率进行统计后得到的,比如,根据大规模文本语料分别统计B→B、B→M、B→E、B→S、M→B、M→M、M→E、M→S、E→B、E→M、E→E、E→S、S→B、S→M、S→E、S→S的概率,得到一个4*4的概率矩阵,即为状态转移概率矩阵。根据各个词中位置状态所表示的含义可以理解,B→B、M→B、E→B、E→M、E→E、E→S、S→M之间的状态转移概率为0。
示意性的状态转移概率矩阵如下表所示:
状态转移概率矩阵也可以是通过训练完整性预测模型得到的,在训练时可以设定状态转移概率矩阵为一个初始值,根据大规模文本语料进行训练后得到确定的状态转移概率矩阵。
S406,根据发射概率矩阵和状态转移概率矩阵,确定输入文本中末尾字符属于各词中位置标注状态的概率和属于意图结束字符的概率。
为了提高整个输入文本中各字符对应各词中位置标注状态的准确性,可以采用动态规划的方式逐个确定输入文本中各个字符的最优词中位置状态,即属于哪一种词中位置状态的概率最大,直至得到末尾字符的最优词中位置状态,从而得到整个输入文本最优的词中位置状态序列。
在一个实施例中,输入文本中末尾字符属于各词中位置标注状态的概率通过以下步骤确定:获取输入文本中首字符对应各词中位置标注状态的初始概率;根据初始概率、首字符属于各词中位置标注状态的发射概率计算首字符属于各词中位置标注状态的概率;基于输入文本中各字符的排序顺序,根据首字符属于各词中位置标注状态的概率、状态转移概率矩阵以及各个字符属于各词中位置标注状态的发射概率,依次计算输入文本中各字符对应各词中位置标注状态的概率,直至得到输入文本中末尾字符属于各词中位置标注状态的概率。
其中,首字符对应各词中位置标注状态的初始概率,是输入文本中首字符对应各个词中位置标注状态的概率。比如,对于B、M、E、S这四种词中位置标注状态,输入文本中首字符对应的初始概率{πb,πm,πe,πs}可以是{1,0,0,0}。当根据S402中得到的发射概率矩阵中首字符(下标为1)属于各词中位置标注状态的发射概率为{Emitb1,Emite1,Emitm1,Emits1}时,则可以通过以下公式计算得到首字符属于各词中位置标注状态的概率:
P(B1)=πbEmitb1,P(M1)=πmEmitm1,P(E1)=πeEmite1,P(S1)=πsEmits1。
输入文本中各字符的排序顺序,继续获取输入文本中第2个字符属于各词中位置标注状态的发射概率为{Emitb2,Emite2,Emitm2,Emits2},并根据状态转移概率矩阵Trans4*4,计算得到第2个字符属于各词中位置标注状态的概率如下:
P(B2)=Emitb2×max{P(B1)Transbb,P(M1)Transmb,P(E1)Transeb,P(S1)Transsb};
P(M2)=Emitm2×max{P(B1)Transbm,P(M1)Transmm,P(E1)Transem,P(S1)Transsm};
P(E2)=Emite2×max{P(B1)Transbe,P(M1)Transme,P(E1)Transee,P(S1)Transse};
P(S2)=Emits2×max{P(B1)Transbs,P(M1)Transms,P(E1)Transes,P(S1)Transss}。
递归上述处理过程,直至得到输入文本中末尾字符(第T个字符,T表示输入文本所包括字符的数量)属于各词中位置标注状态的概率如下:
P(BT)=EmitbT×max{P(BT-1)Transbb,P(MT-1)Transmb,P(ET-1)Transeb,P(ST-1)Transsb},
P(MT)=EmitmT×max{P(BT-1)Transbm,P(MT-1)Transmm,P(ET-1)Transem,P(ST-1)Transsm},
P(ET)=EmiteT×max{P(BT-1)Transbe,P(MT-1)Transme,P(ET-1)Transee,P(ST-1)Transse},
P(ST)=EmitsT×max{P(BT-1)Transbs,P(MT-1)Transms,P(ET-1)Transes,P(ST-1)Transss}。
在一个实施例中,输入文本中末尾字符属于意图结束字符的概率通过以下步骤确定:获取输入文本中末尾字符属于词尾状态的第一概率;获取输入文本中末尾字符属于单字状态的第二概率;将第一概率与第二概率之和作为输入文本中末尾字符属于意图结束字符的概率。
当输入文本对应的完整程度相对较高时,其末尾字符属于意图结束字符的概率就相对较大,而通常意图结束字符所对应的词中位置标注状态为E或S,因此,可以将输入文本中末尾字符对应状态E的第一概率与对应状态S的第二概率相加得到的概率之和作为该末尾字符属于意图结束字符的概率。
从上面的公式可知,输入文本中末尾字符属于意图结束字符的概率为:
Ptendtoend=P(ET)+P(ST)。
如图5所示,为一个实施例中末尾字符预估网络对应的网络结构示意图。末尾字符预估网络包括输入层、向量化层、线性变换层、归一化层以及词中位置预估层。输入层用于获取输入文本(以“深圳暴雨”为例进行说明),向量化层用于将输入文本中的各字符转换为相应的字向量,线性变换层与归一化层用于依次对各字符对应的字向量进行运算得到各字符属于各词中位置标注状态的发射概率所构成的发射概率矩阵,词中位置预估层用于根据发射概率矩阵和状态转移概率矩阵进行动态规划,输出末尾字符属于各词中位置标注状态的概率P(B)\P(M)\P(E)\P(S)和属于意图结束字符的概率P(E)+P(S)。
在上述实施例中,采用基于神经网络的末尾字符预估网络对输入文本中末尾字符属于各词中位置标注状态的概率进行预估,能够提升对输入文本对应的完整程度进行分类的准确性。
S208,获取基于文本语料统计的输入文本对应的统计特征。
在对输入文本对应的完整程度进行预测时,不仅需要考虑输入文本中末尾字符的词中位置状态,还要考虑输入文本对应的统计特征。具体地,服务器可以在获取到输入文本后,基于收集的文本语料,根据预设先验文本特征统计输入文本对应的统计特征。预设先验文本特征包括预设字符级别特征、预设分词短语级别特征以及预设文本级别特征。统计特征包括字符级别特征、分词短语级别特征以及文本级别特征。
文本语料是根据大量用户在搜索应用程序的搜索输入框中输入的文本构成的语料库。文本语料可以具有时间性,比如可以是获取的当天所有用户在搜索输入框中输入的文本构成的语料库,还可以是本周所有用户在搜索输入框中输入的文本构成的语料库。文本语料可以是随着用户在搜索应用程序的搜索输入框中输入的文本而实时地或周期性地更新的。需要说明的是,每一次输入所对应的输入文本构成文本语料中的一个样本,也就是说,在多次输入所对应的输入文本相同的情况下,视为多个样本。
S210,根据末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征进行分类,得到输入文本对应的完整程度。
通过前面的步骤可知,输入文本的特征可用两个分支的输出来表示,其中一个是输入文本中末尾字符属于各词中位置标注状态的概率以及末尾字符属于意图结束字符的概率,另一个是整个输入文本对应的统计特征,有了这两路特征,可以较为全面、完整地确定输入文本对应的完整程度。具体地,服务器可以基于这些特征对输入文本对应的完整程度进行分类,得到输入文本对应的完整程度。
比如,输入文本中末尾字符属于各词中位置标注状态的概率分别为{PB,PM,PE,PS},末尾字符属于意图结束字符的概率为{PE+PS},也就是说,末尾字符预估网络的输出包括5个概率值。预设先验文本特征一共有40个,则输入文本对应的统计特征可以表示成一个40维的统计特征向量。那么,服务器可基于这45个特征值对输入文本对应的完整程度进行分类,得到输入文本对应的完整程度。在一个实施例中,完整性预测模型中还包括分类网络,分类网络用于基于两个输出分支对输入文本对应的完整程度进行分类。分类网络可以基于GBDT(Gradient Boosting Decision Tree,梯度提升决策树),ANN(ArtificialNeural Network,人工神经网络),LR(Logistics Regression,逻辑回归)或SVM(SupportVector Machine,支持向量机)中的任一种实现。
输入文本对应的完整程度可以用百分比或0-1之间的小数表示。完整程度还可以被划分为多个等级,比如完整程度可以从0开始以0.2的步长递增至1,那么完整程度被分为6个等级,依次为0、0.2、0.4、0.6、0.8和1,当完整程度为0时,代表该输入文本完全不完整,当完整程度为1时,代表输入文本完全完整,数值越大完整程度越高。当然,完整程度还可以采用别的形式进行表示,只要能区分输入文本的完整性即可,在此并不作约束。
在一个实施例中,根据末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征进行分类,得到输入文本对应的完整程度包括:将末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征输入至完整性预测模型的分类网络中;分别通过分类网络中与各词中位置标注状态特征、意图结束字符特征和统计特征对应的决策树,基于末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征对输入文本的完整程度进行投票,得到各决策树对应的投票结果;将各决策树对应的投票结果融合,得到输入文本对应的完整程度。
具体地,这里采用随机森林分类模型对输入文本对应的上述两个分支输出的特征进行分类,得到输入文本对应的完整程度。随机森林中可包括用于对上述两类特征进行投票的多个决策树(CART,Classification And Regression Trees),每个决策树可用于对每一维度的特征进行投票。比如,上面提到两路网络输出的输入文本对应的特征可以是包括45个特征值,那么相应地在随机森林中可包括45个决策树,每个决策树用于对相应特征值在每一完整程度等级下的分数进行投票,得到相应特征值在该决策树下对应各完整程度等级的投票分数,最后将各个决策树在同一完整程度等级对应的投票分数进行融合,得到每一完整程度等级对应的投票分数,取投票分数最高的完整程度等级作为输入文本对应的完整程度。
比如,对于输入文本中末尾字符的词中位置标注状态属于E的概率P(E)而言,其对应的决策树CART1如下表所示:
又比如,对于输入文本对应的统计特征“文本语料中用户输入当前输入文本后,停止输入的概率”(RATE_QUERY_TRANSFER_SELF)而言,其对应的决策树CART2如下表所示:
首先需要根据输入文本中末尾字符的词中位置标注状态属于E的概率P(E)确定所处的区间,以及“文本语料中用户输入当前输入文本后,停止输入的概率”所处的区间,然后得到P(E)在相应决策树下所对应的投票分数以及RATE_QUERY_TRANSFER_SELF在相应决策树下所对应的投票分数,比如,若P(E)=0.85,则对应完整程度等级的投票分数为:
0 | 0.2 | 0.4 | 0.6 | 0.8 | 1 |
0 | 0 | 10% | 10% | 70% | 10% |
若RATE_QUERY_TRANSFER_SELF=0.75,则对应完整程度等级的投票分数为:
0 | 0.2 | 0.4 | 0.6 | 0.8 | 1 |
5% | 5% | 5% | 10% | 65% | 10% |
示意性的,若仅根据上述2个特征值进行分类,可知:
2.5%完整程度等级为0,
2.5%完整程度等级为0.2,
7.5%完整程度等级为0.4
10%完整程度等级为0.6,
67.5%完整程度等级为0.8,
10%完整程度等级为1。
因此,最终可以确定输入文本对应的完整程度为0.8.
在一个实施例中,输入文本为在搜索输入框中输入的文本,方法还包括:当完整程度大于预设阈值时,则直接返回与输入文本对应的搜索结果;当完整程度小于或等于预设阈值时,则对输入文本对应的搜索结果进行屏蔽处理,并对输入文本进行补全处理得到对应的推荐联想词后返回推荐联想词;当获取到从推荐联想词中选取的任一推荐联想词时,返回与选取的推荐联想词对应的搜索结果。
其中,输入文本是用户在搜索应用程序的搜索输入框中输入的文本,输入文本对应的完整程度可用于辅助判断当前输入文本对应的完整性,如果完整程度相对较高或者是完全完整的,则使用当前输入文本进行自然搜索结果的召回,如果完整程度相对较低或者是不完整的,则需要对输入文本进行补全处理。
具体地,服务器可以在得到输入文本对应的完整程度后,将完整程度与预设阈值进行比较,若大于预设阈值,说明输入文本完整程度相对较高或者是完全完整的,则服务器直接向终端返回与输入文本对应的搜索结果,终端就可以直接向用户展示该搜索结果,为用户提供一种“即输即得”的搜索体验,并且不需对输入文本进行补全处理,可以避免错用推荐联想词进行结果召回的语义漂移问题。
若小于预设阈值,说明书输入文本完整程度相对较低或者是不完整的,则服务器需要对当前输入文本对应的搜索结果进行屏蔽处理,避免召回不太准确的搜索结果并且节省了用户的终端显示该搜索结果所占用的运行开销。在这种情况下,服务器可以从文本语料中确定至少一个与输入文本匹配度较高且完整程度较高的历史输入文本,作为与该输入文本对应的推荐联想词,并将确定的推荐联想词返回至终端,以供用户选择。终端可以在搜索输入框附近展示接收到的与当前输入文本对应的推荐联想词,并在获取到用户从中选取的任一推荐联想词时,将该选取的推荐联想词发送至服务器,并接收服务器返回的与选取的推荐联想词对应的搜索结果后展示给用户,可以提高搜索准确率。
如图6所示,为一个实施例中完整性预测模型的结构示意图。参照图6,该完整性预测模型600包括末尾字符预估网络602、特征统计网络604和分类网络606。将输入文本608分别输入至末尾字符预估网络602与特征统计网络604,依次得到两路输出,末尾字符预估网络602的输出是输入文本608中末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率,可以用{PB,PM,PE,PS,PE+PS}来表示。特征统计网络604的输出是输入文本608对应的统计特征,若包括n个特征,可以用{static_fea(1),static_fea(2),static_fea(3),...,static_fea(n)}来表示。分类网络606用于根据末尾字符预估网络602的输出与特征统计网络604的输出进行分类,得到输入文本对应的完整程度610。
上述文本处理方法,结合输入文本中末尾字符的词中位置标注状态预估特征与输入文本对应的统计特征,实现对输入文本对应的完整程度的预测,为确定输入文本的搜索意图提供了新的依据,通过对输入文本的完整程度进行预测,可以在输入文本完整程度较高的情况下,直接返回与输入文本相应的搜索结果,为用户提供一种“即输即得”的搜索体验,不需要提高相应的推荐联想词,从而提高搜索效率。另外,在输入文本完整程度较低的情况下,可以屏蔽与输入文本相应的搜索结果,节省用户端的运行资源。
如图7所示,在一个实施例中,获取基于文本语料统计的输入文本对应的统计特征包括:
S702,获取文本语料。
具体地,服务器可以获取大量用户在搜索应用程序的搜索输入框中输入的文本构成的文本语料,该文本语料所包括的文本可以称之为历史输入文本。
在一个实施例中,获取文本语料包括:获取历史搜索请求所包括的历史输入文本;将历史输入文本进行分词,得到分词短语;根据历史输入文本以及对应的分词短语得到文本语料。
具体地,服务器在根据文本语料统计当前用户在搜索输入框中录入的输入文本是否完整时,不仅需要考虑整个输入文本的文本级别特征,还需要考虑输入文本中末尾字符对应的字符级别特征和输入文本中的词语对应的分词短语级别特征。因此,在终端将携带历史输入请求的历史搜索请求发送至服务器后,在每次获取到用户的一次历史输入文本后,服务器都需要对该历史输入文本进行分词处理,得到分词短语,并将历史输入文本以及对应的分词短语共同作为用于统计当前输入文本对应的统计特征的文本语料。
S704,将输入文本输入至完整性预测模型中的特征统计网络。
具体地,完整性预测模型不仅包括末尾字符预估网络,还包括特征统计网络,末尾字符统计网络用于将输入文本转化为向量后对输入文本中末尾字符属于各词中标注状态的概率以及属于意图结束字符的概率进行预估,特征统计网络用于按照预设先验文本特征并根据大规模文本语料统计输入文本对应的统计特征。因此,服务器还可以将输入文本输入至完整性预测模型中的特征统计网络,通过特征统计网络统计输入文本对应的统计特征。
S706,在特征统计网络中,根据文本语料中的分词短语,按照预设字符级别特征统计输入文本中末尾字符对应的字符级别特征。
具体地,特征统计网络可以根据文本语料中包括该末尾字符的分词短语,按照预设字符级别特征统计输入文本中末尾字符对应的字符级别特征。
在一个实施例中,根据文本语料中的分词短语,按照预设字符级别特征统计输入文本中末尾字符对应的字符级别特征包括:遍历文本语料中包括输入文本中末尾字符的分词短语;分别统计末尾字符属于遍历的分词短语的各词中位置标注状态对应字符的概率;分别统计末尾字符在给定前一字符时属于遍历的分词短语的各词中位置标注状态对应字符的概率;根据统计的末尾字符对应的各概率确定末尾字符对应的字符级别特征。
其中预设字符级别特征具体可以包括以下特征中的一部分或全部:LAST_WORD_UNIGRAM_PROB_B:文本语料中末尾字符出现在分词短语开始的概率;LAST_WORD_UNIGRAM_PROB_M:文本语料中末尾字符出现在分词短语中间的概率;LAST_WORD_UNIGRAM_PROB_E:文本语料中末尾字符出现的分词短语末尾的概率;LAST_WORD_UNIGRAM_PROB_S:文本语料中末尾字符作为单字词的概率;LAST_WORD_UNIGRAM_PROB_END:文本语料中末尾字符作为结束字符(分词短语末尾和单字词)的概率;LAST_WORD_BIGRAM_PROB_B:文本语料中,末尾字符在给定前一个字时出现在短语开始的概率;LAST_WORD_BIGRAM_PROB_M:文本语料中,末尾字符在给定前一个字时出现在短语中间的概率;LAST_WORD_BIGRAM_PROB_E:文本语料中,末尾字符在给定前一个字时出现在短语末尾的概率;LAST_WORD_BIGRAM_PROB_S:文本语料中,末尾字符在给定前一个字时作为单字词的概率;LAST_WORD_STR_TYPE:末尾字符的字符类型(汉字、字母、符号);IS_LAST_WORD_IN_SUG_MID:在输入文本对应的首个推荐联想词中,末尾字符在在该推荐联想词中的位置(B、M、E或S);IS_LAST_WORD_STOP_WORDS:末尾字符是否为停用词。
以当前的输入文本为“深圳暴雨”举例说明:LAST_WORD_UNIGRAM_PROB_B表示的是所有包括“雨”的分词短语中“雨”出现在分词短语开始的概率,相应地,LAST_WORD_UNIGRAM_PROB_M、LAST_WORD_UNIGRAM_PROB_E和LAST_WORD_UNIGRAM_PROB_S分别表示的是“雨”出现在分词短语中间、末尾的概率以及作为单字词的概率,LAST_WORD_UNIGRAM_PROB_END则等于LAST_WORD_UNIGRAM_PROB_E与LAST_WORD_UNIGRAM_PROB_S之和。LAST_WORD_BIGRAM_PROB_B表示的是在给定前一个字符“暴”时“雨”出现在分词短语开始的概率,相应地,LAST_WORD_BIGRAM_PROB_M、LAST_WORD_BIGRAM_PROB_E和LAST_WORD_BIGRAM_PROB_S分别表示的是在给定前一个字符“暴”时“雨”出现在分词短语中间、末尾的概率以及作为单字词的概率。
在一些实施例中,除了要统计末尾字符属于遍历的分词短语的各词中位置标注状态对应字符的概率、末尾字符在给定前一字符时属于遍历的分词短语的各词中位置标注状态对应字符的概率之外,还可以统计末尾字符的字符类型、在推荐联想词中的位置以及末尾字符是否为停用词等等,根据统计的这些字符级别特征,得到输入文本中末尾字符对应的字符级别统计特征。
S708,根据文本语料中的分词短语,按照预设分词短语级别特征统计输入文本对应的分词短语级别特征。
具体地,特征统计网络还可以获取输入文本中的末尾词,根据文本语料中包括该末尾词的历史输入文本统计该输入文本对应的分词短语级别特征。
在一个实施例中,根据文本语料中的历史输入文本,按照预设分词短语级别特征统计输入文本中末尾字符对应的分词短语级别特征包括:将输入文本进行分词处理,得到输入文本中的末尾词;遍历文本语料中包括末尾词的历史输入文本;分别统计末尾词属于遍历的历史输入文本对应的末尾分词短语、首个分词短语和末尾词与遍历的历史输入文本相同的频次;分别统计末尾词属于遍历的历史输入文本对应的末尾分词短语、首个分词短语和末尾词与遍历的历史输入文本相同的概率;根据统计的末尾词对应的各频次、各概率确定输入文本对应的分词短语级别特征。
具体地,服务器可以对当前输入文本进行分词处理,得到输入文本中的末尾词,并根据文本语料统计与末尾词相关、且可用于判定输入文本完整程度的分词短语级别特征。
其中,预设分词短语级别特征具体可以包括以下特征中的一部分或全部:LAST_TOKEN_TERM_FREQ:文本语料中末尾词的词频;LAST_TOKEN_AS_PREFIX:文本语料中,末尾词出现在历史输入文本开始的频次;LAST_TOKEN_AS_SUFFIX:文本语料中,末尾词出现在历史输入文本结尾的频次;LAST_TOKEN_AS_QUERY:文本语料中,末尾词单独作为历史输入文本的检索频次;LAST_TOKEN_AS_PREFIX_RATE:文本语料中末尾词出现在历史输入文本开始的比例;LAST_TOKEN_AS_SUFFIX_RATE:文本语料中末尾词出现在历史输入文本结尾的比例;LAST_TOKEN_AS_QUERY_RATE:文本语料中末尾词单独作为历史输入文本的比例;IS_LAST_TOKEN_BAIKE:末尾词是否百科专名;LAST_TOKEN_TERM_WEIGHT:末尾词的核心词概率;LAST_TOKEN_STR_TYPE:末尾词的组成部分(汉字、字母、符号);RATE_LAST_TOKEN_PINYIN:末尾词是拼音的概率;IS_LAST_TOKEN_STOP_WORDS:末尾词是否为停用词。
S710,根据文本语料中的历史输入文本,按照预设文本级别特征统计输入文本所对应的文本级别特征。
具体地,特征统计网络还可以根据文本语料中的历史输入文本统计当前输入文本所对应的文本级别特征。
在一个实施例中,根据文本语料中的历史输入文本,按照预设文本级别特征统计输入文本所对应的文本级别特征包括:遍历文本语料中的历史输入文本;统计与输入文本相同的历史输入文本的搜索频次、用户行为特征;统计输入文本中所包括字母、英文、分词短语的先验特征;根据统计的输入文本对应的搜索频次、用户行为特征和各先验特征确定输入文本所对应的文本级别特征。
其中,预设文本级别特征具体包括以下特征中的一部分或全部:
QUERY_FREQ:当前输入文本的检索频次;IS_QUERY_BAIKE:当前输入文本是否是百科词;IS_QUERY_STOP_WORDS:当前输入文本是否是停用词;QUERY_PINYIN_RATE:当前输入文本是拼音的概率;QUERY_ENGLISH_RATE:当前输入文本是英文单词的概率;QUERY_WORD_NUM:当前输入文本的字符个数;QUERY_WORD_ALPHA_NUM:当前输入文本中字母的个数;RATE_QUERY_WORD_ALPHA:前输入文本中字母占字符个数的比例;QUERY_WORD_TYPE_NUM:当前输入文本中汉字类型字符的个数;QUERY_TOKEN_NUM:当前输入文本中分词短语的个数;QUERY_TOKEN_TYPE_NUM:当前输入文本中分词短语的类型;QUERY_TOKEN_ALPHA_NUM:当前输入文本中字母类型分词短语的个数;RATE_QUERY_TOKEN_ALPHA:当前输入文本的字母类型分词短语占总分词短语个数的比例;RATE_QUERY_SUG_PV_RATIO:当前输入文本的搜索频次与首个推荐联想词的搜索频次的比例;RATE_QUERY_TRANSFER_SELF:用户输入当前输入文本后停止输入概率;RATE_QUERY_TRANSFER_OTHER:用户输入当前输入文本后继续输入概率。
S712,将统计的字符级别特征、分词短语级别特征以及文本级别特征融合,得到输入文本对应的统计特征。
具体地,在得到字符级别特征、分词短语级别特征以及文本级别特征后,可以将各个特征组成一个长度为特征数量的一维特征向量,作为输入文本对应的统计特征。
上述实施例中,根据大规模文本语料统计输入文本在各类预设先验文本特征的统计特征,将统计特征作为判断输入文本对应的完整程度,能够提高判定输入文本完整性的准确度。
如图8所示,为一个具体的实施例中文本处理方法的流程示意图。
S802,获取输入文本。
S804,将输入文本输入已训练的完整性预测模型。
S806,在完整性预测模型的末尾字符预估网络中,按照字符特征参数表将输入文本中的字符分别转化为相应的字向量。
S808,在完整性预测模型的末尾字符预估网络中,依次对字向量进行线性变换与归一化处理,得到字向量对应的字符属于预设的各词中位置标注状态的发射概率所构成的发射概率矩阵。
S810,获取各词中位置标注状态之间的状态转移概率矩阵。
S812,获取输入文本中首字符对应各词中位置标注状态的初始概率;根据初始概率、首字符属于各词中位置标注状态的发射概率计算首字符属于各词中位置标注状态的概率。
S814,基于输入文本中各字符的排序顺序,根据首字符属于各词中位置标注状态的概率、状态转移概率矩阵以及各个字符属于各词中位置标注状态的发射概率,依次计算输入文本中各字符对应各词中位置标注状态的概率,直至得到输入文本中末尾字符属于各词中位置标注状态的概率。
S816,获取输入文本中末尾字符属于词尾状态的第一概率;获取输入文本中末尾字符属于单字状态的第二概率;将第一概率与第二概率之和作为输入文本中末尾字符属于意图结束字符的概率。
S818,获取历史搜索请求所包括的历史输入文本;将历史输入文本进行分词,得到分词短语;根据历史输入文本以及对应的分词短语得到文本语料。
S820,将输入文本输入至完整性预测模型中的特征统计网络。
S822,在特征统计网络中,遍历文本语料中包括输入文本中末尾字符的分词短语;分别统计末尾字符属于遍历的分词短语的各词中位置标注状态对应字符的概率;分别统计末尾字符在给定前一字符时属于遍历的分词短语的各词中位置标注状态对应字符的概率;根据统计的末尾字符对应的各概率确定末尾字符对应的字符级别特征。
S824,将输入文本进行分词处理,得到输入文本中的末尾词;遍历文本语料中包括末尾词的历史输入文本;分别统计末尾词属于遍历的历史输入文本对应的末尾分词短语、首个分词短语和末尾词与遍历的历史输入文本相同的频次;分别统计末尾词属于遍历的历史输入文本对应的末尾分词短语、首个分词短语和末尾词与遍历的历史输入文本相同的概率;根据统计的末尾词对应的各频次、各概率确定输入文本对应的分词短语级别特征。
S826,遍历文本语料中的历史输入文本;统计与输入文本相同的历史输入文本的搜索频次、用户行为特征;统计输入文本中所包括字母、英文、分词短语的先验特征;根据统计的输入文本对应的搜索频次、用户行为特征和各先验特征确定输入文本所对应的文本级别特征。
S828,将统计的字符级别特征、分词短语级别特征以及文本级别特征融合,得到输入文本对应的统计特征。
S830,将末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征输入至完整性预测模型的分类网络中;分别通过分类网络中与各词中位置标注状态特征、意图结束字符特征和统计特征对应的决策树,基于末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征对输入文本的完整程度进行投票,得到各决策树对应的投票结果;将各决策树对应的投票结果融合,得到输入文本对应的完整程度。
S832,当完整程度大于预设阈值时,则直接返回与输入文本对应的搜索结果;当完整程度小于或等于预设阈值时,则对输入文本对应的搜索结果进行屏蔽处理,并对输入文本进行补全处理得到对应的推荐联想词后返回推荐联想词;当获取到从推荐联想词中选取的任一推荐联想词时,返回与选取的推荐联想词对应的搜索结果。
上述文本处理方法,结合输入文本中末尾字符的词中位置标注状态预估特征与输入文本对应的统计特征,实现对输入文本对应的完整程度的预测,为确定输入文本的搜索意图提供了新的依据,通过对输入文本的完整程度进行预测,可以在输入文本完整程度较高的情况下,直接返回与输入文本相应的搜索结果,为用户提供一种“即输即得”的搜索体验,不需要提高相应的推荐联想词,从而提高搜索效率。另外,在输入文本完整程度较低的情况下,可以屏蔽与输入文本相应的搜索结果,节省用户端的运行资源。
应该理解的是,虽然图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种文本处理方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。该文本处理方法具体包括如下步骤:
获取输入文本并将输入文本发送至服务器;
获取服务器在输入文本对应的完整程度大于预设阈值时所直接返回的与输入文本对应的搜索结果,并展示搜索结果;或者,
获取服务器在输入文本对应的完整程度小于或等于预设阈值时所返回的与输入文本匹配的推荐联想词,并在获取到从推荐联想词中选取的任一推荐联想词时,获取服务器返回与选取的推荐联想词对应的搜索结果,并展示搜索结果;
完整程度,是通过服务器将输入文本中的字符分别转化为相应的字向量,根据字向量确定输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率,获取基于文本语料统计的输入文本对应的统计特征,根据末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征进行分类后得到的。
服务器对输入文本进行处理得到对应的完整程度的过程可以参考上述以服务器为执行主体所描述的文本处理方法中的各个实施例,此处不再重复说明。
上述文本处理方法,服务器结合输入文本中末尾字符的词中位置标注状态预估特征与输入文本对应的统计特征,实现对输入文本对应的完整程度的预测,为确定输入文本的搜索意图提供了新的依据,通过对输入文本的完整程度进行预测,可以在输入文本完整程度较高的情况下,直接向终端返回与输入文本相应的搜索结果,为用户提供一种“即输即得”的搜索体验,不需要提高相应的推荐联想词,从而提高搜索效率。另外,在输入文本完整程度较低的情况下,服务器可以屏蔽与输入文本相应的搜索结果,节省终端的运行资源。
在一个实施例中,如图9所示,提供了一种文本处理装置900,该装置包括输入文本获取模块902、字向量生成模块904、概率确定模块906、统计特征获取模块908和分类预测模块910,其中:
输入文本获取模块902,用于获取输入文本;
字向量生成模块904,用于将输入文本中的字符分别转化为相应的字向量;
概率确定模块906,用于根据字向量确定输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率;
统计特征获取模块908,用于获取基于文本语料统计的输入文本对应的统计特征;
分类预测模块910,用于根据末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征进行分类,得到输入文本对应的完整程度。
在一个实施例中,字向量生成模块904还用于将输入文本输入已训练的完整性预测模型;在完整性预测模型的末尾字符预估网络中,按照字符特征参数表将输入文本中的字符分别转化为相应的字向量。
在一个实施例中,概率确定模块906还用于在完整性预测模型的末尾字符预估网络中,依次对字向量进行线性变换与归一化处理,得到字向量对应的字符属于预设的各词中位置标注状态的发射概率所构成的发射概率矩阵;获取各词中位置标注状态之间的状态转移概率矩阵;根据发射概率矩阵和状态转移概率矩阵,确定输入文本中末尾字符属于各词中位置标注状态的概率和属于意图结束字符的概率。
在一个实施例中,概率确定模块906还用于获取输入文本中首字符对应各词中位置标注状态的初始概率;根据初始概率、首字符属于各词中位置标注状态的发射概率计算首字符属于各词中位置标注状态的概率;基于输入文本中各字符的排序顺序,根据首字符属于各词中位置标注状态的概率、状态转移概率矩阵以及各个字符属于各词中位置标注状态的发射概率,依次计算输入文本中各字符对应各词中位置标注状态的概率,直至得到输入文本中末尾字符属于各词中位置标注状态的概率。
在一个实施例中,概率确定模块906还用于获取输入文本中末尾字符属于词尾状态的第一概率;获取输入文本中末尾字符属于单字状态的第二概率;将第一概率与第二概率之和作为输入文本中末尾字符属于意图结束字符的概率。
在一个实施例中,统计特征获取模块908包括文本语料获取单元、输入单元、字符级别特征统计单元、分词短语级别特征统计单元、文本级别特征统计单元和特征融合单元;其中,文本语料获取单元用于获取文本语料;输入单元用于将输入文本输入至完整性预测模型中的特征统计网络;字符级别特征统计单元用于在特征统计网络中,根据文本语料中的分词短语,按照预设字符级别特征统计输入文本中末尾字符对应的字符级别特征;分词短语级别特征统计单元用于根据文本语料中的分词短语,按照预设分词短语级别特征统计输入文本对应的分词短语级别特征;文本级别特征统计单元用于根据文本语料中的历史输入文本,按照预设文本级别特征统计输入文本所对应的文本级别特征;特征融合单元用于将统计的字符级别特征、分词短语级别特征以及文本级别特征融合,得到输入文本对应的统计特征。
在一个实施例中,文本语料获取单元还用于获取历史搜索请求所包括的历史输入文本;将历史输入文本进行分词,得到分词短语;根据历史输入文本以及对应的分词短语得到文本语料。
在一个实施例中,字符级别特征统计单元还用于遍历文本语料中包括输入文本中末尾字符的分词短语;分别统计末尾字符属于遍历的分词短语的各词中位置标注状态对应字符的概率;分别统计末尾字符在给定前一字符时属于遍历的分词短语的各词中位置标注状态对应字符的概率;根据统计的末尾字符对应的各概率确定末尾字符对应的字符级别特征。
在一个实施例中,分词短语级别特征统计单元还用于将输入文本进行分词处理,得到输入文本中的末尾词;遍历文本语料中包括末尾词的历史输入文本;分别统计末尾词属于遍历的历史输入文本对应的末尾分词短语、首个分词短语和末尾词与遍历的历史输入文本相同的频次;分别统计末尾词属于遍历的历史输入文本对应的末尾分词短语、首个分词短语和末尾词与遍历的历史输入文本相同的概率;根据统计的末尾词对应的各频次、各概率确定输入文本对应的分词短语级别特征。
在一个实施例中,文本级别特征统计单元还用于遍历文本语料中的历史输入文本;统计与输入文本相同的历史输入文本的搜索频次、用户行为特征;统计输入文本中所包括字母、英文、分词短语的先验特征;根据统计的输入文本对应的搜索频次、用户行为特征和各先验特征确定输入文本所对应的文本级别特征。
在一个实施例中,分类预测模块910还用于将末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征输入至完整性预测模型的分类网络中;分别通过分类网络中与各词中位置标注状态特征、意图结束字符特征和统计特征对应的决策树,基于末尾字符属于各词中位置标注状态的概率、属于意图结束字符的概率和统计特征对输入文本的完整程度进行投票,得到各决策树对应的投票结果;将各决策树对应的投票结果融合,得到输入文本对应的完整程度。
在一个实施例中,输入文本为在搜索输入框中输入的文本,文本处理装置900还包括搜索结果处理单元,用于当完整程度大于预设阈值时,则直接返回与输入文本对应的搜索结果;当完整程度小于或等于预设阈值时,则对输入文本对应的搜索结果进行屏蔽处理,并对输入文本进行补全处理得到对应的推荐联想词后返回推荐联想词;当获取到从推荐联想词中选取的任一推荐联想词时,返回与选取的推荐联想词对应的搜索结果。
上述文本处理装置900,结合输入文本中末尾字符的词中位置标注状态预估特征与输入文本对应的统计特征,实现对输入文本对应的完整程度的预测,为确定输入文本的搜索意图提供了新的依据,通过对输入文本的完整程度进行预测,可以在输入文本完整程度较高的情况下,直接返回与输入文本相应的搜索结果,为用户提供一种“即输即得”的搜索体验,不需要提高相应的推荐联想词,从而提高搜索效率。另外,在输入文本完整程度较低的情况下,可以屏蔽与输入文本相应的搜索结果,节省用户端的运行资源。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图10所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本处理方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本处理装置900可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本处理装置900的各个程序模块,比如,图9所示输入文本获取模块902、字向量生成模块904、概率确定模块906、统计特征获取模块908和分类预测模块910。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本处理方法中的步骤。
例如,图10所示的计算机设备可以通过如图9所示的文本处理装置900中的输入文本获取模块902执行步骤S202。计算机设备可通过字向量生成模块904执行步骤S204。计算机设备可通过概率确定模块906执行步骤S206。计算机设备可通过统计特征获取模块908执行步骤S208。计算机设备可通过分类预测模块910执行步骤S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文本处理方法的步骤。此处文本处理方法的步骤可以是上述各个实施例的文本处理方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文本处理方法的步骤。此处文本处理方法的步骤可以是上述各个实施例的文本处理方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (26)
1.一种文本处理方法,包括:
获取输入文本,所述输入文本为在搜索输入框中输入的文本;
将所述输入文本中的字符分别转化为相应的字向量;
根据所述字向量确定所述输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率,所述词中位置标注状态是字符在所属词中的位置对应的位置标注,所述位置标注为字符位于所属词的开头、字符位于所属词的中间位置、字符位于所属词的末尾和字符单独成词中的一种;
获取基于文本语料统计的所述输入文本对应的统计特征;
根据所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征进行分类,得到所述输入文本对应的完整程度;
当所述完整程度大于预设阈值时,则直接返回与所述输入文本对应的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述输入文本中的字符分别转化为相应的字向量包括:
将所述输入文本输入已训练的完整性预测模型;
在所述完整性预测模型的末尾字符预估网络中,按照字符特征参数表将所述输入文本中的字符分别转化为相应的字向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述字向量确定所述输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率包括:
在所述完整性预测模型的末尾字符预估网络中,依次对所述字向量进行线性变换与归一化处理,得到所述字向量对应的字符属于预设的各词中位置标注状态的发射概率所构成的发射概率矩阵;
获取各所述词中位置标注状态之间的状态转移概率矩阵;
根据所述发射概率矩阵和所述状态转移概率矩阵,确定所述输入文本中末尾字符属于各所述词中位置标注状态的概率和属于意图结束字符的概率。
4.根据权利要求3所述的方法,其特征在于,所述输入文本中末尾字符属于各所述词中位置标注状态的概率通过以下步骤确定:
获取所述输入文本中首字符对应各所述词中位置标注状态的初始概率;
根据所述初始概率、所述首字符属于各所述词中位置标注状态的发射概率计算所述首字符属于各所述词中位置标注状态的概率;
基于所述输入文本中各字符的排序顺序,根据所述首字符属于各所述词中位置标注状态的概率、所述状态转移概率矩阵以及各个字符属于各所述词中位置标注状态的发射概率,依次计算所述输入文本中各字符对应各所述词中位置标注状态的概率,直至得到所述输入文本中末尾字符属于各所述词中位置标注状态的概率。
5.根据权利要求3所述的方法,其特征在于,所述输入文本中末尾字符属于意图结束字符的概率通过以下步骤确定:
获取所述输入文本中末尾字符属于词尾状态的第一概率;
获取所述输入文本中末尾字符属于单字状态的第二概率;
将所述第一概率与所述第二概率之和作为所述输入文本中末尾字符属于意图结束字符的概率。
6.根据权利要求2所述的方法,其特征在于,获取基于文本语料统计的所述输入文本对应的统计特征包括:
获取文本语料;
将所述输入文本输入至所述完整性预测模型中的特征统计网络;
在所述特征统计网络中,根据所述文本语料中的分词短语,按照预设字符级别特征统计所述输入文本中末尾字符对应的字符级别特征;
根据所述文本语料中的分词短语,按照预设分词短语级别特征统计所述输入文本对应的分词短语级别特征;
根据所述文本语料中的历史输入文本,按照预设文本级别特征统计所述输入文本所对应的文本级别特征;
将统计的所述字符级别特征、所述分词短语级别特征以及所述文本级别特征融合,得到所述输入文本对应的统计特征。
7.根据权利要求6所述的方法,其特征在于,所述获取文本语料包括:
获取历史搜索请求所包括的历史输入文本;
将所述历史输入文本进行分词,得到分词短语;
根据所述历史输入文本以及对应的所述分词短语得到文本语料。
8.根据权利要求6所述的方法,其特征在于,所述根据所述文本语料中的分词短语,按照预设字符级别特征统计所述输入文本中末尾字符对应的字符级别特征包括:
遍历所述文本语料中包括所述输入文本中末尾字符的分词短语;
分别统计所述末尾字符属于遍历的所述分词短语的各词中位置标注状态对应字符的概率;
分别统计所述末尾字符在给定前一字符时属于遍历的所述分词短语的各词中位置标注状态对应字符的概率;
根据统计的所述末尾字符对应的各所述概率确定所述末尾字符对应的字符级别特征。
9.根据权利要求6所述的方法,其特征在于,所述根据所述文本语料中的历史输入文本,按照预设分词短语级别特征统计所述输入文本中末尾字符对应的分词短语级别特征包括:
将所述输入文本进行分词处理,得到所述输入文本中的末尾词;
遍历所述文本语料中包括所述末尾词的历史输入文本;
分别统计所述末尾词属于遍历的所述历史输入文本对应的末尾分词短语、首个分词短语和所述末尾词与遍历的所述历史输入文本相同的频次;
分别统计所述末尾词属于遍历的所述历史输入文本对应的末尾分词短语、首个分词短语和所述末尾词与遍历的所述历史输入文本相同的概率;
根据统计的所述末尾词对应的各所述频次、各所述概率确定所述输入文本对应的分词短语级别特征。
10.根据权利要求6所述的方法,其特征在于,所述根据所述文本语料中的历史输入文本,按照预设文本级别特征统计所述输入文本所对应的文本级别特征包括:
遍历所述文本语料中的历史输入文本;
统计与所述输入文本相同的历史输入文本的搜索频次、用户行为特征;
统计所述输入文本中所包括字母、英文、分词短语的先验特征;
根据统计的所述输入文本对应的所述搜索频次、所述用户行为特征和各所述先验特征确定所述输入文本所对应的文本级别特征。
11.根据权利要求2所述的方法,其特征在于,所述根据所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征进行分类,得到所述输入文本对应的完整程度包括:
将所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征输入至所述完整性预测模型的分类网络中;
分别通过所述分类网络中与各所述词中位置标注状态特征、意图结束字符特征和所述统计特征对应的决策树,基于所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征对所述输入文本的完整程度进行投票,得到各所述决策树对应的投票结果;
将各所述决策树对应的投票结果融合,得到所述输入文本对应的完整程度。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述方法还包括:
当所述完整程度小于或等于预设阈值时,则对所述输入文本对应的搜索结果进行屏蔽处理,并对所述输入文本进行补全处理得到对应的推荐联想词后返回所述推荐联想词;当获取到从所述推荐联想词中选取的任一推荐联想词时,返回与选取的所述推荐联想词对应的搜索结果。
13.一种文本处理装置,其特征在于,所述装置包括:
输入文本获取模块,用于获取输入文本,所述输入文本为在搜索输入框中输入的文本;
字向量生成模块,用于将所述输入文本中的字符分别转化为相应的字向量;
概率确定模块,用于根据所述字向量确定所述输入文本中末尾字符属于预设的各词中位置标注状态的概率和属于意图结束字符的概率,所述词中位置标注状态是字符在所属词中的位置对应的位置标注,所述位置标注为字符位于所属词的开头、字符位于所属词的中间位置、字符位于所属词的末尾和字符单独成词中的一种;
统计特征获取模块,用于获取基于文本语料统计的所述输入文本对应的统计特征;
分类预测模块,用于根据所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征进行分类,得到所述输入文本对应的完整程度;
搜索结果处理模块,用于当所述完整程度大于预设阈值时,则直接返回与所述输入文本对应的搜索结果。
14.根据权利要求13所述的装置,其特征在于,所述字向量生成模块还用于将所述输入文本输入已训练的完整性预测模型;在所述完整性预测模型的末尾字符预估网络中,按照字符特征参数表将所述输入文本中的字符分别转化为相应的字向量。
15.根据权利要求14所述的装置,其特征在于,所述概率确定模块还用于在所述完整性预测模型的末尾字符预估网络中,依次对所述字向量进行线性变换与归一化处理,得到所述字向量对应的字符属于预设的各词中位置标注状态的发射概率所构成的发射概率矩阵;获取各所述词中位置标注状态之间的状态转移概率矩阵;根据所述发射概率矩阵和所述状态转移概率矩阵,确定所述输入文本中末尾字符属于各所述词中位置标注状态的概率和属于意图结束字符的概率。
16.根据权利要求15所述的装置,其特征在于,所述概率确定模块还用于获取所述输入文本中首字符对应各所述词中位置标注状态的初始概率;根据所述初始概率、所述首字符属于各所述词中位置标注状态的发射概率计算所述首字符属于各所述词中位置标注状态的概率;基于所述输入文本中各字符的排序顺序,根据所述首字符属于各所述词中位置标注状态的概率、所述状态转移概率矩阵以及各个字符属于各所述词中位置标注状态的发射概率,依次计算所述输入文本中各字符对应各所述词中位置标注状态的概率,直至得到所述输入文本中末尾字符属于各所述词中位置标注状态的概率。
17.根据权利要求15所述的装置,其特征在于,所述概率确定模块还用于获取所述输入文本中末尾字符属于词尾状态的第一概率;获取所述输入文本中末尾字符属于单字状态的第二概率;将所述第一概率与所述第二概率之和作为所述输入文本中末尾字符属于意图结束字符的概率。
18.根据权利要求14所述的装置,其特征在于,所述统计特征获取模块包括文本语料获取单元、输入单元、字符级别特征统计单元、分词短语级别特征统计单元、文本级别特征统计单元和特征融合单元,其中:
所述文本语料获取单元,用于获取文本语料;
所述输入单元,用于将所述输入文本输入至所述完整性预测模型中的特征统计网络;
所述字符级别特征统计单元,用于在所述特征统计网络中,根据所述文本语料中的分词短语,按照预设字符级别特征统计所述输入文本中末尾字符对应的字符级别特征;
所述分词短语级别特征统计单元,用于根据所述文本语料中的分词短语,按照预设分词短语级别特征统计所述输入文本对应的分词短语级别特征;
所述文本级别特征统计单元,用于根据所述文本语料中的历史输入文本,按照预设文本级别特征统计所述输入文本所对应的文本级别特征;
所述特征融合单元,用于将统计的所述字符级别特征、所述分词短语级别特征以及所述文本级别特征融合,得到所述输入文本对应的统计特征。
19.根据权利要求18所述的装置,其特征在于,所述文本语料获取单元还用于获取历史搜索请求所包括的历史输入文本;将所述历史输入文本进行分词,得到分词短语;根据所述历史输入文本以及对应的所述分词短语得到文本语料。
20.根据权利要求18所述的装置,其特征在于,所述字符级别特征统计单元还用于遍历所述文本语料中包括所述输入文本中末尾字符的分词短语;分别统计所述末尾字符属于遍历的所述分词短语的各词中位置标注状态对应字符的概率;分别统计所述末尾字符在给定前一字符时属于遍历的所述分词短语的各词中位置标注状态对应字符的概率;根据统计的所述末尾字符对应的各所述概率确定所述末尾字符对应的字符级别特征。
21.根据权利要求18所述的装置,其特征在于,所述分词短语级别特征统计单元还用于将所述输入文本进行分词处理,得到所述输入文本中的末尾词;遍历所述文本语料中包括所述末尾词的历史输入文本;分别统计所述末尾词属于遍历的所述历史输入文本对应的末尾分词短语、首个分词短语和所述末尾词与遍历的所述历史输入文本相同的频次;分别统计所述末尾词属于遍历的所述历史输入文本对应的末尾分词短语、首个分词短语和所述末尾词与遍历的所述历史输入文本相同的概率;根据统计的所述末尾词对应的各所述频次、各所述概率确定所述输入文本对应的分词短语级别特征。
22.根据权利要求18所述的装置,其特征在于,所述文本级别特征统计单元还用于遍历所述文本语料中的历史输入文本;统计与所述输入文本相同的历史输入文本的搜索频次、用户行为特征;统计所述输入文本中所包括字母、英文、分词短语的先验特征;根据统计的所述输入文本对应的所述搜索频次、所述用户行为特征和各所述先验特征确定所述输入文本所对应的文本级别特征。
23.根据权利要求14所述的装置,其特征在于,所述分类预测模块还用于将所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征输入至所述完整性预测模型的分类网络中;分别通过所述分类网络中与各所述词中位置标注状态特征、意图结束字符特征和所述统计特征对应的决策树,基于所述末尾字符属于各所述词中位置标注状态的概率、属于意图结束字符的概率和所述统计特征对所述输入文本的完整程度进行投票,得到各所述决策树对应的投票结果;将各所述决策树对应的投票结果融合,得到所述输入文本对应的完整程度。
24.根据权利要求13至23任一项所述的装置,其特征在于,所述搜索结果处理模块还用于当所述完整程度小于或等于预设阈值时,则对所述输入文本对应的搜索结果进行屏蔽处理,并对所述输入文本进行补全处理得到对应的推荐联想词后返回所述推荐联想词;当获取到从所述推荐联想词中选取的任一推荐联想词时,返回与选取的所述推荐联想词对应的搜索结果。
25.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
26.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910427138.2A CN110175273B (zh) | 2019-05-22 | 2019-05-22 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910427138.2A CN110175273B (zh) | 2019-05-22 | 2019-05-22 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175273A CN110175273A (zh) | 2019-08-27 |
CN110175273B true CN110175273B (zh) | 2021-09-07 |
Family
ID=67691795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910427138.2A Active CN110175273B (zh) | 2019-05-22 | 2019-05-22 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175273B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831806B (zh) * | 2020-07-02 | 2024-04-09 | 北京小米松果电子有限公司 | 语义完整性确定方法、装置、电子设备和存储介质 |
CN112084772A (zh) * | 2020-09-25 | 2020-12-15 | 北京明略昭辉科技有限公司 | 一种文本质量的监测方法、装置、电子设备及存储介质 |
CN112380331A (zh) * | 2020-11-16 | 2021-02-19 | 北京京东尚科信息技术有限公司 | 信息推送的方法和装置 |
CN112434510B (zh) * | 2020-11-24 | 2024-03-29 | 北京字节跳动网络技术有限公司 | 一种信息处理方法、装置、电子设备和存储介质 |
CN116663549B (zh) * | 2023-05-18 | 2024-03-19 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
US8639679B1 (en) * | 2011-05-05 | 2014-01-28 | Google Inc. | Generating query suggestions |
US8898182B2 (en) * | 2011-04-27 | 2014-11-25 | International Business Machines Corporation | Methods and arrangements for providing effective interactive query suggestions without query logs |
CN105045888A (zh) * | 2015-07-28 | 2015-11-11 | 浪潮集团有限公司 | 一种用于hmm的分词训练语料标注方法 |
CN108334492A (zh) * | 2017-12-05 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分词、即时消息处理方法和装置 |
-
2019
- 2019-05-22 CN CN201910427138.2A patent/CN110175273B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8898182B2 (en) * | 2011-04-27 | 2014-11-25 | International Business Machines Corporation | Methods and arrangements for providing effective interactive query suggestions without query logs |
US8639679B1 (en) * | 2011-05-05 | 2014-01-28 | Google Inc. | Generating query suggestions |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN105045888A (zh) * | 2015-07-28 | 2015-11-11 | 浪潮集团有限公司 | 一种用于hmm的分词训练语料标注方法 |
CN108334492A (zh) * | 2017-12-05 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分词、即时消息处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的虚假评论检测的研究与设计;张胜男;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190415;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110175273A (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175273B (zh) | 文本处理方法、装置、计算机可读存储介质和计算机设备 | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN110674319B (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN108536800B (zh) | 文本分类方法、系统、计算机设备和存储介质 | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
WO2018126325A1 (en) | Learning document embeddings with convolutional neural network architectures | |
CN109918653B (zh) | 确定文本数据的关联话题及模型的训练方法、装置和设备 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN111583911B (zh) | 基于标签平滑的语音识别方法、装置、终端及介质 | |
CN111967264B (zh) | 一种命名实体识别方法 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN113779994B (zh) | 一种要素抽取方法、装置、计算机设备和存储介质 | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN112417878A (zh) | 实体关系抽取方法、系统、电子设备及存储介质 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN112528621B (zh) | 文本处理、文本处理模型训练方法、装置和存储介质 | |
CN113761186A (zh) | 文本情感分类方法和装置 | |
CN115062619B (zh) | 中文实体链接方法、装置、设备及存储介质 | |
CN112579774B (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN116431758A (zh) | 文本分类方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |