CN113704462A - 文本处理方法、装置、计算机设备及存储介质 - Google Patents
文本处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113704462A CN113704462A CN202110352912.5A CN202110352912A CN113704462A CN 113704462 A CN113704462 A CN 113704462A CN 202110352912 A CN202110352912 A CN 202110352912A CN 113704462 A CN113704462 A CN 113704462A
- Authority
- CN
- China
- Prior art keywords
- text
- determining
- recalled
- texts
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 292
- 238000012545 processing Methods 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000012163 sequencing technique Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000005354 coacervation Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本处理方法、装置、计算机设备及存储介质,应用于人工智能技术领域,其中,该方法包括:获取到客户终端发送的参考文本后,对该参考文本进行解析,得到参考文本的词性序列,再通过词向量词典确定参考文本的特征向量;再根据参考文本的词性序列从文本数据库中确定出N个待召回文本;再通过词向量词典确定N个待召回文本的特征向量,并将得到的N个特征向量进行聚类处理,根据聚类处理结果从N个特征向量中确定参考特征向量集合;再根据参考特征向量集合以及参考文本的特征向量,从N个待召回文本中确定目标召回文本,通过该方法,可以提高文本召回的效率和文本召回的准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本处理方法、装置、计算机设备及存储介质。
背景技术
随着大数据时代的快速发展,互联网上涌现出海量文本,包括短篇文本和长篇文章。因此,怎样让用户快速获取到所需求的文本是各个领域的研究热点之一。
目前,文本召回策略通常是通过人工审核得到目标待召回文本。对于这类方法而言,存在两个方面的问题,一方面,人工参与度高,导致处理效率低,另一方面,召回的文本准确率较低。因此,怎样提高文本匹配的准确率和效率成为亟待解决的技术问题。
发明内容
本申请实施例提供了一种文本处理方法、装置、计算机设备及存储介质,可以提高文本召回的效率,也可以提高文本召回的准确率。
本申请实施例一方面公开了一种文本处理方法,该方法包括:
获取参考文本,并确定所述参考文本的词性序列以及特征向量;
根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,所述N个待召回文本中的各个待召回文本对应的词性序列与所述参考文本的词性序列相匹配,其中,N为正整数;
确定所述N个待召回文本中的各个待召回文本的特征向量;
将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合;
根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本。
本申请实施例一方面公开了一种文本处理装置,该装置包括:
获取单元,用于获取参考文本,并确定所述参考文本的词性序列以及特征向量;
确定单元,用于根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,所述N个待召回文本中的各个待召回文本对应的词性序列与所述参考文本的词性序列相匹配,其中,N为正整数;
所述确定单元,还用于确定所述N个待召回文本中的各个待召回文本的特征向量;
处理单元,用于将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合;
所述确定单元,还用于根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本。
本申请实施例一方面公开了一种计算机设备,该计算机设备包括:处理器,适于实现一条或多条计算机程序;以及,计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行上述的文本处理方法。
本申请实施一方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行上述的文本处理方法。
本申请实施例一方面公开了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该服务器执行上述的文本处理方法。
本申请实施例中,计算机设备在获取到客户终端发送的参考文本后,对该参考文本进行解析,得到参考文本的词性序列,并通过词向量词典确定参考文本的特征向量;计算机设备再根据参考文本的词性序列从文本数据库中确定出和参考文本的词性序列相匹配的N个待召回文本,并通过词向量词典确定N个待召回文本的特征向量,将得到的N个特征向量进行聚类处理,根据聚类处理结果从N个特征向量中确定参考特征向量集合;进而根据参考特征向量集合以及参考文本的特征向量,从N个待召回文本中确定目标召回文本,目标召回文本的数量可以为一个也可以为多个,通过该方法,一方面,可以有效减少人力,提高自动化能力,提升文本召回的效率;另一方面,通过词性序列和聚类对待召回文本进行两次筛选,再通过和参考文本的特征向量的对比,确定出目标召回文本,从而提高文本召回的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例公开的一种文本处理系统的架构示意图;
图2是本申请实施例公开的一种文本处理方法的流程示意图;
图3是本申请实施例公开的一种参考文本和词性序列的示意图;
图4是本申请实施例公开的另一种文本处理方法的流程示意图;
图5是本申请实施例公开的另一种文本处理方法的流程示意图;
图6是本申请实施例公开的一种文本处理装置的结构示意图;
图7是本申请实施例公开的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,完全由人工审核得到目标待召回文本的方式,处理效率和准确率都低。基于此,在对目标待召回文本进行召回时,可以先由计算机设备先将热点事件和数据库中的相匹配的文本进行初步筛选,然后由人工对初步筛选出的匹配文本进行校验,以确定出最终的目标召回文本。这样可以在一定程度上提高文本召回的处理效率和准确率。为进一步提高文本召回的处理效率和准确率,本申请实施例基于人工智能技术中的自然语言处理以及机器学习技术提出了一种文本处理方法。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请涉及人工智能技术下属的自然语言处理技术以及机器学习。其中,自然语言处理(Nature Language processing,NLP))是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
基于人工智能技术中的自然语言处理以及机器学习等技术,本申请提出的一种文本处理方法可以具体包括:在用户根据关键字对文本进行搜索时,服务器先获取用户对应的客户端发送的关键字,即参考文本,然后服务器利用自然语言处理技术,对该参考文本进行解析得到该参考文对应的词性序列,然后,再利用通过机器学习手段获得的词向量词典确定出参考文本的特征向量;服务器根据参考文本的主题信息从文本数据库中获取到和主题信息匹配的文本,然后将匹配到的文本所对应的词性序列和参考文本的词性序列进行对比,然后将匹配的文本确定为待召回文本,待召回文本的数量为多个;进一步,利用词向量词典去确定出待召回文本的特征向量,将待召回文本的特征向量进行聚类后,从聚类结果中确定出参考特征向量集合,最后将参考特征向量集合中各个参考特征向量和参考文本的特征向量进行对比,将匹配值大于或者等于指定阈值的参考特征向量对应的待召回文本确定为目标召回文本。本申请利用自然语言处理技术以及机器学习等技术,基于参考文本的词性序列、聚类算法等确定出目标召回文章。因此,通过该方法,在一定程度上提高了召回文本的准确率。同时,聚类之后再对文本进行筛选,可以有效降低人力成本,提升文本召回的效率。
基于上述对文本处理方法的简单阐述,本申请实施例公开了一种文本处理系统的架构示意图,请参见图1,该文本处理系统可以至少包括:一个或多个客户终端101和计算机设备102。其中,客户终端101是指用户用于搜索的用户端,用户在客户终端101的界面输入参考文本;计算机设备102是指和客户终端101进行通信连接的设备,主要用于接收客户终端101的搜索请求,并确定出目标召回文本,并将目标召回文本返回给客户终端101。文本处理系统中的客户终端101和计算机设备102之间可以实现通信连接,对应的连接方式包括有线连接和无线连接,对此不作限制。
需要说明的是:上述所提及的计算机设备可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述所提及客户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等,但并不局限于此。
图1只是示例性地表征文本处理系统的系统架构,并不对此进行限定。例如,图1中的客户终端101是直接与计算机设备102连接的,但在其他实施例中,客户终端101也可先连接本地服务器,本地服务器再和计算机设备102进行连接,对此不作限定。又如,在其他实施例中,还可将上述所提及的计算机设备部署成区块链网络中的节点,或者将计算机设备接入区块链网络,使得计算机设备可将内部数据上传至区块链网络进行存储,以防止内部数据被篡改,从而保证数据安全性。
在具体实现中,通过上述的文本处理系统实现本申请实施例所提出的文本处理方法的大致流程如下:计算机设备在获取到客户终端发送的参考文本后,对该参考文本进行解析,得到参考文本的词性序列,再通过词向量词典确定参考文本的特征向量;再根据参考文本的词性序列从文本数据库中确定出N个待召回文本,其中,N个待召回文本中的各个待召回文本均存在和参考文本相匹配的词性序列;计算机设备再通过词向量词典确定N个待召回文本的特征向量,并将得到的N个特征向量进行聚类处理,根据聚类处理结果从N个特征向量中确定参考特征向量集合;再根据参考特征向量集合以及参考文本的特征向量,从N个待召回文本中确定目标召回文本,目标召回文本的数量可以为一个也可以为多个,该目标召回文本和参考文本相似度较高,即目标召回文本的描述的事件主题和参考文本描述的事件主题比较相近。进一步的,计算机设备还要召回的目标召回文本发送待客户终端,以使得客户终端可以将目标召回文本显示在界面上,提供给用户查看。
基于上述描述,本申请实施例提供的文本处理方法可以达到以下效果:一方面,通过参考文本的词性序列确定待召回文本,再通过聚类的方式对待召回文本的特征向量进行处理,并确定出参考特征向量,可以有效减少人力,提高自动化能力,提升文本召回的效率;另一方面,通过词性序列和聚类对待召回文本进行两次筛选,再通过和参考文本的特征向量的对比,确定出目标召回文本,从而提高文本召回的准确率。
基于上述阐述的文本处理系统,本申请实施例公开了一种文本处理方法,请参见图2,为本申请实施例公开的一种文本处理方法的流程示意图,该文本处理方法可以由计算机设备执行。该文本处理方法的流程图具体可以包括步骤S201~S205:
S201、获取参考文本,并确定参考文本的词性序列以及特征向量。
其中,获取客户端发送的参考文本,该参考文本可以是客户端根据用户操作确定的,可以是根据用户在客户终端的终端界面中输入的字符确定的,表明用户想要主动获取参考文本对应的文章,用户输入的字符可以是根据在日常信息流推荐的爆款、热点等文章类型中的主题信息确定出来的。其中,爆款文章和热点文章可以指的是互联网上搜索次数较多的文章,如博客首页显示历史搜索、微博首页显示历史搜索等。在一些可行的实施例中,该参考文本还可以是计算设备基于后台数据实时更新的,具体是根据统计数据中字符出现的频率确定的,频率越高,越可能被计算机设备当做参考文本。例如在一些应用场景中,如实时新闻推送,是计算机设备主动推送到客户端页面的。不管是根据输入的字符确定参考文本,还是根据后台数据实时确定参考文本,两者字符的来源大多具有统一或者有规律的话术体系,或者上下文关联的规律,这些特征可以近似的都用词性序列来表征,通过词性序列的匹配,计算机设备便可以从多篇热点文章中筛选出参考文本。
在一个实施例中,计算机设备在获取到客户终端发送的参考文本后,可以利用词性分析工具解析出参考文本的词性序列,词性可以包括名词词性、动词词性、副词词性、形容词词性、人名词性等,这里就不再一一列举了。例如,参考文本和参考文本的词性序列可以如图3所示,其中,301为参考文本,302为参考文本的词性序列,其中“nr”为人名,“n”为名词,“v”为动词,“c”为连词。其中,词性分析工具可以包括jieba(“结巴”中文分词,一种Python分词组件)、SnowNLP(Simplified Chinese Text Processing,一个python写的类库)、THULAC(THU Lexical Analyzer for Chinese,由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能)等等。
进一步的,服务器还会将参考文本进行分词处理,得到参考文本的各个字词,然后在词向量词典中查找参考文本每个分词对应的特征向量,然后,将参考文本的各个分词的各个特征向量进行融合,得到参考文本所对应的特征向量。其中,融合方式可以是累加。例如,参考文本1进行分词处理后,得到分词A、分词B和分词C,根据词向量词典确定出分词A对应的特征向量a是一个100维的向量,分词B对应的特征向量b也是一个100维的向量,分词C对应的特征向量c也是一个100维的向量,则将特征向量a、特征向量b以及特征向量c进行累加,得到一个新的100维的向量,然后对该向量进行归一化处理,就得到了参考文本1的特征向量。
其中,词向量词典可以是服务器提前训练好的,其训练过程可以包括:先从文本数据库中获取大量的样本数据集,该样本数据集中包括多个训练文本,假设训练文本的数量为100万,则获取到100万训练文本后,先对训练文本进行分词处理,得到每篇训练文本的分词结果,然后利用word2vec对这100万篇训练文本的分词结果进行训练,得到各个分词的向量表示,同时筛选掉一些无用的数据,如无用的分词向量,最终得到100万训练文本的对应的一版词向量词典,该词向量词典中包括各个分词对应的向量。在本申请实施例中,我们可以取向量的维度为100维,因此,得到的词向量词典便是包括了很多个100维向量的向量集合,一个向量对应一个分词。该词向量词典便是后续得到各个待召回文本的特征向量的基础。其中,word2vec(word to vector)是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到每一个向量。除了word2vec,还可以使用GloVe(Global Vectors for Word Representation),是一个基于全局词频统计的词表征工具,可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者余弦相似度,可以计算出两个单词之间的语义相似性。由于GloVe更倾向于确定两个单词之间的语义相似性,因此,本申请实施例选择采用的word2vec,直接得到各个单词和各个向量的映射关系即可。
S202、根据参考文本的词性序列从文本数据库中确定出N个待召回文本。
在一个实施例中,在步骤S201中得到了参考文本的词性序列后,为了实现本申请的文本召回,因此,需要一些文章进行测试,检验是否能达到召回效果。因此,还需要从文本数据库中确定出N个待召回文本,其具体实现方法为:先确定参考文本的主题信息,从文本数据库中确定出主题信息与参考文本的主题信息相匹配的一个或多个待选择文本。其中,这里的主题信息可以是主题词,如参考文本为“张某某在某地相亲”,则对应的主题词可以有人名“张某某”、动词“相亲”以及名词“某地”,因此,可以根据主题词先从文本数据库中获取一个或者多个待选择文本,这些待选择文本中,至少包括了和参考文本相同的主题词。对应例子,则待选择文本要么包括了“张某某”和“某地”,要么包括了“相亲”和“某地”,要么同时包括了“张某某”、“相亲”以及“某地”,等等。
进一步的,在确定了一个或多个待选择文本后,为了减轻后续对文本的处理量,提高效率,还需要对待选择文本进行进一步筛选,即可以利用参考文本的词性序列对待选择文本进行筛选,从而确定出N个待召回文本,N个待召回文本中的各个待召回文本对应的词性序列与参考文本的词性序列相匹配,这里指示的相匹配可以指的是各个待召回文本和参考文本的词性序列相同或者相似度很高。其中,在本申请实施例中,N可为任意正整数。
S203、确定N个待召回文本中的各个待召回文本的特征向量。
在一个实施例中,针对N个待召回文本中的任一个待召回文本,计算机设备的处理过程可以是一样的。具体的,计算机设备可以对待召回文本进行分词处理,得到分词集合,根据词向量词典确定分词集合中各个分词的特征向量,将各个分词的特征向量进行融合,具体的融合方式可以是求和,然后根据融合结果确定待召回文本的特征向量。对应于上述例子,得到的词向量词典每个分词对应的都是一个100维的向量,因此,对每篇待召回文本的分词集合,就会得到一个100维向量集合,具体的,可以将集合中的每个分词的100维向量进行累加,得到一个100维的特征向量,此时,这个100维的特征向量的每个数值都很大,因此,需要对该特征向量进行归一化处理,从而得到一个待召回文本的特征向量。针对N个待召回文本中每个待召回文本的处理步骤均一致,因此,处理后,便可以得到N个特征向量,每个特征向量对应一个待召回文本。
S204、将得到的N个特征向量进行聚类处理,根据聚类处理结果从N个特征向量中确定参考特征向量集合。
在一个实施例中,为了减少后续人工对文本的校验,计算机设备可以将得到的N个特征向量进行聚类处理,得到至少一个聚类类别,从至少一个聚类类别中确定目标聚类类别,根据各个目标聚类类别所包括的特征向量确定参考特征向量集合。在本申请实施例中,可以采用k-means对N个特征向量进行聚类处理,k-means是我们最常用的基于欧式距离的聚类算法,该类算法认为两个目标的距离越近,相似度越大。假设k=100,即将N个特征向量分成100个聚类类别,每个聚类类别中均可以包括不同数量的特征训练,然后,计算机设备确定至少一个聚类类别中的各个聚类类别所包括的特征向量的数目,并按照所包括的特征向量的数目从高到低的顺序对聚类类别进行排序,得到第一排序结果,即排在第一的聚类类别包括的特征向量最多,排在100的聚类类别包括的特征向量最少。进一步,计算机设备根据第一排序结果,将至少一个聚类类别中排在前M位的聚类类别确定为目标聚类类别,可以理解成目标聚类类别有多个,M可以取任意正数值,假设M为20,则选取的就是20个目标聚类类别。其中,聚类算法除了采用k-means聚类算法之外,还可以采用均值漂移聚类、基于密度的聚类、用高斯混合模型的最大期望聚类、或者凝聚层次聚类等等。
进一步的,计算机设备将目标聚类类别中包括的特征向量作为参考特征向量,由于在本申请实施例中得到的参考特征向量的数量可能不止一个,因此,用参考特征向量集合可以更好的表示特征向量的个数。
S205、根据参考特征向量集合以及参考文本的特征向量,从N个待召回文本中确定目标召回文本。
在一个实施例中,计算机设备可以将参考特征向量集合中的各个参考特征向量分别与参考文本的特征向量进行对比,从而得到各个参考特征向量与参考文本的特征向量之间的匹配值,再从参考特征向量集合中,确定与参考文本的特征向量之间的匹配值大于或等于设定阈值的目标特征向量,进而将目标特征向量所对应的待召回文本确定为目标召回文本。其中,设定阈值可以是根据先验设置的,也可以是根据业务需求设定的。
在又一个实施例中,计算机设备可以根据各个目标召回文本所对应的目标特征向量与参考文本的特征向量之间的匹配值,可以按照匹配值从大到小的顺序,对各个目标召回文本进行排序,得到第二排序结果,然后将第二排序结果以及各个目标召回文本发送给客户端,以使得客户端根据第二排序结果确定各个目标召回文本的显示顺序,并按照显示顺序显示各个目标召回文本。其中,需要注意的是,目标召回文本可以是指的是目标召回文本的摘要信息,也可以是目标召回文本的中心思想句子,还可以是目标召回文本的文本标题。为了能在客户终端的显示界面上完整的显示目标召回文本的数量,因此,显示的是目标召回文本的一部分内容。当目标召回文本的数量过多时,还可以通过不同的页面展示,即一个页面展示一部分目标召回文本,当点击下一页时,再显示其他的目标召回文本。
本申请实施例中,计算机设备在获取到客户终端发送的参考文本后,对该参考文本进行解析,得到参考文本的词性序列,再通过词向量词典确定参考文本的特征向量;再根据参考文本的词性序列从文本数据库中确定出N个待召回文本,其中,N个待召回文本中的各个待召回文本均存在和参考文本相匹配的词性序列;计算机设备再通过词向量词典确定N个待召回文本的特征向量,并将得到的N个特征向量进行聚类处理,根据聚类处理结果从N个特征向量中确定参考特征向量集合;再根据参考特征向量集合以及参考文本的特征向量,从N个待召回文本中确定目标召回文本,目标召回文本的数量可以为一个也可以为多个,该目标召回文本和参考文本相似度较高,即目标召回文本的描述的事件主题和参考文本描述的事件主题比较相近。通过该方法,一方面,可以有效减少人力,提高自动化能力,提升文本召回的效率;另一方面,通过词性序列和聚类对待召回文本进行两次筛选,再通过和参考文本的特征向量的对比,确定出目标召回文本,因此,可以提高文本召回的准确率。
基于上述阐述的文本处理系统和文本处理方法,本申请实施例公开了另一种文本处理方法,请参见图4,为本申请实施例公开的另一种文本处理方法的流程示意图,该文本处理方法可以由计算机设备执行。该文本处理方法具体可以包括步骤401~412:
S401、获取参考文本,并确定参考文本的词性序列以及特征向量。
S402、确定参考文本的主题信息,从文本数据库中确定出主题信息与参考文本的主题信息相匹配的一个或多个待选择文本。
S403、根据参考文本的词性序列从一个或多个待选择文本中确定出N个待召回文本。
S404、针对N个待召回文本中的任一个待召回文本,对待召回文本进行分词处理,得到分词集合。
S405、根据词向量词典确定分词集合中各个分词的特征向量。
S406、将各个分词的特征向量进行融合,根据融合结果确定待召回文本的特征向量。
S407、将得到的N个特征向量进行聚类处理,得到至少一个聚类类别。
S408、从至少一个聚类类别中确定目标聚类类别,根据各个目标聚类类别所包括的特征向量确定参考特征向量集合。
S409、将参考特征向量集合中的各个参考特征向量分别与参考文本的特征向量进行对比,确定各个参考特征向量与参考文本的特征向量之间的匹配值。
S410、从参考特征向量集合中,确定与参考文本的特征向量之间的匹配值大于或等于设定阈值的目标特征向量,并将目标特征向量所对应的待召回文本确定为目标召回文本。
S411、根据各个目标召回文本所对应的目标特征向量与参考文本的特征向量之间的匹配值,按照匹配值从大到小的顺序,对各个目标召回文本进行排序,得到第二排序结果。
S412、将第二排序结果以及各个目标召回文本发送给客户端,以使得客户端根据第二排序结果确定各个目标召回文本的显示顺序,并按照显示顺序显示各个目标召回文本。
其中,步骤401~412是对本申请实施例提供的文本处理方法对应的相关步骤的更详细的阐述,具体的实施例已经在图2示出的相关实施例进行了详细地阐述,此处便不再赘述。
在一个实施例中,图4所阐述的文本处理方法具体可以分成三个大的部分,第一部分、计算机设备确定参考文本并确定参考文本的词性序列,并利用参考文本的词性序列筛选出N个待召回文本;第二部分、计算机设备利用训练文本训练一版词向量词典,然后利用该词向量词典得到参考文本的特征向量,以及N个待召回文本的特征向量;第三部分、计算机设备将N个待召回文本的特征向量的N个特征向量进行聚类处理,然后以参考文本的特征向量为参考标准,从聚类结果中确定出目标召回文本,并将目标召回文本发送给客户端,使得客户端可以将目标召回文本显示在界面中。
具体的,第三部分可以如图5所示,包括N个待召回文本的N个特征向量,如对于待召回文本1,对应的特征向量为特征向量1,对于待召回文本N,对应的特征向量为特征向量N,然后将N个特征向量进行聚类,进而从聚类结果中确定出目标聚类类别,然后将目标聚类类别中包括的参考特征向量特征和参考文本的特征向量进行对比,确定出目标召回文本。
本申请实施例中,计算机设备确定参考文本并确定参考文本的词性序列,并利用参考文本的词性序列确定出N个待召回文本;利用词向量词典得到参考文本的特征向量,以及N个待召回文本的特征向量;将N个待召回文本的特征向量的N个特征向量进行聚类处理,然后以参考文本的特征向量为参考标准,从聚类结果中确定出目标召回文本。通过该方法,一方面,通过参考文本的词性序列确定待召回文本,再通过聚类的方式对待召回文本的特征向量进行处理,并确定出参考特征向量,可以有效减少人力,提高自动化能力,提高对文本召回的效率;另一方面,通过词性序列和聚类对待召回文本进行两次筛选,再通过和参考文本的特征向量的对比,进而确定出目标召回文本,因此,可以有效提高文本召回的准确率。
基于上述的方法实施例,本申请实施例还提供了一种文本处理装置的结构示意图。参见图6,为本申请实施例提供的一种文本处理装置的结构示意图。图6所示的文本处理装置600可运行如下单元:
获取单元601,用于获取参考文本,并确定所述参考文本的词性序列以及特征向量;
确定单元602,用于根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,所述N个待召回文本中的各个待召回文本对应的词性序列与所述参考文本的词性序列相匹配,其中,N为正整数;
所述确定单元602,还用于确定所述N个待召回文本中的各个待召回文本的特征向量;
处理单元603,用于将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合;
所述确定单元602,还用于根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本。
在一个实施例中,所述处理单元603将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合,可具体用于:
将得到的N个特征向量进行聚类处理,得到至少一个聚类类别;
从所述至少一个聚类类别中确定目标聚类类别,根据各个目标聚类类别所包括的特征向量确定参考特征向量集合。
在一个实施例中,所述确定单元602从所述至少一个聚类类别中确定目标聚类类别,可具体用于:
确定所述至少一个聚类类别中的各个聚类类别所包括的特征向量的数目;
按照所包括的特征向量的数目从高到低的顺序对所述至少一个聚类类别进行排序,得到第一排序结果;
根据所述第一排序结果,将所述至少一个聚类类别中排在前M位的聚类类别确定为目标聚类类别,其中,M为正整数。
在一个实施例中,所述确定单元602根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本,可具体用于:
将所述参考特征向量集合中的各个参考特征向量分别与所述参考文本的特征向量进行对比,确定各个参考特征向量与所述参考文本的特征向量之间的匹配值;
从所述参考特征向量集合中,确定与所述参考文本的特征向量之间的匹配值大于或等于设定阈值的目标特征向量;
将所述目标特征向量所对应的待召回文本确定为目标召回文本。
在一个实施例中,所述目标特征向量为多个,所述处理单元603,还具体用于:
根据各个目标召回文本所对应的目标特征向量与所述参考文本的特征向量之间的匹配值,按照匹配值从大到小的顺序,对所述各个目标召回文本进行排序,得到第二排序结果;
将所述第二排序结果以及所述各个目标召回文本发送给客户端,以使得所述客户端根据所述第二排序结果确定所述各个目标召回文本的显示顺序,并按照所述显示顺序显示所述各个目标召回文本。
在一个实施例中,所述确定单元602确定所述N个待召回文本中的各个待召回文本的特征向量,可具体用于:
针对所述N个待召回文本中的任一个待召回文本,对所述待召回文本进行分词处理,得到分词集合;
根据词向量词典确定所述分词集合中各个分词的特征向量;
将所述各个分词的特征向量进行融合,根据融合结果确定所述待召回文本的特征向量。
在一个实施例中,所述确定单元602根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,可具体用于:
确定所述参考文本的主题信息,从文本数据库中确定出主题信息与所述参考文本的主题信息相匹配的一个或多个待选择文本;
根据所述参考文本的词性序列从所述一个或多个待选择文本中确定出N个待召回文本。
根据本申请的一个实施例,图2以及图4所示的文本处理方法所涉及各个步骤可以是由图6所示的文本处理装置600中的各个单元来执行的。例如,图2所示的文本处理方法中步骤S201可由图6所示的文本处理装置600中的获取单元601来执行,步骤S202-步骤S203、步骤S205可由图6所示的文本处理装置600中的确定单元602来执行,步骤S204可由图6所示的文本处理装置600中的处理单元603来执行;再如,图4所示的文本处理方法中步骤S401可由图6所示的文本处理装置600中的获取单元601来执行,步骤S402-步骤S403、步骤S405-步骤S406、步骤S408-步骤S411可由图6所示的文本处理装置600中的确定单元602来执行,步骤S404、步骤S407以及步骤S412可由图6所示的文本处理装置600中的处理单元603来执行。
根据本申请的另一个实施例,图6所示的文本处理装置600中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于文本处理装置600也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2以及图4所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的文本处理装置600,以及来实现本申请实施例文本处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,在获取到客户终端发送的参考文本后,对该参考文本进行解析,得到参考文本的词性序列,再通过词向量词典确定参考文本的特征向量;再根据参考文本的词性序列从文本数据库中确定出N个待召回文本,其中,N个待召回文本中的各个待召回文本均存在和参考文本相匹配的词性序列;计算机设备再通过词向量词典确定N个待召回文本的特征向量,并将得到的N个特征向量进行聚类处理,根据聚类处理结果从N个特征向量中确定参考特征向量集合;再根据参考特征向量集合以及参考文本的特征向量,从N个待召回文本中确定目标召回文本,目标召回文本的数量可以为一个也可以为多个,通过该方法,一方面,可以有效减少人力,提高自动化能力,提升对文本召回的效率;另一方面,通过词性序列和聚类对待召回文本进行两次筛选,再通过和参考文本的特征向量的对比,确定出目标召回文本,因此,可以提高文本召回的准确率。
基于上述方法以及装置实施例,本申请实施例提供了一种计算机设备。参见图7,为本申请实施例提供的一种计算机设备的结构示意图。图7所示的计算机设备700至少包括处理器701、输入接口702、输出接口703、计算机存储介质704以及存储器705。其中,处理器701、输入接口702、输出接口703、计算机存储介质704以及存储器705可通过总线或其他方式连接。
计算机存储介质704可以存储在计算机设备700的存储器705中,所述计算机存储介质704用于存储计算机程序,所述计算机程序包括程序指令,所述处理器701用于执行所述计算机存储介质704存储的程序指令。处理器701(或称CPU(Central Processing Unit,中央处理器))是计算机设备700的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备700中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备700中的内置存储介质,当然也可以包括计算机设备700支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备700的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,所述计算机存储介质可由处理器701加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2以及图4所示的文本处理方法的相应步骤。具体实现中,计算机存储介质中的一条或多条指令由处理器701加载并执行如下步骤:
获取参考文本,并确定所述参考文本的词性序列以及特征向量;
根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,所述N个待召回文本中的各个待召回文本对应的词性序列与所述参考文本的词性序列相匹配,其中,N为正整数;
确定所述N个待召回文本中的各个待召回文本的特征向量;
将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合;
根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本。
在一个实施例中,所述处理器701将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合,可具体用于:
将得到的N个特征向量进行聚类处理,得到至少一个聚类类别;
从所述至少一个聚类类别中确定目标聚类类别,根据各个目标聚类类别所包括的特征向量确定参考特征向量集合。
在一个实施例中,所述处理器701从所述至少一个聚类类别中确定目标聚类类别,可具体用于:
确定所述至少一个聚类类别中的各个聚类类别所包括的特征向量的数目;
按照所包括的特征向量的数目从高到低的顺序对所述至少一个聚类类别进行排序,得到第一排序结果;
根据所述第一排序结果,将所述至少一个聚类类别中排在前M位的聚类类别确定为目标聚类类别,其中,M为正整数。
在一个实施例中,所述处理器701根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本,可具体用于:
将所述参考特征向量集合中的各个参考特征向量分别与所述参考文本的特征向量进行对比,确定各个参考特征向量与所述参考文本的特征向量之间的匹配值;
从所述参考特征向量集合中,确定与所述参考文本的特征向量之间的匹配值大于或等于设定阈值的目标特征向量;
将所述目标特征向量所对应的待召回文本确定为目标召回文本。
在一个实施例中,所述目标特征向量为多个,所述处理器701,还具体用于:
根据各个目标召回文本所对应的目标特征向量与所述参考文本的特征向量之间的匹配值,按照匹配值从大到小的顺序,对所述各个目标召回文本进行排序,得到第二排序结果;
将所述第二排序结果以及所述各个目标召回文本发送给客户端,以使得所述客户端根据所述第二排序结果确定所述各个目标召回文本的显示顺序,并按照所述显示顺序显示所述各个目标召回文本。
在一个实施例中,所述处理器701确定所述N个待召回文本中的各个待召回文本的特征向量,可具体用于:
针对所述N个待召回文本中的任一个待召回文本,对所述待召回文本进行分词处理,得到分词集合;
根据词向量词典确定所述分词集合中各个分词的特征向量;
将所述各个分词的特征向量进行融合,根据融合结果确定所述待召回文本的特征向量。
在一个实施例中,所述处理器701根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,可具体用于:
确定所述参考文本的主题信息,从文本数据库中确定出主题信息与所述参考文本的主题信息相匹配的一个或多个待选择文本;
根据所述参考文本的词性序列从所述一个或多个待选择文本中确定出N个待召回文本。
本申请实例中,计算机设备700确定参考文本并确定参考文本的词性序列,并利用参考文本的词性序列确定出N个待召回文本;利用词向量词典得到参考文本的特征向量,以及N个待召回文本的特征向量;将N个待召回文本的特征向量的N个特征向量进行聚类处理,然后以参考文本的特征向量为参考标准,从聚类结果中确定出目标召回文本。通过该方法,一方面,通过参考文本的词性序列确定待召回文本,再通过聚类的方式对待召回文本的特征向量进行处理,并确定出参考特征向量,可以有效减少人力,提高自动化能力,提升对文本召回的效率;另一方面,通过词性序列和聚类对待召回文本进行两次筛选,再通过和参考文本的特征向量的对比,确定出目标召回文本,因此,可以提高文本召回的准确率。
根据本申请的一个方面,本申请实施例还提供了一种计算机产品,该计算机产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。处理器701从计算机可读存储介质中读取该计算机程序令,处理器701执行该计算机程序,使得计算机设备700执行图2以及图4所示的文本处理方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种文本处理方法,其特征在于,所述方法包括:
获取参考文本,并确定所述参考文本的词性序列以及特征向量;
根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,所述N个待召回文本中的各个待召回文本对应的词性序列与所述参考文本的词性序列相匹配,其中,N为正整数;
确定所述N个待召回文本中的各个待召回文本的特征向量;
将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合;
根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本。
2.根据权利要求1所述的方法,其特征在于,所述将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合,包括:
将得到的N个特征向量进行聚类处理,得到至少一个聚类类别;
从所述至少一个聚类类别中确定目标聚类类别,根据各个目标聚类类别所包括的特征向量确定参考特征向量集合。
3.根据权利要求2所述的方法,其特征在于,所述从所述至少一个聚类类别中确定目标聚类类别,包括:
确定所述至少一个聚类类别中的各个聚类类别所包括的特征向量的数目;
按照所包括的特征向量的数目从高到低的顺序对所述至少一个聚类类别进行排序,得到第一排序结果;
根据所述第一排序结果,将所述至少一个聚类类别中排在前M位的聚类类别确定为目标聚类类别,其中,M为正整数。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本,包括:
将所述参考特征向量集合中的各个参考特征向量分别与所述参考文本的特征向量进行对比,确定各个参考特征向量与所述参考文本的特征向量之间的匹配值;
从所述参考特征向量集合中,确定与所述参考文本的特征向量之间的匹配值大于或等于设定阈值的目标特征向量;
将所述目标特征向量所对应的待召回文本确定为目标召回文本。
5.根据权利要求4所述的方法,其特征在于,所述目标特征向量为多个,所述方法还包括:
根据各个目标召回文本所对应的目标特征向量与所述参考文本的特征向量之间的匹配值,按照匹配值从大到小的顺序,对所述各个目标召回文本进行排序,得到第二排序结果;
将所述第二排序结果以及所述各个目标召回文本发送给客户端,以使得所述客户端根据所述第二排序结果确定所述各个目标召回文本的显示顺序,并按照所述显示顺序显示所述各个目标召回文本。
6.根据权利要求1所述的方法,其特征在于,所述确定所述N个待召回文本中的各个待召回文本的特征向量,包括:
针对所述N个待召回文本中的任一个待召回文本,对所述待召回文本进行分词处理,得到分词集合;
根据词向量词典确定所述分词集合中各个分词的特征向量;
将所述各个分词的特征向量进行融合,根据融合结果确定所述待召回文本的特征向量。
7.根据权利要求1所述的方法,其特征在于,所述根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,包括:
确定所述参考文本的主题信息,从文本数据库中确定出主题信息与所述参考文本的主题信息相匹配的一个或多个待选择文本;
根据所述参考文本的词性序列从所述一个或多个待选择文本中确定出N个待召回文本。
8.一种文本处理装置,其特征在于,所述装置包括:
获取单元,用于获取参考文本,并确定所述参考文本的词性序列以及特征向量;
确定单元,用于根据所述参考文本的词性序列从文本数据库中确定出N个待召回文本,所述N个待召回文本中的各个待召回文本对应的词性序列与所述参考文本的词性序列相匹配,其中,N为正整数;
所述确定单元,还用于确定所述N个待召回文本中的各个待召回文本的特征向量;
处理单元,用于将得到的N个特征向量进行聚类处理,根据聚类处理结果从所述N个特征向量中确定参考特征向量集合;
所述确定单元,还用于根据所述参考特征向量集合以及所述参考文本的特征向量,从所述N个待召回文本中确定目标召回文本。
9.一种计算机设备,其特征在于,所述计算机设备包括:
处理器,适于实现一条或多条计算机程序;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-7任一项所述的文本处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-7任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110352912.5A CN113704462A (zh) | 2021-03-31 | 2021-03-31 | 文本处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110352912.5A CN113704462A (zh) | 2021-03-31 | 2021-03-31 | 文本处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704462A true CN113704462A (zh) | 2021-11-26 |
Family
ID=78647920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110352912.5A Pending CN113704462A (zh) | 2021-03-31 | 2021-03-31 | 文本处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704462A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089594A (zh) * | 2023-04-07 | 2023-05-09 | 之江实验室 | 基于bert问答模型从文本中抽取结构化数据的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180181559A1 (en) * | 2016-12-22 | 2018-06-28 | Abbyy Infopoisk Llc | Utilizing user-verified data for training confidence level models |
CN111506726A (zh) * | 2020-03-18 | 2020-08-07 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN111723201A (zh) * | 2019-03-22 | 2020-09-29 | 北京沃东天骏信息技术有限公司 | 一种用于文本数据聚类的方法和装置 |
CN111753060A (zh) * | 2020-07-29 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 信息检索方法、装置、设备及计算机可读存储介质 |
JP2020190783A (ja) * | 2019-05-17 | 2020-11-26 | 株式会社日立製作所 | 情報システムおよび情報処理方法 |
WO2020238061A1 (zh) * | 2019-05-28 | 2020-12-03 | 平安科技(深圳)有限公司 | 自然语言分类方法、装置、计算机设备以及存储介质 |
WO2021051521A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 获取应答信息的方法、装置、计算机设备及存储介质 |
-
2021
- 2021-03-31 CN CN202110352912.5A patent/CN113704462A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180181559A1 (en) * | 2016-12-22 | 2018-06-28 | Abbyy Infopoisk Llc | Utilizing user-verified data for training confidence level models |
CN111723201A (zh) * | 2019-03-22 | 2020-09-29 | 北京沃东天骏信息技术有限公司 | 一种用于文本数据聚类的方法和装置 |
JP2020190783A (ja) * | 2019-05-17 | 2020-11-26 | 株式会社日立製作所 | 情報システムおよび情報処理方法 |
WO2020238061A1 (zh) * | 2019-05-28 | 2020-12-03 | 平安科技(深圳)有限公司 | 自然语言分类方法、装置、计算机设备以及存储介质 |
WO2021051521A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 获取应答信息的方法、装置、计算机设备及存储介质 |
CN111506726A (zh) * | 2020-03-18 | 2020-08-07 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN111753060A (zh) * | 2020-07-29 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 信息检索方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
饶洋辉;叶良;程洁;: "WordNet在文本聚类中的应用研究", 现代图书情报技术, no. 10, 25 October 2009 (2009-10-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089594A (zh) * | 2023-04-07 | 2023-05-09 | 之江实验室 | 基于bert问答模型从文本中抽取结构化数据的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN111460798B (zh) | 近义词推送方法、装置、电子设备及介质 | |
AlQahtani | Product sentiment analysis for amazon reviews | |
CN109918560A (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN111460783B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US20210272013A1 (en) | Concept modeling system | |
Seman et al. | Machine learning-based technique for big data sentiments extraction | |
CN112800226A (zh) | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 | |
CN113704462A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN109190095B (zh) | 一种文章的生成方法及装置 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN115827990A (zh) | 搜索方法及装置 | |
CN117933260A (zh) | 一种文本质量分析方法、装置、设备及存储介质 | |
CN113157892B (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN110222156B (zh) | 发现实体的方法和装置、电子设备、计算机可读介质 | |
CN113434649A (zh) | 基于政策faq数据库的问题匹配方法、装置、设备及介质 | |
CN112579774A (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN111538898A (zh) | 基于组合特征提取的Web服务包推荐方法及系统 | |
CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
CN114741490B (zh) | 一种问题答案选取的方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |