CN117009507A - 文本分析方法、装置、设备、存储介质及程序产品 - Google Patents

文本分析方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN117009507A
CN117009507A CN202211335833.4A CN202211335833A CN117009507A CN 117009507 A CN117009507 A CN 117009507A CN 202211335833 A CN202211335833 A CN 202211335833A CN 117009507 A CN117009507 A CN 117009507A
Authority
CN
China
Prior art keywords
vocabulary
feature
clustering
text
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211335833.4A
Other languages
English (en)
Inventor
于昊飞
闭玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211335833.4A priority Critical patent/CN117009507A/zh
Publication of CN117009507A publication Critical patent/CN117009507A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本分析方法、装置、设备、存储介质及程序产品,涉及语言处理技术领域。该方法包括:对目标文本中的多个文本词汇进行特征提取得到词汇特征;基于预设的聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定聚类中心对应的词汇特征集合;基于词汇特征集合内词汇特征的分布情况对聚类中心进行迭代更新,得到更新后的聚类中心;将更新后的聚类中心对应的特征表示进行特征融合得到目标文本特征。从而能够通过聚类过程和聚类中心的迭代更新过程,逐渐将相似的词汇特征聚类至一起,使得所聚类到的更新后的聚类中心能够较好地表达多个词汇特征的含义。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

文本分析方法、装置、设备、存储介质及程序产品
技术领域
本申请实施例涉及语言处理技术领域,特别涉及一种文本分析方法、装置、设备、存储介质及程序产品。
背景技术
随着人工智能的兴起,自然语言处理技术成为人工智能领域的一个重要分支,采用文本分析模型对文本数据进行分析的应用也变得更加广泛,根据文本数据中字符数量的差异,可以分为短序列文本数据以及长序列文本数据。
相关技术中,采用文本分析模型,对文本数据进行分句处理、分词处理后,通过对组成文本数据的分词进行综合分析,并确定文本数据所表达的文本含义。
上述文本分析模型对文本数据的长度要求十分严格,只能对处于一定字符数量范围内的短序列文本数据进行分析。当对长序列文本数据进行分析时,只能将长序列文本数据分割为可以被文本分析模型进行处理的多个短序列文本数据,多个短序列文本数据之间缺乏关联性。即便考虑了多个短序列文本数据之间的关联性,也存在分析长度有限,分析效率较慢的问题。
发明内容
本申请实施例提供了一种文本分析方法、装置、设备、存储介质及程序产品,能够通过聚类过程和聚类中心的迭代更新过程,逐渐将相似的词汇特征聚类至一起,使得所聚类到的更新后的聚类中心能够较好地表达多个词汇特征的含义。所述技术方案如下。
一方面,提供了一种文本分析方法,所述方法包括:
获取目标文本,所述目标文本包括多个文本词汇;
对所述目标文本中的多个文本词汇进行特征提取,得到与所述多个文本词汇分别对应的词汇特征;
基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合;
基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心;
对所述至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征,所述目标文本特征用于表征以获取所述目标文本的文本含义。
另一方面,提供了一种文本分析装置,所述装置包括:
获取模块,用于获取目标文本,所述目标文本包括多个文本词汇;
提取模块,用于对所述目标文本中的多个文本词汇进行特征提取,得到与所述多个文本词汇分别对应的词汇特征;
聚类模块,用于基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合;
更新模块,用于基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心;
融合模块,用于对所述至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征,所述目标文本特征用于表征以获取所述目标文本的文本含义。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述文本分析方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的文本分析方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的文本分析方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
基于预设的至少两个聚类中心,对目标文本对应的多个词汇特征中的至少一个词汇特征进行特征聚类,并确定至少两个聚类中心分别对应的词汇特征集合;基于词汇特征集合内词汇特征的分布情况,对至少两个聚类中心进行迭代更新,进而将至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征。在处理多个文本词汇组成的目标文本时,采用特征聚类的方法,将词汇特征聚类至对应的聚类中心并对聚类中心进行更新,通过聚类过程和聚类中心的迭代更新过程,能够逐渐将相似的词汇特征聚类至一起,且使得所聚类到的更新后的聚类中心能够较好地表达多个词汇特征的含义,从而使得基于更新后的聚类中心得到的目标文本特征,能够表征目标文本的文本含义,且围绕更新后的聚类中心,能够实现对目标文本的文本续写过程,在保持文本分析速度较高的前提下,提升了对目标文本分析的准确性以及分析应用的广泛性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的文本分析方法的流程图;
图3是本申请另一个示例性实施例提供的文本分析方法的流程图;
图4是本申请另一个示例性实施例提供的文本分析方法的流程图;
图5是本申请另一个示例性实施例提供的文本分析方法的流程图;
图6是本申请另一个示例性实施例提供的文本分析方法的流程图;
图7是本申请另一个示例性实施例提供的文本分析方法的流程图;
图8是本申请一个示例性实施例提供的文本分析模型的示意图;
图9是本申请一个示例性实施例提供的k-means聚类算法的示意图;
图10是本申请一个示例性实施例提供的分层聚类算法的示意图;
图11是本申请一个示例性实施例提供的长程内存存储网络的分布偏移示意图;
图12是本申请一个示例性实施例提供的文本分析装置的结构框图;
图13是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
相关技术中,采用文本分析模型,对文本数据进行分句处理、分词处理后,通过对组成文本数据的分词进行综合分析,并确定文本数据所表达的文本含义。上述文本分析模型对文本数据的长度要求十分严格,只能对处于一定字符数量范围内的短序列文本数据进行分析。当对长序列文本数据进行分析时,只能将长序列文本数据分割为可以被文本分析模型进行处理的多个短序列文本数据,多个短序列文本数据之间缺乏关联性。即便考虑了多个短序列文本数据之间的关联性,也存在分析长度有限,分析效率较慢的问题。
本申请实施例中,提供了一种文本分析方法,能够通过聚类过程和聚类中心的迭代更新过程,逐渐将相似的词汇特征聚类至一起,使得所聚类到的更新后的聚类中心能够较好地表达多个词汇特征的含义。针对本申请训练得到的文本分析方法,在应用时包括文本问答场景、文本生成场景、文本关键词抽取场景、文本语义分析场景等多种场景中的至少一种。值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的文本分析方法还可以应用于其他场景中,本申请实施例对此不加以限定。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的目标文本数据等内容都是在充分授权的情况下获取的。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接。
本申请实施例提供的文本分析方法可以由终端110单独执行实现,也可以由服务器120执行实现,或者由终端110和服务器120通过数据交互实现,本申请实施例对此不加以限定。可选地,以服务器120对目标文本进行分析为例进行说明。
在一些实施例中,终端110用于向服务器120发送目标文本,目标文本包括多个文本词汇(如:文本词汇1、文本词汇2、文本词汇3、文本词汇4等)。示意性的,终端110中安装有具有文本获取功能的应用程序,如:获取使用对象上传的目标文本;或者,获取使用对象输入的目标文本等。
在终端110获取得到目标文本后,将目标文本发送至服务器120,服务器120对目标文本中的多个文本词汇进行特征提取,得到与多个文本词汇分别对应的词汇特征(如:与文本词汇1对应的词汇特征1、与文本词汇2对应的词汇特征2、与文本词汇3对应的词汇特征3、与文本词汇4对应的词汇特征4等)。
服务器120中预先配置有至少两个聚类中心,在确定多个文本词汇分别对应的词汇特征后,对至少一个词汇特征进行特征聚类,从而为多个词汇特征确定与之对应的聚类中心,并得到与至少两个聚类中心分别对应的词汇特征集合(词汇特征集合1和词汇特征集合2)。
服务器120对每一个词汇特征集合进行分析,确定词汇特征集合内词汇特征的分布情况,并基于与词汇特征集合对应的分布请求,对词汇特征集合对应的聚类中心进行迭代更新,从而实现对至少两个聚类中心进行更新的迭代更新过程,得到至少两个更新后的聚类中心(更新后的聚类中心1和更新后的聚类中心2)。
之后,服务器120确定至少两个更新后的聚类中心分别对应的特征表示,并对至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征。目标文本特征用于表征以获取目标文本的文本含义,也即:通过目标文本特征能够获取得到目标文本的文本含义,进而便于对目标文本的语义内容进行确定,实现对目标文本的分析和续写等过程。
可选地,服务器120将目标文本的文本分析结果发送至终端110,由终端110对文本分析结果进行显示;或者,由终端110根据文本分析结果生成文本续写内容,并将文本续写内容显示在终端110上等。
值得注意的是,上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。
结合上述名词简介和应用场景,对本申请提供的文本分析方法进行说明,以该方法应用于服务器为例,如图2所示,该方法包括如下步骤210至步骤250。
步骤210,获取目标文本。
文本是由字符、标点符号、表格等至少一种内容组成的文件类型。可选地,文本包括许多存在形式,如:pdf形式、mobi形式、doc形式等,文本还包括众多类别,如:学术论文文本、散文文本、网络评论文本等。
其中,目标文本包括多个文本词汇。也即:目标文本由多个文本词汇组成。可选地,目标文本为中文文本,目标文本中包括的多个文本词汇为中文词汇;或者,目标文本为英文文本,目标文本中包括的多个文本词汇为英文单词等。
可选地,文本词汇由字符组成,文本词汇中字符的数量既可以实现为多个,也可以实现为一个,即:存在将单个字符作为文本词汇的形式。当文本词汇为中文词汇,单个字符为汉字形式;或者,文本词汇为英文词汇,单个字符为英文字母形式等。
示意性的,目标文本为待进行文本分析的文本内容。文本分析用于提取目标文本中的文本含义,例如:确定目标文本的情感倾向;或者,确定目标文本的文本语义信息;或者,确定目标文本中的关键信息等。例如:目标文本为一篇学术论文文本,通过对目标文本进行文本分析,确定该学术论文文本的核心思想;或者,目标文本为一则网络评论文本,通过对目标文本进行文本分析,确定该网络评论文本的情感倾向等。
在一个可选的实施例中,目标文本实现为由多个文本词汇组成的长序列文本数据。
示意性的,目标文本由多个文本语句组成,每一条文本语句由多个文本词汇组成。可选地,长序列文本数据用于指示文本长度达到千及以上数量级别的文本内容,例如:长序列文本数据中包括5千以上的文本词汇;或者,长序列文本数据中包括1万以上的文本字符(文本词汇)等。
与长序列文本数据相对应的短序列文本数据,用于指示文本长度较短的文本内容。示意性的,短序列文本数据能够采用一般的文本分析模型进行文本分析,然而,基于文本分析模型的输入长度的局限性,长序列文本数据无法被一般的文本分析模型进行综合性的文本分析。例如:需要将长序列文本数据切分成多个短序列文本数据,再通过一般的文本分析模型对多个短序列文本数据分别进行文本分析。
步骤220,对目标文本中的多个文本词汇进行特征提取,得到与多个文本词汇分别对应的词汇特征。
在一些实施例中,对目标文本进行分词处理,得到目标文本中的至少两个文本词汇。
分词处理是对目标文本中的字符进行处理,使得至少一个字符组成具有一定含义的分词词汇形式。示意性的,目标文本为一篇小说,由于目标文本中除标点符号外,字符之间往往密切相连,缺乏明显的词边界,因此很难直接通过对目标文本进行读取的方式,获取目标文本中的语义信息。
示意性的,若目标文本为中文文本,单个汉字字符作为最基本的语义单位,虽然大多有自己的含义,但表意能力较差,意义也较为分散,而词汇的表意能力更强,能够更准确地对事物进行描述。因此,可以采用字符划分方法对目标文本中的字符进行分词处理,即依照字符在目标文本中出现的顺序,将至少一个字符组合成分词词汇。例如:预设两个字符为一个分词词汇的组成方式,对目标文本中的字符进行分词处理。
可选地,考虑到在进行分词处理时,有的相邻字符无法组成具有含义的词语,如“附近的房子”在进行分词处理后,其中“附近”和“房子”是有含义的分词词汇,而当字符“的”单独与字符“近”或者字符“房”组成分词词汇——“近的”或“的房”的分词词汇时,易产生表意不清的情况。示意性的,在进行分词处理时,可以将字符依照目标文本中出现的顺序输入到已经训练好的模型中进行分词处理,如词典分词模型、隐马尔科夫模型(HiddenMarkov Model,HMM)、长短时记忆模型(LSTM)等,得到词汇表意更清楚的分词词汇。
可选地,还可以将上述字符划分方法与模型处理方法进行结合,在对分词词汇进行颗粒度划分的基础上,尽量保证分词词汇的表意清晰。此外,为了区别字符与分词词汇,可以将字符组成的分词词汇采用添加颜色、添加底纹等标注方式进行标记。
在一个可选的实施例中,在得到多个文本词汇后,对多个文本词汇进行特征提取,从而得到与多个文本词汇分别对应的词汇特征。
步骤230,基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定至少两个聚类中心分别对应的词汇特征集合。
其中,聚类中心用于指示在进行特征聚类时被比较的中心点,至少两个聚类中心为预先设定的聚类中心。
可选地,在向量空间中随机选择至少两个点作为上述的至少两个聚类中心;或者,在向量空间中,基于预先训练的训练情况,确定至少两个稳定数值的点作为上述的至少两个聚类中心等。
在一些可选的实施例中,将与多个文本词汇分别对应的词汇特征与至少两个聚类中心进行比较,确定在向量空间中的空间距离,从而将多个词汇特征分别聚类至对应的聚类中心处,实现为多个文本词汇分别对应的词汇特征进行特征聚类的过程。
示意性的,至少两个聚类中心包括聚类中心A以及聚类中心B,存在与第一文本词汇对应的第一词汇特征,以及与第二文本词汇对应的第二词汇特征。在向量空间中,确定第一词汇特征与聚类中心A的空间距离为a,确定第一词汇特征与聚类中心B的空间距离为b,其中a小于b,则将第一词汇特征聚类至聚类中心A处。同理,确定第二词汇特征与聚类中心A的空间距离为c,确定第二词汇特征与聚类中心B的空间距离为d,其中c大于d,则将第二词汇特征聚类至聚类中心B处等。
基于上述过程,将多个词汇特征分别与不同的聚类中心进行比较,基于空间距离,确定与多个词汇特征分别对应的聚类中心,从而将多个词汇特征分别聚类至对应的聚类中心。
在一个可选的实施例中,将多个词汇特征中的至少一个词汇特征与两个聚类中心进行比较,确定在向量空间中的空间距离,从而将至少一个词汇特征分别聚类至对应的聚类中心处,实现为至少一个文本词汇分别对应的词汇特征进行特征聚类的过程。
在一些实施例中,在将多个词汇特征分别聚类至对应的聚类中心后,针对每一个聚类中心,确定该聚类中心所聚类到的词汇特征,将聚类至该聚类中心的词汇特征组成该聚类中心对应的词汇特征集合,从而得到与至少两个聚类中心分别对应的词汇特征集合。
示意性的,对于任意一个词汇特征集合而言,既可能包括多个词汇特征,也可能不包括词汇特征,即:存在词汇特征集合为空的情况。
步骤240,基于词汇特征集合内词汇特征的分布情况,对至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心。
示意性的,在得到与至少两个聚类中心分别对应的词汇特征集合后,对词汇特征集合内的词汇特征分布情况进行分析,并基于词汇特征的分布情况对至少两个聚类中心进行迭代更新。
示意性的,确定每一个词汇特征集合内的词汇特征的分布密集程度,从而得到多个词汇特征集合分别对应的分布密集程度,基于该分布密集程度对至少两个聚类中心进行更新。
可选地,分布密集程度用于指示词汇特征集合内的词汇特征之间的距离关系。
示意性的,确定词汇特征集合对应的向量空间,并根据词汇特征集合内的词汇特征在向量空间中的位置,确定不同词汇特征在向量空间中的距离,并根据多个词汇特征之间的距离关系,确定词汇特征集合内的词汇特征的分布密集程度。
可选地,分布密集程度用于指示词汇特征集合内的词汇特征之间的离散程度。
示意性的,确定词汇特征集合对应的向量空间,并根据词汇特征集合内的词汇特征在向量空间中的位置,综合确定多个词汇特征在向量空间中的离散程度,从而确定词汇特征集合内的词汇特征的分布密集程度。例如:多个词汇特征在向量空间中排布地较为分散,则代表离散程度较高,相应地,多个词汇特征的分布密集程度较低;或者,多个词汇特征在向量空间中排布地较为紧密,则代表离散程度较低,相应地,多个词汇特征的分布密集程度较高。
可选地,将上述分布密集程度作为词汇特征集合内词汇特征的分布情况。
在一个可选的实施例中,以词汇特征集合内的多个词汇特征对应的综合分布密集程度,确定与词汇特征集合对应的分布情况。
示意性的,综合分析词汇特征集合内的多个词汇特征之间的分布密集程度。例如:在向量空间中,确定词汇特征集合内每一个词汇特征与其余词汇特征之间的特征距离,从而得到与多个词汇特征分别对应的多个特征距离,综合多个词汇特征分别对应的多个特征距离,确定与该词汇特征集合对应的分布情况等。
可选地,基于多个词汇特征集合分别对应的分布密集程度,对多个词汇特征集合进行排序,并基于排序结果,对多个词汇特征集合分别对应的聚类中心进更新。
例如:将分布密集程度较低的词汇特征集合所对应的聚类中心进行删除,将分布密集程度较高的词汇特征集合所对应的聚类中心进行保留等。
在一个可选的实施例中,在确定每一个词汇特征集合内的词汇特征的分布情况时,确定在该词汇特征集合对应的聚类中心旁(如:预设空间距离内)的多个词汇特征,并基于多个词汇特征之间的空间距离关系,对该词汇特征集合对应的聚类中心进行更新。
例如:词汇特征集合1对应聚类中心A,在该聚类中心的预设空间距离内存在第一词汇特征以及第二词汇特征,确定在向量空间中距离第一词汇特征与第二词汇特征最近的点。响应于该点与聚类中心A不重合,对词汇特征集合1对应的聚类中心A进行更新,将该点作为与词汇特征集合1对应的更新后的聚类中心;或者,响应于该点与聚类中心A之间的聚类大于预设距离阈值,对词汇特征集合1对应的聚类中心A进行更新,将该点作为与词汇特征集合1对应的更新后的聚类中心;或者,响应于该点与聚类中心A之间的聚类小于预设距离阈值,不对词汇特征集合1对应的聚类中心A进行更新,即:可以视为继续将聚类中心A作为与词汇特征集合1对应的更新后的聚类中心等。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,迭代更新的次数与多个词汇特征的数量相对应。
示意性的,对至少两个聚类中心进行迭代更新时,交替进行特征聚类过程以及聚类中心的更新过程。例如:当每对一个词汇特征进行特征聚类后,对至少两个聚类中心进行一次迭代更新,当下一次对另一个词汇特征进行特征聚类后,对上一次更新后的至少两个聚类中心进行再一次迭代更新等。此时,迭代更新的次数与多个词汇特征的数量相同。
步骤250,对至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征。
示意性的,在得到至少两个更新后的聚类中心后,确定至少两个更新后的聚类中心在向量空间中分别对应的特征表示。
可选地,基于至少两个更新后的聚类中心是通过词汇特征进行更新后得到的聚类中心,且多个词汇特征分别有其对应的更新后的聚类中心。在对多个词汇特征进行分析时(如:目标文本中包括多个文本词汇),可以通过聚类更新后得到的至少两个更新后的聚类中心所分别对应的特征表示,对聚类至相应的更新后的聚类中心的词汇特征进行替代,从而以更新后的聚类中心分别对应的特征表示,代替该更新后的聚类中心所聚类到的词汇特征,简化对目标文本的分析复杂度,一定程度上减少特征融合的计算量。
例如:更新后的聚类中心A下聚类到第一词汇特征、第二词汇特征以及第三词汇特征;更新后的聚类中心B下聚类到第四词汇特征、第五词汇特征以及第六词汇特征;更新后的聚类中心C下聚类到第七词汇特征。
基于更新后的聚类中心A是由第一词汇特征、第二词汇特征以及第三词汇特征所更新到的聚类中心,故,更新后的聚类中心A对应的特征表示A’能够较好地表达第一词汇特征、第二词汇特征以及第三词汇特征;同理,更新后的聚类中心B是由第四词汇特征、第五词汇特征以及第六词汇特征所更新到的聚类中心,故,更新后的聚类中心B对应的特征表示B’能够较好地表达第四词汇特征、第五词汇特征以及第六词汇特征;更新后的聚类中心C是由第七词汇特征所更新到的聚类中心,故,更新后的聚类中心C对应的特征表示C’能够较好地表达第七词汇特征。
基于上述内容,可以通过更新后的聚类中心A对应的特征表示代替表达第一词汇特征、第二词汇特征以及第三词汇特征;通过更新后的聚类中心B对应的特征表示代替表达第四词汇特征、第五词汇特征以及第六词汇特征;通过更新后的聚类中心C对应的特征表示代替表达第七词汇特征。
在一些实施例中,对至少两个更新后的聚类中心在向量空间中分别对应的特征表示进行特征融合,从而得到目标文本特征。
例如:在得到更新后的聚类中心A对应的特征表示A’、更新后的聚类中心B对应的特征表示B’以及更新后的聚类中心C对应的特征表示C’后,将特征表示A’、特征表示B’以及特征表示C’进行特征融合,从而得到目标文本特征。
可选地,采用特征拼接的方法,将至少两个更新后的聚类中心在向量空间中分别对应的特征表示进行特征融合,从而得到目标文本特征。其中,目标文本特征用于表征以获取目标文本的文本含义。
示意性的,目标文本特征中包括多个更新后的聚类中心所表达的文本信息,且更新后的聚类中心与目标文本中多个文本词汇之间存在相关性,既能较好地体现目标文本的文本信息,也能在一定程度上减少文本分析的计算量。
在一些实施例中,且围绕更新后的聚类中心,基于更新后的聚类中心在向量空间中分别对应的特征表示,对目标文本进行文本续写,从而提升目标文本分析后的应用广泛性。
在一些实施例中,通过文本分析模型对目标文本特征进行进一步的文本分析,从而知悉目标文本所表达的文本含义。
例如:通过文本关键词提取模型对目标文本特征进行分析,确定目标文本中的文本关键词;或者,通过文本情感分析模型对目标文本特征进行分析,确定目标文本的情感倾向;或者,通过文本生成模型对目标文本特征进行分析,确定目标文本的文本分析结果,并生成与文本分析结果存在文本相关性的续写文本内容,例如:依据文本分析结果中的文本逻辑,续写该目标文本,从而得到续写文本内容等。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
综上所述,在处理多个文本词汇组成的目标文本时,采用特征聚类的方法,将词汇特征聚类至对应的聚类中心并对聚类中心进行更新,通过聚类过程和聚类中心的迭代更新过程,能够逐渐将相似的词汇特征聚类至一起,且使得所聚类到的更新后的聚类中心能够较好地表达多个词汇特征的含义,从而使得基于更新后的聚类中心得到的目标文本特征,能够表征目标文本的文本含义,且围绕更新后的聚类中心,能够实现对目标文本的文本续写过程,提升对目标文本分析的准确性和应用的广泛性。
在一个可选的实施例中,采用预设的聚类算法,基于词汇特征集合内词汇特征的分布情况,对至少两个聚类中心进行更新,从而得到至少两个更新后的聚类中心。
在一些实施例中,如图3所示,上述图2所示出的实施例中的步骤240还可以实现为如下步骤310至步骤320。
步骤310,获取至少两个词汇特征集合中任意一个词汇特征集合作为指定词汇特征集合。
示意性的,在得到至少两个词汇特征集合后,从中任意选择一个词汇特征集合作为指定词汇特征集合,对指定词汇特征集合进行分析。其中,指定词汇特征集合的聚类中心为指定聚类中心。
基于指定词汇特征集合是任意选择的一个词汇特征集合,因此可以将至少两个词汇特征集合分别作为指定词汇特征集合进行如下分析。
步骤320,基于指定词汇特征集合内的词汇特征与指定聚类中心之间的空间距离,确定与指定词汇特征集合对应的词汇特征分布结果,并对至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心。
可选地,基于指定词汇特征集合内的词汇特征与指定聚类中心之间的空间距离,确定与词汇特征分别对应的空间距离结果。
示意性的,在对指定词汇特征集合进行分析时,确定指定词汇特征集合内的词汇特征,并将其中的词汇特征与指定词汇特征集合对应的指定聚类中心进行比较,确定在向量空间中,指定聚类中心与每一个词汇特征分别对应的空间距离,从而得到多个词汇特征分别对应的空间距离结果。
例如:指定词汇特征集合中包括第一词汇特征以及第二词汇特征,确定第一词汇特征与指定聚类中心之间的空间距离,得到与第一词汇特征对应的第一空间距离结果;确定第二词汇特征与指定聚类中心之间的空间距离,得到与第二词汇特征对应的第二空间距离结果。
同理,将至少两个聚类中心分别对应的词汇特征集合作为指定词汇特征集合进行上述分析,即:确定至少两个词汇特征集合内词汇特征与其对应的聚类中心的空间距离,从而得到与多个词汇特征分别对应的空间距离结果。
示意性的,以对指定词汇特征集合进行分析为例,在确定指定词汇特征集合内的词汇特征与指定聚类中心分别对应的空间距离结果后,综合空间距离结果的数值情况,确定与指定词汇特征集合对应的词汇特征分布结果。
可选地,词汇特征分布结果用于指示指定词汇特征集合内词汇特征的分布情况,该分布情况基于上述的多个空间距离结果而确定。
在一个可选的实施例中,基于多个空间距离结果之间的数值波动情况,将指定词汇特征集合对应的空间距离方差结果作为词汇特征分布结果。
示意性的,在获取指定词汇特征集合内多个词汇特征对应的空间距离结果后,确定多个空间距离结果对应的数值表示,并综合分析多个空间距离结果之间的数值波动情况。
例如:确定多个空间距离结果对应的数值表示分别为:0.1、0.6、0.9,并综合分析多个空间距离结果之间的数值波动情况,也即,确定多个空间距离结果之间数值波动的大小,如:以范围表示(波动较大、波动较小);或者,以数值表示。
在一些实施例中,以方差表示多个空间距离结果之间的数值波动情况,也即:在确定多个空间距离结果对应的数值表示后,确定多个数值表示之间的空间距离方差结果,将空间距离方差结果作为与指定词汇特征集合对应的词汇特征分布结果。
例如:如上所示,多个空间距离结果对应的数值表示分别为:0.1、0.5、0.9,则多个空间距离结果的平均值为0.5,则该多个数值表示之间的空间距离方差结果约为0.33,将0.33作为与指定词汇特征集合对应的词汇特征分布结果。
可选地,确定与多个词汇特征集合分别对应的空间距离方差结果作为词汇特征分布结果。
示意性的,采用上述过程,确定多个词汇特征集合分别对应的空间距离方差结果。如:将多个词汇特征集合分别作为上述指定词汇特征集合,从而通过上述过程,得到与每一个词汇特征集合分别对应的空间距离方差结果。
例如:词汇特征集合M的多个空间距离结果对应的数值表示分别为:0.1、0.5、0.9,则词汇特征集合M对应的空间距离方差结果为0.33,即:词汇特征集合M对应的词汇特征分布结果为0.33。
词汇特征集合N中多个词汇特征分别对应的空间距离结果的数值表示分别为:0.4、0.5、0.4,多个空间距离结果的平均值约为0.43,则该多个数值表示之间的空间距离方差结果约为0.05,即:词汇特征集合N对应的词汇特征分布结果为0.05。
在一个可选的实施例中,从至少两个聚类中心中,删除数值最大的词汇特征分布结果对应的聚类中心,并补充至少一个预设聚类中心,得到至少两个更新后的聚类中心。
示意性的,基于词汇特征分布结果用于表示多个空间距离结果之间数值波动情况,则代表词汇特征分布结果的数值越大,则多个空间距离结果之间数值波动越大,即:该词汇特征集合中多个词汇特征之间的排列较为松散。
例如:以上述的空间距离方差结果表示词汇特征分布结果,其中词汇特征集合M的词汇特征分布结果为0.33,词汇特征集合N的词汇特征分布结果为0.05,则可以确定词汇特征集合M中词汇特征的分布较为松散,词汇特征集合N中词汇特征的分布较为紧密。
在一些实施例中,基于词汇特征集合与聚类中心之间的聚类关系,在确定与多个词汇特征集合分别对应的词汇特征分布结果后,比较多个词汇特征分布结果的数值大小,并根据数值大小对聚类中心进行更新。
示意性的,确定数值最大的词汇特征分布结果,并确定与该词汇特征分布结果对应的聚类中心,将该聚类中心从至少两个聚类中心中予以删除。
可选地,将与数值最大的词汇特征分布结果对应的词汇特征集合进行删除。
示意性的,在确定数值最大的词汇特征分布结果后,确定与该词汇特征分布结果对应的词汇特征集合,不仅将该聚类中心从至少两个聚类中心中予以删除时,还将与该聚类中心对应的词汇特征集合予以删除。也即:将该聚类中心对应的词汇特征集合中的词汇特征予以删除。
在一个可选的实施例中,将与数值最大的词汇特征分布结果对应的词汇特征集合进行删除,并补充一个预设聚类中心,得到至少两个更新后的聚类中心。
示意性的,以随机赋值的方式在向量空间中补充一个预设聚类中心,得到至少两个更新后的聚类中心。
或者,在将与数值最大的词汇特征分布结果对应的词汇特征集合进行删除前,根据该词汇特征集合中的多个词汇特征在向量空间中的分布情况,确定多个词汇特征所聚类的点,将该点作为补充的一个预设聚类中心,从而实现得到至少两个更新后的聚类中心的过程。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
在本申请实施例中,介绍了对至少两个聚类中心进行更新的更新过程。基于至少两个词汇特征集合中指定词汇特征集合内的词汇特征与指定聚类中心之间的空间距离,对至少两个聚类中心进行迭代更新,从而实现对至少两个聚类中心进行更新的更新过程。通过聚类中心的更新过程,能够使得聚类中心更加符合词汇特征的分布情况,提高更新后的至少两个聚类中心的准确性,进而有利于提高目标文本特征的准确性,更好地表征目标文本的文本含义。
在一个可选的实施例中,采用预设的聚类算法,基于词汇特征与聚类中心之间的空间距离结果,确定至少两个聚类中心分别对应的词汇特征集合。
示意性的,如图4所示,上述图2所示出的实施例中的步骤230还可以实现为如下步骤410至步骤430。
步骤410,获取预设的至少两个聚类中心。
可选地,至少两个聚类中心为随意选取的聚类中心;或者,至少两个聚类中心为基于对聚类网络进行训练过程而确定的聚类中心。
在一个可选的实施例中,随机在向量空间中设置至少两个候选聚类中心。
示意性的,以随机选取的方式,在向量空间中随意选择至少两个点作为候选聚类中心;或者,以区域划分选取的方式,在向量空间中选择至少两个点作为候选聚类中心,例如:在区域A中选择一个点作为一个候选聚类中心,在区域B中选择一个点作为另一个候选聚类中心,从而尽可能使得至少两个候选聚类中心在向量空间中的分布符合预设预期等。
在一个可选的实施例中,通过样本词汇特征对至少两个候选聚类中心在向量空间中的位置进行调整,并确定调整前后的空间位置变化距离。
示意性的,获取多个样本词汇,对多个样本词汇进行特征提取以得到与多个样本词汇分别对应的样本词汇特征,通过多个样本词汇特征对聚类网络进行训练。
其中,聚类网络用于对目标文本中文本词汇对应的词汇特征进行聚类。示意性的,至少两个候选聚类中心是未训练的聚类网络中的聚类中心。
在通过多个样本词汇特征对聚类网络进行训练时,确定多个样本词汇特征与至少两个候选聚类中心分别对应的空间距离,并将多个样本词汇特征分别聚类至对应的候选聚类中心,并基于该聚类结果对至少两个候选聚类中心在向量空间中的位置进行调整。
例如:基于样本词汇特征与至少两个候选聚类中心分别对应的空间距离,将样本词汇特征1和样本词汇特征2聚类至候选聚类中心a处,将样本词汇特征3和样本词汇特征4聚类至候选聚类中心b处,通过样本词汇特征1和样本词汇特征2调整候选聚类中心a在向量空间中的位置;通过样本词汇特征3和样本词汇特征4调整候选聚类中心b在向量空间中的位置。
可选地,在通过样本词汇特征1和样本词汇特征2调整候选聚类中心a在向量空间中的位置后,确定调整后的候选聚类中心a的位置,若样本词汇特征5聚类至调整后的候选聚类中心a处,可以通过样本词汇特征1、样本词汇特征2以及样本词汇特征5,对调整后的候选聚类中心a的位置继续进行调整。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
在一些实施例中,通过多个样本词汇特征对至少两个候选聚类中心在向量空间中的位置进行调整后,确定至少两个候选聚类中心在调整前后的空间位置变化距离。
例如:候选聚类中心a在调整前位于a点,调整后位于a’点;候选聚类中心b在调整前位于b点,调整后位于b’点;在确定至少两个候选聚类中心在调整前后的空间位置变化距离时,将a点与a’点在向量空间中的距离作为与候选聚类中心a对应的空间位置变化距离;将b点与b’点在向量空间中的距离作为与候选聚类中心b对应的空间位置变化距离。
在一个可选的实施例中,响应于空间位置变化距离不大于预设变化阈值,确定至少两个候选聚类中心在向量空间中的位置坐标,将位置坐标作为至少两个聚类中心的位置坐标。
示意性的,在确定与每个候选聚类中心对应的空间位置变化距离后,将空间位置变化距离与预设变化阈值进行比较,当空间位置变化距离不大于预设变化阈值,确定至少两个候选聚类中心在向量空间中的位置坐标,并将该位置坐标作为至少两个聚类中心的位置坐标。
例如:预设变化阈值为0至0.01,若候选聚类中心a对应的空间位置变化距离不大于0.01,确定候选聚类中心a在向量空间中的位置坐标,并将该位置坐标作为聚类中心a的位置坐标;或者,预设变化阈值为0,若候选聚类中心a对应的空间位置变化距离为0(即:不存在空间位置变化距离),确定候选聚类中心a在向量空间中的位置坐标,并将该位置坐标作为聚类中心a的位置坐标等。
可选地,当空间位置变化距离大于预设变化阈值,采用样本词汇特征,继续对聚类网络进行训练,即:继续对至少两个候选聚类中心在向量空间中的位置进行调整,直至空间位置变化距离不大于预设变化阈值,得到与至少两个聚类中心对应的位置坐标。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤420,在对多个词汇特征中任意一个指定词汇特征进行特征聚类时,确定指定词汇特征与至少两个聚类中心分别对应的空间距离。
可选地,以对多个词汇特征中任意一个词汇特征进行分析为例,将该词汇特征作为指定词汇特征,在对该指定词汇特征进行特征聚类时,确定该指定词汇特征与至少两个聚类中心分别对应的空间距离。
示意性的,分别确定该指定词汇特征与至少两个聚类中心在向量空间中分别对应的空间距离,将该空间距离作为与该指定词汇特征对应的空间距离。
步骤430,将指定词汇特征归类至空间距离最小的聚类中心。
示意性的,在得到该指定词汇特征与至少两个聚类中心分别对应的距离结果后,比较至少两个距离结果之间的数值大小,该数值大小即表示了指定词汇特征与至少两个聚类中心在向量空间中的距离远近情况。
可选地,基于上述数值大小的比较结果,确定与指定词汇特征在向量空间中距离最近的聚类中心,即:空间距离最小的聚类中心,并将该指定词汇特征归类至空间距离最小的聚类中心,实现对指定词汇特征进行聚类的过程。
在一些实施例中,将上述多个词汇特征分别作为指定词汇特征,采用上述特征聚类的过程,对多个词汇特征分别进行特征聚类,从而得到实现对多个词汇特征进行特征聚类的过程。
示意性的,将多个词汇特征分别归类至与之空间距离最小的聚类中心。
在一些实施例中,如图5所示,上述图2所示出的实施例中的步骤240还可以实现为如下步骤510至步骤520。
步骤510,确定多个词汇特征中的至少一个词汇特征与预设的至少两个聚类中心之间的特征空间距离。
示意性的,在得到的多个文本词汇分别对应的词汇特征后,将多个词汇特征中的至少一个词汇特征与预设的至少两个聚类中心进行比较,从而确定该词汇特征与预设的至少两个聚类中心之间的特征空间距离。
可选地,将多个词汇特征与预设的至少两个聚类中心进行比较,从而确定多个词汇特征与预设的至少两个聚类中心之间的特征空间距离;或者,将多个词汇特征中的一个词汇特征与预设的至少两个聚类中心进行比较,从而确定该词汇特征与预设的至少两个聚类中心之间的特征空间距离等。
步骤520,基于特征空间距离,对至少一个词汇特征进行特征分层聚类,并确定至少两个聚类中心分别对应的词汇特征集合。
可选地,基于特征空间距离,对多个文本词汇分别对应的词汇特征进行特征分层聚类,并构建特征节点树。
其中,特征节点树中包括特征节点以及特征边,特征节点用于指示基于特征空间距离确定的候选词汇特征集合,特征边是具有权值的边。
示意性的,特征边所表示的权值与词汇特征之间的距离相关,例如:当词汇特征之间的距离越近,则该特征边所表示的权值越大。
可选地,从特征节点树中获取与至少两个聚类中心分别对应的词汇特征集合。示意性的,基于特征边所对应的权值,从特征节点树中获取与至少两个聚类中心分别对应的词汇特征集合。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
在本申请实施例中,介绍了通过预设的聚类算法得到词汇特征集合的过程。基于词汇特征与聚类中心之间的空间距离,将词汇特征聚类至对应的聚类中心,从而得到词汇特征集合;或者,借助词汇特征与至少两个聚类中心之间的特征空间距离,对文本词汇对应的词汇特征进行特征分层聚类,从而确定词汇特征集合,进而便于基于对词汇特征集合中词汇特征的分析,对至少两个聚类中心进行更新,提高更新后的至少两个聚类中心的准确性以及目标文本特征的准确性,更好地表征目标文本的文本含义。
在一个可选的实施例中,特征聚类过程与聚类中心的更新过程是交互进行的过程,也即:在对目标文本进行文本分析时,将文本词汇对应的词汇特征聚类至对应的聚类中心,且对聚类中心进行更新,之后将其余的文本词汇对应的词汇特征对应的词汇特征聚类至对应的此次更新后的聚类中心,并基于当前的聚类情况对此次更新后的聚类中心继续进行更新,直至完成对多个词汇特征的比较过程,得到更新后的聚类中心。
示意性的,如图6所示,上述图2所示的实施例还可以实现为如下步骤610至步骤650。
步骤610,获取目标文本。
目标文本包括M个文本词汇。其中,M为正整数。
步骤620,对目标文本中的M个文本词汇进行特征提取,得到与M个文本词汇分别对应的词汇特征。
在一些实施例中,对目标文本进行分词处理,得到目标文本中的M个文本词汇。
示意性的,在得到M个文本词汇后,对M个文本词汇进行特征提取,从而得到与M个文本词汇分别对应的词汇特征。
步骤630,在对至少两个第m次更新后的聚类中心进行第m+1次更新过程中,对第m+1个文本词汇对应的词汇特征进行特征聚类,并确定至少两个第m次更新后的聚类中心分别对应的词汇特征集合。
其中,m为正整数且m小于M。
示意性的,获取预设的至少两个聚类中心,在对该至少两个聚类中心进行第1次更新过程中,将第一个文本词汇对应的词汇特征与预设的至少两个聚类中心进行比较,从而将第一个文本词汇对应的词汇特征聚类至对应的聚类中心处,从而得到与该聚类中心对应的词汇特征集合。
同理,在对至少两个第m次更新后的聚类中心进行第m+1次更新过程中,对第m+1个文本词汇对应的词汇特征进行特征聚类,并确定至少两个聚类中心分别对应的词汇特征集合。
步骤640,基于词汇特征集合内词汇特征的分布情况,对至少两个第m次更新后的聚类中心进行第m+1次更新,得到至少两个第m+1次更新后的聚类中心。
可选地,在对预设的至少两个聚类中心进行第1次更新过程中,将第一个文本词汇对应的词汇特征聚类至对应的聚类中心处,并得到与该聚类中心对应的词汇特征集合。基于该词汇特征集合内词汇特征的分布情况,对该聚类中心进行第1次更新,得到第1次更新后的聚类中心。示意性的,将该聚类中心与其余聚类中心(未进行更新的聚类中心)合称为至少两个第1次更新后的聚类中心。
同理,在对至少两个第m次更新后的聚类中心进行第m+1次更新过程中,将第m+1个文本词汇对应的词汇特征聚类至对应的聚类中心处,并得到与该聚类中心对应的词汇特征集合。基于该词汇特征集合内词汇特征的分布情况,对该聚类中心进行第m+1次更新,得到第m+1次更新后的聚类中心。示意性的,将该聚类中心与其余聚类中心(未进行更新的聚类中心)合称为至少两个第m+1次更新后的聚类中心。
步骤650,响应于对M个词汇特征进行特征聚类,对至少两个第M次更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征。
示意性的,在完成将M个词汇特征分别分配至对应的聚类中心的过程后,实现对预设的至少两个聚类中心进行M次更新的过程,得到至少两个第M次更新后的聚类中心。
可选地,确定至少两个第M次更新后的聚类中心分别对应的特征表示,并对至少两个第M次更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征。目标文本特征用于表征以获取目标文本的文本含义。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加限定。
综上所述,在处理多个文本词汇组成的目标文本时,采用特征聚类的方法,将词汇特征聚类至对应的聚类中心并对聚类中心进行更新,通过聚类过程和聚类中心的迭代更新过程,能够逐渐将相似的词汇特征聚类至一起,且使得所聚类到的更新后的聚类中心能够较好地表达多个词汇特征的含义,从而使得基于更新后的聚类中心得到的目标文本特征,能够表征目标文本的文本含义,且围绕更新后的聚类中心,能够实现对目标文本的文本续写过程,提升对目标文本分析的准确性和应用的广泛性。
在一个可选的实施例中,目标文本实现为长序列目标文本,采用预先训练的短序列文本分析网络对目标文本中的部分文本内容进行分析,并采用上述的文本分析方法对目标文本中的其余文本内容进行分析,也即:综合采用预先训练的短序列文本分析网络与上述文本分析方法对目标文本进行文本分析。
示意性的,如图7所示,上述图2所示出的实施例还可以实现为如下步骤710至步骤790。
步骤710,获取目标文本。
其中,目标文本包括多个文本词汇。文本词汇由字符组成,文本词汇中字符的数量既可以实现为多个,也可以实现为一个。
示意性的,目标文本为待进行文本分析的文本内容。文本分析用于提取目标文本中的文本含义。
可选地,目标文本实现为由多个文本词汇组成的长序列文本数据,长序列文本数用于指示文本长度达到千及以上数量级别的文本内容。例如:目标文本中包括上千的文本词汇;或者,目标文本中包括上万的文本字符等。
在一个可选的实施例中,对目标文本进行分词处理,从而得到目标文本中的多个文本词汇。
示意性的,考虑到分词处理是整体word的情况下,聚类能够起到的效果是较好的,相关技术中的sub-word或者character的隐变量状态的相似性并不能保证目标文本中word-level信息的相似性,因此采用基于word-level的分词方式,对文本词汇词表进行构造,并基于构造后的文本词汇词表对目标文本进行分词处理,从而得到目标文本中的多个文本词汇。
步骤720,对目标文本中的多个文本词汇进行特征提取,得到与多个文本词汇分别对应的词汇特征。
示意性的,对目标文本进行分词处理,得到目标文本中的多个文本词汇,并对多个文本词汇进行特征提取,从而得到与多个文本词汇分别对应的词汇特征。
步骤730,将从多个词汇特征中获取的第一数量的词汇特征输入短序列文本分析网络。
示意性的,在得到与多个文本词汇分别对应的词汇特征后,通过短序列文本分析网络对部分文本词汇对应的词汇特征进行文本分析。其中,短序列文本分析网络为预先训练的文本分析网络,用于对第一数量的词汇特征进行文本分析。
可选地,短序列文本分析网络实现为对短序列文本数据进行分析的文本分析模型,该短序列文本分析网络的输入存在数量限制。例如:该短序列文本分析网络只能对具有1千以内文本词汇的短序列文本数据进行文本分析。
示意性的,短序列文本分析网络对多个词汇特征中第一数量的词汇特征进行文本分析。其中,第一数量为短序列文本分析网络最大输入数量限制之内的数量。
例如:短序列文本分析网络最大输入数量为具有1千以内文本词汇的短序列文本数据,则第一数量的词汇特征可以实现为1千个文本词汇对应的词汇特征;或者,第一数量的词汇特征可以实现为小于1千个文本词汇对应的词汇特征,如:800个文本词汇对应的词汇特征等。
可选地,第一数量为预先设定的数量;或者,第一数量默认为短序列文本分析网络的最大限制数量。
示意性的,以第一数量实现为短序列文本分析网络的最大限制数量为例,在对多个词汇特征进行分析时,短序列文本分析网络自动其最大限制的第一数量的词汇特征进行文本分析。
在一个可选的实施例中,采用原始转换器网络(Transformer)作为短序列文本分析网络,对第一数量的词汇特征进行文本分析。
示意性的,原始Transformer中注意力机制运算实现为如下公式一所示。
公式一:
其中,Oi用于指示第i个输入在原始Transformer的输出;N用于指示第一数量;softmax用于指示激活函数;qi用于指示第i个输入对应的查询(query);kj用于指示第i个输入对应的键(key);T用于指示维度;vj用于指示值(value)。
因此,Key和Value仅能针对特定的长度为N的序列进行注意力机制的计算,也即:Key和Value仅能针对第一数量(N)的短序列文本数据进行注意力机制的计算,无法对超出第一数量(N)的文本数据进行文本分析。其中,由于Query和Key的点积运算,导致上述公式一的计算复杂度达到了O(n2),从而限制了原始Transformer网络能够处理的文本长度的上限。
在一个可选的实施例中,对上述原始Transformer进行改进,将原始Transformer的中注意力机制所能计算的总长度从N拓展到了N+M,从而得到Transformer-XL网络。其中,N用于指示进行正向传播和反向传播的词汇特征的数量;M用于指示进行正向传播不进行反向传播的词汇特征的数量。
示意性的,Transformer-XL网络的注意力机制运算实现为如下公式二。
公式二:
其中,Oi用于指示第i个输入在Transformer-XL网络的输出;N用于指示第一数量;softmax用于指示激活函数;qi用于指示第i个输入对应的查询(query);kj用于指示第i个输入对应的键(key);T用于指示维度;vj用于指示值(value)。
从而将Transformer注意力机制的复杂度变为O(n×(n+m))。其操作等价于对N+M的总长度的注意力中的Key和Value进行了无反向传播的近似。
步骤740,从多个词汇特征中获取除第一数量的词汇特征以外的第二数量的词汇特征。
示意性的,在通过短序列文本分析网络对第一数量的词汇特征进行文本分析外,从多个词汇特征中获取除第一数量的词汇特征以外的词汇特征,将该获取得到的多个词汇特征作为第二数量的词汇特征。
例如:目标文本是由1万个文本词汇组成的长序列文本数据,第一数量为4000个,则通过短序列文本分析网络对4000个文本词汇对应的词汇特征进行文本分析,并从1万个文本词汇对应词汇特征中,获取除4000个文本词汇对应的词汇特征之外的6000个文本词汇对应的词汇特征,将6000个文本词汇对应的词汇特征作为上述第二数量的词汇特征。
步骤750,基于预设的至少两个聚类中心,对第二数量的词汇特征进行特征聚类,并确定至少两个聚类中心分别对应的词汇特征集合。
其中,聚类中心用于指示在进行特征聚类时被比较的中心点,至少两个聚类中心为预先设定的聚类中心。
在一个可选的实施例中,将多个词汇特征中的至少一个词汇特征与两个聚类中心进行比较,确定在向量空间中的空间距离,从而将至少一个词汇特征分别聚类至对应的聚类中心处,实现为至少一个文本词汇分别对应的词汇特征进行特征聚类的过程。
步骤760,基于词汇特征集合内词汇特征的分布情况,对至少两个聚类中心进行更新,得到至少两个更新后的聚类中心。
可选地,在得到与至少两个聚类中心分别对应的词汇特征集合后,对词汇特征集合内的词汇特征分布情况进行分析,并基于词汇特征的分布情况对至少两个聚类中心进行迭代更新。
示意性的,基于多个词汇特征集合分别对应的分布密集程度,对多个词汇特征集合进行排序,并基于排序结果,对多个词汇特征集合分别对应的聚类中心进更新。
在一个可选的实施例中,采用上述文本分析方法,对上述Transformer-XL网络进行调整,从而进一步增强Transformer-XL网络中长度为M(第二数量)词汇特征的丰富程度,使用聚类中心将所有隐变量根据词汇特征集合内的词汇特征进行替换,从而将更长的历史信息M’(M’>M)根据其特定的聚类特点压缩为M个聚类中心点。
示意性的,使用如下公式三代替输入xi(1≤i≤N)。
公式三:
从而由于线性层Wk与Wv的映射等价于将调整后的Transformer网络中的注意力机制的vi(1≤i≤N)以及ki(1≤i≤N),采用如下公式四和公式五进行替代。
公式四:
公式五:
其中,在给定聚类方差存在上界的前提下,对应得到的聚类中心所代表的算数平均值能够较好地对原始信息进行近似,从而相较于Transformer-XL网络进一步丰富其依赖的长程信息。
也即:调整后的Transformer网络中的注意力机制表示为如下公式六。
公式六:
其中,cj代表当前聚类的中心点(聚类中心);Scj代表当前聚类的大小,即:聚类中心cj对应聚类中词汇特征的数量。
因此,通过该处改进能够将M个额外内存代表的信息近似地扩展为远大于M个文本词汇所能代表的信息,从而实现了长程依赖信息的压缩与再利用。
可选地,当聚类的大小被强制设置为1,控制聚类方差为0并且控制聚类对应的位置顺序与输入文本顺序一致时,基于聚类的Transformer长程依赖架构与Transformer-XL相同,因此上述更新后的Transformer-XL网络实现为Transformer-XL网络的一般形式。
步骤770,获取第一数量的词汇特征。
示意性的,在得到多个文本词汇对应的词汇特征后,获取多个词汇特征中第一数量的词汇特征。
步骤780,基于至少两个更新后的聚类中心在向量空间内的位置信息,获取至少两个更新后的聚类中心分别对应的特征表示。
示意性的,在得到至少两个更新后的聚类中心后,确定至少两个更新后的聚类中心在向量空间中分别对应的特征表示。
可选地,基于至少两个更新后的聚类中心是通过词汇特征进行更新后得到的聚类中心,且多个词汇特征分别有其对应的更新后的聚类中心。在对多个词汇特征进行分析时(如:目标文本中包括多个文本词汇),可以通过聚类更新后得到的至少两个更新后的聚类中心所分别对应的特征表示,对聚类至相应的更新后的聚类中心的词汇特征进行替代,从而以更新后的聚类中心分别对应的特征表示,代替该更新后的聚类中心所聚类到的词汇特征,简化对目标文本的分析复杂度,一定程度上减少特征融合的计算量。
步骤790,将至少两个目标词汇特征与第一数量的词汇特征进行特征融合,得到目标文本特征。
示意性的,在得到至少两个目标词汇特征以及第一数量的词汇特征后,对至少两个目标词汇特征与第一数量的词汇特征进行特征融合,从而得到目标文本特征。
可选地,采用特征拼接的方法,将至少两个目标词汇特征与第一数量的词汇特征进行特征融合,从而得到目标文本特征。
其中,目标文本特征用于表征以获取目标文本的文本含义。示意性的,目标文本特征中包括多个更新后的聚类中心所表达的文本信息,且更新后的聚类中心与目标文本中多个文本词汇之间存在相关性,既能较好地体现目标文本的文本信息,也能在一定程度上减少文本分析的计算量。
值得注意的是,以上仅为示意性的举例,申请实施例对此不加以限定。
在一个可选的实施例中,以对注意力机制网络进行分析为例进行如下说明。
示意性的,如图8所示,在原始Transformer架构的基础上添加了额外的不参与反向传播,仅参与前向传播的长程内存存储网络810和聚类网络820。聚类网络820用于选择和压缩额外内存,从而为注意力机制网络提供更加丰富的Key和Value信息,用于Query的更新。
聚类网络820给注意力机制网络添加额外的Key和Value,原始的短程内存存储网络830给注意力机制网络提供Query、Key和Value。Transformer网络的主体架构保持不变,仍然保持每层都由注意力机制和全连接层两大部分组成。
示意性的,聚类网络是进行上述文本分析方法中最为关键的网络,其中,在线聚类算法的实现对聚类网络的网络性能具有至关重要的影响。
例如:经过设计的在线聚类算法需要满足如下两点条件:其一,能够对新加入的文本信息做出及时的响应,及时地对给定的原有的聚类信息进行合理更新,从而让聚类网络能够识别到最新信息的存在。其二,由于长文本序列训练过程中产生的隐变量随着时间片的迁移会产生分布偏移的问题,因此在线聚类算法需要不断对过时信息进行适当的丢弃与筛选,从而防止大量冗余且无用的过时信息影响整体聚类性能,让长程内存的利用率变低。
在一些实施例中,根据上述两点要求,以如下两种在线聚类算法为例进行分析,且将整体的聚类算法分为了“新信息加入部分+旧信息删去”的两个主体部分。
(一)K-means聚类算法
示意性的,如图9所示,采用K-means聚类算法对文本词汇对应的词汇特征进行特征聚类,其中实现为如下两种形式。
(1)新信息加入部分
示意性的,基于词汇特征与聚类中心的欧几里得距离,对进行比较的词汇特征进行特征聚类,将该词汇特征聚类至对应的聚类中心,并得到对应的词汇特征集合。
可选地,原始的K-means聚类中心根据最近距离的点进行聚类中心的更新。
例如:在对中间一次K-means聚类中心进行更新的过程中,5个词汇特征分别为词汇特征910、词汇特征920、词汇特征930、词汇特征940以及词汇特征950,将词汇特征910、词汇特征920、词汇特征930、词汇特征940以及词汇特征950分别与三个聚类中心进行比较,从而将词汇特征910以及词汇特征920聚类至聚类中心1下的词汇特征集合911;将词汇特征930聚类至聚类中心2下的词汇特征集合921;将词汇特征940以及词汇特征950聚类至聚类中心3下的词汇特征集合931。
(2)旧信息删去部分
示意性的,根据每个聚类内部(词汇特征集合内部)的方差,对聚类(词汇特征集合)进行排序,选择方差最大的聚类进行删除与重新随机赋值,从而让方差较大,近似效果较差的聚类去除。
例如:计算词汇特征集合911对应的第一方差;计算词汇特征集合921对应的第二方差;计算词汇特征集合931对应的第三方差。并比较第一方差、第二方差以及第三方差,将方差较大,近似效果较差的聚类去除,如:将第三方差对应的聚类中心进行删除并重新随机赋值。可选地,将第三方差对应的词汇特征集合931进行删除等。
(二)分层聚类算法
示意性的,如图10所示,采用分层聚类算法对文本词汇对应的词汇特征进行特征聚类,其中实现为如下两种形式。
(1)新信息加入部分
示意性的,预先设定原有的聚类中心,将原有的聚类中心与新加入的词汇特征作为分层聚类的输入,并构建关于聚类的哈夫曼树。
例如:在对中间一次聚类中心进行分析的过程中,聚类中心1对应词汇特征集合1010、聚类中心2对应词汇特征集合1020以及聚类中心3对应词汇特征集合1030。新加入的词汇特征包括词汇特征1011、词汇特征1012以及词汇特征1013。可选地,可以将词汇特征1011、词汇特征1012以及词汇特征1013分别作为一个词汇特征集合。
基于词汇特征之间、词汇特征与聚类中心之间以及聚类中心之间的距离,将词汇特征集合1010与词汇特征集合1020组成哈夫曼树的第一分支(词汇特征集合1040);将词汇特征集合1030与词汇特征1011组成哈夫曼树的第二分支(词汇特征集合1050);将词汇特征1012以及词汇特征1013组成哈夫曼树的第三分支(词汇特征集合1060)。
(2)旧信息删去部分
示意性的,在分层聚类的基础上,根据方差对给定的聚类中心进行筛选。例如:比较不同词汇特征集合对应的方差,将方差较大,近似效果较差的聚类中心去除。
值得注意的是,不同类型的聚类算法均可以此为思路设计作为聚类在线算法,用以提升语言模型中的长程依赖。由于不同聚类算法对聚类效果有不同的印象,上述列举的两类聚类算法仅为示意性的举例,本申请实施例对此不加以限定。
在一些实施例中,需要对聚类算法中的初始聚类中心进行有效设置,即:避免设置到不合适的初始聚类中心,使得聚类算法的结果较差。示意性的,将上述过程称为“聚类算法的冷启动避免”。
示意性的,在聚类算法中,一般认为初始聚类中心点的选取的好坏往往对在线或离线聚类算法中中心点的更新起到了较为关键的作用,比如K-means就是针对K-means初始点选择进行的一种改进。一组不良初始点会导致聚类算法在在线算法不断更新的过程中逐渐累积误差,让聚类结果收敛到一个较差的局部最小值。而一组良好的初始点会使得聚类算法能够非常稳定地进行迭代更新从而起到加速收敛的效果。初次之外,在验证和测试过程中,选取良好的训练数据形成的聚类中心能够对验证过程起到非常有效的帮助。
因此,在实际在线算法的设计中,在训练过程中,设置在前K步不调用clustering聚类网络进行注意力机制计算。聚类网络独立进行计算直到达到一个稳定的数值才作为初始聚类中心进行进一步的计算,即:确定该初始聚类中心作为在应用过程中的预设聚类中心。
在验证和测试的过程中,可以采用所有训练批结果中个数最多的聚类中心进行初始化来让模型能够很快地利用训练数据已有的聚类信息进行验证和测试过程中的冷启动的避免。
在一些实施例中,由于Transformer-XL网络使用的是相对位置编码而不是原始Transformer中涉及到的绝对位置编码。因此,Transformer-XL中的位置编码在原有的注意力机制上由三个额外的部分组成,如下公式七所示。
公式七:
Sim(Q,K)=QTK+QTWkR+uTK+vWkR
经过实验发现,uTK+vWkR两项对于整体实验效果的影响不大,而相对位置编码的主要作用在QTWkR项。
可选地,仅保留QTWkR一项作为网络中的位置编码,对R同样使用聚类算法对应的聚类点x的位置编码均值进行代替。
在一些实施例中,考虑分布偏移问题。
由于长文本中的每段都是通过多个训练步骤进行训练的,因此在长程内存存储网络的训练过程中,会存在着外部内存中Key和Value分布偏移的问题。长程内存存储网络中的网络参数随着训练的反向传播过程不断更新,产生了不同的Query,Key,Value,因此已经产生偏移的Key和Value也会被保存下来。当非常大的内存在被使用时,旧的网络结果会变得较为无效。为了降低分布偏移带来的训练过程中的无效内存,采用经过层范数(LayerNorm)处理后的隐变量进行聚类。
示意性的,如图11所示,为训练过程中由于训练步导致分布偏移的示意图。随着训练步的进行,长程内存存储网络1110的偏移也会越来越大。但是采用经过LayerNorm处理后的隐变量进行聚类,综合对每一个训练步进行分析,并将聚类后的结果输入Transformer网络1120。尽管归一化过程没有降低分布偏移带来的内存无效化,但是起码该操作保证了内存中所有参与聚类的点和聚类得到的中心的大小都是一致的。归一化过程在Transformer-XL的训练中也起到了稳定训练的作用。
此外,发现在从头训练过程中使用较为宽松的阈值对旧的聚类进行筛选和选择较少的聚类个数作为目标在训练前期起到了加速收敛的作用。变化的聚类个数与训练过程的阈值逐步收紧也能够降低一定由分布偏移导致的负面作用。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
综上所述,在对长序列的目标文本进行分析时,能够结合短序列文本分析网络和上述的文本分析方法,对目标文本进行综合分析。例如:将目标文本中的部分文本词汇通过短序列文本分析网络进行处理,将其余文本词汇通过聚类及聚类中心的更新方法进行处理,从而在保持对目标文本进行准确分析的基础上,能够对目标文本进行更全面、更广泛的分析,基于更新后的聚类中心得到的目标文本特征,能够更加准确的表征目标文本的文本含义。
图12是本申请一个示例性实施例提供的文本分析装置的结构框图,如图12所示,该装置包括如下部分:
获取模块1210,用于获取目标文本,所述目标文本包括多个文本词汇;
提取模块1220,对所述目标文本中的多个文本词汇进行特征提取,得到与所述多个文本词汇分别对应的词汇特征;
聚类模块1230,基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合;
更新模块1240,基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心;
融合模块1250,对所述至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征,所述目标文本特征用于表征以获取所述目标文本的文本含义。
在一个可选的实施例中,所述更新模块1240还用于获取至少两个词汇特征集合中任意一个词汇特征集合作为指定词汇特征集合,所述指定词汇特征集合的聚类中心为指定聚类中心;基于所述指定词汇特征集合内的词汇特征与所述指定聚类中心之间的空间距离,确定与所述指定词汇特征集合对应的词汇特征分布结果,并对所述至少两个聚类中心进行迭代更新,得到所述至少两个更新后的聚类中心。
在一个可选的实施例中,所述更新模块1240还用于基于所述指定词汇特征集合内的词汇特征与所述指定聚类中心之间的空间距离,确定与所述词汇特征分别对应的空间距离结果;基于多个空间距离结果之间的数值波动情况,将所述指定词汇特征集合对应的空间距离方差结果作为所述词汇特征分布结果;确定与多个词汇特征集合分别对应的空间距离方差结果作为词汇特征分布结果;从所述至少两个聚类中心中,删除数值最大的词汇特征分布结果对应的聚类中心,并补充至少一个预设聚类中心,得到所述至少两个更新后的聚类中心。
在一个可选的实施例中,所述更新模块1240还用于从所述至少两个聚类中心中,将数值最大的词汇特征分布结果对应的聚类中心进行删除;将与数值最大的词汇特征分布结果对应的词汇特征集合进行删除;以随机赋值的方式在向量空间中补充一个预设聚类中心,得到所述至少两个更新后的聚类中心。
在一个可选的实施例中,所述聚类模块1230还用于获取预设的所述至少两个聚类中心;在对多个词汇特征中任意一个指定词汇特征进行特征聚类时,确定所述指定词汇特征与所述至少两个聚类中心分别对应的空间结果;将所述指定词汇特征归类至空间距离最小的聚类中心。
在一个可选的实施例中,所述聚类模块1230还用于随机在向量空间中设置至少两个候选聚类中心;通过样本词汇特征对所述至少两个候选聚类中心在所述向量空间中的位置进行调整,并确定调整前后的空间位置变化距离;响应于所述空间位置变化距离不大于预设变化阈值,确定所述至少两个候选聚类中心在所述向量空间中的位置坐标;将所述位置坐标作为所述至少两个聚类中心的位置坐标。
在一个可选的实施例中,所述聚类模块1230还用于确定所述多个词汇特征中的至少一个词汇特征与所述至少两个聚类中心之间的特征空间距离;基于所述特征空间距离,对所述至少一个词汇特征进行特征分层聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合。
在一个可选的实施例中,所述聚类模块1230还用于基于所述特征空间距离,对所述多个词汇特征进行特征分层聚类,并构建特征节点树,所述特征节点树中包括特征节点以及特征边,所述特征节点用于指示基于所述特征空间距离确定的候选词汇特征集合,所述特征边是具有权值的边;从所述特征节点树中获取与所述至少两个聚类中心分别对应的词汇特征集合。
在一个可选的实施例中,所述融合模块1250还用于基于所述至少两个更新后的聚类中心在向量空间内的位置信息,获取所述至少两个更新后的聚类中心分别对应的特征表示;将至少两个特征表示进行特征融合,得到所述目标文本特征。
在一个可选的实施例中,所述聚类模块1230还用于在对至少两个第m次更新后的聚类中心进行第m+1次更新过程中,对第m+1个文本词汇对应的词汇特征进行特征聚类,并确定至少两个第m次更新后的聚类中心分别对应的词汇特征集合,其中,m为正整数且m小于M,M用于指示所述目标文本中的文本词汇数量;
所述更新模块1240还用于基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个第m次更新后的聚类中心进行第m+1次更新,得到至少两个第m+1次更新后的聚类中心。
在一个可选的实施例中,所述聚类模块1230还用于将从多个词汇特征中获取的第一数量的词汇特征输入短序列文本分析网络,所述短序列文本分析网络为预先训练的文本分析网络,用于对第一数量的词汇特征进行文本分析;从多个词汇特征中获取除所述第一数量的词汇特征以外的第二数量的词汇特征;基于预设的至少两个聚类中心,对所述第二数量的词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合。
在一个可选的实施例中,所述聚类模块1230还用于获取所述第一数量的词汇特征;基于所述至少两个更新后的聚类中心在向量空间内的位置信息,获取所述至少两个更新后的聚类中心分别对应的特征表示;将至少两个目标词汇特征与所述第一数量的词汇特征进行特征融合,得到所述目标文本特征。
在一个可选的实施例中,所述融合模块1250还用于将所述至少两个目标词汇特征与所述第一数量的词汇特征进行特征拼接,得到所述目标文本特征。
综上所述,在处理多个文本词汇组成的目标文本时,采用特征聚类的方法,将词汇特征聚类至对应的聚类中心并对聚类中心进行更新,通过聚类过程和聚类中心的迭代更新过程,能够逐渐将相似的词汇特征聚类至一起,且使得所聚类到的更新后的聚类中心能够较好地表达多个词汇特征的含义,从而使得基于更新后的聚类中心得到的目标文本特征,能够表征目标文本的文本含义,且围绕更新后的聚类中心,能够实现对目标文本的文本续写过程,提升对目标文本分析的准确性和应用的广泛性。
需要说明的是:上述实施例提供的文本分析装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本分析装置与文本分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器(RandomAccess Memory,RAM)1302和只读存储器(Read Only Memory,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。服务器1300还包括用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1306。
大容量存储设备1306通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。大容量存储设备1306及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,大容量存储设备1306可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。上述的系统存储器1304和大容量存储设备1306可以统称为存储器。
根据本申请的各种实施例,服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的文本分析方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的文本分析方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的文本分析方法。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (17)

1.一种文本分析方法,其特征在于,所述方法包括:
获取目标文本,所述目标文本包括多个文本词汇;
对所述目标文本中的多个文本词汇进行特征提取,得到与所述多个文本词汇分别对应的词汇特征;
基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合;
基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心;
对所述至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征,所述目标文本特征用于表征以获取所述目标文本的文本含义。
2.根据权利要求1所述的方法,其特征在于,所述基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心,包括:
获取至少两个词汇特征集合中任意一个词汇特征集合作为指定词汇特征集合,所述指定词汇特征集合的聚类中心为指定聚类中心;
基于所述指定词汇特征集合内的词汇特征与所述指定聚类中心之间的空间距离,确定与所述指定词汇特征集合对应的词汇特征分布结果,并对所述至少两个聚类中心进行迭代更新,得到所述至少两个更新后的聚类中心。
3.根据权利要求2所述的方法,其特征在于,所述基于所述指定词汇特征集合内的词汇特征与所述指定聚类中心之间的空间距离,确定与所述指定词汇特征集合对应的词汇特征分布结果,并对所述至少两个聚类中心进行迭代更新,得到所述至少两个更新后的聚类中心,包括:
基于所述指定词汇特征集合内的词汇特征与所述指定聚类中心之间的空间距离,确定与所述词汇特征分别对应的空间距离结果;
基于多个空间距离结果之间的数值波动情况,将所述指定词汇特征集合对应的空间距离方差结果作为所述词汇特征分布结果;
确定与多个词汇特征集合分别对应的空间距离方差结果作为词汇特征分布结果;
从所述至少两个聚类中心中,删除数值最大的词汇特征分布结果对应的聚类中心,并补充至少一个预设聚类中心,得到所述至少两个更新后的聚类中心。
4.根据权利要求3所述的方法,其特征在于,所述从所述至少两个聚类中心中,删除数值最大的词汇特征分布结果对应的聚类中心,并补充至少一个预设聚类中心,得到所述至少两个更新后的聚类中心,包括:
从所述至少两个聚类中心中,将数值最大的词汇特征分布结果对应的聚类中心进行删除;
将与数值最大的词汇特征分布结果对应的词汇特征集合进行删除;
以随机赋值的方式在向量空间中补充一个预设聚类中心,得到所述至少两个更新后的聚类中心。
5.根据权利要求1至4任一所述的方法,其特征在于,所述基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合,包括:
获取预设的所述至少两个聚类中心;
在对多个词汇特征中任意一个指定词汇特征进行特征聚类时,确定所述指定词汇特征与所述至少两个聚类中心分别对应的空间距离;
将所述指定词汇特征归类至空间距离最小的聚类中心。
6.根据权利要求5所述的方法,其特征在于,所述获取预设的所述至少两个聚类中心,包括:
随机在向量空间中设置至少两个候选聚类中心;
通过样本词汇特征对所述至少两个候选聚类中心在所述向量空间中的位置进行调整,并确定调整前后的空间位置变化距离;
响应于所述空间位置变化距离不大于预设变化阈值,确定所述至少两个候选聚类中心在所述向量空间中的位置坐标;
将所述位置坐标作为所述至少两个聚类中心的位置坐标。
7.根据权利要求1至4任一所述的方法,其特征在于,所述基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合,包括:
确定所述多个词汇特征中的至少一个词汇特征与所述至少两个聚类中心之间的特征空间距离;
基于所述特征空间距离,对所述至少一个词汇特征进行特征分层聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合。
8.根据权利要求7所述的方法,其特征在于,所述基于所述特征空间距离,对所述至少一个词汇特征进行特征分层聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合,包括:
基于所述特征空间距离,对所述多个词汇特征进行特征分层聚类,并构建特征节点树,所述特征节点树中包括特征节点以及特征边,所述特征节点用于指示基于所述特征空间距离确定的候选词汇特征集合,所述特征边是具有权值的边;
从所述特征节点树中获取与所述至少两个聚类中心分别对应的词汇特征集合。
9.根据权利要求1至4任一所述的方法,其特征在于,所述对所述至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征,包括:
基于所述至少两个更新后的聚类中心在向量空间内的位置信息,获取所述至少两个更新后的聚类中心分别对应的特征表示;
将至少两个特征表示进行特征融合,得到所述目标文本特征。
10.根据权利要求1至4任一所述的方法,其特征在于,
所述基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合,包括:
在对至少两个第m次更新后的聚类中心进行第m+1次更新过程中,对第m+1个文本词汇对应的词汇特征进行特征聚类,并确定至少两个第m次更新后的聚类中心分别对应的词汇特征集合,其中,m为正整数且m小于M,M用于指示所述目标文本中的文本词汇数量;
所述基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心,包括:
基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个第m次更新后的聚类中心进行第m+1次更新,得到至少两个第m+1次更新后的聚类中心。
11.根据权利要求1至4任一所述的方法,其特征在于,所述基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合,包括:
将从多个词汇特征中获取的第一数量的词汇特征输入短序列文本分析网络,所述短序列文本分析网络为预先训练的文本分析网络,用于对第一数量的词汇特征进行文本分析;
从多个词汇特征中获取除所述第一数量的词汇特征以外的第二数量的词汇特征;
基于预设的至少两个聚类中心,对所述第二数量的词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合。
12.根据权利要求11所述的方法,其特征在于,所述对所述至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征,包括:
获取所述第一数量的词汇特征;
基于所述至少两个更新后的聚类中心在向量空间内的位置信息,获取所述至少两个更新后的聚类中心分别对应的特征表示;
将至少两个目标词汇特征与所述第一数量的词汇特征进行特征融合,得到所述目标文本特征。
13.根据权利要求12所述的方法,其特征在于,所述将至少两个目标词汇特征与所述第一数量的词汇特征进行特征融合,得到所述目标文本特征,包括:
将所述至少两个目标词汇特征与所述第一数量的词汇特征进行特征拼接,得到所述目标文本特征。
14.一种文本分析装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本,所述目标文本包括多个文本词汇;
提取模块,对所述目标文本中的多个文本词汇进行特征提取,得到与所述多个文本词汇分别对应的词汇特征;
聚类模块,基于预设的至少两个聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定所述至少两个聚类中心分别对应的词汇特征集合;
更新模块,基于所述词汇特征集合内词汇特征的分布情况,对所述至少两个聚类中心进行迭代更新,得到至少两个更新后的聚类中心;
融合模块,对所述至少两个更新后的聚类中心分别对应的特征表示进行特征融合,得到目标文本特征,所述目标文本特征用于表征以获取所述目标文本的文本含义。
15.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至13任一所述的文本分析方法。
16.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至13任一所述的文本分析方法。
17.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至13任一所述的文本分析方法。
CN202211335833.4A 2022-10-28 2022-10-28 文本分析方法、装置、设备、存储介质及程序产品 Pending CN117009507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211335833.4A CN117009507A (zh) 2022-10-28 2022-10-28 文本分析方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211335833.4A CN117009507A (zh) 2022-10-28 2022-10-28 文本分析方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN117009507A true CN117009507A (zh) 2023-11-07

Family

ID=88573383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211335833.4A Pending CN117009507A (zh) 2022-10-28 2022-10-28 文本分析方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN117009507A (zh)

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US20210232762A1 (en) Architectures for natural language processing
CN110309427B (zh) 一种对象推荐方法、装置及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110019732B (zh) 一种智能问答方法以及相关装置
CN116935169B (zh) 文生图模型训练方法以及文生图方法
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
WO2020151690A1 (zh) 语句生成方法、装置、设备及存储介质
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN117009507A (zh) 文本分析方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination