CN111985209B - 结合rpa和ai的文本语句识别方法、装置、设备及存储介质 - Google Patents

结合rpa和ai的文本语句识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111985209B
CN111985209B CN202010833635.5A CN202010833635A CN111985209B CN 111985209 B CN111985209 B CN 111985209B CN 202010833635 A CN202010833635 A CN 202010833635A CN 111985209 B CN111985209 B CN 111985209B
Authority
CN
China
Prior art keywords
vector matrix
word vector
sentence
matrix
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010833635.5A
Other languages
English (en)
Other versions
CN111985209A (zh
Inventor
张勇
王建周
胡一川
汪冠春
褚瑞
李玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Laiye Network Technology Co Ltd
Laiye Technology Beijing Co Ltd
Original Assignee
Beijing Laiye Network Technology Co Ltd
Laiye Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Laiye Network Technology Co Ltd, Laiye Technology Beijing Co Ltd filed Critical Beijing Laiye Network Technology Co Ltd
Publication of CN111985209A publication Critical patent/CN111985209A/zh
Application granted granted Critical
Publication of CN111985209B publication Critical patent/CN111985209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种结合RPA和AI的文本语句识别方法、装置、设备及存储介质。涉及人工智能领域,其中,方法包括:获取待识别的候选文本语句的第一词向量矩阵;对第一词向量矩阵压缩处理,获取第二词向量矩阵;基于主成分分析算法PCA对第二词向量矩阵进行计算,得到第三词向量矩阵;对第三词向量矩阵进行压缩处理,得到目标词向量矩阵;根据目标词向量矩阵获取与候选文本语句对应的目标文本语句。由此,通过对候选文本语句进行向量降维的方式,识别对应的标准文本语句,提升文本句比对的效率和准确性。

Description

结合RPA和AI的文本语句识别方法、装置、设备及存储介质
技术领域
本申请涉及智能交互领域,具体涉及一种结合RPA(Robotic ProcessAutomation,机器人流程自动化)和AI(Artificial Intelligence,人工智能)的结合RPA和AI的文本语句识别方法、装置、设备及存储介质。
背景技术
机器人流程自动化(Robotic Process Automation,简称:RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
现有技术中常常存在计算机设备根据用户输入的文本语句执行相应操作的场景,但是由于用户输入的文本语句可能包含非标准用语,现有技术一般需要从预设的标准语句中查找和用户文本语句相匹配的目标标准语句。
在文本语句匹配过程中,现有技术一般是将用户输入的原始文本语句直接与预设的标准语句进行比对,但是由于原始文本语句中存在干扰,且原始文本的句向量维度较大,因此导致比对的效率和准确性较低。
发明内容
本申请实施例申请一种结合RPA和AI的文本语句识别方法、装置、设备及存储介质,实现通过对候选文本语句进行向量降维的方式,识别对应的标准文本语句,提升文本句比对的效率和准确性。第一方面,本申请实施例提供一种结合RPA和AI的文本语句识别方法,包括:
获取待识别的候选文本语句的第一词向量矩阵;
对所述第一词向量矩阵压缩处理,获取第二词向量矩阵;
基于主成分分析算法PCA对所述第二词向量矩阵进行计算,得到第三词向量矩阵;
对所述第三词向量矩阵进行压缩处理,得到目标词向量矩阵;
根据所述目标词向量矩阵获取与所述候选文本语句对应的目标文本语句。
可选的,所述对所述第一词向量矩阵压缩处理,获取第二词向量矩阵,包括:
计算所述第一词向量矩阵中所有第一矩阵元素的第一平均值;
对所述第一词向量矩阵中每个第一矩阵元素减去所述第一平均值,获取第四词向量矩阵;
基于PCA算法对所述第四词向量矩阵进行处理,并根据处理结果获取所述第四词向量矩阵的前N个主要成分;
从所述第四词向量矩阵中去除所述前N个主要成分,得到所述候选文本、语句的第二词向量矩阵;
其中,所述N为预先设定的正整数。
可选的,所述对所述第三词向量矩阵进行压缩处理,得到目标词向量矩阵,包括:
计算所述第三词向量矩阵中所有第二矩阵元素的第二平均值;
对所述第三词向量矩阵中每个第一矩阵元素减去所述第二平均值,获取第五词向量矩阵;
基于PCA算法对所述第五词向量矩阵进行处理,根据处理结果获取所述第五词向量矩阵的前M个主要成分;
从所述第五词向量矩阵中去除所述前M个主要成分,得到所述候选文本语句的目标词向量矩阵;
其中,所述M为预先设定的正整数。
可选的,所述根据所述目标词向量矩阵获取与所述候选文本语句对应的目标文本语句,包括:
对所述目标词向量矩阵中的词向量进行加权处理,得到所述候选文本语句的第一句向量;
根据各预设样本句的原始句向量,生成样本句向量矩阵;
基于PCA算法对所述样本句向量矩阵进行处理,根据处理结果获取所述第一主成分;
从所述第一句向量中去除所述第一主成分,得到所述候选文本语句的第二句向量;
计算所述第二句向量与各预设样本句之间的欧式距离,确定所述欧式距离中的最小欧式距离对应的预设样本语句,为所述目标文本语句。
可选的,所述根据各预设样本句的原始句向量,生成样本句向量矩阵,包括:
根据所述各预设样本句的原始句向量,组成第一句向量矩阵;
计算所述第一句向量矩阵中所有第三矩阵元素的第三平均值;
对所述第一句向量矩阵中每个第三矩阵元素减去所述第三平均值,获取第二句向量矩阵;
基于PCA算法对所述第二句向量矩阵进行处理,根据处理结果获取所述第二句向量矩阵的前G个主要成分;
从所述第二句向量矩阵中去除所述前G个主要成分,得到所述样本句向量矩阵;
其中,G为预先设定的正整数。
可选的,还包括:
确定与所述目标文本语句对应的操作;
执行与所述目标样本句相对应的操作。
第二方面,本申请实施例还提供了一种结合RPA和AI的文本语句识别装置,包括:
第一获取模块,用于获取待识别的候选文本语句的第一词向量矩阵;
第二获取模块,用于对所述第一词向量矩阵压缩处理,获取第二词向量矩阵;
计算模块,用于基于主成分分析算法PCA对所述第二词向量矩阵进行计算,得到第三词向量矩阵;
压缩模块,用于对所述第三词向量矩阵进行压缩处理,得到目标词向量矩阵;
第三获取模块,用于根据所述目标词向量矩阵获取与所述候选文本语句对应的目标文本语句。
可选的,所述第二获取模块,具体用于:
计算所述第一词向量矩阵中所有第一矩阵元素的第一平均值;
对所述第一词向量矩阵中每个第一矩阵元素减去所述第一平均值,获取第四词向量矩阵;
基于PCA算法对所述第四词向量矩阵进行处理,并根据处理结果获取所述第四词向量矩阵的前N个主要成分;
从所述第四词向量矩阵中去除所述前N个主要成分,得到所述候选文本、语句的第二词向量矩阵;
其中,所述N为预先设定的正整数。
第三方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器;其中,所述存储器用于存储所述处理器的可执行指令,当所述指令被所述处理器执行时,所述处理器执行上述第一方面的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现上述第一方面所述的方法。
本申请实施例中的技术方案至少包括如下有益技术效果:
通过对候选文本语句的第一词向量矩阵进行压缩处理得到第二词向量矩阵,基于PCA算法对第二词向量矩阵进行处理得到第三词向量矩阵,对第三词向量矩阵进行压缩处理得到目标词向量矩阵,基于目标词向量来得到对应的目标词向量矩阵,实现了对文本句词向量矩阵的压缩,进而使得文本句句向量的维度得到降低,从而在进行文本句比对时,能够提升文本句比对的效率和准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请一个实施例的结合RPA和AI的文本语句识别方法的流程图;
图2是本申请实施例提供的一种应用场景的示意图;
图3是本申请实施例提供的另一种应用场景的示意图;
图4是根据本申请另一个实施例的结合RPA和AI的文本语句识别方法的流程图;
图5是根据本申请又一个实施例的结合RPA和AI的文本语句识别方法的流程图;
图6是根据本申请再一个实施例的结合RPA和AI的文本语句识别方法的流程图;
图7是根据本申请还一个实施例的结合RPA和AI的文本语句识别方法的流程图;
图8是根据本申请一个实施例的结合RPA和AI的文本语句识别装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面参考附图描述本申请实施例的结合RPA和AI的文本语句识别方法、装置、设备及存储介质。
具体而言,图1是根据本申请一个实施例的结合RPA和AI的文本语句识别方法的流程图,如图1所示,该方法包括:
步骤101,获取待识别的候选文本语句的第一词向量矩阵。
其中,待识别的候选文本语句可以是基于机器人接收到的语音信息转换得到的,也可以是用户主动输入的搜索文本等。
在一些可能的示例中,如图2所示,本申请实施例提供的一种应用场景包括用户20和文本数据处理装置21,其中文本数据处理装置21可以被示例性的理解为计算机设备或者计算机设备中的部分模块。文本数据处理装置21可以向用户提供交互界面,该界面比如可以是如下界面中的至少一种:命令输入界面、浏览器搜索界面。该界面上包括文本输入区,用户20可以在文本输入区中输入文本语句。文本数据处理装置21在得到用户输入的文本语句(即候选文本语句)后,对候选文本语句进行分词处理,并分别计算候选文本语句中每个词对应的词向量,由候选文本语句中所有词的词向量组合生成候选文本语句的第一词向量矩阵。其中,候选文本语句中所有词的词向量可以为语义向量、词属性向量等。
在一些可能的示例中,如图3所示的本申请实施例提供的一种应用场景示意图,在图3中,文本数据处理装置31具备语音采集功能和语音转换功能。用户30可以通过语音的方式输入语句。文本数据处理装置31根据预设的语音文字转换引擎,将用户30输入的语句转换成候选文本语句。进一步的,再对候选文本语句进行分词处理,并分别计算候选文本语句中每个词对应的词向量,由候选文本语句中所有词的词向量组合生成候选文本语句的第一词向量矩阵。
当然上述图2和图3仅为示例说明,并不是对本申请的唯一限定。
步骤102,对第一词向量矩阵压缩处理,获取第二词向量矩阵。
其中,对第一向量矩阵压缩处理,可以理解为对第一词向量矩阵进行降维处理,以便于提高后续匹配的效率。
需要说明的是,在不同的应用场景中,对第一词向量矩阵压缩处理,获取第二词向量矩阵的方式不同,说明如下:
示例一:
在本示例中,将第一词向量矩阵中相邻两行的矩阵元素划分为一个矩阵单元(当第一词向量矩阵的行数为奇数时,将最后一行的矩阵元素作为一个矩阵单元),进而,对包含两行矩阵元素的矩阵单元,将每个矩阵单元中上下两个矩阵元素的均值,作为该矩阵单元的对应位置的新的矩阵元素,对包含一行矩阵元素的矩阵单元,将每个位置的矩阵元素的二分之一作为新的矩阵元素。从而,获取降维后的第二词向量矩阵。
示例二:
在本示例中,图4是本申请实施例提供的一种词向量矩阵压缩方法的流程图,如图4所示,该方法可以包括:
步骤401,计算第一词向量矩阵中所有第一矩阵元素的第一平均值。
其中,第一平均值可以理解为第一词向量矩阵中所有第一矩阵元素的值的平均值。
步骤402,对第一词向量矩阵中每个第一矩阵元素减去第一平均值,获取第四词向量矩阵。
从第一词向量矩阵中减去第一词向量矩阵的第一平均值,可以理解为,用第一词向量矩阵中的每个第一矩阵元素减去第一平均值,得到第四词向量矩阵。
步骤403,基于PCA算法对第四词向量矩阵进行处理,并根据处理结果获取第四词向量矩阵的前N个主要成分。
其中,主成分分析(Principal Component Analysis,PCA)算法是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
在本实施例中,基于PCA算法对第四词向量矩阵进行处理,并根据处理结果获取第四词向量矩阵的前N个主要成分。
具体而言,假设,第四词向量矩阵为X,则第四词向量矩阵X的前N个主成分可以表示为:
u(i)=PCA(X),i=1,2,………N
其中,N为预先设定的正整数,其具体取值可以根据需要进行设定,在本实施例中为了便于理解,可以示例性的将N的值理解为1。
步骤404,从第四词向量矩阵中去除前N个主要成分,得到候选文本语句的第二词向量矩阵;
其中,N为预先设定的正整数。
在本实施例中,在提取第四向量的主要成本后实现了对候选文本的第一次降维,在第四词向量矩阵中去掉前N个主要成分,实现了第二次降维,得到得到候选文本语句的第二词向量矩阵;
当然图4仅是本申请提供的一种示例性的方法,并不是对本申请词向量矩阵压缩方法的唯一限定。实际上在其他一些实施方式中,在基于图4的方法得到第二词向量矩阵后,还可以进一步采用PCA算法对第二词向量矩阵进行处理,得到第二词向量矩阵的主成分,然后针对第二词向量矩阵的主成分再次使用图4实施例的方法进行进一步的压缩处理,从而扩大压缩程度,提高压缩效果。
步骤103,基于主成分分析算法PCA对第二词向量矩阵进行计算,得到第三词向量矩阵。
在本实施例中,基于主成分分析算法PCA对第二词向量矩阵进行计算,进一步的对第二词向量矩阵降维,得到第三词向量矩阵。
步骤104,对第三词向量矩阵进行压缩处理,得到目标词向量矩阵。
在本实施例中,得到第三词向量矩阵后,进一步对第三词向量矩阵压缩处理,得到目标词向量矩阵。
示例一:
在本示例中,将第三词向量矩阵中相邻两行的矩阵元素划分为一个矩阵单元(当第三词向量矩阵的行数为奇数时,将最后一行的矩阵元素作为一个矩阵单元),进而,对包含两行矩阵元素的矩阵单元,将每个矩阵单元中上下两个矩阵元素的均值,作为该矩阵单元的对应位置的新的矩阵元素,对包含一行矩阵元素的矩阵单元,将每个位置的矩阵元素的二分之一作为新的矩阵元素。从而,获取降维后的目标词向量矩阵。
示例二:
在本示例中,图5是本申请实施例提供的另一种词向量矩阵压缩方法的流程图,如图5所示,该方法可以包括:
步骤501,计算第三词向量矩阵中所有第二矩阵元素的第二平均值。
其中,第二平均值可以理解为第三词向量矩阵中所有第二矩阵元素的值的平均值。
步骤502,对第三词向量矩阵中每个第一矩阵元素减去第二平均值,获取第五词向量矩阵。
在本实施例中,将第三词向量矩阵中每个第一矩阵元素减去第二平均值,获取第五词向量矩阵。
步骤503,基于PCA算法对第五词向量矩阵进行处理,根据处理结果获取第五词向量矩阵的前M个主要成分。
在本实施例中,基于PCA算法对第五词向量矩阵进行处理,并根据处理结果获取第五词向量矩阵的前M个主要成分。
具体而言,假设,第五词向量矩阵为X,则第五词向量矩阵X的前M个主成分可以表示为:
u(i)=PCA(X),i=1,2,………M
其中,M为预先设定的正整数,其具体取值可以根据需要进行设定,在本实施例中为了便于理解,可以示例性的将五的值理解为1。
步骤504,从第五词向量矩阵中去除前M个主要成分,得到候选文本语句的目标词向量矩阵;
其中,M为预先设定的正整数。
在本实施例中,从第五词向量矩阵中去除前M个主要成分,得到候选文本语句的目标词向量矩阵,实现了对第三次词向量矩阵的又一次压缩。
本实施例中第三词向量矩阵的压缩处理与图4实施例提供的方法类似,在这里不再赘述。
步骤105,根据目标词向量矩阵获取与候选文本语句对应的目标文本语句。
在本实施例中,根据目标词向量矩阵获取与候选文本语句对应的目标文本语句,其中,目标文本语句可以理解为对应的标准文本语句,或者是样本文本语句,便于系统识别并进行有关处理,比如,进行目标文本语句对应的操作。
综上,本申请实施例的结合RPA和AI的文本语句识别方法,通过对候选文本语句的第一词向量矩阵进行压缩处理得到第二词向量矩阵,基于PCA算法对第二词向量矩阵进行处理得到第三词向量矩阵,对第三词向量矩阵进行压缩处理得到目标词向量矩阵,基于目标词向量来得到对应的目标词向量矩阵,实现了对文本句词向量矩阵的压缩,进而使得文本句句向量的维度得到降低,从而在进行文本句比对时,能够提升文本句比对的效率和准确性。
基于以上实施例,在不同的应用场景中,根据目标词向量矩阵获取与候选文本语句对应的目标文本语句的方式不同,示例如下:
示例一:
在本示例中,将目标词向量矩阵输入预先训练的神经网络模型,该神经网络模型预先学习得到目标词向量矩阵与预先构建的样本文本语句的对应关系,从而,可以根据神经网络模型的输出得到对应的目标文本语句,该目标文本语句为可被系统准确识别,去除了候选文本语句表达个性化噪音的标准语句。
示例二:
在本示例中,如图6所示,根据目标词向量矩阵获取与候选文本语句对应的目标文本语句,包括:
步骤601,对目标词向量矩阵中的词向量进行加权处理,得到候选文本语句的第一句向量。
示例的,本实施例中,目标词向量矩阵中的每个词向量的权值可以用该词向量的逆向文件频率(inverse document frequency,简称IDF)除以所有词向量的IDF之和表示。目标词向量矩阵中第i个词向量的加权方法可以用如下表达式进行表示:
v=x[i]*w[i]/sum(w)
其中,x[i]为目标词向量矩阵中的第i个词向量,w[i]为第i个词向量的IDF,sum(w)为目标词向量矩阵中所有词向量的IDF之和,v为x[i]的加权结果。其中对于目标词向量矩阵中的某个词向量而言,其IDF可以通过预设样本句的总数除以包含该词向量对应的词的预设样本句的数量,再将得到的商取以10为底的对数得到,从而,基于目标词向量矩阵中的每个词向量得到第一句向量。
步骤602,根据各预设样本句的原始句向量,生成样本句向量矩阵。
步骤603,基于PCA算法对样本句向量矩阵进行处理,根据处理结果获取第一主成分。
在另一种获取方式中,获取第一主成分的步骤可以包括确定第一句向量矩阵的步骤和基于第一句向量矩阵确定第一主成分的步骤,其中,基于第一句向量矩阵确定第一主成分的步骤与上一种获取方式中的确定方法类似,在这里不再赘述。
在本实施例中,先获取各预设样本句的原始句向量,将各预设样本句的原始句向量放置在同一矩阵中生成样本句向量矩阵;再基于PCA算法对样本句句向量矩阵进行处理,得到样本句句向量矩阵的主成分即为第一主成分。
在另一种获取方式中,获取第一主成分的步骤可以包括确定样本句向量矩阵的步骤和基于样本句向量矩阵确定第一主成分的步骤,其中,基于样本句向量矩阵确定第一主成分的步骤与上一种获取方式中的确定方法类似,在这里不再赘述。
在本实施例中,如图7所示,根据各预设样本句的原始句向量,生成样本句向量矩阵,包括:
步骤701,根据各预设样本句的原始句向量,组成第一句向量矩阵。
在本实施例中,获取预设样本句每个预设样本的原始句向量,并根据该原始句向量组成第一句向量矩阵。
步骤702,计算第一句向量矩阵中所有第三矩阵元素的第三平均值。
可以理解,计算第一句向量矩阵中所有第三矩阵元素的值的均值作为第三平均值。
步骤703,对第一句向量矩阵中每个第三矩阵元素减去第三平均值,获取第二句向量矩阵。
在本实施例中,对第一句向量矩阵中每个第三矩阵元素减去第三平均值,获取第二句向量矩阵。
步骤704,基于PCA算法对第二句向量矩阵进行处理,根据处理结果获取第二句向量矩阵的前G个主要成分。
步骤705,从第二句向量矩阵中去除前G个主要成分,得到样本句向量矩阵;
其中,G为预先设定的正整数。
其中,对第二句向量矩阵进行降维处理的方式,可以参照上述实施例中基于PCA算法的降维步骤,在此不再赘述。
步骤604,从第一句向量中去除第一主成分,得到候选文本语句的第二句向量。
在本实施例中,从第一句向量中去除第一主成分,得到候选文本语句的第二句向量,实现对第一句向量的压缩。
步骤605,计算第二句向量与各预设样本句之间的欧式距离,确定欧式距离中的最小欧式距离对应的预设样本语句,为目标文本语句。
在本实施例中,计算第二句向量与各预设样本句之间的欧式距离,即计算第二句向量与各预设样本句之间每个原始句向量的向量距离,确定欧式距离中的最小欧式距离对应的预设样本语句,将该预设样本语句作为目标文本语句。
进一步的,在确定目标文本语句后,可以在数据查询场景中可以根据目标样本句所指示的查询条件查找数据,并将查找到的数据反馈给用户。在智能控制场景中可以根据目标样本句指示的控制操作,对目标物体进行控制,并将控制结果反馈给用户。当然这里仅为示例说明而不是对本申请适用应用场景的唯一限定。
本实施例的有益效果与上述实施例类似,在这里不再赘述。
综上,本申请实施例的结合RPA和AI的文本语句识别方法,对待识别的候选文本语句的第一词向量矩阵进行降维压缩,得到第二词向量矩阵,实现了对句向量的进一步压缩,进而在进行文本句比对时,能够提高文本比对的效率。
为了实现上述实施例,本申请还提出了一种结合RPA和AI的文本语句识别装置。图8是根据本申请一个实施例的结合RPA和AI的文本语句识别装置的结构示意图,如图8所示,该结合RPA和AI的文本语句识别装置包括:第一获取模块81、第二获取模块82、计算模块83、压缩模块84和第三获取模块85,其中,
第一获取模块81,用于获取待识别的候选文本语句的第一词向量矩阵;
第二获取模块82,用于对第一词向量矩阵压缩处理,获取第二词向量矩阵;
计算模块83,用于基于主成分分析算法PCA对第二词向量矩阵进行计算,得到第三词向量矩阵;
压缩模块84,用于对第三词向量矩阵进行压缩处理,得到目标词向量矩阵;
第三获取模块85,用于根据目标词向量矩阵获取与候选文本语句对应的目标文本语句。
在一种可能的实施方式中,第二获取模块82,具体用于:
计算第一词向量矩阵中所有第一矩阵元素的第一平均值;
对第一词向量矩阵中每个第一矩阵元素减去第一平均值,获取第四词向量矩阵;
基于PCA算法对第四词向量矩阵进行处理,并根据处理结果获取第四词向量矩阵的前N个主要成分;
从第四词向量矩阵中去除前N个主要成分,得到候选文本、语句的第二词向量矩阵;
其中,N为预先设定的正整数。
需要说明的是,前述对方法的解释说明书,也适用于对本申请实施例中对装置的解释说明,其实现原理类似,在此不再赘述。
综上,本申请实施例的结合RPA和AI的文本语句识别装置,通过对候选文本语句的第一词向量矩阵进行压缩处理得到第二词向量矩阵,基于PCA算法对第二词向量矩阵进行处理得到第三词向量矩阵,对第三词向量矩阵进行压缩处理得到目标词向量矩阵,基于目标词向量来得到对应的目标词向量矩阵,实现了对文本句词向量矩阵的压缩,进而使得文本句句向量的维度得到降低,从而在进行文本句比对时,能够提升文本句比对的效率和准确性。
基于以上实施例,在不同的应用场景中,根据目标词向量矩阵获取与候选文本语句对应的目标文本语句的方式不同,示例如下:
在一种可能的实施方式中,压缩模块84,具体用于:
计算第三词向量矩阵中所有第二矩阵元素的第二平均值;
对第三词向量矩阵中每个第一矩阵元素减去第二平均值,获取第五词向量矩阵;
基于PCA算法对第五词向量矩阵进行处理,根据处理结果获取第五词向量矩阵的前M个主要成分;
从第五词向量矩阵中去除前M个主要成分,得到候选文本语句的目标词向量矩阵;
其中,M为预先设定的正整数。
在一种可能的实施方式中,第三获取模块85,具体用于:
对目标词向量矩阵中的词向量进行加权处理,得到候选文本语句的第一句向量;
根据各预设样本句的原始句向量,生成样本句向量矩阵;
基于PCA算法对样本句向量矩阵进行处理,根据处理结果获取第一主成分;
从第一句向量中去除第一主成分,得到候选文本语句的第二句向量;
计算第二句向量与各预设样本句之间的欧式距离,确定欧式距离中的最小欧式距离对应的预设样本语句,为目标文本语句。
本实施例提供的装置能够执行上述实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
图9是本申请实施例提供的一种计算机设备的结构示意图。计算机设备90包括存储器91和处理器92;其中,所述存储器91用于存储所述处理器52的可执行指令,当所述指令被所述处理器92执行时,所述处理器92执行上述方法实施例提供的方法。
本申请实施例还挺供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现上述方法实施例所述的方法。
需要说明的是,本申请上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读存储介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本申请的上下文中,机器可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读存储介质可以是机器可读信号介质或机器可读储存介质。机器可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (9)

1.一种结合RPA和AI的文本语句识别方法,其特征在于,包括:
获取待识别的候选文本语句的第一词向量矩阵;
对所述第一词向量矩阵进行降维处理,以获取第二词向量矩阵;
基于主成分分析算法PCA对所述第二词向量矩阵进行计算,得到第三词向量矩阵;
对所述第三词向量矩阵进行降维处理,以得到目标词向量矩阵;
对所述目标词向量矩阵中的词向量进行加权处理,以得到所述候选文本语句的第一句向量,根据各预设样本句的原始句向量生成样本句向量矩阵,基于PCA算法对所述样本句向量矩阵进行处理,根据处理结果获取第一主成分,从所述第一句向量中去除所述第一主成分,得到所述候选文本语句的第二句向量,计算所述第二句向量与各预设样本句之间的欧式距离,将所述欧式距离中的最小欧式距离对应的预设样本语句作为所述候选文本语句对应的目标文本语句。
2.如权利要求1所述的方法,其特征在于,对所述第一词向量矩阵进行降维处理,以获取第二词向量矩阵,包括:
计算所述第一词向量矩阵中所有第一矩阵元素的第一平均值;
对所述第一词向量矩阵中每个第一矩阵元素减去所述第一平均值,获取第四词向量矩阵;
基于PCA算法对所述第四词向量矩阵进行处理,并根据处理结果获取所述第四词向量矩阵的前N个主要成分;
从所述第四词向量矩阵中去除所述前N个主要成分,得到所述候选文本、语句的第二词向量矩阵;
其中,所述N为预先设定的正整数。
3.如权利要求1所述的方法,其特征在于,对所述第三词向量矩阵进行降维处理,以得到目标词向量矩阵,包括:
计算所述第三词向量矩阵中所有第二矩阵元素的第二平均值;
对所述第三词向量矩阵中每个第一矩阵元素减去所述第二平均值,获取第五词向量矩阵;
基于PCA算法对所述第五词向量矩阵进行处理,根据处理结果获取所述第五词向量矩阵的前M个主要成分;
从所述第五词向量矩阵中去除所述前M个主要成分,得到所述候选文本语句的目标词向量矩阵;
其中,所述M为预先设定的正整数。
4.如权利要求1所述的方法,其特征在于,所述根据各预设样本句的原始句向量生成样本句向量矩阵,包括:
根据所述各预设样本句的原始句向量,组成第一句向量矩阵;
计算所述第一句向量矩阵中所有第三矩阵元素的第三平均值;
对所述第一句向量矩阵中每个第三矩阵元素减去所述第三平均值,获取第二句向量矩阵;
基于PCA算法对所述第二句向量矩阵进行处理,根据处理结果获取所述第二句向量矩阵的前G个主要成分;
从所述第二句向量矩阵中去除所述前G个主要成分,得到所述样本句向量矩阵;
其中,G为预先设定的正整数。
5.如权利要求1所述的方法,其特征在于,还包括:
确定与所述目标文本语句对应的操作;
执行与所述目标文本语句相对应的操作。
6.一种结合RPA和AI的文本语句识别装置,其特征在于,包括:
第一获取模块,用于获取待识别的候选文本语句的第一词向量矩阵;
第二获取模块,用于对所述第一词向量矩阵进行降维处理,以获取第二词向量矩阵;
计算模块,用于基于主成分分析算法PCA对所述第二词向量矩阵进行计算,得到第三词向量矩阵;
压缩模块,用于对所述第三词向量矩阵进行降维处理,以得到目标词向量矩阵;
第三获取模块,用于对所述目标词向量矩阵中的词向量进行加权处理,以得到所述候选文本语句的第一句向量,根据各预设样本句的原始句向量生成样本句向量矩阵,基于PCA算法对所述样本句向量矩阵进行处理,根据处理结果获取第一主成分,从所述第一句向量中去除所述第一主成分,得到所述候选文本语句的第二句向量,计算所述第二句向量与各预设样本句之间的欧式距离,将所述欧式距离中的最小欧式距离对应的预设样本语句作为所述候选文本语句对应的目标文本语句。
7.如权利要求6所述的装置,其特征在于,所述第二获取模块,具体用于:
计算所述第一词向量矩阵中所有第一矩阵元素的第一平均值;
对所述第一词向量矩阵中每个第一矩阵元素减去所述第一平均值,获取第四词向量矩阵;
基于PCA算法对所述第四词向量矩阵进行处理,并根据处理结果获取所述第四词向量矩阵的前N个主要成分;
从所述第四词向量矩阵中去除所述前N个主要成分,得到所述候选文本、语句的第二词向量矩阵;
其中,所述N为预先设定的正整数。
8.一种计算机设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储所述处理器的可执行指令,当所述指令被所述处理器执行时,所述处理器执行权利要求1-5中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的方法。
CN202010833635.5A 2020-03-31 2020-08-18 结合rpa和ai的文本语句识别方法、装置、设备及存储介质 Active CN111985209B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010247712 2020-03-31
CN2020102477129 2020-03-31

Publications (2)

Publication Number Publication Date
CN111985209A CN111985209A (zh) 2020-11-24
CN111985209B true CN111985209B (zh) 2024-03-29

Family

ID=73435557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010833635.5A Active CN111985209B (zh) 2020-03-31 2020-08-18 结合rpa和ai的文本语句识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111985209B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177104B (zh) * 2021-04-28 2023-10-03 平安科技(深圳)有限公司 基于自然语言处理的语句筛选方法、装置及计算机设备
CN113761107A (zh) * 2021-09-18 2021-12-07 杭州网易智企科技有限公司 基于问答系统的信息处理方法、介质、装置和计算设备
US11868432B1 (en) 2022-06-16 2024-01-09 Sichuan University Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E)
CN115062702B (zh) * 2022-06-16 2023-09-08 四川大学 基于pca-e的产品感性语义词汇提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN110096697A (zh) * 2019-03-15 2019-08-06 华为技术有限公司 词向量矩阵压缩方法和装置、及获取词向量的方法和装置
CN110347934A (zh) * 2019-07-18 2019-10-18 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110472241A (zh) * 2019-07-29 2019-11-19 平安科技(深圳)有限公司 生成去冗余信息句向量的方法及相关设备
CN110827797A (zh) * 2019-11-06 2020-02-21 北京沃东天骏信息技术有限公司 语音应答事件分类处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN110096697A (zh) * 2019-03-15 2019-08-06 华为技术有限公司 词向量矩阵压缩方法和装置、及获取词向量的方法和装置
CN110347934A (zh) * 2019-07-18 2019-10-18 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110472241A (zh) * 2019-07-29 2019-11-19 平安科技(深圳)有限公司 生成去冗余信息句向量的方法及相关设备
CN110827797A (zh) * 2019-11-06 2020-02-21 北京沃东天骏信息技术有限公司 语音应答事件分类处理方法和装置

Also Published As

Publication number Publication date
CN111985209A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111985209B (zh) 结合rpa和ai的文本语句识别方法、装置、设备及存储介质
CN109522818B (zh) 一种表情识别的方法、装置、终端设备及存储介质
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
CN108509915B (zh) 人脸识别模型的生成方法和装置
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN110659582A (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
CN112183747A (zh) 神经网络训练的方法、神经网络的压缩方法以及相关设备
CN110472002B (zh) 一种文本相似度获取方法和装置
CN110188673B (zh) 表情识别方法和装置
CN109344242B (zh) 一种对话问答方法、装置、设备及存储介质
CN112883149B (zh) 一种自然语言处理方法以及装置
CN114245203B (zh) 基于剧本的视频剪辑方法、装置、设备及介质
EP4336378A1 (en) Data processing method and related device
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
CN109147868B (zh) 蛋白质功能预测方法、装置、设备及存储介质
CN115222950A (zh) 一种面向嵌入式平台的轻量化目标检测方法
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN111144374B (zh) 人脸表情识别方法及装置、存储介质和电子设备
CN117421639A (zh) 多模态数据分类方法、终端设备及存储介质
CN116485943A (zh) 图像生成方法、电子设备及存储介质
CN115794105A (zh) 一种微服务的提取方法、装置以及电子设备
CN112801994B (zh) 骨龄评估方法和系统
CN115544227A (zh) 多模态数据的情感分析方法、装置、设备及存储介质
Shane et al. Sign Language Detection Using Faster RCNN Resnet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 1902, 19 / F, China Electronics Building, 3 Danling Road, Haidian District, Beijing 100080

Applicant after: BEIJING LAIYE NETWORK TECHNOLOGY Co.,Ltd.

Applicant after: Laiye Technology (Beijing) Co.,Ltd.

Address before: 1902, 19 / F, China Electronics Building, 3 Danling Road, Haidian District, Beijing 100080

Applicant before: BEIJING LAIYE NETWORK TECHNOLOGY Co.,Ltd.

Country or region before: China

Applicant before: BEIJING BENYING NETWORK TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant