CN115964458A - 文本的量子线路确定方法、装置、存储介质及电子设备 - Google Patents

文本的量子线路确定方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115964458A
CN115964458A CN202111193343.0A CN202111193343A CN115964458A CN 115964458 A CN115964458 A CN 115964458A CN 202111193343 A CN202111193343 A CN 202111193343A CN 115964458 A CN115964458 A CN 115964458A
Authority
CN
China
Prior art keywords
text
quantum
qubits
text corpus
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111193343.0A
Other languages
English (en)
Inventor
窦猛汉
孔小飞
李蕾
方圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Origin Quantum Computing Technology Co Ltd
Original Assignee
Origin Quantum Computing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Origin Quantum Computing Technology Co Ltd filed Critical Origin Quantum Computing Technology Co Ltd
Priority to CN202111193343.0A priority Critical patent/CN115964458A/zh
Priority to PCT/CN2022/125081 priority patent/WO2023061441A1/zh
Publication of CN115964458A publication Critical patent/CN115964458A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提出一种文本的量子线路确定方法,获取文本语料中各个词汇的词性;根据文本语料的语义获得各个词汇之间的关联性;根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门。从而量子网络技术与文本分类紧密的结合在一起,利用量子线路准确快速地对文本进行分类。

Description

文本的量子线路确定方法、装置、存储介质及电子设备
技术领域
本申请涉及自然语音处理领域,具体而言,涉及一种文本的量子线路确定方法、装置、存储介质及电子设备。
背景技术
随着网络的发展,网络中的数据文本的数量越大。在大数据快速发展的今天,对于网络中的数据文本进行处理的自然语言处理(NLP,Natural Language Processing)被人们所关注。而在自然语言处理中一个很重的分支是文本分类。
量子网络作为当下的前沿技术,在各个领域都在崭露头角。如何将文本分类与量子网络进行结合,成为了当下亟待解决的问题。
发明内容
本申请的目的在于提供一种文本的量子线路确定方法、装置、存储介质及电子设备,以至少部分改善上述问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种文本的量子线路确定方法,所述方法包括:
获取文本语料中各个词汇的词性;
根据文本语料的语义获得各个词汇之间的关联性;
根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门。
可选的,根据文本语料的语义获得各个词汇之间的关联性,包括:
根据文本语料的语义获取表征所述文本语料的显性特征的第一关联性;
根据文本语料的语义获取表征所述文本语料的隐性特征的第二关联性。
可选的,所述根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门,包括:
确定表示每种词性的词汇的子量子比特、以及含参量子逻辑门;
根据所述第一关联性对所述子量子比特进行处理获得表征文本语料结构的总量子比特作为量子线路的量子比特;
根据所述第二关联性确定表征所述文本语料的隐性特征的量子逻辑门。
可选的,所述确定表示每种词性的词汇的子量子比特、以及含参量子逻辑门;包括:
确定名词词性的词汇表征为一个量子比特和依次作用在该量子比特上的Rx(θ)、Rz(θ)和Rx(θ)门;或,
确定形容词词性的词汇表征为两个量子比特和作用在所述两个量子比特上的一个IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门;或,
确定及物动词词性的词汇表征为三个依次相邻的量子比特和作用在两组相邻两个量子比特上的IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门。
可选的,根据所述第一关联性对所述子量子比特进行处理获得表征文本语料结构的总量子比特作为量子线路的量子比特;
对表征具有所述第一关联性的词汇的所述子量子比特进行部分合并处理获得表征文本语料结构的总量子比特作为量子线路的量子比特。
可选的,根据所述第二关联性确定表征所述文本语料的隐性特征的量子逻辑门,包括:
根据所述第二关联性确定表征所述隐性特征的量子逻辑门为H门和CNOT门。
可选的,根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门之前,所述方法还包括:
根据所述文本语料中各个词汇的词性和各个词汇之间的关联性用图表示所述文本语料。
可选的,根据所述文本语料中各个词汇的词性和各个词汇之间的关联性用图表示所述文本语料,包括:
根据所述文本语料中各个词汇的词性和各个词汇之间的关联性确定所述文本语料的结构初始图,所述结构初始图中不同词性的各个词汇水平放置,各个词汇之间的关联性以U型折线表示;
对所述结构初始图进行简化处理得到结构简图,所述结构简图中不同词性的各个词汇错落放置,各个词汇之间的关联性以U型折线或直线表示。
第二方面,本申请实施例提供一种基于量子线路的文本分类方法,所述方法包括:
根据上述的方法构建待分类文本的量子线路;
依据文本语料中各个词汇的含义确定所述量子线路内的含参量子线路的运行化参数值,并运行和获取所述量子线路的运行结果;
依据所述运行结果获取所述文本语料的预测分类结果。
可选的,所述依据文本语料中各个词汇的含义确定所述含参量子线路的初始化参数值之前,所述方法还包括:
训练所述量子线路获得所述各个含义词汇对应的用于确定所述运行化参数值的参数值。
可选的,所述训练所述量子线路获得所述各个含义词汇对应的用于确定所述初始化参数值的参数具体值,包括:依据文本语料中各个词汇的含义确定待训练含参量子线路的初始化参数值,并运行和获取所述待训练量子线路的运行结果;
依据所述运行结果获取所述文本语料的预测分类结果;
根据所述预测分类结果修正所述初始化参数值得到更新参数值,然后重新执行运行和获取所述量子线路的运行结果,依据所述运行结果获取所述文本语料的预测分类结果的步骤,直至预测分类结果接近真实结果;
获得预测分类结果接近真实结果时的更新参数值用于确定所述运行化参数值的参数值。可选的,依据所述运行结果获取所述文本语料的预测分类结果;包括:
根据所述运行结果获得对应真实标签的代价函数,根据代价函数获取所述文本语料的预测分类结果,其中:所述代价函数的定义如下:
C(Θ);=∑L(P)T·log(LΘ(P));
其中,LΘ(P)表征所述运行结果,L(P)表征所述真实标签,C(Θ)表征代价函数。
可选的,根据所述预测分类结果修正所述初始化参数值得到更新参数值,包括:根据所述预测分类结果基于同步扰动随机逼近算法修正所述初始化参数值得到更新参数值。
第三方面,本申请实施例提供一种文本的量子线路确定装置,包括:
第一获取装置,被配置为获取文本语料中各个词汇的词性;
第二获取装置,被配置为根据文本语料的语义获得各个词汇之间的关联性;
确定装置,被配置为根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门。
第四方面,本申请实施例提供一种基于量子线路的文本分类装置,包括:
量子线路确定装置,被配置为上述的方法构建待分类文本的量子线路;
预测单元,被配置为依据文本语料中各个词汇的含义确定所述量子线路内的含参量子线路的运行化参数值,并运行和获取所述量子线路的运行结果,依据所述运行结果获取所述文本语料的预测分类结果。
第五方面,本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
第六方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现上述的方法。
相对于现有技术,本申请实施例所提供的一种文本的量子线路确定方法,获取文本语料中各个词汇的词性;根据文本语料的语义获得各个词汇之间的关联性;根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门。从而量子网络技术与文本分类紧密的结合在一起,利用量子线路准确快速地对文本进行分类。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的一种文本分类方法的流程示意图;
图2为本申请实施例提供的电子设备的结构示意图;
图3为本申请实施例提供的一种文本的量子线路确定方法的流程示意图;
图4为本申请实施例提供的另一种文本的量子线路确定方法的流程示意图;;
图5a为本申请实施例提供的n+tv+n语法类型示意图;
图5b为本申请实施例提供的adj+n+tv+n语法类型示意图;
图5c为本申请实施例提供的n+tv+adj+n语法类型示意图;
图6a为本申请实施例提供的n+tv+n精简后的语法类型示意图;
图6b为本申请实施例提供的adj+n+tv+n精简后的语法类型示意图;
图6c为本申请实施例提供的n+tv+adj+n精简后的语法类型示意图;
图7a为本申请实施例提供的n+tv+n语法类型对应的含参量子线路示意图;
图7b为本申请实施例提供的adj+n+tv+n语法类型对应的含参量子线路示意图;
图7c为本申请实施例提供的n+tv+adj+n语法类型对应的含参量子线路示意图;
图8为本申请实施例提供的一种基于量子线路的文本分类方法的流程示意图之一;
图9为本申请实施例提供的一种文本的量子线路确定装置的单元示意图;
图10为本申请实施例提供的一种基于量子线路的文本分类装置的单元示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
现有技术如图1所示,将原始文本序列信息通过词嵌入(Word Embedding)方式转化为矩阵,将转换获得的矩阵作为下一步神经网络的输入。其中,词嵌入通常采用静态词向量Word2Vec方法完成。或者,将词嵌入得到的矩阵输入到长短时记忆网络(Long ShortTerm Memory,LSTM),进行句子语义特征的学习,通过遗忘、记忆等策略提取句子的深度语义特征,最后通过一层全连接进行情感标签(积极,中立,消极)的输出。
经发明人大量实践和总结发现:当前自然语言处理(nature languageprocessing,NLP)中文分类任务重对于语义构建重算力;当前NLP中文分类任务利用非结构化文本存在的语义信息并不充分,比如文本中词的句法成分等;当前NLP中文文本分类依赖于所有词的语义向量。
为了克服以上问题,本申请实施例提供了一种针对量子友好的中文文本分类方法,可以探索量子计算在语言学中的应用,利于深究语言深度的含义,对于含噪声的中型量子(Noisy Intermediate-Scale Quantum,NISQ)时代,不同于当前的深度学习等AI技术对于语法结构和含义是进行大量的学习习得的。本申请实施例提供的文本分类方法完全是对于文字语言进行直接的编码,从而利用词之间的相互作用进行纠缠得到更加深度和广度的语义和语法的编码。
具体地,本申请实施例提供了一种电子设备,可以是计算机设备或服务器设备。请参照图2,电子设备的结构示意图。电子设备包括处理器10、存储器11、总线12。处理器10、存储器11通过总线12连接,处理器10用于执行存储器11中存储的可执行模块,例如计算机程序。
处理器10可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,文本分类方法的各步骤可以通过处理器10中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器10可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器11可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
总线12可以是ISA(Industry Standard Architecture)总线、PCI(PeripheralComponent Interconnect)总线或EISA(Extended Industry Standard Architecture)总线等。图2中仅用一个双向箭头表示,但并不表示仅有一根总线12或一种类型的总线12。
存储器11用于存储程序,例如文本分类装置对应的程序。文本分类装置包括至少一个可以软件或固件(firmware)的形式存储于存储器11中或固化在电子设备的操作系统(operating system,OS)中的软件功能模块。处理器10在接收到执行指令后,执行所述程序以实现文本分类方法。
可能地,本申请实施例提供的电子设备还包括通信接口13。通信接口13通过总线与处理器10连接。电子设备可以通过通信接口13接收其他终端传输的文本信息。
应当理解的是,图2所示的结构仅为电子设备的部分的结构示意图,电子设备还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
本申请的实施例提供了一种文本的量子线路确定方法,如图3所示,
S31、获取文本语料中各个词汇的词性;
S32、根据文本语料的语义获得各个词汇之间的关联性;其中,关联性包括每一个词汇与文本语料中的其他词汇之间的关系;
S33、根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门。
本实施例通过对文本语料中的各个词汇的词性、各个词汇之间的关联性确定量子线路的量子比特以及含参量子逻辑门,实现了文本语料的量子编码,利用词之间的相互作用进行纠缠得到更具有深度和广度的语义和语法的编码,将更具有深度和广度的语义和语法的编码转换为量子线路。
可以理解的是,具有一定语义的文本语料通常包括表示文本语料结构本身的特征,以及在文本语料中起修饰作用的特征,表示文本语料结构本身的特征为显性特征,而起修饰作用的特征引起的语义变化为隐性特征。
示例性的,“牛吃草”是结构本身的特征,“小牛吃嫩草”,“小”和“嫩”则是在文本语料中起修饰作用的特征。
可选的,步骤S32所述的根据文本语料的语义获得各个词汇之间的关联性,包括:
S321,根据文本语料的语义获取表征所述文本语料的显性特征的第一关联性;
示例性的,根据文本语料的语义获取表征所述文本语料的显性特征的第一关联性,有“小”与“牛”之间的关联性,“牛”与“吃”之间的关联性,“吃”与“草”之间的关联性,“嫩”与“草”之间的关联性。
S322,根据文本语料的语义获取表征所述文本语料的隐性特征的第二关联性;
示例性的,根据文本语料的语义获取表征所述文本语料的隐性特征的第二关联性,有“小”与“吃”之间的关联性,“吃”与“嫩”之间的关联性。
可选的,步骤S33所示的所述根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门,包括:
S331、确定表示每种词性的词汇的子量子比特、以及含参量子逻辑门;
示例性的,确定名词词性的词汇表征为一个量子比特和依次作用在该量子比特上的Rx(θ)、Rz(θ)和Rx(θ)门;或,
确定形容词词性的词汇表征为两个量子比特和作用在所述两个量子比特上的一个IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门;或,
确定及物动词词性的词汇表征为三个依次相邻的量子比特和作用在两组相邻两个量子比特上的IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门。
S332、根据所述第一关联性对所述子量子比特进行处理获得表征文本语料结构的总量子比特作为量子线路的量子比特;
示例性的,对表征具有所述第一关联性的词汇的所述子量子比特进行处理部分合并处理获得表征文本语料结构的总量子比特作为量子线路的量子比特。
S333、根据所述第二关联性确定表征所述文本语料的隐性特征的量子逻辑门。
示例性的根据所述第二关联性确定表征所述文本语料的隐性特征的含参量子逻辑门为H门和CNOT门,通过纠缠门CNOT门实现隐性特征的编码。
可选的,步骤S33根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门之前,如图4所示,所述方法还包括:
S30、根据所述文本语料中各个词汇的词性和各个词汇之间的关联性用图表示所述文本语料。
通过图表示文本语料,然后直接基于图表示的文本语料进行量子线路的映射,相比文本语料转换为向量,在通过向量实现文本语料的量子线路的编码方式,图表示文本语料进行量子线路的编码方便友好容易实现。
可选的,步骤S30所述的根据所述文本语料中各个词汇的词性和各个词汇之间的关联性用图表示所述文本语料,包括:
S301、根据所述文本语料中各个词汇的词性和各个词汇之间的关联性确定所述文本语料的结构初始图,所述结构初始图中不同词性的各个词汇水平放置,各个词汇之间的关联性以U型折线表示;如图5a至图5c所示。
S302、对所述结构初始图进行简化处理得到结构简图,所述结构简图中不同词性的各个词汇错落放置,各个词汇之间的关联性以U型折线或直线表示。如图6a至图6c所示。
然后将图表示的文本语料直接映射为量子线路即可。
映射时,每种词性的词汇映射为对应的子量子比特、以及含参量子逻辑门,并根据第一关联性进行不同词性对应的子量子比特的合并,然后将第二关联性映射为的对应的量子逻辑门。
具体的,名词词性的词汇映射为一个量子比特和依次作用在该量子比特上的Rx(θ)、Rz(θ)和Rx(θ)门;形容词词性的词汇映射为两个量子比特和作用在所述两个量子比特上的一个IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门;及物动词词性的词汇映射为三个依次相邻的量子比特和作用在两组相邻两个量子比特上的IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门。
以图6b到图7b为例进行说明,形容词词性的词汇映射为两个量子比特q3和q4,及作用在所述两个量子比特上的一个IQP层,所述IQP层包括分别作用在量子比特q3和q4上的Hadamard门、以及同时作用在两个量子比特q3和q4上的CRz(θ)门;及物动词词性的词汇映射为三个依次相邻的量子比特q0、q1和q2,作用在相邻两个量子比特q0和q1上的IQP层以及q1和q2上的IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门。主语名词由于与形容词之间存在第一关联关系,所以,映射主语名词的一个量子比特Q4与映射形容词的量子比特q4合并;宾语名词由于与及物动词之间存在第一关联关系,所以,映射宾语名词的一个量子比特Q2与映射及物动词的量子比特q2合并;而形容词和及物动词之间存在第二关联关系,所以将该第二关联关系映射为作用在表征形容词的量子比特q3和表征形容词的量子比特q0;具体的,映射为作用在q3上的H门,以及作用在q3和q0上的CNOT门,由于且在图6b所示的文本预料中,形容词在及物动词之前,其中,q3为CNOT门的控制比特,q0为CNOT门的被控比特。
图6a到图7a、以及图6c到图7c的过程类似图6b到图7b的过程,在此并不展开详细描述。
本申请另一实施例提供的一种基于量子线路的文本分类方法,可以但不限于应用于图2所示的电子设备,具体的流程,请参考图8,文本分类方法包括:S81、S82。
S81,根据上述的文本的量子线路确定方法构建待分类文本的量子线路;
S83,依据文本语料中各个词汇的含义确定所述量子线路内的含参量子线路的运行化参数值,并运行和获取所述量子线路的运行结果,依据所述运行结果获取所述文本语料的预测分类结果。其中,运行结果包括每一次运行量子线路时量子位的输出结果。
本实施例中量子线路不仅仅与词汇的词性、含义相关,还与关联性的关系密切。通过对文字语言进行直接的编码,利用词之间的相互作用进行纠缠得到更具有深度和广度的语义和语法的编码,将更具有深度和广度的语义和语法的编码转换为量子线路。
可以理解地,量子线路包括多个量子位、每一个量子位上设置的逻辑门以及量子位之间设置的逻辑门。
可以理解地,在量子计算机上设置运行量子线路次数,每一次运行量子线路开始时,都将量子线路的输入设置为预先规定的初始状态。在运行结束时,测量量子线路的所有量子位,从而获得运行结果。
综上所述,本申请实施例提供了一种基于量子线路的文本分类方法,根据上述的文本的量子线路确定方法构建待分类文本的量子线路;依据文本语料中各个词汇的含义确定所述量子线路内的含参量子线路的初始化参数值,并运行和获取所述量子线路的运行结果,依据所述运行结果获取所述文本语料的预测分类结果。其中,运行结果包括每一次运行量子线路时量子位的输出结果。从而量子网络技术与文本分类紧密的结合在一起,利用量子线路准确快速地对文本进行分类。
在一种实施例中,对于S81中的内容,本申请实施例还提供了一种可能的实现方式,S81所述的构建待分类文本的量子线路采用如上的文本的量子线路的确定方法进行。
在一种实施例中,在图8的基础上,对于S81中的内容,本申请实施例还提供了一种可能的实现方式,S81所述的构建待分类文本的量子线路包括S81-1、S81-2、S81-3以及S81-4。
S81-1,依据文本语料中各个词汇的词性和关联性确定文本语料对应的句子语法类型。
请参考图5a、图5b以及图5c,图5a、图5b以及图5c分别表示不同的句子语法类型。其中,图5a表示n+tv+n语法类型,图5b表示adj+n+tv+n语法类型,图5c表示n+tv+adj+n语法类型。其中,n为名字,tv为及物动词,adj为形容词。
S81-2,依据句子语法类型确定目标含参量子线路。
其中,目标含参量子线路为与句子语法类型对应的含参量子线路。
需要说明的是,不同的句子语法类型对应不同的含参量子线路。请参考图7a、图7b以及图7c,图7a、图7b以及图7c分别表示不同的含参量子线路。图7a表示n+tv+n语法类型对应的含参量子线路,图7b表示adj+n+tv+n语法类型对应的含参量子线路,图7c表示n+tv+adj+n语法类型对应的含参量子线路。本申请实施例中的含参量子线路也可以理解为带参量子线路。
可以理解地,不同的含参量子线路中量子线路数量和逻辑门排布不同。
S81-3,依据文本语料中各个词汇的含义,确定对目标含参量子线路中的逻辑门的初始参数,完成量子线路的转换。
可以理解地,相同词性的词汇含义可以不同。例如都是名词的学校和家含义不同,都是动词的吃和摔含义不同。以两个句子进行示例说明,小明吃西瓜和小明摔西瓜,两个句子的句子语法类型相同,对应的相同的含参量子线路。但是吃和摔的含义不同,含参量子线路中的逻辑门的初始参数不相同。
在一种可能的实现方式中,受限于当前量子计算机的计算能力,需要对句子类型进行精简。请参考图6a、图6b以及图6c,图6a、图6b以及图6c分别表示精简后不同的句子语法类型。其中,图6a表示n+tv+n精简后的语法类型,图6b表示adj+n+tv+n精简后的语法类型,图6c表示n+tv+adj+n精简后的语法类型。含参量子线路分别与精简后的语法类型对应,避免超出了量子计算机的能力范围外。
请继续参考图7a、图7b以及图7c,含参量子线路包括至少一层作用在所述两个量子比特上的一个IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门。
可以预先设定,名词n=Word('女人',n),使用一个量子比特代表;形容词adj=Word('高兴',n@n.l),使用两个量子比特代表;及物动词tv=Word(款待,n.r@s@n.l),使用三个量子比特代表。请继续参考图7a、图7b以及图7c,及物动词对应的三个量子位通过两个IPQ层作用,形容词对应的两个量子位通过一个IPQ层作用。
一种实施方式中,关于含参量子线路中的逻辑门的初始化参数,可以为adj示例初始化参数[[0.1133103]],n示例初始化参数[0.26733895、0.6874017、0.93166275],tv示例初始化参数[[0.07656308、0.6977936]]。
需要说明的是,图7a、图7b以及图7c中量子线路的线路深度为depth=1,即IQP层数为1,在一种可能的实现方式中线路深度可以更改,在此不做赘述。
可以理解的,句子语法类型对应的含参量子线路的确定过程采用如上的文本的量子线路的确定方法进行。在图8的基础上,可选的,步骤S82所述依据文本语料中各个词汇的含义确定所述含参量子线路的运行化参数值之前,所述方法还包括:
S82,训练所述量子线路获得所述各个含义词汇对应的用于确定所述运行化参数值的参数值。
可以理解的,S82具体包括:
S821,依据文本语料中各个词汇的含义确定待训练含参量子线路的初始化参数值,并运行和获取所述待训练量子线路的运行结果;
S822,依据所述运行结果获取所述文本语料的预测分类结果;
S823,根据所述预测分类结果修正所述初始化参数值得到更新参数值,然后重新执行运行和获取所述量子线路的运行结果,依据所述运行结果获取所述文本语料的预测分类结果的步骤,直至预测分类结果接近真实结果;
S824,获得预测分类结果接近真实结果时的更新参数值用于确定所述运行化参数值的参数值。
可选到的,步骤S822所述依据所述运行结果获取所述文本语料的预测分类结果;包括:
根据所述运行结果获得对应真实标签的代价函数,根据代价函数获取所述文本语料的预测分类结果,其中:所述代价函数的定义如下:
C(Θ):=∑L(P)T·log(LΘ(P));
其中,LΘ(P)表征所述运行结果,L(P)表征所述真实标签,C(Θ)表征代价函数。
需要说明的是,在量子计算中,量子位的一般状态是叠加的线性组合:
Figure BDA0003302069400000131
|0>,|1>表示正交基向量,与测量的运行结果中0和1相关,其中α,β∈C,|α|2+|β|2=1。
概率是由伯恩法则给出,
Figure BDA0003302069400000141
其中P(0)=|α|2,P(1)=|β|2
经过上述步骤每个中文文本的句子已经编码为量子线路,相应输出的量子态用|P(Θ)>|表示,定义运行结果
Figure BDA0003302069400000142
或1,
Figure BDA0003302069400000143
表示通过量子态|0>态表示的运行结果,也可以理解为测量是量子态坍塌到0态对应测测量值,该测量值作为运行结果;
Figure BDA0003302069400000144
表示通过量子态|1>态表示的运行结果,类似的,也可以理解为测量是量子态坍塌到1态对应测测量值,该测量值作为运行结果;从而可以推导出:
Figure BDA0003302069400000145
可选的,步骤S823所述根据所述预测分类结果修正所述初始化参数值得到更新参数值,包括:
根据所述预测分类结果基于同步扰动随机逼近算法修正所述初始化参数值得到更新参数值。
本申请实施例提供的文本分类方法采用量子编码语法-关注词之间的相互作用的语义信息,从而相对于传统的语义编码信息得到更深维度更多元的语义信息。通过少量的量子比特即可实现在经典比特中数以十亿计才能表示的语义向量,从而显现量子优势。
请参阅图9,图9为本申请实施例提供的一种文本的量子线路确定装置,可选的,该文本的量子线路确定装置可被应用于上文所述的电子设备。
文本的量子线路确定装置包括:第一获取装置91、第二获取装置92和确定装置93。
第一获取装置91,被配置为获取文本语料中各个词汇的词性;
第二获取装置92,被配置为根据文本语料的语义获得各个词汇之间的关联性;
确定装置93,被配置为根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门。
请参阅图10,图10为本申请实施例提供的一种基于量子线路的文本分类装置,可选的,该文本分类装置可被应用于上文所述的电子设备。
文本的量子线路确定装置包括:
量子线路确定装置101和预测单元102。
量子线路确定装置101,被配置为根据上述的方法构建待分类文本的量子线路;
预测单元102,被配置为依据文本语料中各个词汇的含义确定所述量子线路内的含参量子线路的运行化参数值,并运行和获取所述量子线路的运行结果,依据所述运行结果获取所述文本语料的预测分类结果。
需要说明的是,本实施例所提供的文本分类装置,其可以执行上述方法流程实施例所示的方法流程,以实现对应的技术效果。为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。
本申请实施例还提供了一种存储介质,该存储介质存储有计算机指令、程序,该计算机指令、程序在被读取并运行时执行上述实施例的文本分类方法。该存储介质可以包括内存、闪存、寄存器或者其结合等。
下面提供一种电子设备,可以是计算机或服务器设备,该电子设备如图2所示,可以实现上述的文本分类方法;具体的,该电子设备包括:处理器10,存储器11、总线12。处理器10可以是CPU。存储器11用于存储一个或多个程序,当一个或多个程序被处理器10执行时,执行上述实施例的文本分类方法。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (17)

1.一种文本的量子线路确定方法,其特征在于,所述方法包括:
获取文本语料中各个词汇的词性;
根据文本语料的语义获得各个词汇之间的关联性;
根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门。
2.如权利要求1所述的方法,其特征在于,根据文本语料的语义获得各个词汇之间的关联性,包括:
根据文本语料的语义获取表征所述文本语料的显性特征的第一关联性;
根据文本语料的语义获取表征所述文本语料的隐性特征的第二关联性。
3.如权利要求2所述的方法,其特征在于,所述根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门,包括:
确定表示每种词性的词汇的子量子比特、以及含参量子逻辑门;
根据所述第一关联性对所述子量子比特进行处理获得表征文本语料结构的总量子比特作为量子线路的量子比特;
根据所述第二关联性确定表征所述文本语料的隐性特征的量子逻辑门。
4.如权利要求3所述的方法,其特征在于,所述确定表示每种词性的词汇的子量子比特、以及含参量子逻辑门;包括:
确定名词词性的词汇表征为一个量子比特和依次作用在该量子比特上的Rx(θ)、Rz(θ)和Rx(θ)门;或,
确定形容词词性的词汇表征为两个量子比特和作用在所述两个量子比特上的一个IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门;或,
确定及物动词词性的词汇表征为三个依次相邻的量子比特和作用在两组相邻两个量子比特上的IQP层,其中:所述IQP层包括分别作用在每个量子比特上的Hadamard门、以及同时作用在两个量子比特上的CRz(θ)门。
5.如权利要求3所述的方法,其特征在于,根据所述第一关联性对所述子量子比特进行处理获得表征文本语料结构的总量子比特作为量子线路的量子比特;
对表征具有所述第一关联性的词汇的所述子量子比特进行部分合并处理获得表征文本语料结构的总量子比特作为量子线路的量子比特。
6.如权利要求3所述的方法,其特征在于,根据所述第二关联性确定表征所述文本语料的隐性特征的量子逻辑门,包括:
根据所述第二关联性确定表征所述隐性特征的量子逻辑门为H门和CNOT门。
7.如权利要求1-6任一项所述的方法,其特征在于,根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门之前,所述方法还包括:
根据所述文本语料中各个词汇的词性和各个词汇之间的关联性用图表示所述文本语料。
8.如权利要求7所述的方法,其特征在于,根据所述文本语料中各个词汇的词性和各个词汇之间的关联性用图表示所述文本语料,包括:
根据所述文本语料中各个词汇的词性和各个词汇之间的关联性确定所述文本语料的结构初始图,所述结构初始图中不同词性的各个词汇水平放置,各个词汇之间的关联性以U型折线表示;
对所述结构初始图进行简化处理得到结构简图,所述结构简图中不同词性的各个词汇错落放置,各个词汇之间的关联性以U型折线或直线表示。
9.一种基于量子线路的文本分类方法,其特征在于,所述方法包括:
根据权利要求1-8任一项所述的方法构建待分类文本的量子线路;
依据文本语料中各个词汇的含义确定所述量子线路内的含参量子线路的运行化参数值,并运行和获取所述量子线路的运行结果;
依据所述运行结果获取所述文本语料的预测分类结果。
10.如权利要求9所述的文本分类方法,其特征在于,所述依据文本语料中各个词汇的含义确定所述含参量子线路的初始化参数值之前,所述方法还包括:
训练所述量子线路获得所述各个含义词汇对应的用于确定所述运行化参数值的参数值。
11.如权利要求10所述的文本分类方法,其特征在于,所述训练所述量子线路获得所述各个含义词汇对应的用于确定所述初始化参数值的参数具体值,包括:依据文本语料中各个词汇的含义确定待训练含参量子线路的初始化参数值,并运行和获取所述待训练量子线路的运行结果;
依据所述运行结果获取所述文本语料的预测分类结果;
根据所述预测分类结果修正所述初始化参数值得到更新参数值,然后重新执行运行和获取所述量子线路的运行结果,依据所述运行结果获取所述文本语料的预测分类结果的步骤,直至预测分类结果接近真实结果;
获得预测分类结果接近真实结果时的更新参数值用于确定所述运行化参数值的参数值。
12.如权利要求11所述的文本分类方法,其特征在于,依据所述运行结果获取所述文本语料的预测分类结果;包括:
根据所述运行结果获得对应真实标签的代价函数,根据代价函数获取所述文本语料的预测分类结果,其中:所述代价函数的定义如下:
C(Θ);=∑L(P)T·log(LΘ(P));
其中,LΘ(P)表征所述运行结果,L(P)表征所述真实标签,C(Θ)表征代价函数。
13.如权利要求11所述的文本分类方法,其特征在于,根据所述预测分类结果修正所述初始化参数值得到更新参数值,包括:
根据所述预测分类结果基于同步扰动随机逼近算法修正所述初始化参数值得到更新参数值。
14.一种文本的量子线路确定装置,其特征在于,包括:
第一获取装置,被配置为获取文本语料中各个词汇的词性;
第二获取装置,被配置为根据文本语料的语义获得各个词汇之间的关联性;
确定装置,被配置为根据所述词性和所述关联性确定量子线路的量子比特以及含参量子逻辑门。
15.一种基于量子线路的文本分类装置,其特征在于,包括:
量子线路确定装置,被配置为根据权利要求1-8任一项所述的方法构建待分类文本的量子线路;
预测单元,被配置为依据文本语料中各个词汇的含义确定所述量子线路内的含参量子线路的运行化参数值,并运行和获取所述量子线路的运行结果,依据所述运行结果获取所述文本语料的预测分类结果。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8或9-13中任一项所述的方法。
17.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现如权利要求1-8或9-13中任一项所述的方法。
CN202111193343.0A 2021-10-13 2021-10-13 文本的量子线路确定方法、装置、存储介质及电子设备 Pending CN115964458A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111193343.0A CN115964458A (zh) 2021-10-13 2021-10-13 文本的量子线路确定方法、装置、存储介质及电子设备
PCT/CN2022/125081 WO2023061441A1 (zh) 2021-10-13 2022-10-13 文本的量子线路确定方法、文本分类方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111193343.0A CN115964458A (zh) 2021-10-13 2021-10-13 文本的量子线路确定方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115964458A true CN115964458A (zh) 2023-04-14

Family

ID=87360405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111193343.0A Pending CN115964458A (zh) 2021-10-13 2021-10-13 文本的量子线路确定方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115964458A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556817A (zh) * 2024-01-10 2024-02-13 国开启科量子技术(安徽)有限公司 基于量子电路的文本检测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200192970A1 (en) * 2018-12-14 2020-06-18 Western Digital Technologies, Inc. Hardware Accelerated Discretized Neural Network
US20200342344A1 (en) * 2019-04-25 2020-10-29 International Business Machines Corporation Quantum circuit optimization using machine learning
CN112765355A (zh) * 2021-01-27 2021-05-07 江南大学 基于改进的量子行为粒子群优化算法的文本对抗攻击方法
CN113094486A (zh) * 2021-04-12 2021-07-09 天津大学 一种量子干涉启发的文本问答匹配系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200192970A1 (en) * 2018-12-14 2020-06-18 Western Digital Technologies, Inc. Hardware Accelerated Discretized Neural Network
US20200342344A1 (en) * 2019-04-25 2020-10-29 International Business Machines Corporation Quantum circuit optimization using machine learning
CN112765355A (zh) * 2021-01-27 2021-05-07 江南大学 基于改进的量子行为粒子群优化算法的文本对抗攻击方法
CN113094486A (zh) * 2021-04-12 2021-07-09 天津大学 一种量子干涉启发的文本问答匹配系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOLEI NIU ET AL.: ""Bi-Directional LSTM with Quantum Attention Mechanism for Sentence Modeling"", 《SPRINGER INTERNATIONAL PUBLISHING AG 2017》, 31 December 2017 (2017-12-31) *
沙尔旦尔・帕尔哈提;米吉提・阿不里米提;艾斯卡尔・艾木都拉;: "基于稳健词素序列和LSTM的维吾尔语短文本分类", 中文信息学报, no. 01, 15 January 2020 (2020-01-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556817A (zh) * 2024-01-10 2024-02-13 国开启科量子技术(安徽)有限公司 基于量子电路的文本检测方法、装置、设备及介质
CN117556817B (zh) * 2024-01-10 2024-05-24 国开启科量子技术(安徽)有限公司 基于量子电路的大模型生成文本检测方法、装置、设备

Similar Documents

Publication Publication Date Title
US11182562B2 (en) Deep embedding for natural language content based on semantic dependencies
US20230196127A1 (en) Method and device for constructing legal knowledge graph based on joint entity and relation extraction
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN111274394B (zh) 一种实体关系的抽取方法、装置、设备及存储介质
CN112528672A (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
CN111680159A (zh) 数据处理方法、装置及电子设备
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113128227A (zh) 实体抽取方法及装置
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN110298038A (zh) 一种文本打分方法及装置
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
US20210064820A1 (en) Machine learning lexical discovery
US20210073466A1 (en) Semantic vector rule discovery
CN115964458A (zh) 文本的量子线路确定方法、装置、存储介质及电子设备
WO2023061441A1 (zh) 文本的量子线路确定方法、文本分类方法及相关装置
CN113705207A (zh) 语法错误识别方法及装置
Chimalamarri et al. Linguistically enhanced word segmentation for better neural machine translation of low resource agglutinative languages
Moharil et al. Tabasco: A transformer based contextualization toolkit
KR100858035B1 (ko) 형태소 분석용 다차원 해석 사전 구축 방법 및 그 다차원해석 사전 구축 장치
CN113673247A (zh) 基于深度学习的实体识别方法、装置、介质及电子设备
Rocchietti et al. FANCY: A Diagnostic Data-Set for NLI Models.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 230088 6th floor, E2 building, phase II, innovation industrial park, 2800 innovation Avenue, Hefei high tech Zone, Hefei City, Anhui Province

Applicant after: Benyuan Quantum Computing Technology (Hefei) Co.,Ltd.

Address before: 230088 6th floor, E2 building, phase II, innovation industrial park, 2800 innovation Avenue, Hefei high tech Zone, Hefei City, Anhui Province

Applicant before: ORIGIN QUANTUM COMPUTING COMPANY, LIMITED, HEFEI

CB02 Change of applicant information