CN117556817A - 基于量子电路的文本检测方法、装置、设备及介质 - Google Patents

基于量子电路的文本检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN117556817A
CN117556817A CN202410033075.3A CN202410033075A CN117556817A CN 117556817 A CN117556817 A CN 117556817A CN 202410033075 A CN202410033075 A CN 202410033075A CN 117556817 A CN117556817 A CN 117556817A
Authority
CN
China
Prior art keywords
quantum
word
list
text
suffix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410033075.3A
Other languages
English (en)
Other versions
CN117556817B (zh
Inventor
曾祥洪
师静姝
周卓俊
罗乐
陈柳平
李杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qike Quantum Technology Zhuhai Co ltd
Guokaike Quantum Technology Anhui Co ltd
Original Assignee
Qike Quantum Technology Zhuhai Co ltd
Guokaike Quantum Technology Anhui Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qike Quantum Technology Zhuhai Co ltd, Guokaike Quantum Technology Anhui Co ltd filed Critical Qike Quantum Technology Zhuhai Co ltd
Priority to CN202410033075.3A priority Critical patent/CN117556817B/zh
Publication of CN117556817A publication Critical patent/CN117556817A/zh
Application granted granted Critical
Publication of CN117556817B publication Critical patent/CN117556817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • G06N10/20Models of quantum computing, e.g. quantum circuits or universal quantum computers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的基于量子电路的文本检测方法、装置、设备及介质,涉及量子计算及大模型监控技术领域,其中,基于量子电路的文本检测方法通过获取原始文本中与当前分词匹配的多个后缀词,生成后缀词列表;利用量子电路,从后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表;将出现概率最大的分词作为当前分词的后缀词替换当前分词原始的后缀词,生成检测文本;对检测文本进行检测,判断原始文本是否为大模型生成的文本,节省了大量的计算资源和时间,提高了效率、降低了成本,实现了采用技术手段对大模型使用的监控,有助于控制大模型的滥用,同时实现了数字取证。

Description

基于量子电路的文本检测方法、装置、设备及介质
技术领域
本发明涉及量子计算及大模型监控技术领域,尤其涉及一种基于量子电路的文本检测方法、装置、设备及介质。
背景技术
近些年来,随着人工智能的飞速发展,大模型如GPT-3模型、BERT模型、文心一言等已经在多个领域取得了令人瞩目的成果,从文本处理到自然语言处理再到图像处理,大模型的应用已经深入到人们日常生活的方方面面。随着大模型在各个领域的广泛应用,容易导致大模型的滥用,如何确定输出内容的来源成为了一个日益重要的问题。在许多情况下,用户可能会怀疑某些内容是否由大模型生成。例如,由于缺少相关检测手段而引起大模型的滥用,导致新闻报道、学术研究或其他重要的公共声明都有可能是由大模型生成的,而不是由真实的人创作的。
当前的文本检测方式主要依靠传统的优化算法,该方式需要反复对参数进行优化,占用了大量的计算资源和时间,效率低、成本高。
发明内容
有鉴于此,本发明实施例提供一种基于量子电路的文本检测方法、装置、设备及介质,用于判断文本是否由大模型生成,以实现对大模型的使用进行监控。
第一方面,本发明实施例提供的水印文本检测方法包括以下步骤:
获取原始文本中与当前分词匹配的多个后缀词,生成后缀词列表。
利用量子电路,从所述后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表。
分别计算所述绿名单分词列表中各个分词的出现概率。
将出现概率最大的分词作为所述当前分词的后缀词替换所述当前分词原始的后缀词,生成检测文本。
对所述检测文本进行检测,判断所述原始文本是否为大模型生成的文本。
在一些示例中,所述量子电路包括:
第一子电路,包括顺序作用于第一量子比特q0的量子H门及第一量子旋转门,其中,第一量子旋转门的相位参数为γ,γ为变量且0<γ<0.1;
第二子电路,包括顺序作用于第二量子比特q1的CNOT门及第二量子旋转门,其中,第二量子旋转门的相位参数为δ,δ为变量且0<δ<10;
计算子电路,作用于第一量子比特q0及第二量子比特q1,用于计算哈密顿量的本征值。
在一些示例中,所述计算子电路还用于:
基于变分量子本征求解器(Variational Quantum Eigensolver,简称VQE算法),所述计算子电路计算哈密顿量W的本征值及所述哈密顿量W的本征值对应的所述第一量子旋转门的相位参数γ的值、所述第二量子旋转门的相位参数δ的值,其中,W=-w1z+w2γ+w3δ+w4d,其中,w1、w2、w3、w4为常数,分别代表第一权重、第二权重、第三权重及第四权重,d为所述原始文本与水印文本之间的编辑距离,z为统计量且z=N-γ×T/sqrt(T×γ×(1-γ)),N为所述绿名单分词列表中绿名单分词的总数,T为所述后缀词列表中分词的总数。
在一些示例中,利用量子电路,从所述后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表包括:
分别原始化第一量子比特q0及第二量子比特q1
通过所述量子H门对原始化后的第一量子比特q0执行量子H门操作;
利用所述第一量子旋转门对经过量子H门操作后的第一量子比特q0执行量子旋转门操作;
将经过量子旋转门操作后的第一量子比特q0输入所述计算子电路;
通过所述CNOT门对第二量子比特q1执行CNOT门操作,其中:
经过所述量子H门操作的第一量子比特q0为所述CNOT门的控制量子比特,所述第二量子比特q1作为所述CNOT门的目标量子比特;
利用所述第二量子旋转门对经过CNOT门操作后的第二量子比特q1执行量子旋转门操作,将经过量子旋转门操作后的第二量子比特q1输入所述计算子电路;
基于VQE算法,所述计算子电路计算所述哈密顿量W的本征值及与所述哈密顿量W的本征值匹配的相位参数γ的值γ1的及相位参数δ的值δ1
从所述后缀词列表中随机选取数量比例为γ1的后缀词作为绿名单分词,生成绿名单分词列表。
在一些示例中,分别计算所述绿名单分词列表中各个分词的出现概率包括:
分别计算所述所述绿名单分词列表中各个分词的第一logits值;
将值δ1分别与各个分词的第一logits值相加,得到各个分词的第二logits值;
对各个分词的第二logits值进行归一化处理,得到各个分词的出现概率。
在一些示例中,对所述检测文本进行检测,判断所述原始文本是否为大模型生成的文本包括:
根据公式z1=N-γ1×T/sqrt(T×γ1×(1-γ1)),判断z1的值是否大于设定的阈值,若是,则确定所述原始文本为大模型生成。
在一些示例中,所述第一量子旋转门及所述第二量子旋转门均为量子Z门。
第二方面,本发明实施例提供的基于量子电路的文本检测装置包括:
获取模块,被配置为获取原始文本中与当前分词匹配的多个后缀词,生成后缀词列表。
选取模块,被配置为利用量子电路,从所述后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表。
计算模块,还被配置分别计算所述绿名单分词列表中各个分词的出现概率。
替换模块,被配置为将出现概率最大的分词作为所述当前分词的后缀词替换所述当前分词原始的后缀词,生成检测文本。
判断模块,被配置为对所述检测文本进行检测,判断所述原始文本是否为大模型生成的文本。
第三方面,本发明实施例提供的计算设备包括处理器以及存储有计算机程序指令的存储器,其中,所述处理器执行所述计算机程序指令时实现如第一方面所述的基于量子电路的文本检测方法。
第四方面,本发明实施例提供的计算机可读存储介质中存储有计算机指令,当所述计算机指令被处理器执行时实现如第一方面所述的基于量子电路的文本检测方法。
与现有技术相比,本发明实施例提供的基于量子电路的文本检测方法、装置、设备及介质具有以下有益效果:
(1)基于量子电路并利用VQE算法的并行处理和高效计算能力,无需对大模型进行反复训练或参数调优即可实现水印文本的嵌入及原始文本的检测,节省了大量的计算资源和时间,提高了效率、降低了成本;
(2)基于VQE算法优化的水印文本嵌入技术,可以在大模型环境中实现高精度的文本检测,确保检测结果的真实性和文本的来源可追溯,实现了数字取证;
(3)实现了在技术手段上对大模型的使用情况进行监控,有助于控制大模型的滥用。
附图说明
为了更清楚地说明本发明实施例的技术方案,以下对本发明实施例中的附图作简单介绍。
图1是根据本发明一个实施例提供的基于量子电路的文本检测方法流程示意图。
图2是根据本发明一个实施例提供的量子电路示意图。
图3是根据本发明一个实施例提供的统计量z分别与相位参数γ及相位参数δ之间的函数关系示意图。
图4是根据本发明一个实施例提供的文本的信息熵与文本之间的编辑距离之间的函数关系示意图。
图5是根据本发明一个实施例提供的基于量子电路的文本检测系统结构示意图。
图6是根据本发明一个实施例的作为经典计算设备的电子设备的原理框图。
具体实施方式
以下将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,提供这些实施方式的目的是为了使本发明的原理和精神更加清楚和透彻,使本领域技术人员能够更好地理解进而实现本发明的原理和精神。本文中提供的示例性实施方式仅是本发明的一部分实施方式,而不是全部的实施方式。基于本文中的实施方式,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
在本文中,诸如第一、第二、第三之类的用语,仅用来将一个实体(或操作)与另一个实体(或操作)区分开来,而不在于要求或暗示这些实体(或操作)之间存在任何顺序或关联。
以下对本发明实施例中可能涉及的概念和技术术语等相关内容进行简要描述。
在经典计算中,信息的基本单元为比特(Bit),一个Bit只有两个值:“0”或“1”。而在量子计算中,信息的基本单位是量子比特(Qubit)。基于量子力学定律,量子比特存在两个基本状态:和/>,一个Qubit可以是两个基态的线性组合,常被称为叠加态(Superposition),在数学上表示为:/>。其中,|ψ>为量子态,a和b是两个复数,满足|a|2+|b|2=1,因此也被称为概率幅。在经典计算中,通常使用电路来实现计算,电路中包括逻辑门。对应地,量子计算中采用量子电路和量子门来控制量子信息实现量子计算,任意一个量子门都可以采用一个酉矩阵表示。
量子计算中常用的量子门包括单Qubit门和多Qubit门。其中,单Qubit门例如有量子Rx门、量子Ry门、量子Rz门、量子H门、量子Pauli-X 门、量子Pauli-Z 门等等。以量子Ry门为例,量子Ry门全称Rotation y-axis门,是围绕 y 轴旋转一个角度 θ(弧度)的单Qubit操作。H门全称Hadamard门,能把基态向量映射到/>,把基态/>向量映射到/>,从而创建两个基态的相等叠加。量子Z门全称Pauli-Z门,Pauli-Z门是从向量空间上或布洛赫球体模型上看,围绕 Z 轴旋转 π 弧度的单量子比特操作。量子X门也叫做NOT门,即非门,可以用来对Qubit进行取反操作(从向量空间上或布洛赫球体模型上看就是围绕x轴进行反转或旋转/>弧度),即/>,物理上可以用符号/>或/>来表示。其矩阵形式为:/>。量子电路中,量子H门的矩阵表示为:
量子Z门为带参量子门,可根据需要改变量子Z门的旋转角度;CNOT门的矩阵表示为:
多Qubit门例如有CNOT门。CNOT门全称Control NOT门,是一个双Qubit操作,其中第一个Qubit通常称为控制Qubit,第二个Qubit称为目标Qubit。 以基态表示CNOT 门:当控制Qubit处于状态 时,保持控制Qubit不变并对目标Qubit执行 X 门操作;当控制Qubit处于状态/> 时,目标Qubit保持不变。
在量子计算领域,量子电路是一种量子计算模型,表示在抽象概念下对量子比特进行操作的电路,该电路中包括量子比特、电路(时间线)以及各种逻辑门,最后通过量子测量将测量值读取出来。
由于组成量子电路的每一个量子门都可以由矩阵表示,因而在量子电路中量子门对量子比特的作用或称为操作,可以表示成各个量子门之间的矩阵乘积。
图1是根据本发明一个实施例的基于量子电路的的水印文本检测方法流程示意图。本实施例中的基于量子电路的文本检测方法包括以下步骤:
S101,获取原始文本中与当前分词匹配的多个后缀词,生成后缀词列表。
具体地,针对语句“The pear is very fresh”的原始文本“The pear ”中的当前分词“The”,与“The”匹配的后缀词包括“apple”、“banana”、“cherry”、“date”、“elderberry”、“fig”、“grape”、“honeydew”,则当前分词“The”对应的后缀词列表为:{apple, banana, cherry, date, elderberry, fig, grape, honeydew},该分词列表的长度大小是8。
S102,利用量子电路,从后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表。
具体地,针对后缀词列表{apple, banana, cherry, date, elderberry, fig,grape, honeydew},基于当前分词预设的哈希值及随机数发生器生成的随机数,选取{apple, banana, cherry, date}4个分词作为绿名单分词列表,剩余的{fig, grape,honeydew}4个分词作为红名单分词列表。
在一些示例中,如图2所示,该量子电路包括:
第一子电路,包括顺序作用于第一量子比特q0的量子H门及第一量子旋转门,其中,第一量子旋转门的相位参数(旋转角度)为γ,γ为变量且0<γ<0.1。
第二子电路,包括顺序作用于第二量子比特q1的CNOT门及第二量子旋转门,其中,第二量子旋转门的相位参数为δ,δ为变量且0<δ<10。
在一些示例中,第一量子旋转门与第二量子旋转门均为量子Z门。
计算子电路,作用于第一量子比特q0及第二量子比特q1,用于计算哈密顿量的本征值。
具体地,计算哈密顿量的本征值的具体过程如下:
构建哈密顿量;
定义一个参数化的量子电路EfficientSU2;
使用SLSQP作为优化器;
运行 VQE算法,使用优化器和量子电路来获取哈密顿量的本征值(最小能量值)。
其中,具体地,如图2所示,EfficientSU2是一种特殊的参数化量子电路,该量子电路包含了一些单量子比特门以及一些两量子比特 CNOT 门。对于EfficientSU2的每一层,每个量子比特都会应用两个参数化的旋转门:量子Rx门及量子Ry门,所以对于2个量子比特,每一层都有4个参数。由于每一层都被重复了3次,所以总的参数数量就是4 * 3 = 12。但由于EfficientSU2在每个重复块的最后都增加了一个额外的旋转层,因此实际上在2个量子比特电路中总共有4个块(3个重复的块和一个额外的旋转层),每个块里都有4个参数,所以实际上有4 * 4 = 16个参数,对应于θ(0)到θ(15)。这样设计的目的是为了增加量子电路的表达能力,使得电路能够表示出更大的函数空间,以便为复杂的问题找到解。利用VQE算法,可以获取这些相位参数的最佳值,使得对应的量子态是哈密顿量的基态。为了获取这些参数的最佳值,使用了优化器SLSQP。优化器会尝试不同的参数,并使用量子电路来估计对应的能量值。在多次迭代中,优化器SLSQP根据得到的能量值调整参数,直到找到一个使能量值最小化的参数集。
在一些示例中,计算子电路具体还用于:
基于VQE算法,计算子电路计算哈密顿量W的本征值及哈密顿量W的本征值对应的第一量子旋转门的相位参数γ的值、第二量子旋转门的相位参数δ的值,其中,哈密顿量W=-w1z+w2γ+w3δ+w4d,其中,w1、w2、w3、w4为常数,分别代表第一权重、第二权重、第三权重及第四权重,d为原始文本与水印文本之间的编辑距离,z为统计量且z=N-γ×T/sqrt(T×γ×(1-γ)),N为所述绿名单分词列表中绿名单分词的总数,T为后缀词列表中分词的总数。
其中,VQE算法的目标是找到一个参数化的量子态 ,以得到期望值E(θ),/>。其中,W 为预先定义的哈密顿量,而 θ是量子电路的参数。在本实施例中,θ为δ和γ的值,不过通常需要对δ和γ做一次归一化变换,使得δ和γ的值在0到2π之间。
具体地,如图3所示,当W=-w1z+w2γ+w3δ+w4d时,在γ及δ的值越来越小时,z值越来越大,就越容易检测到原始文本是否为大模型生成的。在该情况下,即使原始文本的语义改变较小,也能检测到原始文本是否为大模型生成的。其中,图3中显示的γ值是在实际值的基础上放大了100倍。所以说,本实施例提供的基于量子电路的文本检测方法可以在大模型环境中实现高精度的文本检测,确保检测结果的真实性和来源可追溯,实现了数字取证。
具体地,编辑距离d的大小代表原始文本与水印文本之间表达含义的差异的大小,编辑距离d越小,说明代表原始文本与水印文本之间语义的差异就越小。如图4所示,原始文本的信息熵e越大,原始文本与水印文本之间的编辑距离d就越小,对原始文本的影响就越小。其中,编辑距离又称Levenshtein距离,是用于量化两个字符串之间差异的一个度量。这个度量定义为将一个字符串转换为另一个字符串所需的最小单字符编辑操作的数量,其中编辑操作包括插入、删除和替换。编辑距离的具体计算过程如下:
设定d[i][j]为字符串 A 的前 i 个字符与字符串 B 的前 j 个字符之间的编辑距离。可以用以下步骤计算 d[i][j]:
d[0][0]= 0 (两个空字符串的距离为0);
d[i][0]= i (字符串 A 的前 i 个字符与空字符串之间的距离是 i);
d[0][j]= j (空字符串与字符串 B 的前 j 个字符之间的距离是 j)。
对于 i = 1 到 A 的长度,j = 1 到 B 的长度:
如果 A[i] == B[j],则 d[i][j]= d[i-1][j-1],
否则,d[i][j]= min(d[i-1][j]+ 1。
针对单词:"kitten" 和 "sitting",初始化矩阵(d[i][j]):
| | | s | i | t | t | i | n | g |
| | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| k | 1 | | | | | | | |
| i | 2 | | | | | | | |
| t | 3 | | | | | | | |
| t | 4 | | | | | | | |
| e | 5 | | | | | | | |
| n | 6 | | | | | | | |。
在上述例子中,编辑距离是3,编辑步骤为:
kitten → sitten (替换 'k' 为 's');
sitten → sitten (替换 'e' 为 'i');
sitten → sitting (在最后插入 'g')。
这样,从 "kitten" 变换到 "sitting" 需要三步编辑操作。因此,"kitten" 和 "sitting" 之间的编辑距离是 3。
计算每个位置的距离(根据上述规则填充矩阵)。最终,d[6][7](即右下角的值)将是需要的编辑距离。
其中,利用VQE算法,可获取哈密顿量W的本征值。在量子计算背景下,VQE算法被用于获取哈密顿量W的基态(或称为本征态),该基态通常对应于量子系统的最低能量态。
具体地,VQE算法是一种用于获取哈密顿量本征值的算法。该算法的核心思想是使用一个参数化的量子电路(通常称为ansatz)来准备一个量子态,并通过调整量子电路的参数来最小化期望值。
基于量子电路并利用VQE算法的并行处理和高效计算能力,仅需要找到期望值的本征态即可实现对参数的优化,实现了对现有水印文本嵌入技术进行优化,无需再对参数进行优化即可实现水印文本的嵌入及原始文本的检测,即无需反复对参数进行优化,节省了大量的计算资源和时间,提高了效率、降低了成本;由于VQE算法复杂度较低,可快速确定哈密顿量W的本征值及与该本征值匹配的参数集且由于VQE算法开源,可以免费使用,进一步提高了效率、降低了成本。
具体地,VQE算法的工作原理如下:
选择一个参数化量子电路ansatz,该量子电路通常包含一些旋转门,这些旋转门的旋转角度是θ;
使用当前的旋转角度(例如θ)运行量子电路,准备一个量子态;
计算该量子态下哈密顿量的期望值;
使用经典优化算法调整旋转角度θ,以最小化哈密顿量的期望值;
重复上述步骤,直到达到所需的精度或满足其他停止条件。
在一些示例中,步骤S102具体包括以下步骤:
分别原始化第一量子比特q0及第二量子比特q1
通过所述量子H门对原始化后的第一量子比特q0执行量子H门操作;
将γ作为相位参数输入第一量子旋转门并通过所述第一量子旋转门对经过量子H门操作后的第一量子比特q0执行量子旋转门操作;
将经过量子旋转门操作后的第一量子比特q0输入所述计算子电路;
通过所述CNOT门对第二量子比特q1执行CNOT门操作,其中:
经过所述量子H门操作的第一量子比特q0为所述CNOT门的控制量子比特,所述第二量子比特q1作为所述CNOT门的目标量子比特;
将δ作为相位参数输入第二量子旋转门并通过所述第二量子旋转门对经过CNOT门操作后的第二量子比特q1执行量子旋转门操作,将经过量子旋转门操作后的第二量子比特q1输入所述计算子电路;
所述计算子电路基于VQE算法,得到所述哈密顿量W的本征值及与所述哈密顿量W的本征值匹配的相位参数γ的值γ1的及相位参数δ的值δ1
从所述后缀词列表中随机选取数量比例为γ1的后缀词作为绿名单分词,生成绿名单分词列表。
具体地,上述步骤S102包括各个步骤仅涉及第一量子比特和第二量子比特进行了一次量子计算的过程。在实际应用过程中,各个子电路可以分别对应多个量子比特,而不仅限于单个量子比特,本案的量子电路只是简化成了单量子比特来说明情况。同时,上述的过程会被重复多次,从而最终得到哈密顿量W的本征值及与哈密顿量W的本征值匹配的相位参数γ的值γ1的及相位参数δ的值δ1
具体地,首先将第一量子比特及第二量子比特/>的状态原始化为/>并将状态/>作为原始状态,由第一量子比特/>、第二量子比特/>组成的量子系统的状态/>可以表示为:/>
当第一量子比特处于状态/>时,执行第一CNOT门操作后,第一量子比特/>状态不变,仍为状态/>,此时对第二量子比特/>执行量子旋转 门操作;当第一量子比特/>处于状态 /> 时,执行第一CNOT门操作后,第二量子比特/>不变。即第一CNOT门操作会根据第一量子比特/>的状态是否为向量/>而决定是否改变第二量子比特/>的状态。
特别地,其他类型的计算设备同样能够实现图2所示的量子电路。例如,光量子计算机包括单光子源、单光子控制开关电路、光学回路及光子探测器。其中,单光子源产生作为量子的光子,并通过单光子控制开关电路将光子发送到光学回路中。光学回路实现各种量子逻辑门,当光子依次经过光学回路中的各种量子逻辑门时完成相应的量子计算,完成量子计算的光子由光子探测器测量,得到相应的测量值,并由光子探测器将光信号转换成电信号发送给经典计算设备。当应用光量子计算机实现图2中的量子电路时,单光子源的输出端共有两个,分别产生作为第一量子比特、第二量子比特/>的两个光子,光学回路及光子探测器共形成两个支路,分别对应于第一子电路和第二子电路,从而得到了图2所示的量子电路。其它类型的计算设备,如超导量子计算机、中性原子量子计算机等等同样能够实现图2所示的量子电路,在此不再赘述。
S103,分别计算绿名单分词列表中各个分词的出现概率。
在一些示例中,该步骤具体包括以下步骤:
分别计算所述所述绿名单分词列表中各个分词的第一logits值;
将δ1分别与各个分词的第一logits值相加,得到各个分词的第二logits值;
对各个分词的第二logits值进行归一化处理,得到各个分词的出现概率。
具体地,创建一个模型,该模型分别为缀分词列表[apple,banana, cherry,date, elderberry, fig, grape, honeydew]中的各个分词(单词)生成一个logits值l(t),这些值表示该模型认为各个分词为“The”的后缀词的可能性程度大小,分词对应的logits值l越大,该分词为“The”的后缀词的可能性程度就越大。例如,l = [2.5, 3.2,1.8, 2.1, 2.9, 3.0, 2.7, 2.3]。如果δ1=0.5,则在绿名单分词列表{apple, banana,cherry, date}中4个分词的logits值上分别加上0.5,4个分词修改后的logits值为[3.0,3.7, 2.3, 2.6],这样相当于提高了绿名单列表中4个分词的logits 值的权重,从而整体增大了绿名单的预测概率,灵活性较强,不会显著降低输出文本质量,同时保证低信息熵情形下,大模型的输出的准确性。比如,即使确认分词“学习” 为红名单,在输出分词“ 深度 ”之后,下一个仍然输出分词“学习”。运用softmax函数,对[3.0, 3.7, 2.3, 2.6]进行归一化处理,得到各个分词的出现概率。其中,计算各个分词的出现概率的公式为,其中,pk为绿名单列表中第k个分词的出现概率,lk为绿名单列表中第k个分词的logits值,R为红名单列表中各个分词的总数,G为绿名单列表中各个分词的总数,exp()为以自然数e(约等于2.71828)为底的指数。
S104,将出现概率最大的分词作为当前分词的后缀词替换当前分词原始的后缀词,生成检测文本,精准高效地实现了水印文本的嵌入。
具体地,如果绿名单列表{apple, banana, cherry, date}中“apple”的出现概率最大,则将“apple”作为原始文本“The pear ”中“pear ”的替换词,形成水印文本“Theapple ”。
S105,对检测文本进行检测,判断原始文本是否为大模型生成的文本。
在一些示例中,该步骤具体包括:
根据公式,判断z1的值是否大于设定的阈值,若是,则确定原始文本为大模型生成的文本,精准高效地实现了原始文本的检测。
具体地,当z1的值大于零时,则原始文本中当前分词原始的后缀词为大模型生成的文本。
特别地,上述实施例2中公开的方案是在初始文本为一个分词的情况下阐述的。原始文本也可以为一个句子,也可以是一段文字,也可以是一篇文章。当原始文本是一个句子时,可以根据该原始文本各个分词是否为大模型输出的比例,确定该原始文本是否为大模型生成的;当原始文本是一段文字时,可以根据该原始文本各个句子是否为大模型输出的比例,确定该原始文本是否为大模型生成的;当原始文本是一篇文章时,可以根据该原始文本各段文字是否为大模型输出的比例,确定该原始文本是否为大模型生成的,能够判断新闻报道、学术研究或其他重要的公共声明等是否由大模型生成的,实现了采用技术手段对大模型的使用情况进行监控,有助于控制大模型的滥用。
如图5所示,本发明实施例提供的基于量子电路的文本检测装置包括:
获取模块,被配置为获取原始文本中与当前分词匹配的多个后缀词,生成后缀词列表;
选取模块,被配置为利用量子电路,从所述后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表;
计算模块,被配置为分别计算绿名单分词列表中各个分词的出现概率;
替换模块,被配置为将出现概率最大的分词作为所述当前分词的后缀词替换所述当前分词原始的后缀词,生成检测文本;
判断模块,被配置为对所述检测文本进行检测,判断所述原始文本是否为大模型生成的文本。
用于实现计算设备的经典计算机例如为能够提供用户界面、具有处理主机的任意一种电子设备,如经典的个人计算机、工业计算机、工作站等等。如图6所示,图6是根据本发明一个实施例的作为经典计算设备的电子设备的原理框图,该电子设备包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard DisHamiltonian Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关容灾设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本发明实施例提供的基于量子电路的文本检测方法所描述的操作。
在一个示例中,电子设备还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。本申请实施例中的电子设备可以是服务器或其他计算设备,也可以是云端服务器。
通信接口603,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,当所述计算机指令被处理器执行时实现前述的基于量子电路的文本检测方法。其中,所述的计算机可读存储介质例如为经典计算机可读存储介质,如只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备,也可以是用于存储量子信息、由量子计算机可读取的存储介质,如量子随机存取存储器(QRAM),QRAM中以看作经典计算机中RAM的量子版本,通过QRAM能够制造包含信息的量子叠加态,相比于RAM需要逐个读取,可以以叠加的地址读取叠加的数据。QRAM能够以光学、半导体量子点、超导电路、离子阱等等物理方式实现。
以上示例性地描述了本发明实施例的方法、装置、系统和计算机程序产品的流程图和/或框图,并描述了相关的各个方面。应当理解,流程图和/或框图中的每个方框或其组合,可以由计算机程序指令实现,也可以由执行指定功能或动作的专用硬件来实现,还可由专用硬件和计算机指令的组合来实现。例如,这些计算机程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,以形成一种机器可使得经由这种处理器执行的这些指令使能对流程图和/或框图中的每个方框或其组合中指定的功能/动作的实现。这种处理器可以是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。
本发明实施例的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等;当以软件方式实现时,是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在存储器中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
需说明,本发明并不局限于上文所描述或在图中示出的特定配置和处理。以上所述仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,所描述的系统、设备、模块或单元的具体工作过程,可以参考方法实施例中的对应过程,不需再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于量子电路的文本检测方法,其特征在于,包括:
获取原始文本中与当前分词匹配的多个后缀词,生成后缀词列表;
利用量子电路,从所述后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表;
分别计算所述绿名单分词列表中各个分词的出现概率;
将出现概率最大的分词作为所述当前分词的后缀词替换所述当前分词原始的后缀词,生成检测文本;
对所述检测文本进行检测,判断所述原始文本是否为大模型生成的文本。
2.根据权利要求1所述的基于量子电路的文本检测方法,其特征在于,所述量子电路包括:
第一子电路,包括顺序作用于第一量子比特q0的量子H门及第一量子旋转门,其中,第一量子旋转门的相位参数为γ,γ为变量且0<γ<0.1;
第二子电路,包括顺序作用于第二量子比特q1的CNOT门及第二量子旋转门,其中,第二量子旋转门的相位参数为δ,δ为变量且0<δ<10;
计算子电路,作用于第一量子比特q0及第二量子比特q1,用于计算哈密顿量的本征值。
3.根据权利要求2所述的基于量子电路的文本检测方法,其特征在于,所述计算子电路还用于:
基于VQE算法,所述计算子电路计算哈密顿量W的本征值及所述哈密顿量W的本征值对应的所述第一量子旋转门的相位参数γ的值、所述第二量子旋转门的相位参数δ的值,其中,W=-w1z+w2γ+w3δ+w4d,其中,w1、w2、w3、w4为常数,分别代表第一权重、第二权重、第三权重及第四权重,d为所述原始文本与水印文本之间的编辑距离,z为统计量且z=N-γ×T/sqrt(T×γ×(1-γ)),N为所述绿名单分词列表中绿名单分词的总数,T为所述后缀词列表中分词的总数。
4.根据权利要求3所述的基于量子电路的文本检测方法,其特征在于,利用量子电路,从所述后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表包括:
分别原始化第一量子比特q0及第二量子比特q1
通过所述量子H门对原始化后的第一量子比特q0执行量子H门操作;
利用所述第一量子旋转门对经过量子H门操作后的第一量子比特q0执行量子旋转门操作;
将经过量子旋转门操作后的第一量子比特q0输入所述计算子电路;
通过所述CNOT门对第二量子比特q1执行CNOT门操作,其中:
经过所述量子H门操作的第一量子比特q0为所述CNOT门的控制量子比特,所述第二量子比特q1作为所述CNOT门的目标量子比特;
利用所述第二量子旋转门对经过CNOT门操作后的第二量子比特q1执行量子旋转门操作,将经过量子旋转门操作后的第二量子比特q1输入所述计算子电路;
基于VQE算法,所述计算子电路计算所述哈密顿量W的本征值及与所述哈密顿量W的本征值匹配的相位参数γ的值γ1的及相位参数δ的值δ1
从所述后缀词列表中随机选取数量比例为γ1的后缀词作为绿名单分词,生成绿名单分词列表。
5.根据权利要求4所述的基于量子电路的文本检测方法,其特征在于,分别计算所述绿名单分词列表中各个分词的出现概率包括:
分别计算所述所述绿名单分词列表中各个分词的第一logits值;
将值δ1分别与各个分词的第一logits值相加,得到各个分词的第二logits值;
对各个分词的第二logits值进行归一化处理,得到各个分词的出现概率。
6.根据权利要求4所述的基于量子电路的文本检测方法,其特征在于,对所述检测文本进行检测,判断所述原始文本是否为大模型生成的文本包括:
根据公式,判断z1的值是否大于设定的阈值,若是,则确定所述原始文本为大模型生成。
7.根据权利要求2所述的基于量子电路的文本检测方法,其特征在于,所述第一量子旋转门及所述第二量子旋转门均为量子Z门。
8.一种基于量子电路的文本检测装置,其特征在于,包括:
获取模块,被配置为获取原始文本中与当前分词匹配的多个后缀词,生成后缀词列表;
选取模块,被配置为利用量子电路,从所述后缀词列表中随机选取一定数量比例的后缀词作为绿名单分词,生成绿名单分词列表;
计算模块,还被配置为分别计算所述绿名单分词列表中各个分词的出现概率;
替换模块,被配置为将出现概率最大的分词作为所述当前分词的后缀词替换所述当前分词原始的后缀词,生成检测文本;
判断模块,被配置为对所述检测文本进行检测,判断所述原始文本是否为大模型生成的文本。
9.一种计算设备,其特征在于,包括处理器以及存储有计算机程序指令的存储器,其中,所述处理器执行所述计算机程序指令时实现权利要求1-7中任一项所述的基于量子电路的文本检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令,当所述计算机指令被处理器执行时实现权利要求1-7中任一项所述的基于量子电路的文本检测方法。
CN202410033075.3A 2024-01-10 2024-01-10 基于量子电路的大模型生成文本检测方法、装置、设备 Active CN117556817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410033075.3A CN117556817B (zh) 2024-01-10 2024-01-10 基于量子电路的大模型生成文本检测方法、装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410033075.3A CN117556817B (zh) 2024-01-10 2024-01-10 基于量子电路的大模型生成文本检测方法、装置、设备

Publications (2)

Publication Number Publication Date
CN117556817A true CN117556817A (zh) 2024-02-13
CN117556817B CN117556817B (zh) 2024-05-24

Family

ID=89816947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410033075.3A Active CN117556817B (zh) 2024-01-10 2024-01-10 基于量子电路的大模型生成文本检测方法、装置、设备

Country Status (1)

Country Link
CN (1) CN117556817B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140104175A1 (en) * 2012-10-16 2014-04-17 Google Inc. Feature-based autocorrection
JP2015035129A (ja) * 2013-08-09 2015-02-19 日本電信電話株式会社 量子状態測定装置および方法
US9043198B1 (en) * 2012-04-13 2015-05-26 Google Inc. Text suggestion
US20200250272A1 (en) * 2019-02-03 2020-08-06 International Business Machines Corporation Generating completed responses via primal networks trained with dual networks
CN113792881A (zh) * 2021-09-17 2021-12-14 北京百度网讯科技有限公司 模型训练方法及装置、电子设备和介质
US20220083734A1 (en) * 2020-09-17 2022-03-17 Microsoft Technology Licensing, Llc Language autodetection from non-character sub-token signals
CN115964458A (zh) * 2021-10-13 2023-04-14 合肥本源量子计算科技有限责任公司 文本的量子线路确定方法、装置、存储介质及电子设备
WO2023061441A1 (zh) * 2021-10-13 2023-04-20 合肥本源量子计算科技有限责任公司 文本的量子线路确定方法、文本分类方法及相关装置
CN116151267A (zh) * 2022-12-02 2023-05-23 马上消费金融股份有限公司 文本生成方法及装置、电子设备、计算机可读存储介质
US20230186133A1 (en) * 2021-12-14 2023-06-15 International Business Machines Corporation Multireference procedure to parallelize variational quantum computing and achieve high accuracy with short circuit depths
CN116956906A (zh) * 2023-07-14 2023-10-27 腾讯科技(北京)有限公司 文本生成方法、装置及电子设备
CN116975218A (zh) * 2023-04-23 2023-10-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN117216271A (zh) * 2023-09-12 2023-12-12 支付宝(杭州)信息技术有限公司 一种文章文本处理方法、装置以及设备
US20230401477A1 (en) * 2022-06-13 2023-12-14 Bank Of America Corporation Non-linear data dependency detection in machine learning using hybrid quantum computing
CN117313709A (zh) * 2023-11-29 2023-12-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043198B1 (en) * 2012-04-13 2015-05-26 Google Inc. Text suggestion
US20140104175A1 (en) * 2012-10-16 2014-04-17 Google Inc. Feature-based autocorrection
JP2015035129A (ja) * 2013-08-09 2015-02-19 日本電信電話株式会社 量子状態測定装置および方法
US20200250272A1 (en) * 2019-02-03 2020-08-06 International Business Machines Corporation Generating completed responses via primal networks trained with dual networks
US20220083734A1 (en) * 2020-09-17 2022-03-17 Microsoft Technology Licensing, Llc Language autodetection from non-character sub-token signals
CN113792881A (zh) * 2021-09-17 2021-12-14 北京百度网讯科技有限公司 模型训练方法及装置、电子设备和介质
CN115964458A (zh) * 2021-10-13 2023-04-14 合肥本源量子计算科技有限责任公司 文本的量子线路确定方法、装置、存储介质及电子设备
WO2023061441A1 (zh) * 2021-10-13 2023-04-20 合肥本源量子计算科技有限责任公司 文本的量子线路确定方法、文本分类方法及相关装置
US20230186133A1 (en) * 2021-12-14 2023-06-15 International Business Machines Corporation Multireference procedure to parallelize variational quantum computing and achieve high accuracy with short circuit depths
US20230401477A1 (en) * 2022-06-13 2023-12-14 Bank Of America Corporation Non-linear data dependency detection in machine learning using hybrid quantum computing
CN116151267A (zh) * 2022-12-02 2023-05-23 马上消费金融股份有限公司 文本生成方法及装置、电子设备、计算机可读存储介质
CN116975218A (zh) * 2023-04-23 2023-10-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN116956906A (zh) * 2023-07-14 2023-10-27 腾讯科技(北京)有限公司 文本生成方法、装置及电子设备
CN117216271A (zh) * 2023-09-12 2023-12-12 支付宝(杭州)信息技术有限公司 一种文章文本处理方法、装置以及设备
CN117313709A (zh) * 2023-11-29 2023-12-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法

Also Published As

Publication number Publication date
CN117556817B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
Khan et al. Deep learning for magnetic field estimation
US11537840B2 (en) Method, system, and computer program product to employ a multi-layered neural network for classification
Jin et al. Anemone: Graph anomaly detection with multi-scale contrastive learning
Rocchetto et al. Learning hard quantum distributions with variational autoencoders
CN111758098B (zh) 利用遗传编程的命名实体识别和提取
US11636308B2 (en) Differentiable set to increase the memory capacity of recurrent neural net works
CN110427524B (zh) 知识图谱补全的方法、装置、电子设备及存储介质
US11630953B2 (en) Systems and methods for end-to-end deep reinforcement learning based coreference resolution
CN114077841A (zh) 基于人工智能的语义提取方法、装置、电子设备及介质
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN114826681A (zh) 一种dga域名检测方法、系统、介质、设备及终端
WO2024109593A1 (zh) 基于量子生成对抗网络的图像生成方法及装置
CN112990374B (zh) 图像分类方法、装置、电子设备及介质
Umeano et al. What can we learn from quantum convolutional neural networks?
CN117556817B (zh) 基于量子电路的大模型生成文本检测方法、装置、设备
Xu et al. HTtext: A TextCNN-based pre-silicon detection for hardware Trojans
US20210232931A1 (en) Identifying adversarial attacks with advanced subset scanning
CN117077794A (zh) 基于量子线路计算傅里叶核函数的装置、方法、设备及介质
US20240046065A1 (en) System, devices and/or processes for defining a search space for neural network processing device architectures
Urbanowicz et al. Continuous endpoint data mining with exstracs: A supervised learning classifier system
CN114722389A (zh) Webshell文件的检测方法、装置、电子设备及可读存储介质
CN114819163A (zh) 量子生成对抗网络的训练方法、装置、介质及电子装置
CN116508035A (zh) 将经训练的人工智能模型转换为可信赖的人工智能模型
Lisitsa Reachability as derivability, finite countermodels and verification
Wang et al. Reliable ransac using a novel preprocessing model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant