CN117574286A - 标签值的确定方法、装置、设备和存储介质 - Google Patents
标签值的确定方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117574286A CN117574286A CN202410050002.5A CN202410050002A CN117574286A CN 117574286 A CN117574286 A CN 117574286A CN 202410050002 A CN202410050002 A CN 202410050002A CN 117574286 A CN117574286 A CN 117574286A
- Authority
- CN
- China
- Prior art keywords
- text
- question
- label
- sample
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000013598 vector Substances 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 10
- 239000000523 sample Substances 0.000 description 229
- 230000008569 process Effects 0.000 description 12
- 238000002372 labelling Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 229940124579 cold medicine Drugs 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施方式提供了一种标签值的确定方法、装置、设备和存储介质。所述方法包括:将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例;其中,所述指定问题样例集中包括多个问题样例;所述问题样例包括样例问题文本和对应的样例答案文本;基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案;根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值,在一定程度上提高了标签项的标签值的确定效率。
Description
技术领域
本说明书实施方式关于自然语言处理领域,具体关于一种标签值的确定方法、装置、设备和存储介质。
背景技术
为了描述一些对象,可以通过为一些对象附上表示对象的特征的标签项和标签值。例如,针对一些商品,可以为其附上描述该商品的特征的标签项和标签值,以便于用户选择购买符合需求的商品。
然而,现有技术中为对象标注标签项和标签值的效率较低。
发明内容
有鉴于此,本说明书多个实施方式致力于提供一种标签值的确定方法、装置、设备和存储介质,以在一定程度上提高标签项和标签值的标注效率。
本说明书的一个实施方式提供标签值的确定方法,所述方法包括:将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例;其中,所述指定问题样例集中包括多个问题样例;其中,所述问题样例包括样例问题文本和对应的样例答案文本;基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案;根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值。
本说明书的一个实施方式提供一种用户账户的分类方法,包括:获取多个用户账户针对同一个提问文本的回复文本;其中,所述提问文本对应有语义接近的标签问题文本和标签项;以回复文本形成对应用户账户的指定语料,使用上述任一项实施方式所述的标签值的确定方法,确定多个用户账户针对所述标签项的标签值;依照所述标签项的标签值对所述多个用户账户进行分类;其中,相同标签值对应的用户账户被划分至同一类别。
本说明书的一个实施方式提供一种标签值的确定装置,所述装置包括:样例匹配模块,用于将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例;其中,所述指定问题样例集中包括多个问题样例;其中,所述问题样例包括样例问题文本和对应的样例答案文本;大语言模型调用模块,用于基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案;标签值确定模块,用于根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值。
本说明书的一个实施方式提供一种用户账户的分类装置,所述装置包括:获取模块,用于获取多个用户账户针对同一个提问文本的回复文本;其中,所述提问文本对应有语义接近的标签问题文本和标签项;确定模块,用于以回复文本形成对应用户账户的指定语料,使用如本说明书任一实施方式所述的标签值的确定方法,确定多个用户账户针对所述标签项的标签值;分类模块,用于依照所述标签项的标签值对所述多个用户账户进行分类;其中,相同标签值对应的用户账户被划分至同一类别。
本说明书实施方式提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述实施方式所述的方法。
本说明书实施方式提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序被处理器执行时实现上述实施方式所述的方法。
本说明书提供的多个实施方式,可以基于标签问题文本、参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案。进一步的,通过标签问题答案可以确定指定语料对应所述标签项的标签值,在一定程度上提高了标签项的标签值确定的效率。
附图说明
图1为本说明书的一个实施方式提供的标签值的确定系统的场景示例的示意图。
图2为本说明书的一个实施方式提供的标签值的确定方法的流程示意图。
图3为本说明书的一个实施方式提供的匹配参考问题样例的方法的示意图。
图4为本说明书的一个实施方式提供的用户账户的分类方法的流程示意图。
图5为本说明书的一个实施方式提供标签值的确定装置的示意图。
图6为本说明书的一个实施方式提供的用户账户的分类装置的示意图。
图7为本说明书的一个实施方式提供的计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在相关技术中,为一些对象标注标签项和标签值,可以清楚地描述该对象的特性以及对对象进行分类或筛选。其中,标签项可以表示对象具有的特征。标签值可以用于描述对象针对标签项表示的特征的具体取值。
具体的,对象可以是商品。例如,对象可以是充电宝,其标签项可以包括品牌、容量和充电功率等。相应的,充电宝关于品牌、容量和充电功率的标签值可以分别为A公司、10000mA和22.5W。由此,消费者在购买充电宝时可以通过标签项筛选出符合需求的充电宝。
在相关技术中,对象的标签项和标签值需要大量工作人员进行人工标注。具体的,对于一些对象,例如可出售的商品,工作人员可以在商品的说明书或介绍详情内容中提炼出关键信息,以形成标签项和标签值。
然而,工作人员标注标签项和标签值的过程需要花费较多的时间,这造成相关技术中标签项和标注值的标注效率较低。
并且,相关技术中为了提高不同工作人员标注的标签项和标签值的一致性。标注的标签项和标签值可能描述的是对象的客观特征。但是,这也在一定程度上弱化了对象本身具有的使用体验或感受相关的特征。比如一些主观感受类的特征,或者s一些特定场景的使用特点。例如,产品的外观是否与宣传相符。例如,行李箱的大小能不能带s上飞机。
具体的,例如,针对充电宝这一商品。工作人员标注的标签项可能是诸如品牌、容量和充电功率等较为客观的商品特征。然而,对于一些相对具有特点的充电宝,其可能在手感或外观等相对主观的商品特征上区别于同品类的产品。通过相关技术中标注的标签项和标签值较难描述出这些充电宝的特点。对于中意这些特点的消费者,也较难通过工作人员标注的标签项和标签值筛选出心仪的充电宝。
为了提高标签项和标签值的标注效率,以及实现对描述对象的主观特征的标签项和标签值进行标注,可以通过构建提示指令,指示大语言模型挖掘对象的标签项和标签值。
具体的,例如,可以将对象的名称提供给大语言模型,并通过提示词指示大语言模型基于自身的知识库,确定对象的标签项和标签值。
然而,对于一些主观感受类的标签项和标签值,例如,对于表示对象的使用体验的标签项,大语言模型作为人工智能模型较难体会到人的主观感受,如果只基于自身的知识库,挖掘出的标签项和标签值的可靠性可能相对欠缺。以及,对于一些在描述对象的详情信息中未出现的特征,大语言模型也较难挖掘到。例如,对象可以是在电商平台出售的商品。相应的,说明文档可以包括商品的信息的详情页面中的内容。对于商品具有的未出现在详情页面的内容中的特征,大语言模型基于自身知识库也较难确定。
为此,可以为大语言模型提供涉及对象的特征的文本内容,作为大语言模型挖掘对象的标签项和标签值的参考。其中,涉及对象的主观感受特征的文本内容可以包括由人提出的关于对象言论或文字。具体的,例如,文本内容可能是人针对对象的评论。或者,文本内容可能是咨询对象相关的问题的问答。
进一步地,大语言模型虽然具有较好地语义理解能力,可以从提供的文本内容中挖掘到对象的标签项和标签值。但是,大语言模型作为生成式模型,生成的文本可能还包括许多与标签项和标签值的确定相关性不大的内容。这些内容可能是对大语言模型的输入中一些词汇的解释说明。具体的,例如,在指示大语言模型反馈A公司的充电宝针对“手感”这一标签项的标签值时,大语言模型可能先会对充电宝手感进行解释说明,进一步的才会基于输入的文本内容,说明该充电宝的手感的实际表现。进一步的,大语言模型会存在“AI幻觉”现象,即大语言模型会生成看起来正确的错误答案。由于“AI幻觉”的存在,大语言模型直接生成的结果可能会存在一些看起来正确的错误内容。
这使得还需要对大语言模型的输出内容进一步处理后,才能得到对象正确的标签项和标签值。例如,可能需要进一步剔除大语言模型的输出内容中用于解释说明书的内容。但是,数据的反复处理、读取和存储会造成一定程度的计算机资源消耗。同时,也会在一定程度降低标注对象的标签项和标签值的效率。
因此,还可以通过提示指令为大语言模型提供参考问题样例,并指示大语言模型基于参考问题样例的形式输出内容,以形成标签项的标签值。具体的,参考问题样例中可以包对应大语言模型输出的样例答案文本。样例答案文本可以通过指定形式明确表明示例的标签项和标签值的具体取值。这使得大语言模型参照样例答案文本的形式输出的输出内容中,与标签项和标签值的确定相关性不大的内容相对较少,从而可以减少对大语言模型的输出内容的进一步处理的任务量,以在一定程度上提高确定标签项和标签值的效率。
请参阅图1,本说明书实施方式提供一种标签值的确定系统的场景示例。
标签值的确定系统的用户可能是电商平台的工作人员。用户可能希望标签值的确定系统为在售的电动轮椅这一品类的商品标注标签项和标签值,以便于消费者在购买电动轮椅时可以通过标签项和标签值选择意向的电动轮椅。
电商平台可以记录有咨询商品相关的问题的商品问答数据。商品问答数据可以具有购买意愿的消费者在商品购买前后向商品的销售方或已经购买了该商品的消费者提出的有关商品的问题和回答。其中,商品问答数据可以包括问题文本和对应的答案文本。问题文本可以表达询问商品的某一特征的特征取值。答案文本可以是针对问题文本中特征的特征取值的答复。
标签值的确定系统在接收到用户的请求后,可以获取电动轮椅的商品问答数据,作为确定标签项的标签值的指定语料。
进一步地,标签值的确定系统可以将商品问答数据发送给大语言模型,并指示大语言模型根据商品问答数据反馈消费者在购买电动轮椅时最为可能考虑的若干个购买决策因子。标签值的确定系统可以将大语言模型反馈的购买决策因子确定为电动轮椅品类的商品的标签项,并生成对应的标签问题文本。该标签问题文本可以是一个提问语句,用于提问电动轮椅针对上述标签项的标签值。
此外,标签值的确定系统还可以指示大语言模型根据商品问答数据提炼出电动轮椅针对该购买决策因子的可能取值,作为标签问题文本对应的多个候选答案文本。其中,针对购买决策因子的多个可能取值,标签值的确定系统还可以为其分别设置相应的答案文本选项。答案文本选项可以是由单个字符生成的标识,用于表征相应的候选答案文本。
示例性的,大语言模型反馈的购买决策因子可能是“能否上飞机”。相应的,“能否上飞机”可以作为电动轮椅品类的商品的标签项。标签问题文本可以是“请问这个轮椅是否能上飞机?”。对应“能否上飞机”的可能取值的多个候选答案文本可以包括“可以上飞机”和“不可以上飞机”。其中,“可以上飞机”对应的答案文本选项可以是“A”。“不可以上飞机”的答案文本选项可以是B。
进一步地,标签值的确定系统可以针对在售的多个电动轮椅,确定这些电动轮椅针对上述标签项的标签值。具体的,标签值的确定系统可以构建提示指令,令大语言模型确定在售的多个电动轮椅是否能携带上飞机。
为了一定程度避免大语言模型输出内容的语义不够明确,标签值的确定系统在确定电动轮椅的标签值的过程中,可以先基于语义相似度的匹配方法,在维护的问题样例集中匹配出参考问题样例。
其中,问题样例集包括多个问题样例。问题样例可以用于作为大语言模型回答变标签问题文本的参照。问题样例可以包括样例问题文本、多个候选样例答案文本、表征候选样例答案文本的答案文本选项、样例答案文本以及作为样例语料的样例商品问答数据。样例答案文本可以是通过答案文本选项的形式来表征契合样例问题文本的候选样例答案文本,作为样例问题文本表达的问题的答案。
其中,基于语义相似度的匹配到的参考问题样例的样例问题文本和标签问题文本的语义可以相近或表述相似。
由此,标签值的确定系统可以基于标签问题文本、多个候选答案文本、候选答案文本对应的答案选项、参考问题样例和作为指定语料的商品问答数据,生成提示指令,并调用大语言模型,以指示大语言模型依照商品问答数据提供的信息,采用参考问题样例中样例答案文本的形式,输出标签问题文本对应的标签问题答案,以确定出标签项的标签值。即,提示指令可以指示大语言模型以答案文本选项的形式指出契合标签问题文本的候选答案文本,形成标签问题答案,并进一步的确定出标签项的标签值。
示例性的,商品问答数据的问题文本可以是“一块充电宝都不能带上飞机,这个轮椅可以带上飞机吗?不会被扣吗?”。相应的,商品问答数据的答案文本可以是“这个和充电宝不一样的,目前民航局规定300W都可以上飞机。这个电动轮椅的电压是24V。两个款式的电动轮椅电流分别是12A和6.6A。都可以带上飞机。不过12A的款式需要写一个申请。6.6A的款式不需要”。
参考问题样例可以是“用户1:这个充电宝能带上飞机吗?用户2:充电宝容量不大,可以的?样例问题文本:这个充电宝的能否上飞机?候选答案文本:A,可以上飞机。B,不可以上飞机。样例答案文本:A。”。
其中,用户1和用户2对应的内容可以形成样例商品问答数据。
相应的,提示指令可以是:“
请根据<示例>从<输入>提取相关信息选择问题的回答:
<示例>用户1:这个充电宝能带上飞机吗?用户2:充电宝容量不大,可以的?样例问题文本:这个充电宝的能否上飞机?候选答案文本:A:可以上飞机;B:不可以上飞机。样例答案文本:A。
<输入>用户1:一块充电宝都不能带上飞机,这个轮椅可以带上飞机吗?不会被扣吗?用户2:这个和充电宝不一样的,目前民航局规定300W都可以上飞机。这个电动轮椅的电压是24V,电动轮椅电流是6.6A。功率都没有超过300w,可以带上飞机。标签问题文本:请问这个轮椅是否能上飞机?候选答案文本:A:可以上飞机。B:不可以上飞机。标签问题答案:”。
相应的,大语言模型的反馈的标签问题答案可以是“A”。
此外,大语言模型还可以反馈有大语言模型的输出“A”的文本生成概率和输出“B”的文本生成概率。示例性地,大语言模型的输出“A”的文本生成概率是0.7。语言模型的输出“B”的文本生成概率是0.3。
进一步地,标签值的确定系统还可以调整候选答案文本在提示指令中的顺序,以构建新的提示指令。标签值的确定系统可以将“A”对应的候选答案文本调整为“不可以上飞机”。“B”对应的候选答案文本调整为“可以上飞机”,得到新的提示指令。
相应的,新的提示指令可以是:“
请根据<示例>从<输入>提取相关信息选择问题的回答:
<示例>用户1:这个充电宝能带上飞机吗?用户2:充电宝容量不大可以的?样例问题文本:这个充电宝的能否上飞机?候选答案文本:A:可以上飞机;B:不可以上飞机。样例答案文本:A。
<输入>用户1:一块充电宝都不能带上飞机,这个轮椅可以带上飞机吗?不会被扣吗?用户2:这个和充电宝不一样的,目前民航局规定300W都可以上飞机。这个电动轮椅的电压是24V,电动轮椅电流是6.6A。功率都没有超过300w,可以带上飞机。标签问题文本:请问这个轮椅是否能上飞机?候选答案文本:A:不可以上飞机。B:可以上飞机。标签问题答案:”。
相应的,大语言模型的反馈的标签问题答案可以是“B”。此时,大语言模型的输出“A”的文本生成概率是0.2。语言模型的输出“B”的文本生成概率是0.8。
结合大语言模型针对两个提示指令的反馈的结果,标签值的确定系统可以确定出该电动轮椅的针对“能否上飞机”这一个标签项的标签值。具体的,标签值的确定系统可以计算得到表征“可以上飞机”的候选答案选项文本的生成概率的平均值是0.75,以及表征“不可以上飞机”的候选答案选项的文本生成概率的平均值是0.25。由此,根据取值较大的文本生成概率平均值,标签值的确定系统可以确定该电动轮椅的针对“能否上飞机”这一个标签项的标签值为“可以上飞机”。
本说明书实施方式提供一种标签值的确定系统。所述标签值的确定系统可以包括客户端和服务器。其中,所述客户端可以是具有网络访问能力的电子设备。具体的,例如,客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中,智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者,客户端也可以为能够运行于所述电子设备中的软件。服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然,所述服务器也可以是指运行于所述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。或者,随着科学技术的发展,服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如,可以是基于量子计算实现的新形态的“服务器”。
请参阅图2,本说明书实施方式提供一种标签值的确定方法。所述标签值的确定方法可以应用于服务器。所述标签值的确定方法可以包括以下步骤。
步骤S110:将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例;其中,所述指定问题样例集中包括多个问题样例;其中,所述问题样例包括样例问题文本和对应的样例答案文本。
在一些情况下,同一类对象可能具有较多的相同特征,具体每个对象的特征取值可能有一定差异。因此,在一些实施方式中,可以先确定该类对象的标签项。进一步地,可以针对一个或多个具有相同标签项的对象,确定该对象针对标签项的标签值。具体的,例如,针对同一个品类的商品,可以先确定表征该品类商品的特征的标签项。针对该品类下的每一个商品,可以进一步地确定该商品关于标签项表示的特征的特征取值,作为标签值。
在本实施方式中,标签项和标签值可以用于描述某一对象的特性。其中,标签项可以表示该对象具的特征。标签值可以用于描述该对象针对标签项表示的特征的具体取值。具体的,对象可以是商品。例如,对象可以是感冒药,其标签项可以包括品牌、适应症和适用人群等。相应的,感冒药关于品牌、适应症和适用人群的标签值可以分别为A药厂、流行性感冒和15至60周岁的人群。在一些实施方式中,标签项可以是相关对象的详情信息中,未记载的特性。具体的,对象可以是指在互联网中销售的有形的商品。例如,药品、玩具、衣物等。或者,对象也可以包括被包装成商品进行销售的服务。例如,洗车服务、美甲服务。在互联网中销售的商品都会提供有商品详情页,以通过商品详情页展示相关商品的详情信息。然而,对于一些使用体验或感受类的特征,通常无法记载于商品详情页中,而这类特征对于购买商品的消费者来说,可能会比较重要。
在一些实施方式中,标签项和标签值可以形成的对象的结构化数据。
在本实施方式中,标签问题文本可以是一个用于提问的语句。具体的,针对某一个对象,标签问题文本可以表达的语义是请求回答所述对象针对标签项表示的特征的特征取值。例如,对象可以是感冒药,其标签项可以是品牌。相应的,标签问题文本可以是“请问这个感冒药的品牌是什么”。
在本实施方式中,指定问题样例集可以是由多个问题样例形成的集合。问题样例可以是为大语言模型提供的样例,以指示大语言模型依照问题样例的形式回答标签问题文本表达的问题。具体的,问题样例可以包括样例问题文本和对应的样例答案文本。样例问题文本可以是针对某一类对象的特征的特征取值的提问。相应的,样例答案文本可以是针对该类对象中某一个指定对象关于上述特征的特征取值的回答。
在一些实施方式中,问题样例中还可以包括相应样例问题文本对应的标签项,以及相应样例答案文本对应的标签值。
在一些实施方式中,样例问题文本和样例答案文本可以具有特定的形式,以在大语言模型回答标签问题文本表达的问题过程中,参照样例答案文本的形式输出标签问题答案,作为标签问题文本的回答。具体的,例如,问题样例中可以给出样例问题文本对应的多个样例候选答案。样例答案文本的形式可以表现为:样例答案文本是契合样例问题文本的样例候选答案。在一些实施方式中,问题样例中也可以给出多个候选词。相应的,样例答案文本的形式可以表现为:样例答案文本是由多个候选词组合形成的文本,用于回答样例问题文本表达的问题。
在本实施方式中,参考问题样例可以是与标签问题文本相关联的问题样例。具体的,例如,参考问题样例中的样例问题文本可以和标签问题文本表达的语义相同或接近。或者,参考问题样例中的样例问题文本的表述形式和标签问题文本的表述形式相近。当然,参考问题样例也可以是与是标签问题文本描述的相同类别的对象的问题样例,或者参考文本样例描述的对象和标签问题文本描述的对象可以配合使用。具体的,例如,标签问题文本描述的对象可能是充电宝。相应的,参考问题样例可以是描述的对象可以是手机。其中,手机和充电宝可以属于相互配合使用的两个电子产品。
在一些实施方式中,服务器可以维护有问题样例向量集合。问题样例向量集合可以包括表征问题样例的问题样例向量。相应的,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例的方法,可以先将标签问题文本进行向量化,接着计算标签问题文本对应的向量与问题样例向量集合中问题样例向量的向量相似度,并将向量相似度符合预设条件的问题样例确定为参考问题样例。其中,问题样例向量可以通过对问题样例的样例问题文本进行向量化得到,也可以是对问题样例的全部内容进行向量化得到。对问题样例向量进行向量化的方法以及对标签问题文本进行向量化的方法可以基于词嵌入实现,或者通过Bert、Transformer等语言模型编码得到。本说明书实施方式在此不作具体限定。
在一些实施方式中,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例的方法,也可以基于标签问题文本描述的对象和问题样例描述的对象之间的关联程度确定。具体的,例如,服务器可以先确定标签问题文本描述的对象所属于的产品类别。然后将指定问题样例集中描述该产品类别的问题样例,确认为参考问题样例。
在本实施方式中,通过在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例,不仅可以用于提示指令在输出标签问题文本对应的标签问题答案时,参照参考问题样例中样例答案文本的形式做出回答。并且,由于参考问题样例与标签问题文本具有一定的关联性,因此也可以为大语言模型提供一定的参考知识,在一定程度上可以提高大语言模型输出的标签问题答案的准确性。
步骤S120:基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案。
在一些情况下,将标签问题文本以及参考问题样例提供给大语言模型,大语言模型可以由此回答标签问题文本表达的问题,以基于大语言模型输出的标签问题答案确定标签值。这可以在一定程度上提高确定标签项对应的标签值的效率。
但是,大语言模型的知识库可能较为宽泛,较难聚焦到具体某个对象的标签项的标签值。参考问题样例虽然可以在一定程度上给予大语言模型一定的参考知识,但是匹配到的参考问题样例可能与标签问题文本之间还有一定的差异性。
因此,还可以通过指定语料构建提示指令。由于指定语料中可以包括回应标签问题文本的相关内容。因此,通过指定语料构建提示指令,并以此指示大语言模型输出标签问题答案,可以在一定程度上提高确定的标签值的准确性。
在本实施方式中,标签问题答案可以是大语言模型反馈的针对标签问题文本表达的问题的回答内容。回答内容可以是表征答案的标签答案文本。在一些实施方式中,标签问题答案还可以表示调用大语言模型后返回的参数。具体的,例如,返回的参数可以是大语言模型在生成回答的标签答案文本时,标签答案文本中每个词汇的文本生成概率。
在本实施方式中,指定语料可以是语言数据。指定语料可以用于描述某一或者某些对象的特征。具体的,例如,某一对象可以指代商品。指定语料可以是描述该商品的功能的说明书。或者,指定语料也可以是用户对该商品的评论数据。
由于指定语料可以包括人对对象提出的言论或评价,使得指令语料可以包括对象的主观类的感受特征。相比其相关技术中人标注标签项和标签值,基于大语言模型,结合指定语料确定的标签项和标签值不仅可以包括对象的客观类的特征,也可以包括对象的主观类的特征,使得本说明书实施方式能够确定能加全面的描述对象的特征的标签项和标签值。
在一些实施方式中,对应某些商品,电商平台可以维护有商品问答数据。其中,商品问答数据可以包括问题文本和答案文本。问题文本可以是具有购买意愿的消费者在商品购买前后向商品的销售方或已经购买了该商品的消费者提出的有关商品的问题。答案文本可以是商家或者购买了该商品的消费者对该问题的回答。相应的,商品问答数据也可以作为指定语料。
在本实施方式中,对应不同商品可能具有不同的商品问答数据。相应的,基于不同商品的商品问答数据分别构建提示指令,可以指示大语言模型为不同商品确定相应的标签项的标签值。
当然,所述对象也可以不限于商品。本说明书实施方式在此不作具体限定。
在一些实施方式中,问题样例中还可以具有样例语料。样例语料可以是为样例问题文本提供的指定语料。样例语料可以包括一定程度上解答样例问题文本表达的问题的信息。相应的,样例答案文本可以是依照样例语料提供的信息针对样例问题文本的回答内容。样例语料也可以是人对问题样例中样例问题文本对应的对象提出的言论或评价。本说明书实施方式在此不作具体限定。
在一些情况下,大语言模型作为生成式模型,生成的内容的表述方式可能具有一定的不可控性。直接将标签问题文本以及指定语料提供给大语言模型,由此生成的内容可能具有一定的不确定性。并且,大语言模型可能还会输出一些解释说明的内容。这可能会导致服务器还需要进一步地剔除大语言模型输出内容的中解释说明的部分,以及将回答标签问题文本的内容进行归一化,作为标签项的标签值。因此,通过在提示指令中加入参照问题样例,可以指示大语言模型依照参照问题样例中样例答案文本的形式回答标签问题文本提出的问题。由此,大语言模型可以提供较为明确的回答。在一定程度上可以提高大语言模型输出的标签问题答案的确定性,减少了针对大语言模型输出内容的后续处理过程。
在本实施方式中,提示指令(Prompt)可以是用于启发大语言模型生成相应回复内容的指令。提示指令可以是文本,也可以包括图片。具体的,提示指令的内容可以包括标签问题文本、参考问题样例和指定语料。当然,提示指令还可以包括提示词。提示词可以将签问题文本、参考问题样例和指定语料结合,形成可能读性较强的文本,以表达出指示大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案的含义。其中,样例答案文本的形式可以指文本结构、语言风格、文本内容的表达形式或者文本的形成方法等。本说明书实施方式在此不作具体限定。
在一些实施方式中,为了使大语言模型依照指定语料输出标签问题答案时,能够更加清楚地明确参考问题样例中样例答案文本的形式,问题样例还可以包括样例语料,使得提示指令中针对回答标签问题文本的提示内容,和问题样例的提示内容具有相同的组成成分。具体的,问题样例的样例问题文本可以和标签问题文本相对应。问题样例的样例答案文本可以和标签问题答案相对应。问题样例的样例答案文本可以和标签问题答案相对应。
并且,在构造提示指令时,通过提示词对问题样例和作为输入的标签问题文本、指定语料以及期望反馈的标签问题答案附上标题,可以使得大语言模型更加容易理解参考问题样例中样例答案文本的形式,以此回答标签问题文本表达的问题。不需要通过提示词进行额外的指示。
在一些实施方式中,大语言模型每次成功挖掘的标签项和标签值的提示指令中的标签问题文本、标签问题答案以及指令语料等组成成分,也可以进一步的形成问题样例。
示例性地,针对电动轮椅这一商品。标签项可以是“能否上飞机”。
标签问题文本可以是“这个电动轮椅可以上飞机吗?”。
参考问题样例可以是“用户1:这个充电宝能带上飞机吗?用户2:充电宝容量不大可以的?样例问题文本:这个充电宝的能否上飞机?样例答案文本:可以上飞机”。
指定语料可以是“问题文本:一块充电宝都不能带上飞机,这个轮椅可以带上飞机吗?不会被扣吗?答案文本:这个和充电宝不一样的,目前民航局规定300W都可以上飞机。这个电动轮椅的电压是24V,电动轮椅电流是6.6A。功率都没有超过300w,可以带上飞机。”。
相应的,结合指定提示词,可以构建以下提示指令:
“<示例>用户1:这个充电宝能带上飞机吗?用户2:充电宝容量不大可以的?样例问题文本:这个充电宝的能否上飞机?样例答案文本:可以上飞机。
<输入>用户1:一块充电宝都不能带上飞机,这个轮椅可以带上飞机吗?不会被扣吗?用户2:这个和充电宝不一样的,目前民航局规定300W都可以上飞机。这个电动轮椅的电压是24V,电动轮椅电流是6.6A。功率都没有超过300w,可以带上飞机。标签问题文本:请问这个轮椅是否能上飞机?标签问题答案:”。
相应的,大语言模型反馈的标签问题答案可以是“能上飞机”。
其中,提示指令中<示例>包括的用户1和用户2的内容,可以表示样例语料。提示指令中<输入>包括的用户1和用户2的内容,可以表示指定语料。
在本实施方式中,进一步的,在充分利用大语言模型的语义理解能力的基础上,通过提供指定预料,并限定了回答形式,以很大限度的限制了大语言模型的“AI幻觉”现象,实现在利用大语言模型提升了工作效率的同时,保障了内容的准确性。
步骤S130:根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值。
在本实施方式中,根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值的方法,可以是将标签问题答案作为对应标签项的标签值。或者,也可以将标签问题答案进行归一化处理后的处理结果,作为对应的标签项的标签值。
在一些实施方式中,标签答案文本可以是调用大语言模型返回的参数。该参数可以大语言模型生成文本时文本概率最高的三个标签答案文本。相应的,根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值的方法,可以基于这三个标签答案文本确定所述标签项的标签值。
在一些实施方式中,所述问题样例还可以包括所述样例问题文本对应的多个候选样例答案文本;所述样例答案文本取自所述多个候选样例答案文本;所述提示指令还通过所述标签问题文本对应的多个候选答案文本构建,以指示所述大语言模型依照所述指定语料提供的信息,确定契合所述标签问题文本的候选答案文本,形成所述标签问题答案。
在一些情况下,由于大语言模型生成文本具有一定的不确定性,大语言模型针对同一个提示指令多次输出的标签问题答案的文本内容可能不同。具体的,在多次使用大语言模型时,大语言模型可能会采用不同的表述形式表达同一个含义的内容。这可能会导致大语言模型提取出的标签项和标签值中,存在多组标签项和标签值实际描述的是对象的同一个特征。
针对一些对象的主观类的特征,例如,美观程度、握持感受或者便携性等,更加容易产生上述问题。这不利于标签项和标签值的进一步应用。
具体的,例如,对象可以是可出售的商品。商品可以是A公司的充电宝和B公司的充电宝。用户可以将A公司和B公司的充电宝的文本内容提供给大语言模型,以指示大语言模型分别挖掘出两个充电宝的标签项和标签值。其中,文本内容可能是购买了商品的消费者的评论。A公司的充电宝的评论可能是“充电宝的手感不错”。B公司的充电宝的评论可能是“充电宝握持起来很舒服”。相应的,针对A公司的充电宝,大语言模型挖掘到的标签项和标签值可能是“手感”和“不错”。针对B公司的充电宝,大语言模型挖掘到的标签项和标签值可能是“握持感”和“舒服”。
可见,大语言模型虽然提取到了两组标签项和标签值,但是实际表达的都是这两款充电宝的握持手感这一主观特征。如果有意向购买充电宝的消费者采用“手感”和“不错”这一组标签项和标签值筛选充电宝时,可能会筛选不到B公司的充电宝。
针对上述问题,可能需要进一步地对大语言模型挖掘到的这些标签项和标签值进行归一化处理,以将归一化的结果作为标签值,但是这也会一定程度上降低标注标签项和标签值的效率。
因此,为了提高标签值的确定效率以及简化标签值的确定流程,可以为大语言模型提供对应标签问题文本的多个候选答案文本,并通过参考问题样例提示大语言模型在多个候选答案文本中选出契合标签问题文本的候选答案文本,形成标签问题答案。由于候选答案文本是指定的,使得大语言模型输出的标签问题答案具有较强的确定性,也进一步限制了大语言模型的“AI幻觉”现象。
在本实施方式中,候选答案文本可以表示标签问题文本表征问题的可选答案。具体的,例如,标签问题文本可以是“这个雾化器的充电方式”。相应的,多个候选答案文本可以是“电池”和“插电”。或者,标签问题文本可以是“这个电动轮椅可以上坡吗”。相应的,多个候选答案文本可以是“可以”和“不可以”。
在一些实施方式中,候选答案文本可以是在确定标签项时一并确定。具体的,例如,大语言模型在商品问答数据中挖掘购买商品的购买决策因子作为标签项时,还可以记录不同消费者针对该购买决策因子的取值,形成对应标签项的候选答案文本。当然,候选答案文本也可以通过人工标注得到。本说明书实施方式在此不作具体限定。
为了指示大语言模型在候选答案文本中确定标签问题答案。在本实施方式中,问题样例还可以包括样例问题文本对应的多个候选样例答案文本。并且,样例答案文本可以取自所述多个候选样例答案文本,即样例答案文本可以是多个候选答案文本中的一个或多个。由此在大语言模型参照参考问题样例输出标签问题答案的过程中,大语言模型可以学习参考问题样例中样例答案文本的形式,在候选答案文本中确定标签问题答案。
在本实施方式中,样例答案文本的形式可以是在多个候选样例答案文本确定样例答案文本。
在本实施方式中,候选样例答案文本可以是样例问题文本表征问题的可选答案。样例答案文本可以是候选答案文本中的一个或多个。具体的,例如,依照样例语料提供的信息,可以在多个候选样例答案文本中确定与样例问题文本最契合的候选样例答案文本,作为样例答案文本。
在本实施方式中,契合所述标签问题文本的候选答案文本可以称为标签答案文本。由于指定语料可以一定程度上提供标签问题文本的答案的信息。因此,标签答案文本可以是与指定语料的内容匹配的候选答案文本。具体的,例如,指定语料可以是用户对某一款手机的评价,评价内容为“手机的手感很好”。标签问题文本可以是“手机手感怎么样”。标签问题文本对应的候选答案文本可以包括“手感好”、“手感差”和“手感一般”。相应的,标签答案文本可以是“手感好”这一候选答案文本。这与用户对该手机的评价内容一致。
在本实施方式中,标签答案文本可以作为标签问题答案。或者,大语言模型反馈的多个候选答案文本可能成为标签答案文本的概率,可以作为标签问题答案。本说明书实施方式在此不作具体限定。
在一些实施方式中,候选样例答案文本对应有以单个字符或词汇形成的答案文本选项;所述答案文本选项用于表征相应的候选样例答案文本;不同候选样例答案文本对应的答案文本选项不同;样例答案文本以答案文本选项的形式指出契合样例问题文本的候选样例答案文本;所述提示指令中还包括表征候选答案文本的答案文本选项,以指示所述大语言模型通过输出答案文本选项的形式指出契合所述标签问题文本的候选答案文本。
在一些情况下,大语言模型可以根据提示指令生成作为回答的句子。其中,句子中的每次词汇可以是基于对数几率(Logits)确定。
具体的,例如,大语言模型可以根据提示指令,生成指定词汇集中多个词汇的对数几率分布。其中,一个词汇可以对应一个对数几率的取值。词汇的对数几率可以表示相应词汇出现在大语言模型的回答中的概率的原始得分。大语言模型输出的过程中,可以基于对数几率的取值选择输出的词汇。进一步地,大语言模型还可以根据已经输出的词汇确定下一个输出的词汇的对数几率分布,以选择下一个输出的词汇,以形成输出的文本。
在一些实施方式中,标签问题答案可以包括大语言模型生成的分别针对多个候选答案文本中每个词汇的对数几率。
然而,当多个候选答案文本包括的词汇数量不同时,需要对多个候选答案文本中每个词汇的对数几率进行归一化处理之后,才能比较多个候选答案文本可能作为标签值的概率。这可能需要耗费一定的运算资源。
为此,在本实施方式中,样例答案文本可以通过答案文本选项的形式指出契合样例问题文本的候选样例答案文本。其中,答案文本选项可以通过单个字符或词汇形成,用于表征候选答案文本。单个字符或单个词汇可以对应一个对数几率的取值。相应的,大语言模型可以通过输出答案文本选项的形式指出契合标签问题文本的候选答案文本。由于答案文本选项通过单个字符或词汇形成。因此,大语言模型输出时,只需要生成一次答案文本选项的对数几率分布,从而可以避免进一步地执行归一化处理的操作。其中,对数几率分布可以是一个向量。向量中不同维度的取值可以表示不同答案文本选项的对数几率。通过比较不同维度的取值大小,即可以确定答案文本选项对应的候选答案文本作为标签值的契合程度。
在本实施方式中,答案文本选项可以是通过单个字符或者单个词汇形成的文本。在一些实施方式中,单个字符可以作为一个词汇。具体的,例如,答案文本选项可以是“A”、“B”、“C”、“D”,或者“甲”、“乙”、“丙”,或者“一”、“二”、“三”等。当然,作为答案文本选项的词汇也可以由多个字符形成。例如,答案文本选项可以是“甲壹”、“乙贰”、“丙叁”、“丁肆”。
在本实施方式中,进一步的,通过约束大语言模型的输出为一个最小的词汇单元(单个字符或单个词汇),使得大语言模型不会针对输出结果进行生成式发散,进而得到结果都处于可控范围内,最大程度削弱了大语言模型在生成回答过程中存在的“AI幻觉”内容。整体上,提升了准确性。
在一些实施方式中,所述标签问题答案包括所述大语言模型针对所述多个候选答案文本的文本生成概率,所述方法还可以包括:构造多个包括所述多个候选答案文本的提示指令;其中,所述多个候选答案文本在不同提示指令中的排序不同;相应的,基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案的步骤,包括:分别使用多个所述提示指令调用所述大语言模型,得到对应提示指令的多个文本生成概率组;其中,文本生成概率组包括所述大语言模型依照相应提示指令反馈的对应候选答案文本的文本生成概率;相应的,根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值的步骤,包括:根据所述多个候选答案文本在所述多个文本生成概率组中的文本生成概率,确认作为所述指定语料对应所述标签项的标签值的候选答案文本。
在一些情况下,发明人在长期工作中发现,当给一些大语言模型提供多个候选答案文本和/或答案文本选项,并指示其从中确定目标的标签答案文本时,多个候选答案文本和/或答案文本选项在提示指令中的顺序可能会影响大语言模型的输出结果。具体的,例如,大语言模型可能会更加倾向于将提示指令中出现位置靠前的候选答案文本和/或答案文本选项作为目标的标签答案文本。如果只构建单一的提示指令,并基于该提示指令的大语言模型输出结果确定标签项的标签值,准确性相对并不高。
因此,在本实施方式中,可以构建多个提示指令。多个候选答案文本在多个提示指令中的排序不同。将多个提示指令分别提供给大语言模型,并依据大语言模型分别反馈的结果,可以更加准确地确定标签问题答案,以进一步地确定标签项对应的标签值。
在本实施方式中,多个候选答案文本在不同提示指令中的排序不同。具体的,例如,标签问题文本可以是“这个充电宝的手感怎么样?”。多个候选答案文本可以是“优秀”、“一般”、“较差”。相应的,第一个提示指令中多个候选答案文本依次出现的顺序可以是“优秀”、“一般”、“较差”。第二个提示指令中多个候选答案文本依次出现的顺序可以是“优秀”、“较差”、“一般”。第三个提示指令中多个候选答案文本依次出现的顺序可以是“较差”、“优秀”、“一般”。第四个提示指令中多个候选答案文本依次出现的顺序可以是“一般”、“优秀”、“较差”。第五个提示指令中多个候选答案文本依次出现的顺序可以是“一般”、“较差”、“优秀”。第六个提示指令中多个候选答案文本依次出现的顺序可以是“较差”、“一般”、“优秀”。相应的,根据六个提示指令分别反馈的结果,可以确定“这个充电宝的手感怎么样”对应的“充电宝手感”的标签值。
在一些实施方式中,多个候选答案文本在多个提示指令中均具有对应的答案文本选项。例如,多个候选答案文本可以是“优秀”、“一般”、“较差”。答案文本选项可以是“A”、“B”、“C”。
在一些情况下,答案文本选项和候选答案文本之间可以具有绑定关系。相应的,不同提示指令中,候选答案文本和其绑定的答案文本选项在不同提示指令中出现的顺序不同。具体的,例如,第一个提示指令中多个候选答案文本依次出现的顺序可以是“A:优秀”、“B:一般”、“C:较差”。第二个提示指令中多个候选答案文本依次出现的顺序可以是“A:优秀”、“C:较差”、“B:一般”。第三个提示指令中多个候选答案文本依次出现的顺序可以是“C:较差”、“A:优秀”、“B:一般”。第四个提示指令中多个候选答案文本依次出现的顺序可以是“B:一般”、“A:优秀”、“C:较差”。第五个提示指令中多个候选答案文本依次出现的顺序可以是“B:一般”、“C:较差”、“A:优秀”。第六个提示指令中多个候选答案文本依次出现的顺序可以是“C:较差”、“B:一般”、“A:优秀”。
在一些情况下,答案文本选项在不同提示指令中出现的次序可以一致,但是其对应的候选答案文本可以不同。具体的,例如,第一个提示指令中多个候选答案文本依次出现的顺序可以是“A:优秀”、“B:一般”、“C:较差”。第二个提示指令中多个候选答案文本依次出现的顺序可以是“A:优秀”、“B:较差”、“C:一般”。第三个提示指令中多个候选答案文本依次出现的顺序可以是“A:较差”、“B:优秀”、“C:一般”。第四个提示指令中多个候选答案文本依次出现的顺序可以是“A:一般”、“B:优秀”、“C:较差”。第五个提示指令中多个候选答案文本依次出现的顺序可以是“A:一般”、“B:较差”、“C:优秀”。第六个提示指令中多个候选答案文本依次出现的顺序可以是“A:较差”、“B:一般”、“C:优秀”。在本实施方式中,构造多个包括所述多个候选答案文本的提示指令的方法,可以是先将多个候选答案文本进行排列组合,并基于排列组合的至少部分结果构建提示指令。
在一些情况下,根据多个提示指令生成的结果,结合投票机制,可以确定标签项的标签值。然而,在候选答案文本数量较少的情况下,例如,当只有两个候选答案文本的情况下,投票机制可能并不能确定最适合的标签值。
因此,在本实施方式中,可以令大语言模型不直接反馈输出的概率最高的文本,而是令其返回多个候选答案文本分别对应的文本生成概率。由于文本生成概率可以以连续的数值的形式表征候选答案文本和标签问题文本之间的契合程度,因此可以较为准确地确定可以作为标签项的标签值的候选答案文本。
在一些实施方式中,在大语言模型以答案文本选项表征契合标签问题文本的候选答案文本的情况下,文本生成概率可以表示大语言模型输出候选答案文本的答案文本选项的概率或对数几率。
在一些实施方式中,文本生成概率也可以表示大语言模型输出候选答案文本中每次词汇的可能性,或大语言模型输出候选答案文本整个句子的可能性。具体的,文本生成概率可以表示大语言模型生成词汇的对数几率。当然,文本生成概率也可以表示大语言模型生成的词汇经过归一化的对数几率。或者,文本生成概率还可以表示输出候选答案文本整个句子的得分。本说明书实施方式在此不作具体限定。
在本实施方式中,文本生成概率组可以包括多个文本生成概率。同一个文本概率组中的文本生成概率可以是基于同一个提示指令生成,且对应不同的候选答案文本。不同的文本概率组可以基于不同的提示指令生成。
具体的,例如,候选答案文本数量为两个。大语言模型的输出可以是候选答案文本对应的答案文本选项。相应的,文本生成概率可以表示答案文本选项的对数几率。相应的,基于排列组合可以构建两个提示指令。基于第一个提示指令生成的文本概率组可以是[2.15,1.23]。基于第二个提示指令生成的文本概率组可以是[1.75,1.53]。其中,文本概率组中每个位置的数值可以表示输出不同候选答案文本的答案文本选项的对数几率。其中,文本概率组中数值的位置和候选答案文本之间可以对应,也可以没有绑定关系。例如,文本概率组中数值的位置和候选答案文本之间的映射关系可以和候选答案文本在提示指令的位置相关联。本说明书实施方式在此不作具体限定。
在一些实施方式中,文本生成概率可以表示多个候选答案文本中每个词汇的对数几率。相应的,文本概率组可以包括多个子概率组。其中,每个子概率组中可以对应一个候选答案文本。子概率组中可以包括对应候选答案文本的词汇的文本生成概率。
具体的,例如,候选答案文本的数量为两个。第一个候选答案文本可以有两个词汇形成。第二个候选答案文本可以有一个词汇形成。基于构建的第一个提示指令得到的文本生成概率可以是[(1.5,2.3),( 1.3)]。基于构建的第二个提示指令得到的文本生成概率可以是[(1.4),(1.1,1.3),]。其中,小括号可以表示子概率组。小括号内的数值可以表示词汇的对数几率。
在本实施方式中,根据所述多个候选答案文本在所述多个文本生成概率组中的文本生成概率,确认作为所述指定语料对应所述标签项的标签值的候选答案文本的方法,可以是将对应同一个候选答案文本的文本生成概率作平均值后,根据平均值确定作为指定语料对应标签项的标签值的候选答案文本。例如,可以将文本生成概率的平均值最大的候选答案文本,作为候选答案文本。当然,也可以将对应同一个候选答案文本的文本生成概率进行加权求和,并根据加权求和的结果,确定作为指定语料对应标签项的标签值的候选答案文本。
在一些实施方式中,请参阅图3,样例问题文本对应有表征相应样例问题文本的样例问题特征向量;将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例的步骤,包括:将所述标签问题文本进行语义编码,得到标签问题特征向量;召回与所述标签问题特征向量的语义相似度符合指定条件的样例问题特征向量对应的问题样例,作为所述参考问题样例。
在一些情况下,样例问题文本如果和标签问题文本表达的语义接近或形式相似,可以为大语言模型起到更好地参考作用。例如,样例问题文本和标签问题文本可能是对不同电子产品的同一个特征的特征取值的问题,大语言模型在接收到包括样例问题文本的提示指令后,也可以更明确地了解到问题的内容以及回答方式。
此外,问题样例可以表示为标注好的样本。基于参考问题样例标注标签项的标签值,可以实现基于少量的标注样本,对大语言模型提供参考的效果。在相关技术中,少量的标注样本可能还无法较好地起到提取标签项的标签值的作用。本说明书实施方式中,通过将小样本学习(Few-Shot Learning)和大语言模型的提示指令结合,即通过少量标注好的样本,结合大语言模型,可以起到挖掘到较为准确标签项和标签值。
在本实施方式中,标签问题特征向量可以表征标签问题文本。
在本实施方式中,将所述标签问题文本进行语义编码,得到标签问题特征向量的方法,可以是通过Bert、Transformer等模型编码得到。本说明书实施方式在此不作具体限定。
在本实施方式中,样例问题特征向量可以表征样例问题文本。
在本实施方式中,样例问题特征向量也可以是通过Bert、Transformer等模型对样例问题文本编码得到。本说明书实施方式在此不作具体限定。
在本实施方式中,召回与所述标签问题特征向量的语义相似度符合指定条件的样例问题特征向量对应的问题样例的方法,可以是通过正弦相似度或欧式距离,计算样例问题特征向量和标签问题特征向量之间的相似度,并选择相似度符合指定条件的样例问题特征向量对应的问题样例,作为参考问题样例。
当然,召回与所述标签问题特征向量的语义相似度符合指定条件的样例问题特征向量对应的问题样例的方法,采用K近邻算法(K Nearest Neighbor,KNN)从问题样例中召回与标签问题文本语义接近的样例问题文本所属于的问题样例。具体的,例如,可以使用Faiss向量召回框架召回语义最接近的一个或多个参考问题样例,以构建提示指令。
在一些实施方式中,所述指定语料包括针对指定商品的提问文本,以及所述提问文本的回复文本;所述提问文本与所述标签问题文本接近或相同;所述标签项表示所述指定商品的商品特征;所述标签值表示所述商品特征的特征取值;所述标签问题文本用于表达请求所述商品特征的特征取值。
在本实施方式中,对象可以是指定商品。指定语料可以是指定商品的提问文本和对应提问为他本的回复文本。提问文本可以是消费者或者商品的测评人员提出。回复文本可以是购买了商品的消费者、商品的生产方、商品的出售方提出。本说明书实施方式在此不作具体限定。
在本实施方式中,标签项可以表示指定商品的特征。标签值表示指定商品的特征的特征取值。标签问题文本可以用于表达请求所述商品特征的特征取值。具体的,指定商品的特征可以包括商品的客观特征,例如,商品的尺寸或重量等。当然,指定商品的特征也可以包括商品的主观特征,例如,商品的精致程度或美观程度等。本说明书实施方式在此不作具体限定。
请参阅图4,本说明书实施方式还提供一种用户账户的分类方法。所述用户账户的分类方法可以应用于服务器。所述用户账户的分类方法可以包括以下步骤。
步骤S210:获取多个用户账户针对同一个提问文本的回复文本;其中,所述提问文本对应有语义接近的标签问题文本和标签项;
步骤S220:以回复文本形成对应用户账户的指定语料,使用如权利要求1至6任一项所述的标签值的确定方法,确定多个用户账户针对所述标签项的标签值;
步骤S230:依照所述标签项的标签值对所述多个用户账户进行分类;其中,相同标签值对应的用户账户被划分至同一类别。
在一些情况下,基于人对某一提问文本的回复文本,可以对人进行分类。具体的,例如,一些提问文本可能针对相关主观的问题提出。例如,提问文本可以是对某个产品的外观进行评价。一些人可能觉得该产品的外观好看,而另一些人可能觉得该产品的外观不好看。这可能取决于不同人的审美偏好。因此,如果将具有不同主观偏好的人进行分类,可以更有针对性地为不同类别的人推荐产品。
在本实施方式中,用户账户可以指代用户。
在本实施方式中,提问文本可以是可被用户账户获取的问题。例如,用户账户的分类方法可以被应用在提问软件上。提问文本可以是分配给用户账户的问题。相应的,回复文本可以是用户账户针对提问文本的回答。在本实施方式中,提问文本和回复文本也可以是电商平台中用户账户对某一个商品某些特征的提问和回答。在一些实施方式中,提问文本和回复文本可以属于表达用户使用体验或感受的内容,并且提问文本和回复文本涉及的内容未记载于商品的详情信息中。当然,还可以有其它实施方式,本说明书实施方式在此不作具体限定。
在本实施方式中,提问文本可以对应有语义接近或相同的标签问题文本和标签项。标签项可以标签问题文本可以预设的。或者,标签项可以标签问题文本也可以是由大语言模型根据在获取到提问文本和/或回复文本后总结生成的。
在本实施方式中,指定语料可以仅包括回复文本,也可以包括回复文本和问题文本。
在一些实施方式中,标签项的标签值可以经过归一化后的数据。相应的,依照所述标签项的标签值对所述多个用户账户进行分类,可以是将标签值不同的用户分到不同类别。相同的用户分至同一个类别。
在一些实施方式中,标签项的标签值也可以未经过归一化后的数据。相应的,依照所述标签项的标签值对所述多个用户账户进行分类,可以先对标签值进行归一化后进行分类。
在一些实施方式中,用户账户的分类方法还可以包括为用户账户开放相对应的标签项和标签值的接口。
请参阅图5,本说明书实施方式还提供一种标签值的确定装置。所述标签值的确定装置可以包括:样例匹配模块、大语言模型调用模块和标签值确定模块。
样例匹配模块,用于将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例;其中,所述指定问题样例集中包括多个问题样例;其中,所述问题样例包括样例问题文本和对应的样例答案文本。
大语言模型调用模块,用于基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案。
标签值确定模块,用于根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值。
请参阅图6,本说明书实施方式还提供一种用户账户的分类装置。所述用户账户的分类装置可以包括:获取模块、确定模块和分类模块。
获取模块,用于获取多个用户账户针对同一个提问文本的回复文本;其中,所述提问文本对应有语义接近的标签问题文本和标签项。
确定模块,用于以回复文本形成对应用户账户的指定语料,使用如本说明书任一实施方式所述的标签值的确定方法,确定多个用户账户针对所述标签项的标签值。
分类模块,用于依照所述标签项的标签值对所述多个用户账户进行分类;其中,相同标签值对应的用户账户被划分至同一类别。
关于标签值的确定装置或用户账户的分类装置实现的具体功能和效果,可以参照本说明书其他实施方式对照解释,在此不再赘述。所述标签值的确定装置或用户账户的分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参阅图7,本说明书实施方式还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一实施方式中的标签值的确定方法或用户账户的分类方法。
本说明书实施方式还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得,该计算机执行上述任一实施方式中的标签值的确定方法或用户账户的分类方法。
本说明书实施方式还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述任一实施方式中标签值的确定方法或用户账户的分类方法。
本说明书多个实施方式中所涉及的用户信息或者用户账户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经过用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律规定和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
可以理解,本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式,而非限制本发明的范围。
可以理解,在本说明书中的各种实施方式中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本说明书实施方式的实施过程构成任何限定。
可以理解,本说明书中描述的各种实施方式,既可以单独实施,也可以组合实施,本说明书实施方式对此并不限定。
除非另有说明,本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
可以理解,本说明书实施方式的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施方式描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本说明书的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施方式中的对应过程,在此不再赘述。
在本说明书所提供的几个实施方式中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本说明书的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本说明书的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种标签值的确定方法,其特征在于,所述方法包括:
将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例;其中,所述指定问题样例集中包括多个问题样例;其中,所述问题样例包括样例问题文本和对应的样例答案文本;
基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案;
根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值。
2.根据权利要求1所述的方法,其特征在于,所述问题样例还包括所述样例问题文本对应的多个候选样例答案文本;所述样例答案文本取自所述多个候选样例答案文本;
所述提示指令还通过所述标签问题文本对应的多个候选答案文本构建,以指示所述大语言模型依照所述指定语料提供的信息,确定契合所述标签问题文本的候选答案文本,形成所述标签问题答案。
3.根据权利要求2所述的方法,其特征在于,候选样例答案文本对应有以单个字符或词汇形成的答案文本选项;所述答案文本选项用于表征相应的候选样例答案文本;不同候选样例答案文本对应的答案文本选项不同;样例答案文本以答案文本选项的形式指出契合样例问题文本的候选样例答案文本;
所述提示指令中还包括表征候选答案文本的答案文本选项,以指示所述大语言模型通过输出答案文本选项的形式指出契合所述标签问题文本的候选答案文本。
4.根据权利要求2所述的方法,其特征在于,所述标签问题答案包括所述大语言模型针对所述多个候选答案文本的文本生成概率,所述方法还包括:
构造多个包括所述多个候选答案文本的提示指令;其中,所述多个候选答案文本在不同提示指令中的排序不同;
相应的,基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案的步骤,包括:
分别使用多个所述提示指令调用所述大语言模型,得到对应提示指令的多个文本生成概率组;其中,文本生成概率组包括所述大语言模型依照相应提示指令反馈的对应候选答案文本的文本生成概率;
相应的,根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值的步骤,包括:
根据所述多个候选答案文本在所述多个文本生成概率组中的文本生成概率,确认作为所述指定语料对应所述标签项的标签值的候选答案文本。
5.根据权利要求1所述的方法,其特征在于,样例问题文本对应有表征相应样例问题文本的样例问题特征向量;将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例的步骤,包括:
将所述标签问题文本进行语义编码,得到标签问题特征向量;
召回与所述标签问题特征向量的语义相似度符合指定条件的样例问题特征向量对应的问题样例,作为所述参考问题样例。
6.根据权利要求1所述的方法,其特征在于,所述指定语料包括针对指定商品的提问文本,以及所述提问文本的回复文本;所述提问文本与所述标签问题文本接近或相同;所述标签项表示所述指定商品的商品特征;所述标签值表示所述商品特征的特征取值;所述标签问题文本用于表达请求所述商品特征的特征取值。
7.一种用户账户的分类方法,其特征在于,包括:
获取多个用户账户针对同一个提问文本的回复文本;其中,所述提问文本对应有语义接近的标签问题文本和标签项;
以回复文本形成对应用户账户的指定语料,使用如权利要求1至6任一项所述的标签值的确定方法,确定多个用户账户针对所述标签项的标签值;
依照所述标签项的标签值对所述多个用户账户进行分类;其中,相同标签值对应的用户账户被划分至同一类别。
8.一种标签值的确定装置,其特征在于,所述装置包括:
样例匹配模块,用于将与标签项对应的标签问题文本,在指定问题样例集中匹配得出与所述标签问题文本相对应的参考问题样例;其中,所述指定问题样例集中包括多个问题样例;其中,所述问题样例包括样例问题文本和对应的样例答案文本;
大语言模型调用模块,用于基于所述标签问题文本、所述参考问题样例和指定语料构建的提示指令,调用大语言模型,以指示所述大语言模型采用所述参考问题样例中样例答案文本的形式,依照所述指定语料提供的信息为所述标签问题文本输出标签问题答案;
确定模块,用于根据所述大语言模型输出的标签问题答案,确定所述指定语料对应所述标签项的标签值。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410050002.5A CN117574286B (zh) | 2024-01-11 | 2024-01-11 | 标签值的确定方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410050002.5A CN117574286B (zh) | 2024-01-11 | 2024-01-11 | 标签值的确定方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117574286A true CN117574286A (zh) | 2024-02-20 |
CN117574286B CN117574286B (zh) | 2024-05-24 |
Family
ID=89890360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410050002.5A Active CN117574286B (zh) | 2024-01-11 | 2024-01-11 | 标签值的确定方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574286B (zh) |
Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150058371A1 (en) * | 2012-03-30 | 2015-02-26 | Rakuten ,Inc. | Answer form processing system, answer form processing method, data processing system, data processing mehtod and program |
CN109086837A (zh) * | 2018-10-24 | 2018-12-25 | 高嵩 | 基于卷积神经网络的用户属性分类方法、存储介质、装置及电子设备 |
CN110837549A (zh) * | 2019-11-06 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及存储介质 |
CN110929015A (zh) * | 2019-12-06 | 2020-03-27 | 北京金山数字娱乐科技有限公司 | 一种多文本分析方法及装置 |
CN111353001A (zh) * | 2018-12-24 | 2020-06-30 | 杭州海康威视数字技术股份有限公司 | 对用户进行分类的方法和装置 |
CN111597321A (zh) * | 2020-07-08 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 问题答案的预测方法、装置、存储介质及电子设备 |
CN112214692A (zh) * | 2019-07-11 | 2021-01-12 | 北京搜狗科技发展有限公司 | 基于输入法的数据处理方法、装置和机器可读介质 |
CN113076466A (zh) * | 2021-02-26 | 2021-07-06 | 广东电网有限责任公司广州供电局 | 一种最佳答案和兴趣感知推荐方法 |
CN113987147A (zh) * | 2021-06-16 | 2022-01-28 | 北京金山数字娱乐科技有限公司 | 样本处理方法及装置 |
JP2023051212A (ja) * | 2021-09-30 | 2023-04-11 | トッパン・フォームズ株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN116108149A (zh) * | 2022-12-13 | 2023-05-12 | 中国建设银行股份有限公司 | 智能问答方法及其装置、设备、介质及产品 |
CN116501851A (zh) * | 2023-06-27 | 2023-07-28 | 阿里健康科技(杭州)有限公司 | 答案文本的发送方法、生成方法、装置、设备和介质 |
CN116561538A (zh) * | 2023-04-04 | 2023-08-08 | 厦门美柚股份有限公司 | 问答评分方法、问答评分装置、电子设备及存储介质 |
CN116662518A (zh) * | 2023-06-16 | 2023-08-29 | 河南云迹智能技术有限公司 | 问答方法、装置、电子设备及可读存储介质 |
CN116975218A (zh) * | 2023-04-23 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN117009503A (zh) * | 2022-09-13 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 文本分类方法及装置 |
US20230359654A1 (en) * | 2020-06-15 | 2023-11-09 | Deutsche Telekom Ag | Improved operation of a question-and-answer service provided to a telecommunications terminal via a telecommunications network |
CN117078359A (zh) * | 2023-10-16 | 2023-11-17 | 山东大学 | 基于用户群分类的产品推荐方法、系统、设备及介质 |
CN117171308A (zh) * | 2023-07-28 | 2023-12-05 | 至本医疗科技(上海)有限公司 | 用于生成科研数据分析应答信息的方法、设备和介质 |
CN117217332A (zh) * | 2023-09-26 | 2023-12-12 | 广州方舟信息科技有限公司 | 一种药品问答模型训练方法、装置、电子设备和存储介质 |
CN117235232A (zh) * | 2023-10-23 | 2023-12-15 | 科大讯飞股份有限公司 | 开放式问答及多模态大模型的训练方法、装置及相关设备 |
CN117291184A (zh) * | 2023-11-16 | 2023-12-26 | 浙江口碑网络技术有限公司 | 大语言模型的评估方法及装置、存储介质、计算机设备 |
-
2024
- 2024-01-11 CN CN202410050002.5A patent/CN117574286B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150058371A1 (en) * | 2012-03-30 | 2015-02-26 | Rakuten ,Inc. | Answer form processing system, answer form processing method, data processing system, data processing mehtod and program |
CN109086837A (zh) * | 2018-10-24 | 2018-12-25 | 高嵩 | 基于卷积神经网络的用户属性分类方法、存储介质、装置及电子设备 |
CN111353001A (zh) * | 2018-12-24 | 2020-06-30 | 杭州海康威视数字技术股份有限公司 | 对用户进行分类的方法和装置 |
CN112214692A (zh) * | 2019-07-11 | 2021-01-12 | 北京搜狗科技发展有限公司 | 基于输入法的数据处理方法、装置和机器可读介质 |
CN110837549A (zh) * | 2019-11-06 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及存储介质 |
CN110929015A (zh) * | 2019-12-06 | 2020-03-27 | 北京金山数字娱乐科技有限公司 | 一种多文本分析方法及装置 |
US20230359654A1 (en) * | 2020-06-15 | 2023-11-09 | Deutsche Telekom Ag | Improved operation of a question-and-answer service provided to a telecommunications terminal via a telecommunications network |
CN111597321A (zh) * | 2020-07-08 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 问题答案的预测方法、装置、存储介质及电子设备 |
CN113076466A (zh) * | 2021-02-26 | 2021-07-06 | 广东电网有限责任公司广州供电局 | 一种最佳答案和兴趣感知推荐方法 |
CN113987147A (zh) * | 2021-06-16 | 2022-01-28 | 北京金山数字娱乐科技有限公司 | 样本处理方法及装置 |
JP2023051212A (ja) * | 2021-09-30 | 2023-04-11 | トッパン・フォームズ株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN117009503A (zh) * | 2022-09-13 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 文本分类方法及装置 |
CN116108149A (zh) * | 2022-12-13 | 2023-05-12 | 中国建设银行股份有限公司 | 智能问答方法及其装置、设备、介质及产品 |
CN116561538A (zh) * | 2023-04-04 | 2023-08-08 | 厦门美柚股份有限公司 | 问答评分方法、问答评分装置、电子设备及存储介质 |
CN116975218A (zh) * | 2023-04-23 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN116662518A (zh) * | 2023-06-16 | 2023-08-29 | 河南云迹智能技术有限公司 | 问答方法、装置、电子设备及可读存储介质 |
CN116501851A (zh) * | 2023-06-27 | 2023-07-28 | 阿里健康科技(杭州)有限公司 | 答案文本的发送方法、生成方法、装置、设备和介质 |
CN117171308A (zh) * | 2023-07-28 | 2023-12-05 | 至本医疗科技(上海)有限公司 | 用于生成科研数据分析应答信息的方法、设备和介质 |
CN117217332A (zh) * | 2023-09-26 | 2023-12-12 | 广州方舟信息科技有限公司 | 一种药品问答模型训练方法、装置、电子设备和存储介质 |
CN117078359A (zh) * | 2023-10-16 | 2023-11-17 | 山东大学 | 基于用户群分类的产品推荐方法、系统、设备及介质 |
CN117235232A (zh) * | 2023-10-23 | 2023-12-15 | 科大讯飞股份有限公司 | 开放式问答及多模态大模型的训练方法、装置及相关设备 |
CN117291184A (zh) * | 2023-11-16 | 2023-12-26 | 浙江口碑网络技术有限公司 | 大语言模型的评估方法及装置、存储介质、计算机设备 |
Non-Patent Citations (5)
Title |
---|
SHANGSHENG GAO 等: "Application of large language model in intelligent Q&A of digital government", CNCIT \'23: PROCEEDINGS OF THE 2023 2ND INTERNATIONAL CONFERENCE ON NETWORKS, COMMUNICATIONS AND INFORMATION TECHNOLOGY, 9 August 2023 (2023-08-09), pages 24 - 27 * |
WIWIN SUWARNINGSIH 等: "Self-Attention Mechanism of RoBERTa to Improve QAS for e-health Education", 2021 4TH INTERNATIONAL CONFERENCE OF COMPUTER AND INFORMATICS ENGINEERING (IC2IE), 27 December 2021 (2021-12-27), pages 221 - 225 * |
任冰 等: "医学网络考试系统高安全性及智能化的研究与设计", 医疗卫生装备, vol. 33, no. 12, 15 December 2012 (2012-12-15), pages 33 - 35 * |
刘芳 等: "面向医疗行业的智能问答系统研究与实现", 微电子学与计算机, vol. 29, no. 11, 30 November 2012 (2012-11-30), pages 95 - 98 * |
姜成樾: "一个基于语义网技术的军事信息领域自动问答系统设计与实现", 中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑, vol. 2020, no. 5, 15 May 2020 (2020-05-15), pages 112 - 1 * |
Also Published As
Publication number | Publication date |
---|---|
CN117574286B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pryzant et al. | Deconfounded lexicon induction for interpretable social science | |
Said et al. | A statistical model of facial attractiveness | |
EP3726525A1 (en) | Electronic device for analyzing meaning of speech, and operation method therefor | |
KR20190070625A (ko) | 메타데이터를 이용한 아이템 추천 방법 및 장치 | |
KR20170045957A (ko) | 홍보용 미디어 콘텐츠 제작 시스템 및 그 방법 | |
CN113742492B (zh) | 保险方案生成方法、装置、电子设备及存储介质 | |
CN109716334A (zh) | 选择下一用户提示类型 | |
CN116894711A (zh) | 商品推荐理由生成方法及其装置、电子设备 | |
CN112053205A (zh) | 通过机器人情绪识别的产品推荐方法及装置 | |
CN117352132A (zh) | 心理辅导方法、装置、设备及存储介质 | |
CN117574286B (zh) | 标签值的确定方法、装置、设备和存储介质 | |
CN117131272A (zh) | 人工智能内容生成方法、模型及系统 | |
CN112926329B (zh) | 文本生成方法、装置、设备及计算机可读存储介质 | |
CN113297520A (zh) | 页面设计辅助处理方法、装置及电子设备 | |
KR20220118703A (ko) | 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 및 방법 | |
CN111651575A (zh) | 会话文本处理方法、装置、介质及电子设备 | |
CN117708340B (zh) | 标签文本的确定方法、模型训练及调整方法、设备和介质 | |
CN117252995B (zh) | 智能名片的使用方法、智能销售系统及存储介质 | |
CN116070175B (zh) | 一种文案生成方法及电子设备 | |
KR102592531B1 (ko) | 소상공인의 그룹화를 통해 생성한 브랜드 컨셉에 판로를 매칭하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체 | |
CN109829157A (zh) | 文本情绪呈现方法、文本情绪呈现装置以及存储介质 | |
CN112528006B (zh) | 一种文本处理方法以及装置 | |
CN114764726A (zh) | 推广信息的处理方法、装置及存储介质 | |
CN116383478A (zh) | 事务推荐方法、装置、设备以及存储介质 | |
CN117972040A (zh) | 交互信息处理方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |