CN117648406A - 文本无监督排序方法及系统 - Google Patents
文本无监督排序方法及系统 Download PDFInfo
- Publication number
- CN117648406A CN117648406A CN202311769584.4A CN202311769584A CN117648406A CN 117648406 A CN117648406 A CN 117648406A CN 202311769584 A CN202311769584 A CN 202311769584A CN 117648406 A CN117648406 A CN 117648406A
- Authority
- CN
- China
- Prior art keywords
- text
- comparison
- candidate
- similarity
- candidate texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 230000005587 bubbling Effects 0.000 claims description 8
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 10
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 description 4
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文本无监督排序方法及系统,该排序方法包括步骤:S1、将所有候选文本中的每个候选文本分别与其余候选文本一一配对,以生成若干个比较对;S2、将样本文本分别与各个比较对进行比较,且与每个比较对进行比较的方法均为:将样本文本与比较对中的两个候选文本以交换顺序比较两次的方式进行相似度比较,然后结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况;S3、将所有候选文本按照相似度从高到低的顺序进行排序;其中,步骤S2和步骤S3基于设定的排序方法顺序执行或并行执行。本发明采用交换顺序两次比较的配对比较方式来确定两个候选文本相似度的高低,使得排序更稳定,排序准确性更高。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种文本无监督排序方法及系统。
背景技术
无监督排序方法主要是处理query(即问题)和document(即问题相关文档)的相似问题。如:给到一个问题query和候选文本doc1,doc2,doc3,……,doc N,根据各候选文本和query的相似度进行排序。
目前无监督排序方法主要有以下三种方案:
1.基于语义相似度
通过embedding(即文本语义向量化)技术将query和doc的文本各自压缩到低维向量,然后通过向量之间的距离衡量两者的相似度。
优点:不需要标注数据,并且在抽象的语义相似层面衡量的比较好。
缺点:无法处理精确信息的匹配。
2.基于关键词匹配相似度
通过对两段文本进行分词,依靠tf-idf、bm25等关键词匹配算法计算相似度。
优点:分词处理速度快,且对精确匹配场景适应较好。
缺点:在语义相似度量效果不佳。
3.基于大语言模型(LLM,Large Language Models)的大模型排序
通过选择合适的prompt(即提示词),LLM可以给出query和每个doc的相似打分。
优点:没有数据依赖,且兼顾语义模糊匹配和文本精确匹配场景。
缺点:大模型排序不稳定,当上下文过长时,性能极急剧下降,无法处理候选文档过多的打分情况。
发明内容
为了解决上述问题,本发明提供了一种文本无监督排序方法及系统,采用交换顺序两次比较的配对比较方式来确定两个候选文本相似度的高低,使得排序更稳定,排序准确性更高。
本发明通过如下方案实现,一种文本无监督排序方法,包括步骤:
S1、将所有候选文本中的每个候选文本分别与其余候选文本一一配对,以生成若干个比较对;
S2、将样本文本分别与各个比较对进行比较,且与每个比较对进行比较的方法均为:将样本文本与比较对中的两个候选文本以交换顺序比较两次的方式进行相似度比较,然后结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况;
S3、将所有候选文本按照相似度从高到低的顺序进行排序;其中,
步骤S2和步骤S3基于设定的排序方法顺序执行或并行执行。
本发明文本无监督排序方法的进一步改进在于,在与每个比较对进行比较时,结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况的方法为:
基于第一次比较的结果,对相似度较高的候选文本加一个单位分值;
基于第二次比较的结果,对相似度较高的候选文本加一个单位分值;
将比较对中的两个候选文本的分值对应求和,得到两个候选文本各自的总分值,总分值的高低对应为两个候选文本与样本文本的相似度高低。
本发明文本无监督排序方法的进一步改进在于,所述设定的排序方法为按分值排序法时,步骤S2和步骤S3基于按分值排序法顺序执行,且在执行步骤S3时,先将每个候选文本在各比较对中得到的总分值进行求和,得到各候选文本的汇总分值,再按照汇总分值从高到低的顺序对所有候选文本进行排序。
本发明文本无监督排序方法的进一步改进在于:所述设定的排序方法为冒泡排序法或快速排序法时,步骤S2和步骤S3基于冒泡排序法或快速排序法并行执行。
本发明文本无监督排序方法的进一步改进在于:
将所有候选文本分成若干组,使每组包括若干候选文本,然后将所有组同步执行步骤S1~步骤S3;
最后对所有组的排序结果进行归并。
本发明文本无监督排序方法的进一步改进在于:所述样本文本由原始样本长文本的关键信息拼接而成,各所述候选文本分别由对应的原始候选长文本的关键信息拼接而成。
本发明文本无监督排序方法的进一步改进在于:所述原始样本长文本的关键信息选自所述原始样本长文本的摘要、主题词和/或主题句;所述原始候选长文本的关键信息选自所述原始候选长文本的摘要、主题词和/或主题句。
本发明还提供了一种文本无监督排序系统,用于实现如上所述的文本无监督排序方法,所述文本无监督排序系统包括:
配对模块,用于将所有候选文本中的每个候选文本分别与其余候选文本一一配对,以生成若干个比较对;
比较模块,用于对每个所述比较对以交换顺序比较两次的方式将样本文本与两个候选文本进行相似度比较、以得到两个候选文本与样本文本的相似度高低情况,所述比较模块与所述配对模块连接;
排序模块,用于将所有候选文本按照相似度从高到低的顺序进行排序,所述排序模块与所述配对模块连接;其中,
所述配对模块、所述比较模块和所述排序模块均基于设定的排序方法进行定义和调用。
本发明文本无监督排序系统的进一步改进在于:所述配对模块、所述比较模块和所述排序模块均为大语言模型的功能模块。
本发明文本无监督排序系统的进一步改进在于:还包括语言处理模块,用于从长文本中提取关键信息并拼接成新文本,所述语言处理模块与所述配对模块和所述比较模块连接。
本发明采用交换顺序两次比较的配对比较方式来确定两个候选文本相似度的高低,使得排序更稳定,排序准确性更高;通过进一步借助冒泡排序和快速排序等传统排序法可实现对整个排序方法的并行加速,提高了排序效率。另外,通过引入自然语言处理系统,可对长文本进行关键信息提取,然后将关键信息拼接在一起作为长文本样本的替代,大大减轻了针对长文本进行相似度比较的难度。
附图说明
图1示出了本发明中比较对生成实例示意图。
图2示出了本发明对各比较对进行打分并基于汇总分值进行排序的实例流程图。
具体实施方式
为了解决现有大模型排序方案排序不稳定、且当文本过长时性能极急剧下降等问题。本发明提供了一种文本无监督排序方法及系统,采用交换顺序两次比较的配对比较方式来确定两个候选文本相似度的高低,使得排序更稳定,排序准确性更高。下面以具体实施例结合附图对该文本无监督排序方法及系统作进一步说明。
一种文本无监督排序方法,包括步骤:
步骤S1、将所有候选文本中的每个候选文本分别与其余候选文本一一配对,以生成若干个比较对。需要说明的是,若各候选文本的上下文过长,会影响后续相似度比较的性能,故,对于长文本(如包括有500个字)来说,需要借助自然语言处理系统对其进行精简,提取出长文本的关键信息并通过模板重新拼接在一起作为长文本的替代(精简后的文本可以被压缩到100个字以内,使得在相同处理窗口大小的情况下,可以处理的文本数提升了5倍)。该关键信息选自长文本的摘要、主题词和/或主题句,可以是任意两项的拼接或三项拼接。因此,该步骤中所用的候选文本均是满足长度要求的,对于长文本情况,是已经精简过的文本。
参阅图1所示,样本文本为问题,候选文本有n个,包括段落1、段落2、……、段落n,n为大于1的自然数。由于各段落的上下文过长,不利于后续的语义相关性比较,故利用自然语言处理系统将各段落中的摘要和主题词提取出来,并利用模板重新拼接,生成需要的候选文本,即段落1所对应的文本为段落1摘要和段落1主题词的拼接文本,相应的,段落2和段落n分别是段落2的拼接文本和段落n的拼接文本。而段落1与段落2的组合实际上是段落1的拼接文本与段落2的拼接文本的组合,生成可以交换顺序进行比较的比较对pair1;段落2与段落n的组合实际上是段落2的拼接文本与段落n的拼接文本的组合,生成可以交换顺序进行比较的比较对pair2。
步骤S2、将样本文本分别与各个比较对进行比较,且与每个比较对进行比较的方法均为:将样本文本与比较对中的两个候选文本以交换顺序比较两次的方式进行相似度比较,然后结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况。
其中,所述以交换顺序比较两次的步骤包括:
第一次比较,先将样本文本与两个候选文本中的第一个候选文本进行语义相关性比较,再将样本文本与两个候选文本中的第二个候选文本进行语义相关性比较,得出二者中哪个与样本文本的语义相关性更大(即相似度更高);
第二次比较,先将样本文本与该第二个候选文本进行语义相关性比较,再将样本文本与该第一个候选文本进行语义相关性比较,得出二者中哪个与样本文本的语义相关性更大(即相似度更高)。
综合两次比较,得出相似度更高的候选文本,若两次比较的结果不同,则认为两个候选文本与样本文本的相似度相同。
步骤S3、将所有候选文本按照相似度从高到低的顺序进行排序。
需要说明的是,上述步骤S2和步骤S3应基于设定的排序方法顺序执行或并行执行。下面以三个实例进行说明:
实例1、该设定的排序方法为按分值排序法,步骤S2和步骤S3基于按分值排序法顺序执行。具体地,该按分值排序法要求:在将样本文本与每个比较对进行比较时,分别针对第一次比较和第二次比较对候选文本进行相似度打分,打分规则是:如果两次比较都是同一个候选文本与样本文本更相似,则对该候选文本加两个单位分值(如+1分),如果两次比较的结果不统一,则认为两个候选文本与样本文本的相似度一样,则对两个候选文本各加一个单位分值(如各+0.5分)。待两次比较完毕后,对两次的打分分值进行求和,得到总分值作为相应比较对的打分结果。基于该排序方法,上述的步骤S2和步骤S3应为顺序执行。也就是说:当样本文本与所有的比较对全部比较完毕之后,再执行步骤S3,且在执行步骤S3时,应先将每个候选文本在各比较对中的总分值进行求和,得到对应的汇总分值,然后再按照汇总分值从高到低的顺序对所有候选文本进行排序。
参阅图2所示,图2示出了一个问题Query的样本文本以及三个候选文本Doc1、Doc2、Doc3。在执行步骤S1时,先对三个候选文本进行精简,提取摘要Summary和主题词Topic,生成三个冲拼接的精简文本替代是哪个候选文本。然后利用替代后的三个候选文本生成三个比较对:第一比较对Doc1&Doc2、第二比较对Doc2&Doc3和第三比较对Doc1&Doc3。在执行步骤S2时,将问题Query分别与上述三个比较对进行比较,其中:与第一比较对比较两次的结果均是候选文本Doc1与问题Query更相似,则第一比较对的比较结果为Doc1:1分,Doc2:0分;与第二比较对比较两次的结果均是候选文本Doc2与问题Query更相似,则第二比较对的比较结果为Doc2:1分,Doc3:0分;与第三比较对比较两次的结果均是候选文本Doc1与问题Query更相似,则第三比较对的比较结果为Doc1:1分,Doc2:0分。在执行步骤S3时,先将三个候选文本的总分值进行求和(即打分投票环节),得到对应的汇总分值,即Doc1:2分,Doc2:1分,Doc3:0分。然后按照汇总分值从高到低的顺序对三个候选文本进行排序,即Doc1,Doc2,Doc3。
实例2和实例3、该设定的排序方法为冒泡排序法(实例2)和快速排序法(实例3),基于对应的排序方法的排序逻辑,并行执行步骤S2和步骤S3,无需像实例1须等所有比较对均比较完毕才能排序,而是随着对比较对进行比较,基于当前的比较结果同步执行当前涉及到的候选样本的排序,待所有比较对全部比较完毕时,整体排序也完成了。冒泡排序法和快速排序法均为传统的排序方法,其排序逻辑此处不做赘述,该实例2和实例3通过借助冒泡排序法和快速排序法等传统排序方法来实现对整体排序的并行加速,进一步提高了整体排序效率。
本发明采用配对比较排序的方法进行排序,虽然整体的比较计算量大了很多,但每次比较计算的结果是相对独立的,可先构造所有需要比较的比较对,然后一次计算得到所有比较对的结果。
作为一较佳实施方式,对于候选文本数量较多的情况,可以将所有候选文本分成若干组,使每组包括若干候选文本,然后将所有组同步执行步骤S1至步骤S3;最后对所有组的排序结果进行归并。需要说明的是,该分组应基于计算机线程数对应分组,以实现若干组的并行执行。通过该种方式,可以实现较多候选文本的快速排序。
本发明还提供了一种文本无监督排序系统,用于实现如上所述的文本无监督排序方法,该文本无监督排序系统包括:配对模块,用于将所有候选文本中的每个候选文本分别与其余候选文本一一配对,以生成若干个比较对;比较模块,用于对每个所述比较对以交换顺序比较两次的方式将样本文本与两个候选文本进行相似度比较、以得到两个候选文本与样本文本的相似度高低情况,该比较模块与该配对模块连接;排序模块,用于将所有候选文本按照相似度从高到低的顺序进行排序,该排序模块与该配对模块连接;其中,该配对模块、该比较模块和该排序模块均基于设定的排序方法进行定义和调用。具体来说,本实施例主要针对大语言模型LLM,而大语言模型LLM具有能够实现上述各功能的功能模块,所以,上述的配对模块、比较模块和排序模块均可使用大语言模型的功能模块。
作为一较佳实施方式:该文本无监督排序系统还包括语言处理模块(如NLP),用于从长文本中提取关键信息并拼接成新文本,该语言处理模块与该配对模块和该比较模块连接,用于针对长文本的样本文本或候选文本进行精简。对于具有上述语言处理功能的大语言模型LLM来说,可以采用LLM本身的该功能模块实现上述功能,无需额外配置语言处理模块。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。
Claims (10)
1.一种文本无监督排序方法,其特征在于,包括步骤:
S1、将所有候选文本中的每个候选文本分别与其余候选文本一一配对,以生成若干个比较对;
S2、将样本文本分别与各个比较对进行比较,且与每个比较对进行比较的方法均为:将样本文本与比较对中的两个候选文本以交换顺序比较两次的方式进行相似度比较,然后结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况;
S3、将所有候选文本按照相似度从高到低的顺序进行排序;其中,
步骤S2和步骤S3基于设定的排序方法顺序执行或并行执行。
2.如权利要求1所述的文本无监督排序方法,其特征在于,在与每个比较对进行比较时,结合两次比较的结果得到对应比较对中两个候选文本与样本文本的相似度高低情况的方法为:
基于第一次比较的结果,对相似度较高的候选文本加一个单位分值;
基于第二次比较的结果,对相似度较高的候选文本加一个单位分值;
将比较对中的两个候选文本的分值对应求和,得到两个候选文本各自的总分值,总分值的高低对应为两个候选文本与样本文本的相似度高低。
3.如权利要求2所述的文本无监督排序方法,其特征在于,所述设定的排序方法为按分值排序法时,步骤S2和步骤S3基于按分值排序法顺序执行,且在执行步骤S3时,先将每个候选文本在各比较对中得到的总分值进行求和,得到各候选文本的汇总分值,再按照汇总分值从高到低的顺序对所有候选文本进行排序。
4.如权利要求1所述的文本无监督排序方法,其特征在于:所述设定的排序方法为冒泡排序法或快速排序法时,步骤S2和步骤S3基于冒泡排序法或快速排序法并行执行。
5.如权利要求1所述的文本无监督排序方法,其特征在于:
将所有候选文本分成若干组,使每组包括若干候选文本,然后将所有组同步执行步骤S1~步骤S3;
最后对所有组的排序结果进行归并。
6.如权利要求1所述的文本无监督排序方法,其特征在于:所述样本文本由原始样本长文本的关键信息拼接而成,各所述候选文本分别由对应的原始候选长文本的关键信息拼接而成。
7.如权利要求6所述的文本无监督排序方法,其特征在于:所述原始样本长文本的关键信息选自所述原始样本长文本的摘要、主题词和/或主题句;所述原始候选长文本的关键信息选自所述原始候选长文本的摘要、主题词和/或主题句。
8.一种文本无监督排序系统,其特征在于,用于实现如权利要求1所述的文本无监督排序方法,所述文本无监督排序系统包括:
配对模块,用于将所有候选文本中的每个候选文本分别与其余候选文本一一配对,以生成若干个比较对;
比较模块,用于对每个所述比较对以交换顺序比较两次的方式将样本文本与两个候选文本进行相似度比较、以得到两个候选文本与样本文本的相似度高低情况,所述比较模块与所述配对模块连接;
排序模块,用于将所有候选文本按照相似度从高到低的顺序进行排序,所述排序模块与所述配对模块连接;其中,
所述配对模块、所述比较模块和所述排序模块均基于设定的排序方法进行定义和调用。
9.如权利要求8所述的文本无监督排序系统,其特征在于:所述配对模块、所述比较模块和所述排序模块均为大语言模型的功能模块。
10.如权利要求8所述的文本无监督排序系统,其特征在于:还包括语言处理模块,用于从长文本中提取关键信息并拼接成新文本,所述语言处理模块与所述配对模块和所述比较模块连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311769584.4A CN117648406A (zh) | 2023-12-21 | 2023-12-21 | 文本无监督排序方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311769584.4A CN117648406A (zh) | 2023-12-21 | 2023-12-21 | 文本无监督排序方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117648406A true CN117648406A (zh) | 2024-03-05 |
Family
ID=90043362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311769584.4A Pending CN117648406A (zh) | 2023-12-21 | 2023-12-21 | 文本无监督排序方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648406A (zh) |
-
2023
- 2023-12-21 CN CN202311769584.4A patent/CN117648406A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109791569B (zh) | 因果关系识别装置及存储介质 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
CN112417854A (zh) | 中文文档抽取式摘要方法 | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 | |
CN112307182A (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN116662565A (zh) | 基于对比学习预训练的异质信息网络关键词生成方法 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及系统及装置及介质 | |
CN113590827B (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
KR102216065B1 (ko) | 동영상 세그먼트에 대해 검색결과를 제공하는 방법 | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
CN116821351A (zh) | 一种基于跨度信息的端到端电力知识图谱关系抽取方法 | |
CN115794998A (zh) | 一种基于对比学习的专业领域术语挖掘方法 | |
CN115905510A (zh) | 一种文本摘要生成方法及系统 | |
CN117648406A (zh) | 文本无监督排序方法及系统 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
Mohammadi et al. | Cooking up a neural-based model for recipe classification | |
CN112115362A (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
JP2002183194A (ja) | 検索式生成装置およびその方法 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |