CN117763116A - 一种面向用户问答的知识文本抽取方法及系统 - Google Patents
一种面向用户问答的知识文本抽取方法及系统 Download PDFInfo
- Publication number
- CN117763116A CN117763116A CN202311804852.1A CN202311804852A CN117763116A CN 117763116 A CN117763116 A CN 117763116A CN 202311804852 A CN202311804852 A CN 202311804852A CN 117763116 A CN117763116 A CN 117763116A
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- knowledge
- score
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 42
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 230000009467 reduction Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向用户问答的知识文本抽取方法及系统,包括以下步骤:构建知识文本数据库;针对用户提出的问题,在所述知识文本数据库中检索与所述问题相关的文本,并进行相似度排序,得到排序后相关文本;利用信息熵函数遍历计算所有所述排序后相关文本,得到所有排序后相关文本的信息熵;基于所有排序后相关文本的信息熵,利用得分判断函数遍历计算所有所述排序后相关文本的判断得分,确定所述判断得分最大时的第i个所述排序后相关文本,分割获取前i个所述排序后相关文本作为最佳文本;将所述最佳文本进行拼装,将拼装后的最佳文本作为回答输出给用户,实现了基于用户问题的最相关知识文档分割以及知识文本组合最优组合。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种面向用户问答的知识文本抽取方法及系统。
背景技术
传统的文本分割算法,更加倾向于在没有外来数据的基础上,基于机器学习或者深度学习的方法实现文本分割,但是分割效果更多是倾向于文本分段等工作,但是在目前大模型外挂知识库的应用场景中,用户问题涉及的知识可能存在于文档中的不同位置,因此传统的文本分割算法不适用于目前的任务。
当前面向用户提问的大模型知识库搜索与文本分割的对话技术尚不成熟,模型的注意力窗口无法实现对文档的覆盖,在现有的基于用户问题的最相关知识文档分割过程中,容易出现错误累积,以及过长的文本导致模型出现长距离建模崩溃的问题。
因此,研究一种能避免在基于用户问题的最相关知识文档分割过程时,避免出现错误累积,以及过长的文本导致模型出现长距离建模崩溃的问题的知识文本抽取方法及系统具有重要意义。
发明内容
本发明的目的在于提供一种面向用户问答的知识文本抽取方法及系统,以避免在在基于用户问题的最相关知识文档分割过程时,容易出现错误累积,以及出现过长的文本时导致模型出现长距离建模崩溃的问题。
为了解决上述技术问题,在第一技术方案,本发明提供了一种面向用户问答的知识文本抽取方法,包括以下步骤:
构建知识文本数据库;
针对用户提出的问题,在所述知识文本数据库中检索与所述问题相关的文本,并进行相似度排序,得到排序后相关文本;
利用信息熵函数遍历计算所有所述排序后相关文本,得到所有排序后相关文本的信息熵;
基于所有排序后相关文本的信息熵,利用得分判断函数遍历计算所有所述排序后相关文本的判断得分,确定所述判断得分最大时的第i个所述排序后相关文本,分割获取前i个所述排序后相关文本作为最佳文本;
将所述最佳文本进行拼装,将拼装后的最佳文本作为回答输出给用户。
在第一技术方案的一些实施例中,所述信息熵函数,表示如下:
所述得分判断函数,表示如下:
上式中,f(Fi,Fi―1)为带惩罚的得分,f(Fi,Fi―1)表示为f(Fi,Fi―1)=P(x)是指x1在前i个排序后相关文本中出现的概率,Fi为第i个排序后相关文本的信息熵,STLi为第i个排序后相关文本长度,STLmax为超参数,TQi为第i个排序后相关文本的混合得分。
在第一技术方案的一些实施例中,在所述构建知识文本数据库,这一过程中,具体包括以下步骤:收集知识文档,对所述知识文档进行向量化处理,并进行文本分割,得到分割后文本向量;利用卷积密度聚类算法对所述分割后文本向量进行聚类分析,得到聚类类簇集合;利用TextRank算法对所述聚类类簇集合进行类内排序,并储存构建为所述知识文本数据库。
在第一技术方案的一些实施例中,在利用改进的卷积密度聚类算法对所述分割后文本向量进行聚类分析,得到聚类类簇集合,这一步骤中,具体包括以下步骤:利用一维卷积方法对所述分割后文本向量进行降维卷积,得到降维卷积后文本向量;利用DBSCAN算法对所述降维卷积后文本向量进行聚类处理,得到所述聚类类簇集合。
在第一技术方案的一些实施例中,在针对用户提出的问题,在所述知识文本数据库中检索与所述问题相关的文本,并进行相似度排序,得到排序后相关文本,这一步骤中,具体包括以下步骤:针对用户提出的问题,在所述知识文本数据库中检索最匹配的知识文本;基于所述最匹配的知识文本在所述知识文本数据库筛选与所述知识文本相同文档相同类簇的语句段落集合;利用混合得分公式对所述语句段落集合进行排序,得到所述排序后相关文本。
在第一技术方案的一些实施例中,所述混合得分公式,表示如下:
上式中,TQi为混合得分,TRSi为TextRank计算得分,QASi为提出的问题与排序后相关文本的相似度,max({TRS1,…,TRSn})为TextRank计算最高得分。
在第二技术方案,本发明提供了一种面向用户问答的知识文本抽取系统,其特征在于,应用了权利要求1至权利要求6任一项所述的一种面向用户问答的知识文本抽取方法,包括:
构建模块,用于构建知识文本数据库;
检索模块,用于针对用户提出的问题,在所述知识文本数据库中检索与所述问题相关的文本,并进行相似度排序,得到排序后相关文本;
获取模块,用于利用信息熵函数遍历计算所有所述排序后相关文本,得到所有排序后相关文本的信息熵,并基于所有排序后相关文本的信息熵,利用得分判断函数遍历计算所有所述排序后相关文本的判断得分,确定所述判断得分最大时的第i个所述排序后相关文本,分割获取前i个所述排序后相关文本作为最佳文本;
拼装模块,用于将所述最佳文本进行拼装,将拼装后的最佳文本作为回答输出给用户。
本发明的较为突出的有益效果如下:
本方案引入了一种改进的边缘惩罚方法,将排序后相关文本的原始长度、排序后相关文本的信息熵和带惩罚的得分输入至得分判断函数,遍历计算所有排序后相关文本得到判断得分,当达到判断得分最优时的前i个排序后相关文本即就是当前用户提问的最佳知识文本分割获取,在采用此种设置方法后,一方面,相比传统的惩罚方法,往往依靠的是简单的引入超参数作为惩罚率设置,这是一种具有明显经验主义的行为,因此本发明引入了一种基于信息熵的做法来实现这一惩罚,基于信息熵方法度量增加文本前后文本的信息熵变化情况,来确保信息稳定性,当信息不稳定时进行及时的惩罚,能够避免错误累积;另一方面,能够避免层次复合的问题,若用户提问为子问题能够避免知识文本过长的情况,高效的利用模型可以理解和生成的最小意义单位。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明优选实施方式提供的整体步骤流程示意图;
图2是本发明优选实施方式提供的一维卷积方法过程示意图;
图3是本发明优选实施方式提供的构建知识文本数据库流程示意图;
图4是本发明优选实施方式提供的面对用户问答时的流程示意图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。
传统的文本分割算法,更加倾向于在没有外来数据的基础上,基于机器学习或者深度学习的方法实现文本分割,但是分割效果更多是倾向于文本分段等工作,但是在目前大模型外挂知识库的应用场景中,用户问题涉及的知识可能存在于文档中的不同位置,因此传统的文本分割算法不适用于目前的任务。
为了解决上述问题,本发明通过两大方向进行改进,一是通过Text2Vector和本专利改进的卷积密度聚类(Conv-DBSCAN)算法实现了基于用户问题的最相关知识文档分割;二是利用改进的边缘惩罚算法进行知识文本组合实现最优的组合效果,保证模型可以理解和生成的最小意义单位(token)的高效使用,具体提供了一种面向用户问答的知识文本抽取方法,请参照图1,包括以下步骤:
S1,构建知识文本数据库。
优选地,步骤S1具体包括以下步骤,整个构建过程可参见图3:
S10,收集知识文档,对知识文档进行向量化处理,并进行文本分割,得到分割后文本向量。
具体的,即当用户上传知识文档时,本专利将首先根据转义字符”\n”进行切片,通过Text2Vec模型,将文本(Text)映射(f)为一组向量(Vector),将这个过程使用以下的公式1进行表达,本专利使用的Text2Vec模型,知识文本数据库如表1所示:
f(Textn)→Vectorn―――(公式1)
表1:本专利使用的Text2Vec模型与知识文本数据库
模型名称 | 基础模型 | 知识文本数据库 |
SBERT-Bert-Base | Bert-Base-Chinese | Chromadb 0.4.14 |
S11,利用卷积密度聚类算法对分割后文本向量进行聚类分析,得到聚类类簇集合,即通过文本向量化技术(Text2Vec)和正则表达式分割,将文本划分为若干段通文本向量化技术得到各段落文本的Embeddeding,在存储到知识文本数据库Chromadb前,本发明采用自主改进的卷积密度聚类(Conv-DCP),将文本段落进行相关性分析,为具有相关关系的文档段落打上关系,实现了基于用户问题的最相关知识文档分割。
优选地,步骤S11具体包括以下步骤:
S110,利用一维卷积方法对分割后文本向量进行降维卷积,得到降维卷积后文本向量,在进行降维操作后,能避免文本向量如传统的密度聚类算法般出现维数灾难的可能,因为Text2Vec模型产出的词向量一般维度接近1000维,例如OpenAI的Embeddings的2代产品:text-embedding-ada-002,它最长的输入是8191个tokens,输出的维度是1536,因此传统的密度聚类算法会出现维数灾难的可能,所以本方案在使用密度聚类算法之前,对输入进行降维处理,能有效避免维数灾难出现的可能。
具体的,即在得到对应维度为W的文本向量Vectorn,引入一维卷积方法,卷积原理可见图2,定义卷积核的大小为F,步长为S,进行卷积操作后vectorn的向量维度变换为将所有文本进行卷积化操作后,使用编程语言中的元组tuple对保存原来的文本向量Vectorn和卷积后的文本向量vectorn,元组表达为tuple(Textn,Vectorn,vectorn)。
其中,一维卷积方法公式如公式2表示:
ConvF,S(Vectorn)=vectorn---(公式2)
应当指出的是,Text2Vec模型产出的词向量一般维度接近1000维,例如OpenAI的Embeddings的2代产品:text-embedding-ada-002,它最长的输入是8191个tokens,输出的维度是1536,因此传统的密度聚类算法会出现维数灾难的可能,因此本方案在使用密度聚类算法之前,对输入进行降维处理。
S111,利用DBSCAN算法对降维卷积后文本向量进行聚类处理,得到聚类类簇集合,采用DBSCAN算法后,对比传统K-means聚类算法,不需要指定类簇,通过密度分布的方法,类簇划分不具有先见性,不受人的主观意志划分影响。
优选地,具体DBSCAN算法包括以下步骤:
首先,输入样本集D={vector1,vector2,...,vectorn},领域半径∈,最小样本数MinPts至DBSCAN算法内。
DBSCAN步骤1,定义DBSCAN算法中的生成度量矩阵,指定度量为闵可夫斯基距离Minkowski;
X=[x1,x2,...,xn],Y=[y1,y2,...,yn]
DBSCAN步骤2,初始化核心对象集合ω={},初始化类别k=0;
DBSCAN步骤3,遍历D中的元素,如果是核心对象,则将其加入对象集合ω;
DBSCAN步骤4,如果核心对象集合ω中元素都被访问,算法结束,否则转入4;
DBSCAN步骤5,如果核心对象集合ω中,随机选择一个未访问核心对象0,将0标记为已访问类别K,最后将0的∈邻域内的未访问数据存入种子集合Seeds中;
DBSCAN步骤6,如果:种子集合Seeds={},则当前聚类簇Ck生成完毕,k=k+1,存入结果结合Cresult={C1,C2,...,Cm}跳到步骤3;
否则:种子集合Seeds中选择种子点Seed,标记为已访问,标记类别k,判断Seed是否为核心对象,若将Seed中未访问的种子点加入到种子集合中,则跳到步骤5。
最后输出聚类类簇集合Cresult。
其中,上述的各项参数解释如下:
样本集D:指的是文档中按段落划分后向量化的集合{vector1,vector2,...,vectorn};
领域半径∈:是指对于某一个数据点vectorn的∈领域,定义为N∈(vectorn)={vectorn∈D|MinkoWski(vectorn,vectorq)<∈};
核心对象:即就是Textn的∈领域内至少有MinPts个对象。
S12,利用TextRank算法对聚类类簇集合进行类内排序,并储存构建为知识文本数据库Chromadb。
其中,TextRank算法通过基于图的方法,将文档看作是一个句子的网络,在网络中的链接表示句子与句子之间的语义关系,首先定义用于计算句子相似度的余弦度量函数如下公式3:
Texti=[A1,A2,...,An],Textj=[B1,B2,...,Bn]
迭代计算,Vi表达类簇内的第i个句子,初始化句子权重阻尼系数d,WS(Vj)表示上次迭代出的句子j的权重,使用Trank={WS(Vi)}i=1,..,n表达TextRank计算得到的句子的权重集合。
通过迭代计算得到每个句子的权重并排序,存储到知识文本数据库Chromadb中,在数据库中数据按照下表方式进行存储:
表2:本专利知识文本数据库存储方式
上表中,Source_Text为用于存储向量化前的原始文本;TextRank_score为用于存储TextRank计算得到的句子权重;Class_Name为用于记录该句子的划分类簇;Doc_Name为用于记录该句子的文档。
总结上述S1构建知识文本数据库的过程,相比通过深度学习,本方法通过预聚类和预排序的方法,将用户提问和知识文档处理进行分离,实现了异步操作。
S2,针对用户提出的问题,在知识文本数据库中检索与问题相关的文本,并进行相似度排序,得到排序后相关文本。
优选地,步骤S2具体包括以下步骤,该过程可参见图4:
S20,针对用户提出的问题,在知识文本数据库中检索最匹配的知识文本。
具体的,当系统接收到用户提出的问题时,利用Text2Vector模型,将用户提问Query进行向量化,然后在知识文本数据库Chromadb中进行搜索,搜索出最匹配的一条知识文本Text0。
S21,基于最匹配的知识文本在知识文本数据库筛选与知识文本相同文档相同类簇的语句段落集合,即为筛选后的文本集合;
即通过获取该知识文本Text0(最匹配的知识文本)的元数据,在数据库中筛选出与该记录存在相同文档相同类簇关系的其他语句段落集合,在数据库记录中取出原始的文本,使用记号TSelect进行表达。
S22,利用混合得分公式对筛选得出的语句段落集合进行排序,得到排序后相关文本。
其中,混合得分包含TextRank计算得分和提出的问题与排序后相关文本的相似度,相比传统的TextRank计算得分相比,通过计算TRS和QAS的乘积(见公式5),引入了一个混合得分TQ对文本按TQ进行重新排序,避免传统TextRank较难表达用户问题与TRS得分最高的文本之间关系的问题。
混合得分公式,如表示如下:
上式中,TQi为混合得分,TRSi为TextRank计算得分,QASi为提出的问题与排序后相关文本的相似度,max({TRS1,...,TRSn})为TextRank计算最高得分。
对于TextRank计算得分,通过TextRank计算得到的Trank={WS(Vi)}i=1,..,n进行排序,使用记号TRS表达。
对于QASi为提出的问题与排序后相关文本的相似度,并根据公式6计算用户提问与该类簇内所有知识文本的相似度QAS,但是在使用之前必须要将QAS归一化,因此有:
S3,利用信息熵函数(公式7)遍历计算所有排序后相关文本,得到所有排序后相关文本的信息熵,相比传统的惩罚方法,往往依靠的是简单的引入超参数作为惩罚率设置,这是一种具有明显经验主义的行为,因此本发明引入了一种基于信息熵的做法来实现这一惩罚,基于信息熵方法度量增加该文本前后的文本信息熵变化情况,来确保信息稳定性,当信息不稳定时进行及时的惩罚,能够避免错误累积。
其中,信息熵函数,表示如下:
上式中,P(x)是指x1在前i个排序后相关文本中出现的概率,Fi为第i个排序后相关文本的信息熵。
S4,基于所有排序后相关文本的信息熵,利用得分判断函数(公式8)遍历计算所有排序后相关文本的判断得分,确定判断得分最大时的第i个排序后相关文本,分割获取前i个排序后相关文本作为最佳文本,在采用此种设置后,判断得分最大时的索引i,代表前i个文本具有语义丰富和最优化长度输入的特点,将前i个文本作为输入,高效利用模型可以理解和生成的最小意义单位(token),避免过长的知识文本,避免导致模型长建模崩溃的同时实现信息的最大化富集,保障知识文档的有效性。
得分判断函数,表示如下:
上式中,f(Fi,Fi-1)为带惩罚的得分,f(Fi,Fi-1)表示为 STLi为第i个排序后相关文本长度,STLmax为超参数,TQi为第i个排序后相关文本的混合得分。
S5,将最佳文本进行拼装,将拼装后的最佳文本作为回答输出给用户。
总结S2-S4部分,一、基于信息熵方法度量增加该文本前后的文本信息熵变化情况,来确保信息稳定性,当信息不稳定时进行及时的惩罚,能够避免错误累积;二、能够避免层次复合的问题,若用户提问为子问题能够避免知识文本过长的情况,高效的利用模型可以理解和生成的最小意义单位(token);三、实现了信息的最大化富集,保障知识文档的有效性。
由上文可知本方案的基本方法,下文将给出应用了上文方法的一种面向用户问答的知识文本抽取系统,包括:
构建模块,用于构建知识文本数据库;
检索模块,用于针对用户提出的问题,在知识文本数据库中检索与问题相关的文本,并进行相似度排序,得到排序后相关文本;
获取模块,用于利用信息熵函数遍历计算所有排序后相关文本,得到所有排序后相关文本的信息熵,并基于所有排序后相关文本的信息熵,利用得分判断函数遍历计算所有排序后相关文本的判断得分,确定判断得分最大时的第i个排序后相关文本,分割获取前i个排序后相关文本作为最佳文本;
拼装模块,用于将最佳文本进行拼装,将拼装后的最佳文本作为回答输出给用户。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种面向用户问答的知识文本抽取方法,其特征在于,包括以下步骤:
构建知识文本数据库;
针对用户提出的问题,在所述知识文本数据库中检索与所述问题相关的文本,并进行相似度排序,得到排序后相关文本;
利用信息熵函数遍历计算所有所述排序后相关文本,得到所有排序后相关文本的信息熵;
基于所有排序后相关文本的信息熵,利用得分判断函数遍历计算所有所述排序后相关文本的判断得分,确定所述判断得分最大时的第i个所述排序后相关文本,分割获取前i个所述排序后相关文本作为最佳文本;
将所述最佳文本进行拼装,将拼装后的最佳文本作为回答输出给用户。
2.根据权利要求1所述的面向用户问答的知识文本抽取方法,其特征在于,
所述信息熵函数,表示如下:
所述得分判断函数,表示如下:
上式中,f(Fi,Fi-1)为带惩罚的得分,f(Fi,Fi-1)表示为 P(x)是指x1在前i个排序后相关文本中出现的概率,Fi为第i个排序后相关文本的信息熵,Fi-1为第i-1个排序后相关文本的信息熵,STLi为第i个排序后相关文本长度,STLmax为超参数,TQi为第i个排序后相关文本的混合得分。
3.根据权利要求1所述的面向用户问答的知识文本抽取方法,其特征在于,在所述构建知识文本数据库,这一过程中,具体包括以下步骤:
收集知识文档,对所述知识文档进行向量化处理,并进行文本分割,得到分割后文本向量;
利用卷积密度聚类算法对所述分割后文本向量进行聚类分析,得到聚类类簇集合;
利用TextRank算法对所述聚类类簇集合进行类内排序,并储存构建为所述知识文本数据库。
4.根据权利要求3所述的面向用户问答的知识文本抽取方法,其特征在于,在利用卷积密度聚类算法对所述分割后文本向量进行聚类分析,得到聚类类簇集合,这一步骤中,具体包括以下步骤:
利用一维卷积方法对所述分割后文本向量进行降维卷积,得到降维卷积后文本向量;
利用DBSCAN算法对所述降维卷积后文本向量进行聚类处理,得到所述聚类类簇集合。
5.根据权利要求1所述的面向用户问答的知识文本抽取方法,其特征在于,在针对用户提出的问题,在所述知识文本数据库中检索与所述问题相关的文本,并进行相似度排序,得到排序后相关文本,这一步骤中,具体包括以下步骤:
针对用户提出的问题,在所述知识文本数据库中检索最匹配的知识文本;
基于所述最匹配的知识文本在所述知识文本数据库筛选与所述知识文本相同文档相同类簇的语句段落集合;
利用混合得分公式对所述语句段落集合进行排序,得到所述排序后相关文本。
6.根据权利要求5所述的面向用户问答的知识文本抽取方法,其特征在于,所述混合得分公式,表示如下:
上式中,TQi为混合得分,TRSi为TextRank计算得分,QASi为提出的问题与排序后相关文本的相似度,max({TRS1,…,TRSn})为TextRank计算最高得分。
7.一种面向用户问答的知识文本抽取系统,其特征在于,应用了权利要求1至权利要求6任一项所述的一种面向用户问答的知识文本抽取方法,包括:
构建模块,用于构建知识文本数据库;
检索模块,用于针对用户提出的问题,在所述知识文本数据库中检索与所述问题相关的文本,并进行相似度排序,得到排序后相关文本;
获取模块,用于利用信息熵函数遍历计算所有所述排序后相关文本,得到所有排序后相关文本的信息熵,并基于所有排序后相关文本的信息熵,利用得分判断函数遍历计算所有所述排序后相关文本的判断得分,确定所述判断得分最大时的第i个所述排序后相关文本,分割获取前i个所述排序后相关文本作为最佳文本;
拼装模块,用于将所述最佳文本进行拼装,将拼装后的最佳文本作为回答输出给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311804852.1A CN117763116B (zh) | 2023-12-26 | 2023-12-26 | 一种面向用户问答的知识文本抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311804852.1A CN117763116B (zh) | 2023-12-26 | 2023-12-26 | 一种面向用户问答的知识文本抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117763116A true CN117763116A (zh) | 2024-03-26 |
CN117763116B CN117763116B (zh) | 2024-07-30 |
Family
ID=90314018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311804852.1A Active CN117763116B (zh) | 2023-12-26 | 2023-12-26 | 一种面向用户问答的知识文本抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117763116B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100121044A (ko) * | 2009-05-08 | 2010-11-17 | 엔에이치엔(주) | 엔트로피 점수를 이용한 검색결과 제공 방법 및 장치 |
CN104504156A (zh) * | 2015-01-16 | 2015-04-08 | 武汉大学 | 一种基于压缩感知理论的文本数据流抽样方法 |
WO2015058604A1 (zh) * | 2013-10-21 | 2015-04-30 | 北京奇虎科技有限公司 | 获取问答对相关联程度、优化搜索排名的装置和方法 |
CN106503146A (zh) * | 2016-10-21 | 2017-03-15 | 江苏理工学院 | 计算机文本的特征选择方法、分类特征选择方法及系统 |
CN111753055A (zh) * | 2020-06-28 | 2020-10-09 | 中国银行股份有限公司 | 一种客户问答自动提示方法及装置 |
CN112765306A (zh) * | 2020-12-30 | 2021-05-07 | 金蝶软件(中国)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN117149981A (zh) * | 2023-09-18 | 2023-12-01 | 中国银联股份有限公司 | 人机对话控制方法、装置、设备及存储介质 |
-
2023
- 2023-12-26 CN CN202311804852.1A patent/CN117763116B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100121044A (ko) * | 2009-05-08 | 2010-11-17 | 엔에이치엔(주) | 엔트로피 점수를 이용한 검색결과 제공 방법 및 장치 |
WO2015058604A1 (zh) * | 2013-10-21 | 2015-04-30 | 北京奇虎科技有限公司 | 获取问答对相关联程度、优化搜索排名的装置和方法 |
CN104504156A (zh) * | 2015-01-16 | 2015-04-08 | 武汉大学 | 一种基于压缩感知理论的文本数据流抽样方法 |
CN106503146A (zh) * | 2016-10-21 | 2017-03-15 | 江苏理工学院 | 计算机文本的特征选择方法、分类特征选择方法及系统 |
CN111753055A (zh) * | 2020-06-28 | 2020-10-09 | 中国银行股份有限公司 | 一种客户问答自动提示方法及装置 |
CN112765306A (zh) * | 2020-12-30 | 2021-05-07 | 金蝶软件(中国)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN117149981A (zh) * | 2023-09-18 | 2023-12-01 | 中国银联股份有限公司 | 人机对话控制方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
XIAOYU ZHANG 等: "Research on Cross Language Text Keyword Extraction Based on Information Entropy and TextRank", 2019ITNEC, 17 April 2019 (2019-04-17) * |
张瑞芳;郭克华;: "面向个性化站点的用户检索意图建模方法", 计算机工程与应用, no. 06, 16 March 2017 (2017-03-16) * |
董燕举;蔡东风;白宇;: "面向事实性问题的答案选择技术研究综述", 中文信息学报, no. 01, 15 January 2009 (2009-01-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117763116B (zh) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111415740B (zh) | 问诊信息的处理方法、装置、存储介质及计算机设备 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
US20210056571A1 (en) | Determining of summary of user-generated content and recommendation of user-generated content | |
Chow et al. | Multilayer SOM with tree-structured data for efficient document retrieval and plagiarism detection | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
US20070112867A1 (en) | Methods and apparatus for rank-based response set clustering | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN1916889B (zh) | 语料库制作装置及其方法 | |
Noaman et al. | Naive Bayes classifier based Arabic document categorization | |
CN111966810B (zh) | 一种用于问答系统的问答对排序方法 | |
CN107895303B (zh) | 一种基于ocean模型的个性化推荐的方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN103559193A (zh) | 一种基于选择单元的主题建模方法 | |
CN112597300A (zh) | 文本聚类方法、装置、终端设备及存储介质 | |
CN111563097A (zh) | 一种无监督式的题目聚合方法、装置、电子设备及存储介质 | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
CN110413985B (zh) | 一种相关文本片段搜索方法及装置 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN104615685A (zh) | 一种面向网络话题的热度评价方法 | |
CN112100382A (zh) | 聚类方法及装置、计算机可读存储介质、处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |