CN117009477A - 一种语言模型问题回答优化方法及其系统 - Google Patents
一种语言模型问题回答优化方法及其系统 Download PDFInfo
- Publication number
- CN117009477A CN117009477A CN202310721194.3A CN202310721194A CN117009477A CN 117009477 A CN117009477 A CN 117009477A CN 202310721194 A CN202310721194 A CN 202310721194A CN 117009477 A CN117009477 A CN 117009477A
- Authority
- CN
- China
- Prior art keywords
- word vector
- language model
- similarity
- sentences
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000005457 optimization Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 144
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000012634 fragment Substances 0.000 abstract description 2
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种语言模型问题回答优化方法,方法为:对未训练过的内容进行分词生成文本,再生成文本的词向量,保存在本地词向量库;输入问题,本地词向量库根据输入的问题生成问题词向量;通过词向量余弦算法获取本地词向量库中句子的向量与问题词向量之间的相似度,选取相似度最高的若干个句子;将相似度最高的若干个句子和问题发送给语言模型;语言模型接收若干个句子和问题,经过处理返回正确率最高的答案,能够提高回答语言模型中未训练过的内容的问题的准确性,对于未训练过的内容,只需把未训练过的内容的段落拆分开,只提取出和问题最相关的片段给语言模型,就能回答问题,一定程度上解决字数限制的问题。
Description
技术领域
本发明涉及计算机领域,特别是一种语言模型问题回答优化方法及其系统。
背景技术
语言模型通过对句子的上下文特征进行数学建模,来回答一个问题:出现的句子是否合理,语言模型是自然语言的基础,广泛应用于机器翻译语音识别、拼写纠错、输入法、手写体识别等。
目前使用语言模型进行提问回答,由于很多语言模型都是训练好的,在使用时候都有字数限制,对于未训练过的内容,语言模型无法很好的回答问题。目前只能通过对语言模型进行额外训练才能解决。
发明内容
为克服现有语言模型有字数限制,并且在回答未训练过的问题时,输出答案准确率低的问题,本发明的目的是提供一种语言模型问题回答优化方法及其系统,能够提高回答语言模型中不存在的内容的问题的准确性,并且解决字数限制的问题。
本发明采用以下方案实现:
一种语言模型问题回答优化方法,所述方法步骤如下:
步骤1:对未训练过的内容进行分词生成文本,再生成文本的词向量,保存在本地词向量库;
步骤2:输入问题,根据输入的问题生成问题词向量;
步骤3:通过词向量余弦算法获取本地词向量库中句子与问题词向量之间的相似度,选取相似度最高的若干个句子;
步骤4:将相似度最高的若干个句子和问题发送给语言模型;
步骤5:语言模型接收若干个句子和问题,经过处理返回正确率最高的答案。
进一步的,步骤1进一步具体为:通过jieba分词工具对未训练过的内容进行分词,通过word2vec库将文本转为词向量,保存在本地词向量库。
进一步的,步骤2进一步具体为:输入问题,在本地词向量库中,将输入的问题转成一个的问题词向量,问题词向量能够匹配到相近距离的句子的向量或段落的向量。
进一步的,步骤3进一步具体为:通过词向量余弦算法计算每个句子的向量与问题词向量之间的相似度,得到一个相似度矩阵,所述相似度矩阵中每个元素表示两个句子之间的相似度得分,从相似度矩阵中选出与目标句子相似度最高的句子作为匹配结果。
进一步的,步骤4进一步具体为:通过模版字符串拼接的方式,把问题和若干个句子,提交给语言模型。
一种语言模型问题回答优化系统,所述系统包括词向量生成模块、问题词向量生成模块、相似度计算模块、输入模块、输出模块;
所述词向量生成模块用于对未训练过的内容进行分词生成文本,再生成文本的词向量,保存在本地词向量库;
所述问题词向量生成模块用于输入问题,根据输入的问题生成问题词向量;
所述相似度计算模块用于通过词向量余弦算法获取本地词向量库中句子与问题词向量之间的相似度,选取相似度最高的若干个句子;
所述输入模块用于将相似度最高的若干个句子和问题发送给语言模型;
所述输出模块用于语言模型接收若干个句子和问题,经过处理返回正确率最高的答案。
进一步的,词向量生成模块进一步具体为:通过jieba分词工具对未训练过的内容进行分词,通过word2vec库将文本转为词向量,保存在本地词向量库。
进一步的,问题词向量生成模块进一步具体为:输入问题,在本地词向量库中,将输入的问题转成一个的问题词向量,问题词向量能够匹配到相近距离的句子的向量或段落的向量。
进一步的,相似度计算模块进一步具体为:通过词向量余弦算法计算每个句子的向量与问题词向量之间的相似度,得到一个相似度矩阵,所述相似度矩阵中每个元素表示两个句子之间的相似度得分,从相似度矩阵中选出与目标句子相似度最高的句子作为匹配结果。
进一步的,输入模块进一步具体为:通过模版字符串拼接的方式,把问题和若干个句子,提交给语言模型。
本发明的有益效果在于:
本发明提供了一种语言模型问题回答优化方法及其系统,能够提高回答语言模型中不存在的内容的问题的准确性,对于未训练过的内容,只需把未训练过的内容的段落拆分开,只提取出和问题最相关的片段给语言模型,就能回答问题,在一定程度上解决字数限制的问题。
附图说明
图1为本发明方法的流程图;
图2为本发明系统的结构框图。
具体实施方式
下面结合附图对本发明做进一步说明。
请参见图1,一种语言模型问题回答优化方法,所述方法步骤如下:
步骤1:对未训练过的内容进行分词生成文本,再生成文本的词向量,保存在本地词向量库;
步骤2:输入问题,根据输入的问题生成问题词向量;
步骤3:通过词向量余弦算法获取本地词向量库中句子与问题词向量之间的相似度,选取相似度最高的若干个句子;
步骤4:将相似度最高的若干个句子和问题发送给语言模型;
步骤5:语言模型接收若干个句子和问题,经过处理返回正确率最高的答案。
下面结合一个具体实施例来对本发明进行进一步说明:
一种语言模型问题回答优化方法,所述方法如下:
步骤1:通过jieba分词工具对未训练过的内容进行分词,通过word2vec库将文本转为词向量,保存在本地词向量库;有如下未训练的内容:
1.“今天,A国宣布对B国加征关税。这一决定引发了全球股市的动荡。”
2.”IPHONE14采用1200万像素主摄:26毫米焦距,f/1.5光圈,传感器位移式光学图像防抖功能,七镜式镜头,100%Focus Pixels芯片采用A156核。”
对于第一句话和问题:
首先将第一句话“今天,A国宣布对B国加征关税。这一决定引发了全球股市的动荡。”转换成词向量v1,设为:
v1=[0.2,0.3,-0.1,0.5,0.8];
将第二句话“IPHONE14采用1200万像素主摄:26毫米焦距,f/1.5光圈,传感器位移式光学图像防抖功能,七镜式镜头,100%Focus Pixels芯片采用A156核”转换为词向量v2,设为:
v2=[0.1,-0.3,0.5,0.6,-0.2];
步骤2:输入问题,在本地词向量库中,将输入的问题转成一个的问题词向量,问题词向量能够匹配到相近距离的句子的向量或段落的向量。
再将问题“iPhone用到了什么摄像头?”转化成词向量v3,
v3=[0.9,-0.5,0.2,0.3,0.1];
步骤3:通过词向量余弦算法计算每个句子的向量与问题词向量之间的相似度,得到一个相似度矩阵,所述相似度矩阵中每个元素表示两个句子之间的相似度得分,从相似度矩阵中选出与目标句子相似度最高的句子作为匹配结果。
cosine_similarity(v1,v3)=dot(v1,v3)/(norm(v1)*norm(v3))=(0.2*0.9+0.3*(-0.5)+(-0.1)*0.2+0.5*0.3+0.8*0.1)/(sqrt(0.2^2+0.3^2+(-0.1)^2+0.5^2+0.8^2)*sqrt(0.9^2+(-0.5)^2+0.2^2+0.3^2+0.1^2))≈0.2;
其中:cosine_similarity(v1,v3)表示计算v1和v3余弦相似度,dot(v1,v3)表示v1和v3两个向量点乘,norm(v1)表示向量v1的长度(模),norm(v3)表示向量v3的长度(模),sqrt表示求平方根。
cosine_similarity(v2,v3)=dot(v2,v3)/(norm(v2)*norm(v3))=(0.1*0.9+(-0.3)*(-0.5)+0.5*0.2+0.6*0.3+(-0.2)*0.1)/(sqrt(0.1^2+(-0.3)^2+0.5^2+0.6^2+(-0.2)^2)*sqrt(0.9^2+(-0.5)^2+0.2^2+0.3^2+0.1^2))≈0.8;
其中:cosine_similarity(v2,v3)表示计算v2和v3余弦相似度,dot(v2,v3)表示v2和v3两个向量点乘,norm(v2)表示向量v2的长度(模),norm(v3)表示向量v3的长度(模),sqrt表示求平方根。
得出第二句相似度更高。
步骤4:相似度最高的句子加上问题一起发给语言模型,通过模版字符串拼接的方式,把问题和若干个句子,提交给语言模型。
”IPHONE14采用1200万像素主摄:26毫米焦距,f/1.5光圈,传感器位移式光学图像防抖功能,七镜式镜头,100%Focus Pixels芯片采用A156核”+“iPhone用到了什么摄像头?”
两个字符串找模版拼接后发给语言模型,这里最简单的模版就是直接拼接,复杂的可以定义前后辅助词。
步骤5:语言模型接收上面的句子+问题,根据语言模型已经训练好的参数和语言模型的神经网络结构,就能预测输出回答的答案。
这里语言模型是比较强的问题回答模型,只是它可能没有学过新的知识,并且语言模型一次性输入的内容有限制,有的语言模型只能接收2000个字。如果有10000字的内容,我们要从中提取想要的答案(内容),所以通过本地词向量库先提取出与问题相关的句子或段落,尽可能的把和问题相关的内容压缩到2000个字以内发送给它回答。
参见图2,一种语言模型问题回答优化系统,所述系统包括词向量生成模块、问题词向量生成模块、相似度计算模块、输入模块、输出模块;
所述词向量生成模块用于对未训练过的内容进行分词生成文本,再生成文本的词向量,保存在本地词向量库;
所述问题词向量生成模块用于输入问题,根据输入的问题生成问题词向量;
所述相似度计算模块用于通过词向量余弦算法获取本地词向量库中句子与问题词向量之间的相似度,选取相似度最高的若干个句子;
所述输入模块用于将相似度最高的若干个句子和问题发送给语言模型;
所述输出模块用于语言模型接收若干个句子和问题,经过处理返回正确率最高的答案。
词向量生成模块进一步具体为:通过jieba分词工具对未训练过的内容进行分词,通过word2vec库将文本转为词向量,保存在本地词向量库;
问题词向量生成模块进一步具体为:输入问题,在本地词向量库中,将输入的问题转成一个的问题词向量,问题词向量能够匹配到相近距离的句子的向量或段落的向量。答案其实就是一个回答问题句子,句子在本地词向量库中已经转化成词向量了,通过计算向量之间的距离就能够获取相似度近似的若干个句子。
相似度计算模块进一步具体为:通过词向量余弦算法计算每个句子的向量与问题词向量之间的相似度,得到一个相似度矩阵,所述相似度矩阵中每个元素表示两个句子之间的相似度得分,从相似度矩阵中选出与目标句子相似度最高的句子作为匹配结果。
输入模块进一步具体为:通过模版字符串拼接的方式,把问题和若干个句子,提交给语言模型。
总之,本发明提供了一种语言模型问题回答优化方法及其系统,能够提高回答语言模型中不存在的内容的问题的准确性,并且一定程度上解决字数限制的问题。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (10)
1.一种语言模型问题回答优化方法,其特征在于,所述方法步骤如下:
步骤1:对未训练过的内容进行分词生成文本,再生成文本的词向量,保存在本地词向量库;
步骤2:输入问题,本地词向量库根据输入的问题生成问题词向量;
步骤3:通过词向量余弦算法获取本地词向量库中句子的向量与问题词向量之间的相似度,选取相似度最高的若干个句子;
步骤4:将相似度最高的若干个句子和问题发送给语言模型;
步骤5:语言模型接收若干个句子和问题,经过处理返回正确率最高的答案。
2.根据权利要求1所述的一种语言模型问题回答优化方法,其特征在于,步骤1进一步具体为:通过jieba分词工具对未训练过的内容进行分词,通过word2vec库将文本转为词向量,保存在本地词向量库。
3.根据权利要求1所述的一种语言模型问题回答优化方法,其特征在于,步骤2进一步具体为:输入问题,在本地词向量库中,将输入的问题转成一个的问题词向量,问题词向量能够匹配到相近距离的句子的向量或段落的向量。
4.根据权利要求1所述的一种语言模型问题回答优化方法,其特征在于,步骤3进一步具体为:通过词向量余弦算法计算每个句子的向量与问题词向量之间的相似度,得到一个相似度矩阵,所述相似度矩阵中每个元素表示两个句子之间的相似度得分,从相似度矩阵中选出与目标句子相似度最高的句子作为匹配结果。
5.根据权利要求1所述的一种语言模型问题回答优化方法,其特征在于,步骤4进一步具体为:通过模版字符串拼接的方式,把问题和若干个句子,提交给语言模型。
6.一种语言模型问题回答优化系统,其特征在于,所述系统包括词向量生成模块、问题词向量生成模块、相似度计算模块、输入模块、输出模块;
所述词向量生成模块用于对未训练过的内容进行分词生成文本,再生成文本的词向量,保存在本地词向量库;
所述问题词向量生成模块用于输入问题,根据输入的问题生成问题词向量;
所述相似度计算模块用于通过词向量余弦算法获取本地词向量库中句子与问题词向量之间的相似度,选取相似度最高的若干个句子;
所述输入模块用于将相似度最高的若干个句子和问题发送给语言模型;
所述输出模块用于语言模型接收若干个句子和问题,经过处理返回正确率最高的答案。
7.根据权利要求6所述的一种语言模型问题回答优化系统,其特征在于,词向量生成模块进一步具体为:通过jieba分词工具对未训练过的内容进行分词,通过word2vec库将文本转为词向量,保存在本地词向量库。
8.根据权利要求6所述的一种语言模型问题回答优化系统,其特征在于,问题词向量生成模块进一步具体为:输入问题,在本地词向量库中,将输入的问题转成一个的问题词向量,问题词向量能够匹配到相近距离的句子的向量或段落的向量。
9.根据权利要求6所述的一种语言模型问题回答优化系统,其特征在于,相似度计算模块进一步具体为:通过词向量余弦算法计算每个句子的向量与问题词向量之间的相似度,得到一个相似度矩阵,所述相似度矩阵中每个元素表示两个句子之间的相似度得分,从相似度矩阵中选出与目标句子相似度最高的句子作为匹配结果。
10.根据权利要求6所述的一种语言模型问题回答优化系统,其特征在于,输入模块进一步具体为:通过模版字符串拼接的方式,把问题和若干个句子,提交给语言模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310721194.3A CN117009477A (zh) | 2023-06-19 | 2023-06-19 | 一种语言模型问题回答优化方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310721194.3A CN117009477A (zh) | 2023-06-19 | 2023-06-19 | 一种语言模型问题回答优化方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117009477A true CN117009477A (zh) | 2023-11-07 |
Family
ID=88566260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310721194.3A Pending CN117009477A (zh) | 2023-06-19 | 2023-06-19 | 一种语言模型问题回答优化方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009477A (zh) |
-
2023
- 2023-06-19 CN CN202310721194.3A patent/CN117009477A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN111738251B (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及系统 | |
CN114090780B (zh) | 一种基于提示学习的快速图片分类方法 | |
CN113221545B (zh) | 一种文本处理方法、装置、设备及介质、程序产品 | |
CN112417092A (zh) | 基于深度学习的智能化文本自动生成系统及其实现方法 | |
US20230260304A1 (en) | Image data processing method, apparatus and device, and storage medium | |
CN112183083A (zh) | 文摘自动生成方法、装置、电子设备及存储介质 | |
CN111858984A (zh) | 一种基于注意力机制哈希检索的图像匹配方法 | |
US11615247B1 (en) | Labeling method and apparatus for named entity recognition of legal instrument | |
CN116975288A (zh) | 文本处理方法及文本处理模型训练方法 | |
Liu et al. | Cross-domain slot filling as machine reading comprehension: A new perspective | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN115019142A (zh) | 基于融合特征的图像标题生成方法、系统、电子设备 | |
CN114528840A (zh) | 融合上下文信息的中文实体识别方法、终端及存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN113590798A (zh) | 对话意图识别、用于识别对话意图的模型的训练方法 | |
CN111680476A (zh) | 一种用于智能生成类文本的业务热词识别转换的方法 | |
CN117009477A (zh) | 一种语言模型问题回答优化方法及其系统 | |
CN113204679B (zh) | 一种代码查询模型的生成方法和计算机设备 | |
Granell et al. | Study of the influence of lexicon and language restrictions on computer assisted transcription of historical manuscripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |