CN117149955A - 一种保险条款咨询自动回答的方法、介质及系统 - Google Patents
一种保险条款咨询自动回答的方法、介质及系统 Download PDFInfo
- Publication number
- CN117149955A CN117149955A CN202311139628.5A CN202311139628A CN117149955A CN 117149955 A CN117149955 A CN 117149955A CN 202311139628 A CN202311139628 A CN 202311139628A CN 117149955 A CN117149955 A CN 117149955A
- Authority
- CN
- China
- Prior art keywords
- word
- consultation
- text
- model
- insurance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 12
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 241000590419 Polygonia interrogationis Species 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 230000015556 catabolic process Effects 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000009223 counseling Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种保险条款咨询自动回答的方法、介质及系统,属于计算机技术领域,该保险条款咨询自动回答的方法、介质及系统包括以下步骤:获取用户上传的保险条款PDF文档;对PDF文档进行解析,生成计算机可识别的文本记为第一文本;对第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理;获取用户的咨询问题,并对咨询问题进行分词处理、语义分析、关键词提取,得到问题关键词;使用问题模型对问题关键词进行优化,得到问题要素;根据问题要素,在保险条款知识库中,差值匹配度最高的答案为参考答案;对参考答案进行敏感词过滤,生成咨询答案并输出给用户;业务模型和问题模型均基于大语言模型进行微调得到。
Description
技术领域
本发明属于计算机技术领域,具体而言,涉及一种保险条款咨询自动回答的方法、介质及系统。
背景技术
保险作为现代社会的重要经济行业,不仅为人们提供了重要的财产保障,同时也为增强社会安全感和生活幸福感做出了巨大贡献。目前保险条款作为“保险合同”的重要组成部分,常常被认为是难懂的,漫长的。简单而言,大部分的客户没有精力完全阅读保险条款。
常规传统保险条款咨询是指通过传统的人工方式,通过电话、邮件或面对面等形式进行保险条款解读和咨询的服务。首先,由于人力资源的限制,保险公司或服务提供商可能无法提供即时的响应。客户可能需要等待较长的时间才能获得咨询回答,特别是在繁忙时期或高峰时段。这种延迟可能会影响客户的满意度,并可能导致错过一些重要的时机或决策窗口。其次,传统咨询的高效性受到咨询人员的能力和工作效率的影响。每个咨询人员的知识水平和解答能力可能存在差异,这可能导致回答的质量和速度不一致。一些复杂或特殊的问题可能需要更长的时间和更多的研究才能得到解决,降低了咨询的高效性。
传统咨询可能受到咨询人员的知识水平和经验的限制。即使是经验丰富的咨询人员也可能无法涵盖所有保险条款的细节和变化。复杂的保险产品和条款可能需要进一步的研究和解读,而咨询人员可能无法提供最新和全面的信息。在传统咨询中,记录和组织大量的咨询信息可能会面临挑战,特别是在后续查询、回顾和审核时。
传统保险条款咨询的可扩展性也存在一些挑战。随着企业的规模扩大或客户需求的增加,保险公司可能需要大量的咨询人员来满足客户的需求。这可能导致人力资源和成本的增加,并可能限制服务的扩展能力。此外,保险条款咨询的可扩展性还受到服务响应时间和回答质量的影响。如果需要投入更多的时间和资源来确保准确的咨询回答,那么响应时间可能变长,限制了可扩展性。
发明内容
有鉴于此,本发明提供一种保险条款咨询自动回答的方法、介质及系统,提高了自动回答系统的高效性、准确性、便携性以及可扩展性。
本发明是这样实现的:
本发明的第一方面提供一种保险条款咨询自动回答的方法,其中,包括以下步骤:
S10、获取用户上传的保险条款PDF文档;
S20、对PDF文档进行解析,生成计算机可识别的文本记为第一文本;
S30、对所述第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理,得到PDF文档的重要信息,记为文档信息;
S40、获取用户的咨询问题,并对咨询问题进行包括分词处理、语义分析、关键词提取,得到问题关键词;
S50、使用问题模型对问题关键词进行优化,得到问题要素;
S60、根据得到的问题要素,在预先设置好的保险条款知识库中,自动差值匹配度最高的答案作为参考答案;
S70、对参考答案进行敏感词过滤,生成咨询答案并输出给用户;
其中,所述业务模型和所述问题模型均为基于大语言模型进行微调得到的。
在上述技术方案的基础上,本发明的一种保险条款咨询自动回答的方法还可以做如下改进:
其中,所述对PDF文档进行解析,生成计算机可识别的文本记为第一文本,具体步骤包括:
过滤无效字符,如页眉页脚无关文本;
规范文字排版,将文本内容重新排版成结构化的段落;
执行文字识别,对含有图像的文本区域进行OCR识别,提取文本;
执行中文分词,将文本划分为词语;
保存提取的结构化文本内容作为计算机可识别的第一文本。
采用上述改进方案的有益效果为:通过对PDF文档进行解析,生成计算机可识别的文本可以帮助将PDF文档中的内容解析为计算机可识别的文本,从而方便进行进一步的文本分析、搜索、处理或提取关键信息等操作。具体实现时,可根据所选的PDF解析库的文档和示例代码进行操作。
进一步的,所述对所述第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理的步骤,具体包括:
步骤一,分词处理:
构建词典;
从所述第一文本的左边界开始,使用正向最大匹配算法,选择出现的最长词进行匹配;若匹配成功,则将该词加入到词序列,并继续从该词的右边界开始向右匹配,若匹配不成功,则逐步减少词的长度,直到在所述词典中找到匹配词为止;重复步骤,直到整个文本被浏览完毕,得到最终的词序列;
步骤二,语义分析:
使用预训练好的词向量模型,获取每个词的对应词向量;
计算所述词向量之间的相似度,分析所述词序列中词语之间的语义关联情况;
步骤三,关键词提取:
使用TextRank算法,构建词图;
将每个词作为所述词图中的一个节点,若两个词的相似度大于阈值,则在所述两个词之间建立一条边,所述边的权重为所述两个词的相似度的值;
在所述词图上进行PageRank计算,迭代计算每个词的PageRank值,作为关键词的排序依据,选择排名最高的词作为关键词;
步骤四,业务模型匹配:
将提取的所述关键词与预先建立的业务模型进行解释和替换;
通过与所述业务模型的匹配,将所述关键词标准化,使所述关键词符合所述业务模型的要求。
进一步的,所述将提取的所述关键词与预先建立的业务模型进行解释和替换的步骤,所述业务模型的建立步骤,具体包括:
收集与保险业务相关的数据,并对所述保险数据进行人工注释和标记,包括:问题分类、答案抽取、答案评分,得到保险数据集;
对所述保险数据集进行预处理;
从预处理后的所述保险数据中提取特征;
使用基于大语言模型的预训练模型作为基础,将预处理后的所述保险数据输入预训练模型进行训练和微调;
对训练后的业务模型进行评估,根据评估结果进行调优,得到最终业务模型。
进一步的,所述获取用户的咨询问题,并对咨询问题进行包括分词处理、语义分析、关键词提取,得到问题关键词的步骤,具体包括:
获取用户咨询的问题文本;
对所述问题文本使用正向最大匹配算法进行分词处理,得到问题文本词序列;
利用预训练的所述词向量模型,为每个词获取对应的词向量;
采用TextRank算法进行关键词提取,得到所述问题关键词。
进一步的,所述使用问题模型对问题关键词进行优化,得到问题要素步骤中,所述问题模型的步骤为:
收集与用户咨询问题相关的数据,作为问题数据,包括用户提问、问题标注;
对所述问题数据进行预处理;
获取所述问题文本词序列以及所述词向量模型;
使用基于大语言模型进行微调的方法,将所述问题文本的词表示作为输入,训练一个问题模型;
对训练后的问题模型进行评估,根据评估结果进行调优,得到最终问题模型。
预处理包括去除噪声数据、进行文本规范化,例如去除特殊字符、停用词处理等。
进一步的,所述根据得到的问题要素,在预先设置好的保险条款知识库中,自动差值匹配度最高的答案作为参考答案的步骤,具体包括:
准备一个保险条款知识库;
获取所述问题模型,对用户的咨询问题进行分词处理、语义分析和关键词提取,得到所述咨询问题的关键要素;
将所述关键要素与所述保险条款知识库中的关键词进行匹配,得到匹配度分数;
根据所述匹配度分数对所述保险条款知识库中的保险条款进行排序,将所述匹配度分数最高的条款排在前面;
从排序后的保险条款知识库中选择所述差值匹配度最高的保险条款作为参考答案。
进一步的,所述对参考答案进行敏感词过滤,生成咨询答案并输出给用户的步骤,具体包括:
构建敏感词库;
对参考答案进行敏感词检测,并对检测到的敏感词进行过滤或替换;
将经过敏感词过滤后的参考答案作为所述咨询答案输出给用户。
敏感词汇的特点是多样性和多语言性,因此系统需要支持多种语言的敏感词汇检测和过滤,包括简体中文、繁体中文、英文、日文、韩文等多种语言。
本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行上述的一种保险条款咨询自动回答的方法。
本发明的第三方面提供一种保险条款咨询自动回答系统,其中,包括上述的一种计算机可读存储介质。
与现有技术相比较,本发明提供的一种保险条款咨询自动回答的方法、介质及系统的有益效果是:
1.高效性:系统能够快速读取保险条款内容,并在短时间内给出准确的回答,提高了客户的满意度;
2.准确性:系统基于保险条款内容进行智能匹配,避免了人为因素对答案的影响,提高了回答的准确性;
3.便捷性:客户可以通过语音或文字输入方式与系统进行交互,无需下载其他APP或使用额外设备,方便快捷;
4.可扩展性:该系统可以集成多种保险产品的信息,为用户提供更全面的咨询服务;本发明适用于需要快速获取保险条款信息的客户群体,如保险公司、保险代理人、消费者等。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种保险条款咨询自动回答的方法、介质及系统流程图;
图2为一种保险条款咨询自动回答的方法、介质及系统前端效果展示图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。
如图1,图2所示,是本发明第一方面提供一种保险条款咨询自动回答的方法的第一实施例,在本实施例中,包括以下步骤:
S10、获取用户上传的保险条款PDF文档;
S20、对PDF文档进行解析,生成计算机可识别的文本记为第一文本;
S30、对第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理,得到PDF文档的重要信息,记为文档信息;
S40、获取用户的咨询问题,并对咨询问题进行包括分词处理、语义分析、关键词提取,得到问题关键词;
S50、使用问题模型对问题关键词进行优化,得到问题要素;
S60、根据得到的问题要素,在预先设置好的保险条款知识库中,自动差值匹配度最高的答案作为参考答案;
S70、对参考答案进行敏感词过滤,生成咨询答案并输出给用户;
其中,业务模型和问题模型均为基于大语言模型进行微调得到的。
使用时,首先,提供文件上传接口,让用户选择需要解析的保险条款PDF文件并上传;随后,在服务器端接收到用户上传的PDF文件后,使用PDF解析库(如PDFBox、iText等)加载PDF文档,提取文本内容。
其中,在上述技术方案中,对PDF文档进行解析,生成计算机可识别的文本记为第一文本,具体步骤包括:
过滤无效字符,如页眉页脚无关文本;
规范文字排版,将文本内容重新排版成结构化的段落;
执行文字识别,对含有图像的文本区域进行OCR识别,提取文本;
执行中文分词,将文本划分为词语;
保存提取的结构化文本内容作为计算机可识别的第一文本。
使用时,通过执行文字识别(OCR),对这些图像区域进行识别,将其转换为计算机可识别的文本,这样就能够将图像中的文字提取出来,使其成为可进一步处理和分析的文本内容。
进一步的,在上述技术方案中,对第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理的步骤,具体包括:
步骤一,分词处理:
构建词典;
从第一文本的左边界开始,使用正向最大匹配算法,选择出现的最长词进行匹配;若匹配成功,则将该词加入到词序列,并继续从该词的右边界开始向右匹配,若匹配不成功,则逐步减少词的长度,直到在词典中找到匹配词为止;重复步骤,直到整个文本被浏览完毕,得到最终的词序列;
步骤二,语义分析:
使用预训练好的词向量模型,获取每个词的对应词向量;
计算词向量之间的相似度,分析词序列中词语之间的语义关联情况;
步骤三,关键词提取:
使用TextRank算法,构建词图;
将每个词作为词图中的一个节点,若两个词的相似度大于阈值,则在两个词之间建立一条边,边的权重为两个词的相似度的值;
在词图上进行PageRank计算,迭代计算每个词的PageRank值,作为关键词的排序依据,选择排名最高的词作为关键词;
步骤四,业务模型匹配:
将提取的关键词与预先建立的业务模型进行解释和替换;
通过与业务模型的匹配,将关键词标准化,使关键词符合业务模型的要求。
对第一文本进行包括分词处理、语义分析、关键词提取的具体实施方式描述如下:
首先,对第一文本进行分词处理。假设第一文本为T,分词处理后得到词序列W={w1,w2,…,wn},其中n是词的个数。分词可以采用基于词典的正向最大匹配算法,具体步骤如下:
1)构建词典D={d1,d2,…,dm},其中m是词典中词的个数;
2)从文本T左边界开始,取出现的最长词wi与词典D中词进行匹配;
3)如果匹配成功,则将wi作为一个词加入词序列W,继续从wi的右边界开始向右匹配;
4)如果匹配不成功,则逐步减少wi的长度,直到在词典D中找到匹配词为止;
5)重复步骤2)~4),直到文本T浏览完毕,词序列W生成完成;
其中,词wi的长度可以从最大词长Lmax逐步减小到最小词长Lmin。匹配过程可以表示为:
wi=T[j…j+l],l∈[Lmin,Lmax];
ifwi∈Dthen;
W=W∪{wi},j=j+l;
elsel=l-1;
Endif;
然后,对得到的词序列W进行语义分析。这里采用词向量模型Word2Vec获取每个词wi的词向量vi。假设词向量的维度为d,则:
vi=[vi1,vi2,…,vid]T,wi∈W;
词向量可以通过神经网络模型进行预训练得到。训练好的词向量能够反映词之间的语义相关性。针对两个词wi和wj的词向量vi和vj,Their语义相关性可以用其cosine相似度表示:
相似度sij越大,表示wi和wj语义越相关。通过计算词向量的相似度,可以分析词序列中词语的语义关联情况。
最后,对词序列W进行关键词提取。这里可以采用TextRank算法,主要分为三步:
1)构建词图:将每一个词wi作为图中的一个节点,如果两个词的相似度sij大于阈值δ,则在它们之间建立一条边,权重为sij。
2)PageRank计算:在词图上迭代计算每个词的PageRank值,作为关键词的排序依据。设第tk轮中词wi的PageRank值为则第tk+1轮的PageRank值为:
其中,In(wi)和Out(wj)分别表示指向wi和从wj出发的边,N是词的总数,dk是一个弥补因子,typically dk=0.85。
3)根据PageRank值对词序列进行排序,选择排名最高的M个词作为关键词。
至此,我们通过分词、语义分析和关键词提取,从第一文本T中提取出了关键信息,包括词序列W,词向量vi,以及关键词集合KW={kw1,kw2,…,kwM}。这些都是理解和表示第一文本的重要信息。
进一步的,在上述技术方案中,将提取的关键词与预先建立的业务模型进行解释和替换的步骤,业务模型的建立步骤,具体包括:
收集与保险业务相关的数据,并对保险数据进行人工注释和标记,包括:问题分类、答案抽取、答案评分,得到保险数据集;
对保险数据集进行预处理;
从预处理后的保险数据中提取特征;
使用基于大语言模型的预训练模型作为基础,将预处理后的保险数据输入预训练模型进行训练和微调;
对训练后的业务模型进行评估,根据评估结果进行调优,得到最终业务模型。
使用时,微调过程中对训练的逻辑处理层做了如下修改:
对于当前语句,关联上下文中与当前语句存在关键词相似度大于R范围内寻找ml个语句,按照输入格式转化为单批次预料群,目的就是为了复原当时的语境,其中的复原过程就是将输入的预料群变换为一个退化函数和一个噪声项,将任意一个输入预料群f(x,y),经过处理得到一个退化预料群g(x,y)。通过给定退化语料g(x,y)、退化函数H和噪声项η(x,y)的一些基本信息,便能计算出一个当前情况下针对于原始输入预料群f(x,y)的最佳估计预料群f(x,y)。最佳估计预料群f(x,y)在最大程度上反映了原始输入预料群f(x,y)的细节,而且,给定退化预料群g(x,y)、退化函数H和噪声项η(x,y)的基本信息越多,最佳估计预料群f(x,y)越接近原始输入预料群f(x,y)。
g(x,y)=h(x,y)*f(x,y)+η(x,y);
其中,h(x,y)是退化函数H在空间上的描述函数,(x,y)表示空间位置。*表示空间卷积,但是空间卷积的计算比较复杂,编程实现比较困难。可以将空间卷积转化为同频域上的乘积,故而,上式可以写作:
G(u,v)=H(u,v)F(u,v)+N(u,v);
其中,G(u,v)是g(x,y)的傅立叶变换;H(u,v)是h(x,y)的傅立叶变换;N(u,v)是η(x,y)的傅立叶变换,(u,v)表示傅里叶变换后的(x,y)。
在得到退化预料群g(x,y)和退化函数H和噪声项η(x,y)的关系式之后,可以通过滤波对预料群进行复原。
取Sxy表示中心在(x,y)点,尺寸为p×q的坐标组织。
算术滤波器:
几何滤波器:
谐波均值滤波器:
逆谐波均值滤波器:
使用该方法,可以有效降低计算量,并提高微调效果。
进一步的,在上述技术方案中,获取用户的咨询问题,并对咨询问题进行包括分词处理、语义分析、关键词提取,得到问题关键词的步骤,具体包括:
获取用户咨询的问题文本;
对问题文本使用正向最大匹配算法进行分词处理,得到问题文本词序列;
利用预训练的词向量模型,为每个词获取对应的词向量;
采用TextRank算法进行关键词提取,得到问题关键词。
首先,获取用户的咨询问题。假设用户询问的问题为文本C。
然后,对问题文本C进行分词处理。这里仍然采用正向最大匹配算法,生成问题的词序列WC={wc1,wc2,…,wcn},其中n是词的个数。分词处理与步骤S30中针对第一文本的分词过程相同,在此不再赘述。
接下来,对得到的词序列WC进行语义分析。同样地,通过预训练的词向量模型Word2Vec,获取每个词wci对应的词向量vci:
vci=[vci1,vci2,…,vcid]T,wci∈WC;
词向量包含了词的语义信息,计算词向量之间的相似度,可以分析问题文本中的语义关联。
然后,基于词序列WC,采用TextRank算法进行关键词提取:
1)构建词图,以词为节点,相似词之间建立边;
2)计算每个词的TextRank,迭代公式如下:
其中,表示迭代后的结果,WC表示词序列,sij为相似度,d表示词典中的词,In(wi)和Out(wj)分别表示指向wi和从wi出发的边,N是词的总数;
3)根据TextRank值选取排名最高的Mc个词作为问题的关键词:
到此,我们对问题文本C进行了分词、语义分析和关键词提取,得到了问题的词序列WC,词向量vci以及关键词KWC。这些都反映了问题文本C的关键信息。
进一步的,在上述技术方案中,使用问题模型对问题关键词进行优化,得到问题要素步骤中,问题模型的步骤为:
收集与用户咨询问题相关的数据,作为问题数据,包括用户提问、问题标注;
对问题数据进行预处理;
获取问题文本词序列以及词向量模型;
使用基于大语言模型进行微调的方法,将问题文本的词表示作为输入,训练一个问题模型;
对训练后的问题模型进行评估,根据评估结果进行调优,得到最终问题模型。
进一步的,在上述技术方案中,根据得到的问题要素,在预先设置好的保险条款知识库中,自动差值匹配度最高的答案作为参考答案的步骤,具体包括:
准备一个保险条款知识库;
获取问题模型,对用户的咨询问题进行分词处理、语义分析和关键词提取,得到咨询问题的关键要素;
将关键要素与保险条款知识库中的关键词进行匹配,得到匹配度分数;
根据匹配度分数对保险条款知识库中的保险条款进行排序,将匹配度分数最高的条款排在前面;
从排序后的保险条款知识库中选择差值匹配度最高的保险条款作为参考答案。
根据问题要素,在保险条款知识库中找到与问题最匹配的候选答案。保险条款知识库可以看作一个问答数据集D={(ci,ai)},其中ci表示问题,ai表示对应的答案。
首先,需要构建知识库D。知识库中问题-答案对(ci,ai)可以来自以下途径:
1)由专业人员根据保险条款手工编写问题及答案;
2)从用户的历史问答记录中提取。
假设知识库包含N1个问题-答案对,即:
D={(c1,α1),(c2,a2),…,(cN1,aN1)}。
然后,针对知识库中的每个问题ci,使用步骤S40中介绍的方法(分词、语义分析、关键词提取),得到问题ci的关键词表示u1i。
同样地,对输入的问题要素进行相同的处理,得到问题要素的关键词表示v1。
因此,问题与知识库中的每个问题之间的匹配度可以定义为其关键词表示的相似度。这里可以采用词向量的余弦相似度计算相似度:
其中,s(u1i,v1)表示相似度,u1i表示为问题ci的关键词,问题要素的关键词表示v1。
将输入问题要素v1与知识库中所有问题的相似度计算出来后,选择相似度最高的问题co,其对应的答案ao即为最匹配的候选答案,其中,o为问题的序号:
ao=ai,其中(ci,ai)∈D且ci=co;
为了获得更可靠的候选答案,我们还可以选择相似度最高的几个问题对应的答案,构成候选答案集合O={ao1,ao2,…,aok},并为每一个候选答案赋予一个匹配度分数:
score(aoi)=s(u1oi,v1);
其中,coi是与候选答案aoi对应的问题。
最后,从候选答案集合O中选择匹配度分数最高的答案ao*作为最终的参考答案:
至此,我们通过关键词表示的相似度匹配,实现了从保险条款知识库中选择与问题要素最相匹配的参考答案。
上述方法利用了关键词提取和词向量的技术,可以部分克服问题要素和知识库中问题表达上的语义差异,实现相似问题的匹配,使得最终获得的参考答案更加准确和可靠。
进一步的,在上述技术方案中,对参考答案进行敏感词过滤,生成咨询答案并输出给用户的步骤,具体包括:
构建敏感词库;
对参考答案进行敏感词检测,并对检测到的敏感词进行过滤或替换;
将经过敏感词过滤后的参考答案作为咨询答案输出给用户。
首先,构建敏感词库Sl={sl1,sl2,…,sln},其中nl是敏感词的个数。敏感词sli(i=1,…,nl)可以通过正则表达式来表示:
其中rj(j=1,…,mi)是构成词sli的不同写法或变型,“|”表示选择关系,mi是词sli的变型数目。
例如,词“敏感词”可以写成:
sli=敏感词|敏感词;
对每个敏感词sli,设置一个权重wi作为其敏感程度。权重可以由专家进行评定,也可以通过词频分析自动计算。
输入一段文本T,进行敏感词过滤的具体过程如下:
1)分词,
类似S30和S40,使用正向最大匹配算法对文本T进行分词,得到词序列W={w1,w2,…,wm},其中m为词的个数。
2)匹配识别,
对每个词wj(j=1,…,m),检查它是否匹配词库中的任一敏感词:
其中,sli表示敏感词,lag(wj)表示匹配识别;
如果匹配,则flag(wj)=1,否则flag(wj)=0。
3)权重累加,
对文本T中所有词的权重进行累加:
其中,如果flag(wj)=1,则取匹配词sli的权重wi进行累加。
4)过滤处理
根据累加的敏感词权重score(T),对文本T采取不同的过滤处理:
其中,t1,t2是预定的权重阈值。
此外,我们还可以通过词向量技术检测词语的语义相似度,发现更隐蔽的敏感词。具体地,对词wj,计算它与词库中每个敏感词sli的语义相似度:
其中,im(wj,sli)表示语义相似度;
如果sim(wj,sli)>σ(σ是阈值),则也将wj视为敏感词进行过滤。
Claims (10)
1.一种保险条款咨询自动回答的方法,其特征在于,包括以下步骤:
S10、获取用户上传的保险条款PDF文档;
S20、对PDF文档进行解析,生成计算机可识别的文本记为第一文本;
S30、对所述第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理,得到PDF文档的重要信息,记为文档信息;
S40、获取用户的咨询问题,并对咨询问题进行包括分词处理、语义分析、关键词提取,得到问题关键词;
S50、使用问题模型对问题关键词进行优化,得到问题要素;
S60、根据得到的问题要素,在预先设置好的保险条款知识库中,自动差值匹配度最高的答案作为参考答案;
S70、对参考答案进行敏感词过滤,生成咨询答案并输出给用户;
其中,所述业务模型和所述问题模型均为基于大语言模型进行微调得到的。
2.根据权利要求1所述的一种保险条款咨询自动回答的方法,其特征在于,所述对PDF文档进行解析,生成计算机可识别的文本记为第一文本,具体步骤包括:
过滤无效字符,如页眉页脚无关文本;
规范文字排版,将文本内容重新排版成结构化的段落;
执行文字识别,对含有图像的文本区域进行OCR识别,提取文本;
执行中文分词,将文本划分为词语;
保存提取的结构化文本内容作为计算机可识别的第一文本。
3.根据权利要求2所述的一种保险条款咨询自动回答的方法,其特征在于,所述对所述第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理的步骤,具体包括:
步骤一,分词处理:
构建词典;
从所述第一文本的左边界开始,使用正向最大匹配算法,选择出现的最长词进行匹配;若匹配成功,则将该词加入到词序列,并继续从该词的右边界开始向右匹配,若匹配不成功,则逐步减少词的长度,直到在所述词典中找到匹配词为止;重复步骤,直到整个文本被浏览完毕,得到最终的词序列;
步骤二,语义分析:
使用预训练好的词向量模型,获取每个词的对应词向量;
计算所述词向量之间的相似度,分析所述词序列中词语之间的语义关联情况;
步骤三,关键词提取:
使用TextRank算法,构建词图;
将每个词作为所述词图中的一个节点,若两个词的相似度大于阈值,则在所述两个词之间建立一条边,所述边的权重为所述两个词的相似度的值;
在所述词图上进行PageRank计算,迭代计算每个词的PageRank值,作为关键词的排序依据,选择排名最高的词作为关键词;
步骤四,业务模型匹配:
将提取的所述关键词与预先建立的业务模型进行解释和替换;
通过与所述业务模型的匹配,将所述关键词标准化,使所述关键词符合所述业务模型的要求。
4.根据权利要求3所述的一种保险条款咨询自动回答的方法,其特征在于,所述将提取的所述关键词与预先建立的业务模型进行解释和替换的步骤,所述业务模型的建立步骤,具体包括:
收集与保险业务相关的数据,并对所述保险数据进行人工注释和标记,包括:问题分类、答案抽取、答案评分,得到保险数据集;
对所述保险数据集进行预处理;
从预处理后的所述保险数据中提取特征;
使用基于大语言模型的预训练模型作为基础,将预处理后的所述保险数据输入预训练模型进行训练和微调;
对训练后的业务模型进行评估,根据评估结果进行调优,得到最终业务模型。
5.根据权利要求3所述的一种保险条款咨询自动回答的方法,其特征在于,所述获取用户的咨询问题,并对咨询问题进行包括分词处理、语义分析、关键词提取,得到问题关键词的步骤,具体包括:
获取用户咨询的问题文本;
对所述问题文本使用正向最大匹配算法进行分词处理,得到问题文本词序列;
利用预训练的所述词向量模型,为每个词获取对应的词向量;
采用TextRank算法进行关键词提取,得到所述问题关键词。
6.根据权利要求5所述的一种保险条款咨询自动回答的方法,其特征在于,所述使用问题模型对问题关键词进行优化,得到问题要素步骤中,所述问题模型的步骤为:
收集与用户咨询问题相关的数据,作为问题数据,包括用户提问、问题标注;
对所述问题数据进行预处理;
获取所述问题文本词序列以及所述词向量模型;
使用基于大语言模型进行微调的方法,将所述问题文本的词表示作为输入,训练一个问题模型;
对训练后的问题模型进行评估,根据评估结果进行调优,得到最终问题模型。
7.根据权利要求6所述的一种保险条款咨询自动回答的方法,其特征在于,所述根据得到的问题要素,在预先设置好的保险条款知识库中,自动差值匹配度最高的答案作为参考答案的步骤,具体包括:
准备一个保险条款知识库;
获取所述问题模型,对用户的咨询问题进行分词处理、语义分析和关键词提取,得到所述咨询问题的关键要素;
将所述关键要素与所述保险条款知识库中的关键词进行匹配,得到匹配度分数;
根据所述匹配度分数对所述保险条款知识库中的保险条款进行排序,将所述匹配度分数最高的条款排在前面;
从排序后的保险条款知识库中选择所述差值匹配度最高的保险条款作为参考答案。
8.根据权利要求7所述的一种保险条款咨询自动回答的方法,其特征在于,所述对参考答案进行敏感词过滤,生成咨询答案并输出给用户的步骤,具体包括:
构建敏感词库;
对参考答案进行敏感词检测,并对检测到的敏感词进行过滤或替换;
将经过敏感词过滤后的参考答案作为所述咨询答案输出给用户。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行权利要求1-8任一项所述的一种保险条款咨询自动回答的方法。
10.一种保险条款咨询自动回答系统,其特征在于,包括权利要求9所述的一种计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139628.5A CN117149955A (zh) | 2023-09-05 | 2023-09-05 | 一种保险条款咨询自动回答的方法、介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139628.5A CN117149955A (zh) | 2023-09-05 | 2023-09-05 | 一种保险条款咨询自动回答的方法、介质及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117149955A true CN117149955A (zh) | 2023-12-01 |
Family
ID=88911576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311139628.5A Pending CN117149955A (zh) | 2023-09-05 | 2023-09-05 | 一种保险条款咨询自动回答的方法、介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117149955A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350387A (zh) * | 2023-12-05 | 2024-01-05 | 中水三立数据技术股份有限公司 | 一种基于水利知识平台的智能问答系统 |
-
2023
- 2023-09-05 CN CN202311139628.5A patent/CN117149955A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350387A (zh) * | 2023-12-05 | 2024-01-05 | 中水三立数据技术股份有限公司 | 一种基于水利知识平台的智能问答系统 |
CN117350387B (zh) * | 2023-12-05 | 2024-04-02 | 中水三立数据技术股份有限公司 | 一种基于水利知识平台的智能问答系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108959270B (zh) | 一种基于深度学习的实体链接方法 | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
JP2008123111A (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN117149955A (zh) | 一种保险条款咨询自动回答的方法、介质及系统 | |
CN112487824A (zh) | 客服语音情感识别方法、装置、设备及存储介质 | |
CN115757743A (zh) | 文档的检索词匹配方法及电子设备 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN114048354A (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
Yoshida et al. | Extracting ontologies from World Wide Web via HTML tables | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN111881695A (zh) | 一种审计知识的检索方法及装置 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
CN114756617A (zh) | 一种工程档案结构化数据提取方法、系统、设备和存介质 | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN115048515A (zh) | 文档分类方法、装置、设备和存储介质 | |
CN113128231A (zh) | 一种数据质检方法、装置、存储介质和电子设备 | |
CN113516202A (zh) | Cbl特征提取与去噪的网页精准分类方法 | |
Liu et al. | Suggestion mining from online reviews usingrandom multimodel deep learning | |
CN112597761A (zh) | 临时报告语义信息挖掘方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |